Guia para análise de textos com IRAMUTEQ

Tutorial para uso do software
(Interface de R pour les Analyses Multidimensionnelles de

Textes et de Questionnaires)
Brigido Vizeu Camargo e Ana Maria Justo (Laboratrio de Psicologia Social da
Comunicao e Cognio - UFSC - Brasil)
O IRAMUTEQ um software licenciado por GNU GPL (v2) que permite fazer
anlises estatsticas sobre corpus textuais e sobre tabelas indivduos/palavras. Ele
ancora-se no software R (www.r-project.org) e na linguagem python (www.python.org).
Para instalar o software gratuitamente em seu computador, basta fazer o
download do software R em www.r-project.org e instal-lo; e em seguida fazer o
download do software IRAMUTEQ em www.iramuteq.org, e instal-lo tambm.
necessrio que antes de instalar o IRAMUTEQ se instale o R, pois o IRAMUTEQ se
utilizar do software R para processar suas anlises.
Figura 1- Interface inicial do software IRAMUTEQ
Instalao do software para sistema operacional Windows

usando o "KIT IRAMUTEQ"
O "KIT IRAMUTEQ est disponibilizado no site: www.laccos.com.br. No link
"Novidades h uma notcia sobre este software e um link "clique AQUI". Baixe todo o
kit, que composto dos softwares, referncias e um tutorial.
1- Instale o pacote do softwares Open Office
Ele o equivalente gratuito do pacote Microsoft Office. Dois softwares deste pacote
Open Office nos interessam: o OpenOffice.org Writer, que cria arquivos de texto tipo
.odt; e o OpenOffice.org Calc que cria arquivos tipo planilha .ods. O primeiro
usado para digitar os corpora e ler relatrios e resultados, e o segundo para entrar
dados sob a forma de matrizes de associao de palavras e tambm para ler, e
exportar resultados.
Jamais abra estes arquivos ou qualquer outro gerado pelo IRAMUTEQ com
aplicativos da Microsoft (Word, Excel, WordPad ou Bloco de notas), pois eles
produzem bugs com o Unicode (UTF-8), o usado pelo IRAMUTEQ.
2- Instale o software R, pois o IRAMUTEQ ancora-se neste software e na
linguagem Python.
3- Atualize os pacotes de R.
Abra o software R. Clique em "Pacotes" + "Atualizar Pacotes" (Figura 2). Escolher:
Brasil (o estado brasileiro mais prximo de seu local). Aguardar alguns segundos
(dependendo da velocidade de seu computador e da internet pode demorar um pouco
mais). Aparecer alguns itens selecionados em azul para voc atualizar. Clique em
"OK" e aguarde a atualizao. Assim que a atualizao finalizar, feche o software.
Figura 2- Atualizao dos pacotes nas interfaces R
4- Instale o software IRAMUTEQ.

5- Atualizao das bibliotecas no IRAMUTEQ
Na rea de trabalho do seu computador clique no cone do IRAMUTEQ. Nesse
momento muito importante estar conectado internet. Normalmente aparecer
uma tela apontando que a instalao est incompleta (Figura 3), clique em OK e
aguarde a atualizao dos arquivos do software R.
Figura 3- Atualizao das bibliotecas na instalao do IRAMUTEQ
Ateno! Caso o software no faa essa atualizao automaticamente:

abra o IRAMUTEQ; clique em "Edio" + "Preferncias" + "Atalho de R" e aperte
browse (Figura 4). Ache o aplicativo do R em: Arquivo de programas/R/Bin1. Salve e
feche o IRAMUTEQ.
Figura 4- Correo do caminho do R no IRAMUTEQ
Abra novamente o software IRAMUTEQ. Clique em "Edio" + "Preferncias".

V em em "Verifique instalao de pacotes R", e clique em "Verificar", espere a
instalao (figura 5).
Para usar a interface em portugus (ainda em preparao) escolha o idioma "portugus" na interface da
figura 4, saia do IRAMUTEQ e o reabra.
3
Figura 5- Verificao da instalao das bibliotecas no IRAMUTEQ
Introduo
Trata-se de um software que viabiliza diferentes tipos de anlise de dados
textuais, desde aquelas bem simples, como a lexicografia bsica, que abrange
sobretudo a lematizao e o clculo de frequncia de palavras; at anlises
multivariadas como classificao hierrquica descendente, anlise ps-fatorial de
correspondncias e anlises de similitude. Por meio desse software, a distribuio do
vocabulrio pode ser organizada de forma facilmente compreensvel e visualmente
clara com representaes grficas pautadas nas anlises lexicogrficas.
No IRAMUTEQ essas anlises podem ser realizadas tanto a partir de um grupo
de textos a respeito de uma determinada temtica (corpus textual) reunidos em um
nico arquivo de texto; como a partir de matrizes com indivduos em linha e palavras
em coluna, organizadas em planilhas, como o caso dos bancos de dados
construdos a partir de testes de evocaes livres.
Parte 1: Anlise de corpus textual

A anlise textual um tipo especfico de anlise de dados, na qual tratamos de
material verbal transcrito, ou seja, de textos. Essa anlise tem vrias finalidades,
sendo possvel analisar textos, entrevistas, documentos, redaes etc. Pode-se a
partir da anlise textual descrever um material produzido por um produtor, seja
individual ou coletivamente, como tambm podemos utilizar a anlise textual com a
finalidade comparativa, relacional, comparando produes diferentes em funo de
variveis especficas que descrevem quem produziu o texto. Para que se possa
4
compreender a anlise textual, necessrio inicialmente delimitar alguns conceitos

importantes.
As noes de: corpus, texto e segmento de texto

Corpus
O corpus construdo pelo pesquisador. o conjunto de unidades de contexto
inicial que se pretende analisar. Por exemplo, se um pesquisador decide analisar as
matrias sobre beleza que saram numa revista no perodo de cinco anos; o conjunto
destas matrias constituir um corpus. O corpus construdo pelo pesquisador.
Texto
A definio destas unidades feita pelo pesquisador e depende da natureza da
pesquisa. No exemplo anterior cada matria sobre beleza seria um texto. Se a anlise
for aplicada a um conjunto de entrevistas, cada uma delas ser um texto. Caso a
anlise diga respeito s respostas de "n" participantes a uma questo aberta, cada
resposta ser um texto e teremos "n" textos. Quando se tratar de pesquisas
documentais, atas de reunies, cartas, etc.; cada exemplar destes documentos ser
um texto.
Um conjunto de unidades de textos constitui um corpus de anlise. O corpus
adequado anlise do tipo Classificao Hierrquica Descendente deve constituir-se
de um conjunto textual centrado em um tema. O material textual deve ser
monotemtico, pois a anlise de textos sobre vrios itens previamente estruturados ou
diversos temas resulta na reproduo da estruturao prvia dos mesmos.
No caso de entrevistas, onde h falas que produzem textos mais extensos,
desde que o grupo seja homogneo, suficiente entre 20 e 30 textos (Ghiglione e
Matalon, 1993). Se o delineamento comparativo, sugere-se pelo menos 20 textos
para cada grupo.
Em se tratando de respostas a questes abertas de um questionrio,
recomenda-se compor o corpus com respostas a uma mesma questo, para garantir
que elas se refiram a um mesmo tema. Caso as questes digam respeito a temas ou
aspectos diferentes, necessrio realizar uma anlise para cada questo. Como
mencionado anteriormente, a anlise sensvel estruturao do estmulo que produz
o material textual, e isto uma importante fonte de invalidao das concluses.
Quando as respostas apresentarem uma mdia em torno de trs ou quatro linhas,
necessrio um nmero bem maior de respostas para a constituio de um corpus de
anlise.
Os textos so separados por linhas de comando tambm chamadas de "linhas

com asteriscos". No caso de entrevistas, por exemplo, como cada uma delas um
texto, e eles necessariamente devem comear com uma linha de comando, esta linha
informa o nmero de identificao do entrevistado (do produtor do texto que se segue)
e algumas caractersticas (variveis) que so importantes para o delineamento da
pesquisa (como: sexo, faixa etria, afiliao a determinados grupos, nvel social e
cultural, etc.). Isto depende de cada pesquisa e o nmero de modalidades de cada
uma destas variveis depende do delineamento da pesquisa e do nmero de
entrevistas realizadas.
Segmentos de texto
Os segmentos de texto (ST), na maior parte das vezes, tem o tamanho de trs
linhas, dimensionadas pelo software em funo do tamanho do corpus. Os segmentos
de textos so os ambientes das palavras. Podem ser construdos pelo pesquisador, ou
automaticamente pelo software.
Embora seja o pesquisador que demarca os textos, nem sempre ele que
controla a diviso do corpus em segmentos de texto (ST). Numa anlise padro
(standart), aps reconhecer as indicaes dos textos (pelas linhas com asteriscos) o
software que divide o material em ST. Mas o pesquisador pode configurar a diviso
dos segmentos, por exemplo: no caso de uma grande quantidade de respostas curtas
a uma pergunta aberta de um questionrio, aconselha-se cada texto seja definido
como um nico ST.
Corpus (conjunto de textos)

Texto (conjunto de segmentos
de texto)
Seg. de texto
Figura 6- Noes de Corpus, texto e segmento de texto.
Preparao de um corpus textual para anlise

O primeiro passo para realizar a anlise construir o corpus a ser analisado,
que deve ser feito de acordo com os seguintes procedimentos:
1- Colocar todos os textos (entrevistas, artigos, textos, documentos ou respostas a
uma nica questo) em um nico arquivo de texto no software OpenOffice.org

(http://www.openoffice.org/) ou LibreOffice (http://pt-br.libreoffice.org/). Jamais
abra estes arquivos ou qualquer outro gerado pelo IRAMUTEQ com aplicativos da
Microsoft (Word, Excel, WordPad ou Bloco de notas), pois eles produzem bugs com
o Unicode (UTF-8), o usado pelo IRAMUTEQ.
2- Separar os textos com linhas de comando (com asteriscos). Por exemplo, para
cada entrevista ser reconhecida pelo software como um texto, elas devem comear
por uma linha deste tipo. Observao: Deixe uma linha em branco antes da
primeira linha de comando.
Exemplo de uma linha com asteriscos:
**** *ind_01 *ida_1 *par_2 *fil_2 *temp_2 *caus_1
Digitar quatro asteriscos (sem espao em branco antes deles), um espao branco depois, um asterisco e
o nome da varivel (sem espao branco entre eles), um trao em baixo da linha e o cdigo da
modalidade da varivel (tambm sem espao branco entre eles), um espao em branco e depois o
asterisco da segunda varivel, e assim por diante. Esta linha exemplo foi extrada de uma pesquisa com
garotas de software, sobre preveno de doenas sexualmente transmissveis e gravidez. Ela indica que
o material textual que a segue (respostas a uma entrevista) refere-se ao indivduo n 1 (utiliza-se dois
dgitos, pois a amostra tem mais de 10 indivduos e menos de 100), sua idade situa-se entre 19 e 26
anos (onde 1= 19 a 26 anos, 2= 27 a 47 anos); ela no tem um parceiro sexual fixo (namorado ou
marido) (pois 1= ter parceiro e 2= no ter parceiro); o tempo que ela faz "programas" situa-se entre 13 e
36 meses (onde 1= at 12 meses, 2= de 13 a 36 meses e 3= de 48 a 132 meses) e a causa que ela
atribuiu para ser profissional do sexo foi familiar (onde 1= causa familiar, 2= necessidade financeira, 3 =
sustento da famlia, 4= relao amorosa frustrada e 5= no respondeu). Imediatamente aps esta linha
com asterisco teclar ENTER, e sem tabulao, e linha em branco, digite ou coloque o texto da resposta
entrevista correspondente a este indivduo n. 1.
3- Existem duas maneiras de preparar as linhas de um corpus. A primeira, a

original ou monotemtica, onde cada linha seguida por um texto sem
separaes. Uma segunda maneira, a chamada temtica, onde cada linha pode
conter duas ou mais temticas com a incluso de linhas subordinadas a principal.
A anlise de corpus com divises temticas (temas diferentes) nos informa sobre
as relaes entre o contedo de um tema com o outro tema; e pode ser usada
como uma anlise preliminar de natureza mais exploratria (para se ter uma viso
de todo da coleta de material textual, mas deve-se fazer as anlises
monotemticas, pois so elas que aprofundam a compreenso do significado do
material estudado.
Extrato exemplo de um corpus da maneira original (monotemtica)
Eu utilizo remdios para no engravidar como o anticoncepcional ou injeo, que mais fcil, porque
para quem bebe, ficar tomando remdio muito difcil, s vezes corta o efeito, ento injeo mais
garantido. Utilizo preservativo tambm, com certeza, porque so bem garantidos. Eu tenho que me
cuidar. Acho que devo usar o anticoncepcional, no posso s confiar na camisinha. Posso ter um filho de
quem eu mal conheo, ou pegar qualquer outra doena, se isso acontecer, e, eu chegar nessa pessoa e
dizer que estou grvida dela. Ele vai me dizer tu s uma prostituta mesmo, est grvida de qualquer um.
Eu tenho conhecimento de todas as dst, porque geralmente, quando a gente estuda na escola, tem vrias
palestras, ento ficamos conhecendo todas. Agora, s no se cuida quem no quer mesmo. Para mim,
todas so arriscadas, tem que se prevenir de todas, no fcil andar com um, com outro, porque voc
sabe que tens que ter cabea, no porque voc est bbada, voc tem que estar ciente. s vezes, a
gente sai com pessoas aqui dentro que voc no suporta, voc v cada coisa, que s a gente mesmo v
para saber como a realidade. Se voc no est ciente, acontece cada coisa que voc s vai ver o
resultado mais tarde. s vezes, muitas pessoas no conseguem uma menina na rua ou uma namorada,
ento vem para uma boate, acham que uma menina da noite obrigada a aceitar. A menina da noite
considerada vulgar. Eu no me considero uma menina vulgar. Tenho meus motivos, no aceito que
chegue aqui e me xingue de nome vulgar, no aceito mesmo, pois no sou, se eu fosse, estaria na rua e
topava qualquer coisa. Mas bem diferente trabalhar em boate, zona e cabar. Tem muita diferena. J
tive corrimento, que normal, mas dst no. Corrimento uma coisa normal, que voc pode pegar com o
lubrificante da camisinha ou com qualquer outra coisa, com o sabonete, roupas, mas nunca tive dst.
Eu utilizo camisinha sempre, porque alm de prevenir a gravidez, previne a aids e outras doenas, no
tem como no usar. Uso camisinha sempre, ela boa para tudo. Eu conheo vrias doenas venreas,
gonorreia, cancro, chato, so tantas, inclusive eu j peguei uma vez, mas no foi na noite, foi de um
namorado que eu tinha, a tempos atrs, peguei gonorreia e eu no sabia. Eu no batalhava na poca,
no imaginava que meu namorado fosse passar para mim. Como foi passando o tempo e comecei a
sentir dor, ento fui procurar um mdico, tive que fazer uma cirurgia, pois j estava bem avanado. Foi
assim, que fiquei sabendo que peguei gonorreia. No tenho medo de falar porque qualquer um corre o
risco de pegar, todas essas doenas so ruins, no tem muito o que classificar. Para me proteger das dst
fao sexo oral e normal somente com camisinha, e, anal eu no fao de jeito nenhum.
Eu tomo anticoncepcional e uso camisinha. Eu no tomo propriamente a plula, tomo injeo, porque a
gente sempre esquece. Por isso eu tomo os dois, porque se romper a (CONTINUA)
Extrato exemplo de um corpus da maneira temtica
-*tema_preveno
Eu utilizo remdios para no engravidar como o anticoncepcional ou injeo, que mais fcil, porque
para quem bebe, ficar tomando remdio muito difcil, s vezes corta o efeito, ento injeo mais
garantido. Utilizo preservativo tambm, com certeza, porque so bem garantidos. Eu tenho que me
cuidar. Acho que devo usar o anticoncepcional, no posso s confiar na camisinha. Posso ter um filho de
quem eu mal conheo, ou pegar qualquer outra doena, se isso acontecer, e, eu chegar nessa pessoa e
dizer que estou grvida dela. Ele vai me dizer tu s uma prostituta mesmo, est grvida de qualquer um.
-*tema_dst
Eu tenho conhecimento de todas as dst, porque geralmente, quando a gente estuda na escola, tem vrias
palestras, ento ficamos conhecendo todas. Agora, s no se cuida quem no quer mesmo. Para mim,
todas so arriscadas, tem que se prevenir de todas, no fcil andar com um, com outro, porque voc
sabe que tens que ter cabea, no porque voc est bbada, voc tem que estar ciente. s vezes, a
gente sai com pessoas aqui dentro que voc no suporta, voc v cada coisa, que s a gente mesmo v
para saber como a realidade. Se voc no est ciente, acontece cada coisa que voc s vai ver o
resultado mais tarde. s vezes, muitas pessoas no conseguem uma menina na rua ou uma namorada,
ento vem para uma boate, acham que uma menina da noite obrigada a aceitar. A menina da noite
considerada vulgar. Eu no me considero uma menina vulgar. Tenho meus motivos, no aceito que
chegue aqui e me xingue de nome vulgar, no aceito mesmo, pois no sou, se eu fosse, estaria na rua e
topava qualquer coisa. Mas bem diferente trabalhar em boate, zona e cabar. Tem muita diferena. J
tive corrimento, que normal, mas dst no. Corrimento uma coisa normal, que voc pode pegar com o
lubrificante da camisinha ou com qualquer outra coisa, com o sabonete, roupas, mas nunca tive dst.
-*tema_preveno
Eu utilizo camisinha sempre, porque alm de prevenir a gravidez, previne a aids e outras doenas, no
tem como no usar. Uso camisinha sempre, ela boa para tudo.
-*tema_dst
Eu conheo vrias doenas venreas, gonorreia, cancro, chato, so tantas, inclusive eu j peguei uma
vez, mas no foi na noite, foi de um namorado que eu tinha, a tempos atrs, peguei gonorreia e eu no
sabia. Eu no batalhava na poca, no imaginava que meu namorado fosse passar para mim. Como foi
passando o tempo e comecei a sentir dor, ento fui procurar um mdico, tive que fazer uma cirurgia, pois
j estava bem avanado. Foi assim, que fiquei sabendo que peguei gonorreia. No tenho medo de falar
porque qualquer um corre o risco de pegar, todas essas doenas so ruins, no tem muito o que
classificar. Para me proteger das dst fao sexo oral e normal somente com camisinha, e, anal eu no fao
de jeito nenhum.
-*tema_preveno
Eu tomo anticoncepcional e uso camisinha. Eu no tomo propriamente a plula, tomo injeo, porque a
gente sempre esquece. Por isso eu tomo os dois, porque se romper a (CONTINUA)
Observao: Aps preparar o corpus, recomenda-se que se leia o mesmo
atentamente, especialmente no que se refere s linhas de comando. Esta verificao

precisa ser realizada pelo pesquisador para que o texto possa ser processado.
4- Corrigir e revisar todo o arquivo, para que os erros de digitao ou outros no
sejam tratados como palavras diferentes.
5- A pontuao deve ser observada, no entanto sugere-se no deixar pargrafos
(devido dificuldade entre ns no uso correto dos mesmos).
6- No caso de entrevistas ou questionrios, as perguntas e o material verbal
produzido pelo pesquisador (intervenes e anotaes) devem ser suprimidos para
no entrar na anlise. Ao suprimir recupere os referentes.
7- No justifique o texto, no use negrito, nem itlico ou outro recurso semelhante.
8- desejvel certa uniformidade em relao s siglas, ou as usa sempre ou
coloque tudo por extenso unido por trao underline. Por exemplo: ou oms ou
organizao_mundial _de_sade.
9- As palavras compostas hifenizadas quando digitadas com hfen so entendidas
como duas palavras (o hfen vira espao em branco). Caso necessite-se analisar
palavras compostas hifienizadas ou no, una-as com um trao underline. Ex:
"alto-mar" fica "alto_mar"; tera-feira fica tera_feira; e bate-papo fica
bate_papo.
10- Todos os verbos que utilizem pronomes devem estar na forma de prclise,
pois o dicionrio no prev as flexes verbo-pronominais. Ex: No lugar de torneime, a escrita deve ser: me tornei.
11- Caso possa, evite uso de diminutivos, pelas caractersticas do dicionrio.
12- Nmeros devem ser mantidos em sua forma algarsmica. Ex: usar 2013, no lugar
de dois mil e treze; 70 no lugar de setenta.
13- No usar em nenhuma parte do arquivo dos textos os seguintes caracteres:
aspas ("), apstrofo ('), hfen (-), cifro ($), percentagem (%), reticncias (...), e
nem asterisco (*). Este ltimo usado somente nas linhas que antecedem cada
texto (linhas de comando).
14- O arquivo com o corpus preparado no software OpenOffice.org ou no LibreOffice
deve ser salvo em uma nova pasta criada no desktop, somente para a anlise,
com um nome curto e como texto codificado (nome_do_arquivo.txt). No
OpenOffice.org esta opo abre uma primeira janela e devemos escolher manter
9
formato atual, e uma segunda janela onde as opes Conjuntos de caracteres e

Quebra de pargrafo devem ser respectivamente Unicode (UTF- 8) e LF.
15- A cada nova anlise com o mesmo corpus no reutilize o arquivo txt (texto
codificado) precedente, crie um novo a partir do arquivo tipo odt (que o formato
que dever ser arquivado).
Tipos de anlise de corpus textual IRAMUTEQ

O IRAMUTEQ oferece a possibilidade de diferentes formas de anlise de
dados textuais, desde aquelas bem simples, como a lexicografia bsica (como clculo
de frequncia de palavras), at anlises multivariadas (classificao hierrquica
descendente).
I) Anlises lexicogrficas clssicas Identifica e reformata as unidades de texto,
transformando textos em ST, identifica a quantidade de palavras, frequncia mdia e
hapax (palavras com frequncia igual a um), pesquisa o vocabulrio e reduz das
palavras com base em suas razes (formas reduzidas), cria do dicionrio de formas
reduzidas, identifica formas ativas e suplementares.
II) Especificidades e Anlise Fatorial de Correspondncia Associa textos com
variveis, ou seja, possibilita a anlise da produo textual em funo das variveis de
caracterizao. Oferece uma anlise fatorial de correspondncia para variveis com
no mnimo 3 modalidades.
III) Mtodo da Classificao Hierrquica Descendente (CHD) Os ST so
classificados em funo dos seus respectivos vocabulrios, e o conjunto deles
repartido em funo da frequncia das formas reduzidas. A partir de matrizes
cruzando formas reduzidas e ST (em repetidos testes do tipo x), aplica-se o mtodo
de CHD e obtm-se uma classificao definitiva. Esta anlise visa obter classes de ST
que, ao mesmo tempo, apresentam vocabulrio semelhante entre si, e vocabulrio
diferente dos segmentos das outras classes. A partir dessas anlises o software
organiza a anlise dos dados em um dendograma que ilustra as relaes entre as
classes.
O software executa clculos e fornece resultados que nos permite a descrio de cada
uma das classes, principalmente, pelo seu vocabulrio caracterstico (lxico) e pelas
suas palavras com asterisco (variveis). Alm disto, o software fornece uma outra
forma de apresentao dos resultados, atravs de uma anlise fatorial de
correspondncia feita a partir da CHD. Com base nas classes escolhidas, o software
10
calcula e fornece os ST mais caractersticos de cada classe permitindo a

contextualizao do vocabulrio tpico de cada classe.
Estas classes de palavras e segmentos de texto, em nvel do software so compostas
de vrios segmentos em funo de uma classificao segundo a distribuio do seu
vocabulrio. Em nvel interpretativo depende do marco terico de cada pesquisa.
Reinert (1990), ao estudar a literatura francesa considerou cada classe como uma
noo de "mundo", enquanto um quadro perceptivo-cognitivo com certa estabilidade
temporal associado a um ambiente complexo. Em pesquisas no campo da lingustica
estas classes foram interpretadas como campos lexicais (Cros, 1993) ou contextos
semnticos. Em pesquisas no campo da psicologia social, particularmente aquelas
interessadas em estudar o conhecimento do senso comum, tendo em vista o estatuto
que elas conferem s manifestaes lingusticas, estas classes podem indicar
representaes sociais ou campos de imagens sobre um dado objeto, ou somente
aspectos de uma mesma representao social (Veloz, Nascimento-Schulze e
Camargo, 1999).
Na maior parte das vezes no h coincidncia entre o nmero de classes e o nmero
de representaes sociais envolvidas, como ocorreu no estudo relativo que se acabou
de citar. O que vai definir se elas indicam representaes sociais ou apenas uma
representao social o seu contedo, e sua relao com fatores ligados ao plano
geral de cada pesquisa, geralmente expresso na seleo diferenciada dos
participantes segundo sua afiliao grupal, suas prticas sociais anteriores, etc.
IV) Anlise de similitude Esse tipo de anlise baseia-se na teoria dos grafos e
utilizada frequentemente por pesquisadores das representaes sociais. Possibilita
identificar as coocorrncias entre as palavras e seu resultado traz indicaes da
conexidade entre as palavras, auxiliando na identificao da estrutura do contedo de
um corpus textual. Permite tambm identificar as partes comuns e as especificidades
em funo das variveis descritivas identificadas na anlise (Marchand & Ratinaud,
2012).
V) Nuvem de palavras Agrupa as palavras e as organiza graficamente em funo
da sua frequncia. uma anlise lexical mais simples, porm graficamente
interessante.
11
Processando a anlise no software

Inicialmente, abra o software para trabalhar em sua interface, e importe o
corpus. Na barra de ferramentas superior clique em Arquivo e Abrir um corpus textual,
conforme indica a Figura 7. Localize e selecione o corpus que deseja analisar e clique
em Abrir.
Figura 7- Importao do corpus de anlise.
No momento em que o software importar o corpus, uma nova janela ser

aberta (Figura 8).
Figura 8- Configuraes de anlise codificao do corpus.
12
Nessa janela (Figura 8) podem ser observadas algumas configuraes do

software para analisar os dados textuais. A maior parte das configuraes, na aba
Geral, pode ser mantidas conforme o padro, com exceo de duas que precisam ser
modificadas. A primeira refere-se codificao (Definir caracteres) do texto, que deve
ser a segunda opo de cima para baixo: uft-8 all languages.
A outra configurao a da lngua (Idioma). Conforme a Figura 9, selecione a
lngua: portugus no caso de o texto estar nesta lngua, ou escolha a lngua
correspondente ao caso.
Figura 9- Configuraes de anlise lngua.
Clique em OK e aguarde alguns segundos para que se processe importao

dos dados. Em seguida, na grande janela da direita aparecer uma breve descrio do
corpus, como indicado na figura 10, onde se pode verificar, o nmero de Textos e de
Segmentos de texto, Formas identificadas, Ocorrncias, e Frequncia de Hapax.
Figura 10- Resultados preliminares, descrio do corpus.
13
Tendo sido realizada a importao do corpus, as anlises j podem ser

iniciadas. Para realiz-las, na barra de ferramentas superior, selecione Anlise de
texto, e aparecero as possibilidades de anlise (Figura 11).
Figura 11- Escolha da anlise textual
Toda a vez que for escolhida uma anlise, surgir uma nova janela
perguntando se voc deseja manter a Lematizao. Deixe selecionado SIM, pois
assim o software utilizar o dicionrio de formas reduzidas para processar a anlise.
Nessa janela voc tambm poder editar as formas ativas e suplementares, se assim
desejar, clicando em Propriedades Chave. indicado que o pesquisador selecione
quais as classes gramaticais ele deseja considerar ativas na anlise (0= palavras so
eliminadas; 1= palavras so ativas; 2= palavras so suplementares). Uma fez feita
essa alterao nas preferncias da lematizao, ela se manter nas anlises
subsequentes para um mesmo corpus. O pesquisador pode alter-las novamente no
momento que desejar. Aps escolher as classes gramaticais clique em Ok, e
novamente em Ok que a anlise ser realizada.
Sugesto de parametragem das Propriedades Chave:

Sugere-se aos estudos de psicologia que se utilize a parametragem conforme a
ilustrao da figura 12. Esta parametragem traz uma boa limpeza para pesquisa onde
o contedo do texto o mais importante. A lgica trabalhar com os elementos de
linguagem "plenos" como ativos: adjetivos, formas no reconhecidas, nomes
(substantivos), verbos; e com nomes (substantivos) e verbos auxiliares como
complementares (suplementares); eliminando as "palavras instrumento". Alm disto
selecionem as palavras na anlise de similitude e na nuvem, e desconsiderem
tambm as palavras com maior frequencia associadas as perguntas.
14
Figura 12- Parametragem de palavras ativas, suplementares e eliminadas da anlise.
Anlise: Estatsticas textuais

Na primeira opo de anlise, "Estatsticas textuais", o software fornece o
nmero de textos e segmentos de textos, ocorrncias, frequncia mdia das palavras,
bem como a frequncia total de cada forma; e sua classificao gramatical, de acordo
com o dicionrio de formas reduzidas. Na interface dos resultados voc poder
visualizar o diagrama de Zipf (Figura 13), que apresenta o comportamento das
frequncias das palavras no corpus, num grfico que ilustra a distribuio de
frequncia X rang.
Figura 13- Diagrama de Zipf
15
Na coluna que se apresenta esquerda, na interface do software, voc

identifica essa anlise como: NOME DO CORPUS_stat_1. Colocando o cursor sobre
esse nome, voc pode clicar com o boto direito do mouse sobre o mesmo e
selecionar algumas opes, dentre elas, exportar o dicionrio de formas reduzidas, o
qual ser salvo na pasta em que foi salvo o corpus inicial, dentro de uma sub-pasta
denominada: NOME DO CORPUS_stat_1.
Ao gerar o dicionrio, o software classifica as palavras em formas gramaticais,
com a seguinte codificao, a qual ser utilizada ao longo de todas as anlises:
adj = adjetivo
adj_num = adjetivo numeral
adj_sup = adjetivo colocado em forma suplementar
adv = advrbio
adv_sup = advrbio colocado em forma suplementar
art_def = artigo definido
conj = conjuno
nom = nome
nom_sup = nome colocado em forma suplementar
nr = no reconhecida
ono = onomatopia
pro_ind = pronome indefinido
pre = preposio
ver = verbo
verbe_sup = verbo colocado em forma suplementar
Anlise: Especificidades e AFC

Ao selecionar o modo "Especificidades e AFC", voc dever escolher a varivel
categorial em funo da qual deseja realizar a anlise. Selecione-a na janela que
aparece na interface e clique em Ok. Aguarde alguns instantes e os resultados
aparecero na janela principal, conforme a figura 14.
Figura 14- Resultados, especificidades e AFC.
16
Ao clicar com o boto direito do mouse sobre qualquer uma das palavras
apresentadas na tabela (Fig. 14) e em seguida em Concordncia, uma nova janela se
abrir e nela possvel identificar os segmentos de textos que contm a palavra,
recuperando o seu contexto.
Anlise: Classificao hierrquica descendente (CHD)
Ao escolher a CHD (Anlises, Classificao, Mtodo de Reinert), voc pode
optar por trs possibilidades de anlise na janela que aparecer na interface do
IRAMUTEQ.
DUPLA SOBRE RST no utilizada, pois usualmente tem baixo

aproveitamento do corpus.
SIMPLES SOBRE ST que equivale a uma anlise sobre os segmentos

de texto, delimitados pelo software (Anlise Standart), recomendada
para respostas longas.
SIMPLES SOBRE TEXTOS que realiza a anlise considerando a os

textos, sem dividi-los em segmentos de texto. Recomendada para
respostas curtas2.
Escolha uma das modalidades de classificao. Nas demais configuraes

(parametragens) no necessria nenhuma modificao. Clique em OK e aguarde
alguns segundos at que a anlise seja finalizada. Na interface de resultados
aparecero alguns dados importantes CHD (Fig. 15), seguidos do dendograma (Fig.
16).
Figura 15- Principais pontos da CHD a serem considerados
Nesse caso, necessria uma parametragem anterior. Logo ao importar o corpus, alm de
indicar a codificao e a lngua, selecione pargrafos como mtodo de construo dos ST.
17
Nessa parte da descrio dos resultados, as principais caractersticas da

anlise a serem consideradas so as seguintes:
Nmero de textos (Number of texts) = 16 (o software reconhece a separao

do corpus em 16 unidades de texto iniciais).
Nmero de segmentos de textos (number of text segments) = 1.032 (o software

reparte em 1.032 segmentos de texto)
Nmero de formas distintas (number of forms) = 3.377
Nmero de ocorrncias (number of occurrences) = 35.959
Nmero de formas ativas: 1.929
Nmero de classes (number of clusters) = 4
Reteno de segmentos de texto: 884 segments classified on 1.032 (85,66%)
Figura 16- Dendograma da CHD.
Na aba CHD dos resultados, possvel ter acesso ao dendograma, que

apresenta as parties que foram feitas no corpus at que se chegasse s classes
finais. L-se o dendograma da esquerda para a direita. No exemplo da figura 16 num
primeiro momento, o corpus Corpo", utilizado aqui como exemplo, foi dividido (1
partio ou iterao) em dois sub-corpus, separando a classe 4 do restante do
material. Num segundo momento o sub-corpus maior foi dividido, originando a classe
3 (2 partio ou iterao). Num terceiro momento h uma partio originando as
classes 1 e 2. A CHD parou aqui, pois as 4 classes mostraram-se estveis, ou seja,
compostas de unidades de segmentos de texto com vocabulrio semelhante.
18
Uma segunda forma de apresentao do mesmo dendograma apresentada

na figura 17.
Figura 17- Dendograma da CHD.
Explorando os dados da CHD

Alm do dendograma, essa interface de resultados tambm possibilita que se
identifique o contedo lexical de cada uma das classes (para acess-lo, basta clicar na
aba Perfis) e uma representao fatorial da CHD (para acess-la, basta clicar na aba
AFC).
Na aba Perfis, para cada classe encontram-se dados referentes ao seu
contedo: n. (nmero que ordena as palavras na tabela); eff. st (nmero de segmentos
de texto que contm a palavra na classe); eff. total (nmero de segmentos de texto no
corpus que contm, ao menos uma vez, a palavra citada); pourcentage (percentagem
de ocorrncia da palavra nos segmentos de texto nessa classe, em relao a sua
ocorrncia no corpus); chi2 (X2 de associao da palavra com a classe); Type (classe
gramatical em que a palavra foi identificada no dicionrio de formas); Forme (identifica
a palavra) e P (identifica o nvel de significncia da associao da palavra com a
classe). A figura 18 ilustra a aba "perfis".
19
Figura 18- Exibio das formas associadas classe 1.
Para a anlise descritiva do vocabulrio de cada classe, uma sugere-se utilizar

dois critrios simultneos: 1) reter a ateno nas palavras no instrumentais com
frequncia maior do que a frequncia mdia do conjunto de palavras da totalidade do
corpus (neste exemplo 35.959 ocorrncias divididas por 3.377 formas distintas, o que
resulta no valor de 10,65) e 2) considerar aquelas palavras com de associao
classe 3,84 ( pois p< 0,05).
Na coluna da esquerda na interface, clicando com o boto direito do mouse
sobre a anlise denominada NOME DO CORPUS_alceste_1, voc pode ter acesso a
mais alguns resultados da anlise. Dentre eles, os mais importantes so:
Corpus Colorido - o qual abrir uma interface do seu navegador da internet

que permitir que voc visualize os segmentos de texto caractersticos de cada
classe, identificando-a pelas cores das classes, conforme as apresentadas no
dendograma (ver Figura 19).
Relatrio que criar um documento em .txt, denominado Rapport, dentro da

pasta que contm o corpus, em uma sub-pasta denominada NOME DO
CORPUS__alceste_1. Esse documento, que poder ser visualizado em
qualquer editor de texto, contm a descrio lexical de cada uma das classes
formadas pela CHD, numa espcie de relatrio simplificado da anlise.
20
Figura 19- Corpus colorido.
importante salientar que as anlises do tipo CHD, para serem teis

classificao de qualquer material textual, requerem uma reteno mnima de 75% dos
segmentos de texto (alguns autores, falam da possibilidade de se considerar o
aproveitamento de 70% dos segmentos de textos). Caso a CHD oferea uma
classificao com reteno inferior a esta, a mesma no pode ser considerada uma
anlise adequada aos dados coletados, pois fornece apenas uma classificao parcial.
Nesses casos (quando a reteno de segmentos de texto for inferior a 75%), sugerese que o mtodo de CDH seja abandonado e a anlise do material seja feita com
outros recursos, como por exemplo, a anlise de especificidades.
Ainda na aba Perfis, o contedo de cada uma das classes pode ser explorado
pelo pesquisador a partir de mais recursos disponibilizados pelo software, conforme
ilustra a figura 20. Para ter acesso a esses recursos basta clicar com o boto direito no
mouse sobre qualquer palavra pertencente classe que voc deseja explorar. A parte
superior da janela aprofunda os dados referentes palavra selecionada, enquanto a
parte inferior fornece informaes referentes respectiva classe.
Recursos para
melhor explorar a
palavra na classe
Recursos para
melhor explorar a
classe
Figura 20- Recursos para interpretar cada uma das classes.
21
Os recursos disponibilizados pela janela representada na figura 20 alm de

possibilitarem acesso s palavras associadas forma (a partir do dicionrio de formas
reduzidas), permitem a visualizao de grficos que ilustram frequncia, associao e
coocorrncia de uma palavra especfica, bem como dos segmentos de texto em que a
palavra aparece na classe. J no que se refere classe como um todo, possvel
visualizar uma rvore de similitude da classe (Graph of cluster), as expresses ou
combinaes de palavras que mais se repetem (Repeated Segments), os segmentos
de textos caractersticos da classe (Typical text segments) conforme ilustrados pela
figura 21, bem como exportar os segmentos associados classe (Export).
Figura 21- Segmentos de texto tpicos da classe 1.
CHD a partir de respostas curtas (questionrio)

Quando temos uma grande quantidade de respostas curtas a uma questo
aberta de questionrio, temos que parametrar a CHD de forma especfica (veja a
figura 22). Ao importar um corpus deste tipo, alm de identificar a codificao e a
lngua, selecione "pargrafos" como mtodo de construo de segmentos de texto
(ST). E depois escolha Classificao "simples sobre textos", para que o software no
segmente o texto de cada resposta. Assim o segmento de texto ser considerado o
prprio texto ou resposta curta a pergunta de um questionrio.
22
Figura 22- Configurao do mtodo de constrio de ST.
Anlise: Similitude
Ao escolher a anlise de similitude, uma nova janela se abrir (Fig. 23),
possibilitando que sejam escolhidos alguns parmetros para a construo da rvore
de coocorrncias. Em Configuraes Grficas, voc pode editar a anlise, trocar o
ndice de coocorrncias por algum outro, escolher se ser uma rvore mxima ou no,
bem como selecionar uma varivel descritiva que seja apresentada em destaque na
rvore. Clicando em Comunidades + Halo, voc pode solicitar que as palavras mais
associadas fiquem agrupadas, envoltas por nuvens coloridas. E em Escores nas
Bordas possvel visualizar no grfico os valores relativos s coocorrncias entre as
palavras. Na aba Ajustes Grficos, por sua vez, possvel fazer edies grficas
(tamanho do texto, tamanho das arestas, cores, etc.).
Figura 23- Janela de edio dos parmetros para Anlise de similitude
23
Na coluna da esquerda possvel selecionar as palavras que estaro na

anlise. E ao marcar Selecione uma varivel possvel escolher uma varivel
categorial a participar da anlise de similitude, podendo identificar diferenas entre
grupos.
Tendo escolhido os parmetros clique em OK e aguarde enquanto a anlise se
finaliza.
*
**
Figura24- Resultados da Anlise de similitude
Conforme se observa na Figura 24, a rvore apresentada na interface dos

resultados. No canto superior esquerdo dessa janela, aparecem dois botes. O
primeiro deles (*) com traos vermelhos e pontos pretos permite que se modifique a
parametragem da anlise, abrindo novamente a janela para edio dos parmetros. O
segundo boto (**), no qual est escrito EXPORT, exportar a imagem para a pasta
das anlises, dentro de uma sub-pasta denominada NOME DO CORPUS_ simitxt_1.
Anlise: Nuvem de palavras

Ao escolher a nuvem de palavras, uma nova janela se abrir, semelhante
quela da anlise similitude, tambm possibilitando que sejam escolhidos alguns
parmetros para a anlise, os quais no necessariamente precisam ser editados. Esta
uma anlise mais simples, que trabalha com a representao grfica em funo da
frequncia das palavras. Tendo escolhido os parmetros, clique em OK nas duas
janelas que aparecero e aguarde alguns instantes.
24
Figura 25- Resultados da Nuvem de palavras
Na interface dos resultados (Figura 25) voc poder visualizar a nuvem de

palavras, a qual tambm pode ser visualizada, dentro da pasta de anlises, na subpasta NOME DO CORPUS_wordcloud_1, em arquivo de imagem denominado
"nuage_1".
Todos os resultados das anlises, incluindo as figuras e os grficos estaro
localizadas tambm dentro da pasta na qual foi salvo inicialmente o corpus de anlise.
Cada anlise (estatsticas, especificidades, CHD, similitude e nuvem de palavras) ter
uma sub-pasta com os documentos relativos mesma.
25
Parte 2: Anlise de matrizes

O IRAMUTEQ permite que se trabalhe com matrizes que envolvam variveis
categoriais e listas de palavras, tais quais aquelas utilizadas para analisar tarefas de
evocaes livres. Nesse caso, o software viabiliza contagem de frequncia, anlise
prototpica e anlise de similitude. Para isso, trabalha-se em um banco de dados
montado a partir de um arquivo do Open Office Calc, conforme ilustra a figura 26.
Figura 26- Modelo banco de dados para anlise de matrizes.
Aconselha-se que o banco de dados siga as seguintes indicaes:
A formatao do arquivo de entrada seja: ods; csv; xls (no usar xlsx
Excel atual, pois ele incompatvel com o IRAMUTEQ). J a
codificao deve ser a mesma usada para as anlises de texto: UTF 8
all languages.
O banco de dados no pode conter os caracteres: : ; .
No conter espaos nas clulas (use underline para ligas mais de uma
palavra).
No conter acentos ou caracteres especiais no nome do arquivo.
As variveis numricas podem ser apresentadas no arquivo, mas elas

no podero ser utilizadas nas anlises (salvo para os rangs nas
anlises prototpicas).
26
Caso tenha-se a informao da ordem de aparecimento ou de

importncia das palavras, esta deve ser acrescentada em uma coluna
logo aps a palavra.
necessria uma ampla reviso do corpus, uma vez que esse tipo de
anlise no realiza a lematizao.
Aps ter o banco de dados salvo em uma pasta exclusiva para a anlise, ao
abrir o IRAMUTEQ, selecionar o cone Arquivo, e em seguida Abrir uma matriz.
Localize o arquivo que contm seu banco de dados e clique em Abrir. Para a
importao dos dados, uma outra janela se abrir (conforme figura 27) e nela voc
poder indicar alguns parmetros do seu banco de dados. So eles: A primeira linha
da planilha contm os nomes das colunas (indicado); a primeira coluna um
identificador (indicado); separador de coluna (ser, no caso de formato CSV);
separador de texto (); codificao dos caracteres (aconselha-se utf-8- all languages).
Figura 27- Importao do banco de dados de matriz
Aps selecionar os parmetros e clicar em OK e a janela seguinte mostrar a

matriz importada pelo IRAMUTEQ, como na figura 28. As anlises possveis de serem
realizadas com os bancos de dados de matrizes envolvem clculos de frequncias,
classificao hierrquica descendente (aconselhada apenas nos casos em que o
nmero de participantes bastante alto), anlise de similitude e anlise prototpica.
27
Figura 28- Matriz importada pelo software
Para processar as anlises, basta clicar no cone Anlise de matriz e em

seguida selecionar a anlise desejada (figura 29).
Figura 29- Anlises possveis para as matrizes
A anlise mais simples trata-se da anlise de frequncias. Indica-se a anlise

de Frequncias para acessar as frequncias das variveis categoriais da matriz e a
anlise de Frequncias Mltiplas (Multiple Frequencies) para obter um relatrio de
frequncia absoluta e relativa das palavras presentes na matriz.
Ao selecionar a
anlise desejada necessrio escolher sobre quais variveis sero processados os

clculos. Nesse caso, no h interesse no Rang (ordem de evocao) mas apenas
nas palavras e eventualmente em variveis descritivas inseridas na matriz.
A figura 30 ilustra um relatrio das frequncias mltiplas relativas s palavras
evocadas em um teste de associao livre.
28
Figura 30- Anlise de frequncias
Conforme se observa na figura 30, a anlise fornece uma tabela com as

palavras ordenas por sua frequncia, assim como a frequncia bruta na segunda
coluna, seguida da sua proporo em relao ao total de evocaes, o nmero de
linhas que contm esta palavra, bem como sua proporo em relao ao nmero total
de linhas. Lembrado, cada linha representa um participante respondente.
A anlise prototpica trata-se de uma tcnica simples e eficaz desenvolvida
especificamente pelo campo de estudo de representaes sociais que visa identificar a
estrutura representacional a partir dos critrios de frequncia e ordem de evocao
das palavras provenientes de um teste de evocaes livres (Wachelke & Wolter,
2011).
A mesma pode ser realizada com o software IRAMUTEQ a partir dos
comandos Anlise de matriz e em seguida Anlise prototpica.
Figura 31- Definies da anlise prototpica
Ao abrir a janela de definies deve-se selecionar (com um clique

simples) na parte esquerda as variveis correspondentes s evocaes e na parte
direita as variveis correspondentes ao RANG (seja ele a ordem de evocao ou de
29
importncia atribuda, escolha segundo os critrios do pesquisador). Os demais

parmetros referem-se aos critrios de clculo da anlise prototpica e podem ser
mantidos os padres automticos, conforme ilustrado na figura 31.
Definidos os padres, clique em OK e em alguns segundos ser apresentado o
produto da anlise prototpica (figura 32). Este diagrama de quatro quadrantes
representa quatro dimenses da estrutura da representao social. No exemplo em
questo, trata-se de uma tarefa de evocao livre com termo indutor Aids. O primeiro
quadrante (superior esquerdo) indica as palavras que tm alta frequncia (uma
frequncia maior que a mdia) e baixa ordem de evocao (aquelas que foram mais
prontamente evocadas). Essas seriam as provveis indicadoras do ncleo central de
uma representao.
Figura 32- Diagrama dos quatro quadrantes Anlise prototpica
No segundo quadrante (superior direito), temos a primeira periferia, com as

palavras que tm alta frequncia, mas que tiveram ordem mdia maior, ou seja, no
foram to prontamente evocadas. No terceiro quadrante (inferior esquerdo), a zona de
contraste contm elementos que foram prontamente evocados, porm com frequncia
abaixo da mdia. Por fim, a segunda periferia no quarto quadrante (inferior direito)
indica os elementos com menor frequncia e maior ordem de evocao.
Por fim a anlise de similitude, tambm indicadora da estrutura de uma
representao social, pode ser realizada a partir dos comandos: Anlise de Matrizes e
Anlise de Similitude. O processamento da anlise se d de modo anlogo ao
30
realizado com o material textual, por meio de uma janela de definies conforme
ilustra a figura 33.
Figura 33- Definies para anlise de similitude
A imagem resultante da anlise de similitude encontra-se na figura 34, onde o

tamanho dos vrtices coloridos proporcional frequncia das palavras e as arestas
indicam a fora da coocorrncia entre as palavras.
Figura 34- Anlise de Similitude
Referncias
Antunes, L. (2013). O papel dos esteretipos nas representaes sociais compartilhadas por
adolescentes sobre as pessoas que vivem com HIV/aids. Dissertao de Mestrado (no
publicada). Programa de Ps-Graduao em Psicologia. Universidade Federal de Santa
Catarina. Florianpolis, SC.
Camargo, B. V., Justo, A. M. (2013). IRAMUTEQ: Um Software Gratuito para Anlise de Dados
Textuais.Temas em Psicologia, 21 (2), 513-518.
31
Cibois, P. (1990). L'analyse des donnes en sociologie. Paris: P.U.F.

Cros, M. (1993). Les apports de la linguistique: langage des jeunes et sida. In ANRS (Agence
Nationale de Recherche sur le Sida). Les jeunes face au Sida: de la recherche l'action
(pp. 50-61). Paris: ANRS.
Ghiglione, R.; Matalon, B. (1993). O inqurito: Teoria e prtica. Oeiras: Celta.
Justo, A. M. (2011). Representaes sociais sobre o corpo e implicaes do contexto de
insero desse objeto. Dissertao de Mestrado (no publicada). Programa de PsGraduao em Psicologia. Universidade Federal de Santa Catarina. Florianpolis, SC.
Justo, A. M.; Camargo, B. V. (2014). Estudos qualitativos e uso de softwares para anlises
lexicais. Em: C. Novikoff; S. R. M. Santos; O. B. Mithidieri (Orgs.). Cadernos de artigos:
X SIAT e II SERPRO Lageres/UNIGRANRIO (pp. 37-54). Duque de Caxias:
UNIGRANRIO.
Lahlou, S. (2012). Text Mining Methods: An answer to Chartier and Meunier. Papers on Social
Representations, 20 (38), 1-7.
Lebart, L. & Salem, A. (1988). Analyse statistique des donnes textuelles. Paris: Dunod.
Marchand, P.; P. Ratinaud. (2012). L'analyse de similitude applique aux corpus textueles: les
primaires socialistes pour l'election prsidentielle franaise. Em: Actes des 11eme
Journes internationales dAnalyse statistique des Donnes Textuelles. JADT 2012.
(687699). Presented at the 11eme Journes internationales dAnalyse Statistique des
Donnes Textuelles. JADT 2012. Lige, Belgique
Ratinaud, P. (2009). IRAMUTEQ: Interface de R pour les Analyses Multidimensionnelles de
Textes et de Questionnaires [Computer software]. Recuperado em 5 maro, 2013, de
http://www.iramuteq.org
Ratinaud, P., & Marchand, P. (2012). Application de la mthode ALCESTE de gros corpus
et stabilit des mondes lexicaux: analyse du CableGate avec IraMuTeQ. Em: Actes
des 11eme Journes internationales dAnalyse statistique des Donnes Textuelles (835
844). Presented at the 11eme Journes internationales dAnalyse statistique des
Donnes Textuelles. JADT 2012, Lige.
Reinert, M. (1990). ALCESTE, une mthodologie d'analyse des donnes textuelles et une
application: Aurlia de G. de Nerval. Bulletin de mthodologie sociologique, (28) 24- 54.
Veloz, M. C. T.; Nascimento-Schulze, C. M.; Camargo, B. V. (1999). Representaes sociais do
envelhecimento. Psicologia: Reflexo e Crtica, 12 (2), 479-501.
Wachelke, J. F. R. & Wolter, R. (2011). Critrios de construo e relato da anlise prototpica
para representaes sociais. Psicologia Teoria e Pesquisa, 27 (4), 521-526.
32

Guia para análise de textos com IRAMUTEQ

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Guia para análise de textos com IRAMUTEQ

Uploaded by

Copyright:

Available Formats

Tutorial para uso do software

(Interface de R pour les Analyses Multidimensionnelles de

Figura 1- Interface inicial do software IRAMUTEQ

Instalao do software para sistema operacional Windows

Figura 2- Atualizao dos pacotes nas interfaces R

4- Instale o software IRAMUTEQ.

Figura 3- Atualizao das bibliotecas na instalao do IRAMUTEQ

Ateno! Caso o software no faa essa atualizao automaticamente:

Figura 4- Correo do caminho do R no IRAMUTEQ

Abra novamente o software IRAMUTEQ. Clique em "Edio" + "Preferncias".

Figura 5- Verificao da instalao das bibliotecas no IRAMUTEQ

Parte 1: Anlise de corpus textual

compreender a anlise textual, necessrio inicialmente delimitar alguns conceitos

As noes de: corpus, texto e segmento de texto

Os textos so separados por linhas de comando tambm chamadas de "linhas

Corpus (conjunto de textos)

Figura 6- Noes de Corpus, texto e segmento de texto.

Preparao de um corpus textual para anlise

1- Colocar todos os textos (entrevistas, artigos, textos, documentos ou respostas a

uma nica questo) em um nico arquivo de texto no software OpenOffice.org

3- Existem duas maneiras de preparar as linhas de um corpus. A primeira, a

Observao: Aps preparar o corpus, recomenda-se que se leia o mesmo

atentamente, especialmente no que se refere s linhas de comando. Esta verificao

formato atual, e uma segunda janela onde as opes Conjuntos de caracteres e

Tipos de anlise de corpus textual IRAMUTEQ

calcula e fornece os ST mais caractersticos de cada classe permitindo a

Processando a anlise no software

Figura 7- Importao do corpus de anlise.

No momento em que o software importar o corpus, uma nova janela ser

Figura 8- Configuraes de anlise codificao do corpus.

Nessa janela (Figura 8) podem ser observadas algumas configuraes do

Figura 9- Configuraes de anlise lngua.

Clique em OK e aguarde alguns segundos para que se processe importao

Figura 10- Resultados preliminares, descrio do corpus.

Tendo sido realizada a importao do corpus, as anlises j podem ser

Figura 11- Escolha da anlise textual

Sugesto de parametragem das Propriedades Chave:

Figura 12- Parametragem de palavras ativas, suplementares e eliminadas da anlise.

Anlise: Estatsticas textuais

Figura 13- Diagrama de Zipf

Na coluna que se apresenta esquerda, na interface do software, voc

Anlise: Especificidades e AFC

Figura 14- Resultados, especificidades e AFC.

DUPLA SOBRE RST no utilizada, pois usualmente tem baixo

SIMPLES SOBRE ST que equivale a uma anlise sobre os segmentos

SIMPLES SOBRE TEXTOS que realiza a anlise considerando a os

Escolha uma das modalidades de classificao. Nas demais configuraes

Figura 15- Principais pontos da CHD a serem considerados

Nessa parte da descrio dos resultados, as principais caractersticas da

Nmero de textos (Number of texts) = 16 (o software reconhece a separao

Nmero de segmentos de textos (number of text segments) = 1.032 (o software

Nmero de formas distintas (number of forms) = 3.377

Nmero de ocorrncias (number of occurrences) = 35.959

Nmero de formas ativas: 1.929

Nmero de classes (number of clusters) = 4

Reteno de segmentos de texto: 884 segments classified on 1.032 (85,66%)

Figura 16- Dendograma da CHD.

Na aba CHD dos resultados, possvel ter acesso ao dendograma, que

Uma segunda forma de apresentao do mesmo dendograma apresentada

Figura 17- Dendograma da CHD.

Explorando os dados da CHD

Figura 18- Exibio das formas associadas classe 1.