Professional Documents
Culture Documents
SUMÁRIO
1. INTRODUÇÃO 03
1.1 Escala nominal
1.2 Escala ordinal
1.3 Escala intervalar
1.4 Escala proporcional
2. INDICADORES ESTATÍSTICOS 06
2.1 Hipóteses estatísticas
3. PROVA DE QUI-QUADRADO 10
3.1 Comparar uma observação observada a uma teórica
3.2 Comparar distribuições observadas com dados independentes
3.3 Comparar duas distribuições observadas com dados relacionados
3.4 Prova de Independência
4. TABELA DE CONTINGÊNCIA 14
6. Q DE YULE 22
6.1 Teste de Independência Q de Yule
6.1.1 Principais tópicos
6.2 Teste de Correlação Q de Yule
6.3 Limites de Confiança para o Teste de Correlação Q de Yule
6.3.1 Principais pontos
7. ANÁLISES MULTIVARIADAS 31
7.1 Análise de grupamento (cluster)
7.2 Análise de Correspondência (correspondence analysis)
1. INTRODUÇÃO
Uma das escalas qualitativas ordinais mais utilizadas nas ciências sociais é a
Escala de Likert (1932) por permitir ao mesmo tempo a manifestação de qualidades,
reconhecimento de oposição entre contrários, estabelecimento de gradientes e a
identificação de posição intermediária. Por esse motivo ela será tratada como base para a
discussão sobre codificação, edição e interpretação de escalas. A escala de Likert tem
cinco pontos, com um ponto médio para manifestações intermediárias, de indiferença ou
nula. O exemplo mais comum para essa escala é: (1) péssimo, (2) ruim, (3) regular, (4)
bom, (5) ótimo. A oposição se dá entre as posições 1/2 e 4/5. Gradiente está nas
diferenças possíveis dentro da mesma direção, entre 1 e 2 e entre 4 e 5. O ponto médio
ou neutro é o 3. Como se percebe, o pesquisador arbitra valores à sua escala de forma
que possa representar o fenômeno estudado.
é que a média é a única medida unidimensial que promove uma real síntese das medidas,
pois é obtida através da transformação de todos os valores em um único a partir da
divisão de sua soma pelo número de casos. Já a moda e a mediana não conseguem
reduzir os dados, mas sim destacar uma categoria específica presente na distribuição dos
valores. A moda destaca a categoria que mais se repete, enquanto a mediana dá
destaque à categoria que divide a distribuição em duas partes iguais. De qualquer
maneira, comumente vê-se como definição de análise unidimensional a descrição de
variáveis categóricas individuais.
As relações entre duas variáveis categóricas podem ser feitas por gráficos ou
tabelas. Vários autores recomendam que a análise de dados qualitativos dê-se a partir de
representações visuais, como gráficos, em lugar de tabelas, pois o que se busca aqui é a
redução de dimensionalidades. Depois de observar toda a complexidade das variáveis a
partir de medidas já discutidas o pesquisador precisa ter uma medida de relação geral
que lhe permita alguma conclusão. Nos próximos tópicos serão apresentados alguns dos
principais testes e indicadores estatísticos utilizados em pesquisas na área de ciência
política para a produção de informações sobre variáveis categóricas. Será seguida a
seguinte ordem: começa pela produção de indicadores para a análise univariada e do
impacto de uma variável sobre determinados fenômenos. Em seguida, são apresentados
alguns testes estatísticos multivariados para dados categóricos.
2. INDICADORES ESTATÍSTICOS
página), terá maior visibilidade do que na segunda dobra. Então, codificam-se as variáveis
e depois se dá peso a cada uma delas:
padronizado e não-padronizado difere, nesse caso, por conta da diferença de escala entre
as variáveis. Algumas vão de 1 a 2 e outras vão de 1 a 3. Quando padronizado, percebe-
se uma relação mais forte, passando de 38,1% de explicação para 59,5%.
Com isso é possível verificar como a maior parte das chamadas de primeira parte
de um jornal aparecem em espaços de baixa visibilidade (80% entre muito baixa e baixa),
permitindo problematizar a ideia de que tudo o que aparece nas capas dos jornais tem a
mesma relevância para os jornalistas. Em outras palavras, se menos de 10% das
chamadas de capa tem alta visibilidade, torna-se importante verificar que temas e
abordagens se fazem presentes nesses textos. Para isso existem testes estatísticos que
medem a força da relação entre duas variáveis, que no exemplo seriam: visibilidade e
tema da chamada. O próximo tópico começa a apresentar os principais testes não-
paramétricos para medir a relação entre duas variáveis categóricas. Antes de tratarmos
dos testes propriamente ditos é preciso definir o papel dos testes de hipóteses, que
sustentam teoricamente as provas estatísticas de significação ou provas de contraste.
Essas provas têm a função de determinar se existem diferenças entre grupos em relação
a uma variável ou dependência entre variáveis de um mesmo grupo. As provas de
significância partem de uma hipótese estatística, que é submetida à comprovação através
das provas de significância.
ii) Hipótese Alternativa (H1) – indica que as diferenças observadas não podem ser
explicadas por oscilações do acaso, ou seja, as diferenças são estatisticamente
significativas. Portanto, H1 sempre será a negação de H0.
Segundo Fischer, todo experimento estatístico existe para dar aos fatos uma
oportunidade de rejeitar a hipótese nula. Ao afastar a possibilidade de aceitação da
hipótese nula estamos validando a hipótese alternativa. Na prova de significação a
hipótese nula é submetida ao teste, pois se considera que todas as diferenças devem-se
ao acaso até que se prove o contrário. Rejeitar a hipótese nula após o teste de
significância representa aceitar automaticamente a hipótese alternativa. Para rejeitar a
hipótese nula é preciso que o resultado do teste fique na chamada região crítica da zona
de distribuição dos resultados, ou seja, fora do intervalo esperado. O teste de significância
qui-quadrado, a seguir, parte da idéia de que se pretende rejeitar a hipótese nula para
comprovar a existência de variações não aleatórias entre as dimensões de uma variável
ou na relação entre as categorias de duas variáveis qualitativas.
3. PROVA DE QUI-QUADRADO
Meio Ambiente
Estatísticas
tema_meioambiente
a
Chi-Square 1164,178
DF 1
Asymp. Sig. 0,000
a. 0 cells (,0%) have expected frequencies less than
5. The minimum expected cell frequency is 644,5.
ficasse próximo a 644,5, que é a distribuição teórica esperada. Nesse caso, as variações
seriam consideradas aleatórias.
Origem de fonte
Teste qui-quadrado
caixa de statistics do crosstabs. Esse coeficiente varia de zero a um, sendo que quanto
maior o valor de C, maior a associação entre as variáveis.
4. TABELA DE CONTINGÊNCIA
2 = ∑
Nesse caso, o pesquisador pode considerar que a relação entre as duas variáveis
contingenciadas não é aleatória, pois o qui-quadrado aponta para uma possibilidade muito
abaixo do limite crítico para a aceitação da aleatoriedade (0,000). Ou seja, pode-se
concluir que há uma relação entre abrangência do tema e visibilidade que a chamada
ganha nas capas dos jornais No entanto, as informações oferecidas pelo teste de qui-
quadrado terminam aqui. Não permite especular sobre porque isso ocorre, por exemplo.
Para complementar as informações fornecidas pelo qui-quadrado é possível analisar uma
tabela de resíduos contingenciados. Um complicador para a análise dessa tabela são as
diferenças nos totais, o que pode induzir a erros. Por exemplo, dá-se a impressão pelos
valores absolutos que 976 chamadas de abrangência nacional com visibilidade 5 teria
aproximadamente a mesma relevância que 913 chamadas de abrangência local no
mesmo índice de visibilidade. Para não correr o risco desses erros ou incertezas, sugere-
se a realização da análise de resíduos da tabela de contingência.
5.1 Risco Relativo: é o risco de uma característica relacionar-se com outra. Ele
mede a potência da associação. Trata-se da relação entre o cociente de risco de
apresentar determinada característica daqueles que estão expostos ou possuem um ou
mais fatores de risco possíveis de serem identificados, comparado com os que não
apresentam esses fatores. Ou seja:
ê
ã
Por exemplo, imagine que queremos analisar o risco relativo do eleitor que não
possui preferência por partidos políticos de não ter escolhido candidato a prefeito de sua
cidade antes do início da campanha eleitoral. Para facilitar o cálculo, os dados devem ser
dispostos em uma tabela quádrupla, organizada de forma que apresente a presença e
ausência das características, como a tabela a seguir:
Comportamento/opinião
Fator TOTAL
Sim Não
Sim a b a+b
Não c d d+d
TOTAL a+c b+d a+b+c+d
Onde,
%%&
!" &
# = '( = 1,85
#!$ )
A leitura dos resultados é a seguinte: existe 1,85 vezes mais chance de um eleitor
com preferência partidária possuir candidato a prefeito antes do início da campanha
eleitoral do que um eleitor sem preferência partidária. RR menores que 1,5 não são
considerados práticos, ou seja, devem ser tido como fator que não interfere no
comportamento estudado. Portanto, o risco acima, de 1,85, é relevante do ponto de vista
prático. Porém, além disso, é preciso saber se ele é estatisticamente significativo. Para
isso, basta fazer um teste X2 (qui-quadrado) e verificar o resultado com o valor da tabela
que qui-quadrado com número de graus de liberdade referente ao teste.
**
Qui-quadrado X2 = ∑
*
Onde:
20
Fo = freqüência observada.
Fe = freqüência esperada.
+, - +.
Fe =
/
Onde:
Mc = marginal da coluna do valor calculado.
Ml = marginal da linha do valor calculado.
N = número total de caso.
6. Q DE YULE
Uma variável pode ser dicotomizada quando se decide separar em dois grupos as
categorias internas dela. Por exemplo, eu posso ter uma variável categórica divida em
avaliação Muito Boa, Boa, Ruim e Péssima. A dicotomização se dá quando o pesquisador
divide os resultados entre Avaliação Positiva e as demais. Ou em uma variável contínua,
como idade. Nesse caso, a opção pode ser usar o valor mediano para dividir em dois
grupos: o dos mais novos – até a mediana – e o dos mais velhos – acima da mediana.
Também é possível, a partir das freqüências de intenção de voto em seis candidatos,
dicotomizar separando os respondentes que dizem votar em um candidato de todos os
demais. Nesse caso, teria apenas dois resultados: vota no candidato A ou não vota no
candidato A. O importante é saber que qualquer variável pode ser dicotomizada através
de processos defensáveis estatisticamente. Quando se tem duas variáveis dicotômicas,
tais como votar ou não no candidato A e idade dos respondentes (jovem e não-jovem) é
possível aplicar os cálculos do coeficiente de Q de Yule para identificar se as duas
variáveis são independentes ou não. Se não, em que grau elas estão correlacionadas e,
por fim, se os resultados dos testes em uma amostra são consistentes o suficiente para
permitir a extrapolação.
Tabela – Exemplo 1
23
Não Y Y
X A B Marginal X
Não X C D Marginal Não X
Marginal Não Y Marginal Y Total de Casos (N)
Devem fazer parte das células de freqüências apenas os casos válidos, o que
precisa estar expresso aos leitores. As variáveis a serem analisadas são chamadas de X
e Y. As categorias de grupamento dicotômico são chamadas, por conseqüência, de X,
não-X , Y e não-Y. em um exemplo de pesquisa sobre intenção de voto, os respondentes
que dizem votar no candidato A compõem as casas da linha X e aqueles que dizem votar
em qualquer outro candidato fazem parte da linha Não-X.
As somas dos casos nas linhas (horizontais) e nas colunas (verticais) formam o
que se chama de Marginal. A somatória das marginais leva ao número total de casos
analisados, representado pela letra N.
A questão de pesquisa a ser feita é a seguinte: será que os temas sociais, quando
transformados em chamada de primeira página na Gazeta do Povo, tendem a predominar
na primeira dobra, onde a visibilidade é maior? Se houver alguma relação entre tema
social e primeira dobra, poderemos dizer que não existe independência estatística e, logo,
as variáveis estão relacionadas de alguma forma. Então, no caso em análise, estar na
primeira dobra é X e na segunda dobra é não-X. Ser chamada com Tema Social é Y e ser
de qualquer outro tema é não-Y. Substituindo os valores na tabela quádrupla teria o
seguinte. Exemplo de tabela quádrupla para tipo de chamada de primeira página no jornal
Gazeta do Povo:
-0,018
1254 x1291
Probabilidade esperada = = 462,54
3500
- 64,54
Nas tabelas quádruplas, em cada linha ou coluna os resultados devem ser iguais a
uma subtração de Valor Observado – Valor Esperado, com sinais trocados. Assim, o sinal
de Delta, que é o resultado da subtração, indicará o sinal da correlação, como mostrado
nas tabelas a seguir:
Positiva Negativa
Não Y Y Não Y Y
X - + X + -
Não X + - Não X - +
Pelos dois motivos acima se presume a necessidade de encontrar outro índice que
indique a força de uma relação entre duas variáveis não-independentes. O que se busca,
então, é uma medida que seja insensível ao tamanho da amostra e que tenha limites
superiores e inferiores determinados. A partir daí pode-se estabelecer algumas regras
estatísticas para medir o grau de associação:
- deve ser de no máximo + 1,00 para associação positiva e – 1,00 para associação
negativa;
( BxC ) − ( AxD)
Qxy =
( BxC ) + ( AxD)
28
A sugestão é que o calculo será realizado sempre que a distribuição dos casos na
tabela ficar abaixo de uma relação 70:30, ou seja, não mais de 70% dos casos em uma
categoria e não menos de 30% em outra. No exemplo usado aqui, olhando para as
marginais percebe-se relações da ordem de 63:36 e 64:35, abaixo, portanto, da regra dos
70 : 30.
2 x ( BxC )
Probabilidade de pares consistentes =
N2
2 x (398 x1353)
No nosso exemplo, seria: = 0,087
3500 x3500
29
2 x (856 x893)
E, a probabilidade para pares inconsistentes seria: = 0,124
3500 x3500
ParesConsistentes − ParesInconsistentes
Q de Yule =
TotalParesDiferentesXeY
Sendo assim, é possível afirmar que Q de Yule é a melhor forma para predizer que
X é Y e não X é não Y e vice-versa.
Se o Q de Yule for zero então teríamos uma probabilidade igual ao acaso para
predizer a existência de pares consistentes (X e Y), (não X e Não Y). Qualquer valor
diferente de zero indica uma probabilidade maior que a do acaso para predição da
consistência de pares de casos pelo coeficiente de Yule. Nesse caso, o sinal indica em
que direção deve seguir a correlação predita, enquanto o valor de Q indica quão
adequado será o resultado em uma predição. Quanto maior, óbvio, mais adequado. A
força da resposta pode ser indicada como o que consta na tabela da página 63, variando
de perfeita positiva, forte, média, fraca e desprezível, até perfeita negativa.
Outro fator importante para a força preditiva do Q de Yule para correlação entre
duas variáveis é o tamanho da amostra, ou, a distribuição dos casos nas casas. A
recomendação é que exista pelo menos cinco casos em cada casa de uma tabela
quádrupla para as freqüências esperadas. Para saber se a distribuição mínima das
freqüências esperadas é respeitada sem precisar encontrar o valor esperado para todas
as casas, basta multiplicar duas marginais e dividir por N. O resultado será o menor valor
esperado para as células da tabela quádrupla. Portanto, se ele for maior do que cinco
todas as outras casas apresentarão valor esperado superior ao limite mínimo. O cálculo é
o seguinte:
1291x1254
No exemplo = = 462,54
3500
30
Como 462,54 fica bem acima de 5, não precisamos temer, pois estamos
respeitando o limite mínimo de casos em cada casa para a realização do teste de Q de
Yule. Vamos em frente.
Até aqui, utilizamos o teste Q de Yule para indicar a correlação entre duas
variáveis, considerando que o número de casos indica a totalidade, ou seja, o universo
estudado. Porém, o coeficiente também pode ser usado em amostras, o que permitiria
passar da estatística descritiva à inferencial, extrapolando os resultados de uma amostra
ao universo de casos. Para que isso aconteça, antes de qualquer coisa é preciso que a
amostra seja probabilística. Como teoria da amostragem não é objeto desse capítulo,
vamos partir do princípio de que se trata de uma amostra probabilística.
Para podermos inferir resultados de uma amostra ao todo precisamos contar com
o conceito de intervalo de confiança, pois ele permite dizer que dentro de determinado
intervalo de valores amostrais encontra-se o valor do universo na maioria das vezes.
Tiram-se daí limites superior e inferior do intervalo de confiança, ou seja, valores mínimo e
máximo que indicam o intervalo dentro do qual é possível encontrar o parâmetro para
todos os casos.
(1 − Q 2 ) 2 x(1 / A + 1 / B + 1 / C + 1 / D )
1,96x
4
Assim:
Se o intervalo inclui o valor zero, isso indica que seria possível o coeficiente de
correlação inferido à população a partir da amostra ser zero, portanto, não poderíamos
considerar os valores da amostra para fazer inferências à população como um todo. No
entanto, como o intervalo apresentou valores negativos em ambos os limites, então, pode-
se afirmar que os resultados valem para toda a população, ou seja, que o Q de Yule
encontrado para a correlação entre Chamadas de Temas Sociais e posição na Primeira
Dobra é estatisticamente significante.
A avaliação das relações entre duas variáveis em uma tabela quádrupla envolve
os seguintes conceitos:
7 ANÁLISES MULTIVARIADAS
Parte-se da idéia de que a relação entre duas variáveis pode ser plotada em um
gráfico de coordenadas (x, y) para identificar a localização de cada ponto (A e B). Uma
vez identificados os pontos é possível traçar uma linha que fará a projeção entre eles. A
partir da ligação entre os pontos (Ax e Bx) e (Ay e By) forma-se um triângulo retângulo no
qual a distância entre A e B é a sua hipotenusa. Sendo assim, a distância entre os dois
pontos pode ser calculada pelo teorema de Pitágoras, como indicado no gráfico a seguir.
Yb - Ya
Xb - Xa
Por exemplo, digamos que se queira fazer uma análise de cluster para os
elementos selecionadores presentes em fatos sociais registrados nas primeiras páginas
dos jornais. Esses elementos selecionadores são indicativos dos critérios de
noticiabilidade utilizados pelos jornalistas para elencar os temas que vão compor o
espaço mais nobre do jornal. A literatura internacional apresenta uma lista de dez
elementos selecionadores (poder de elite, celebridade, entretenimento, surpresa, fatos
negativos, fatos positivos, magnitude, relevância, suíte e agenda da comunicação). Após
coletar as informações sobre presença ou ausência deles nas primeiras páginas dos
jornais, é possível fazer uma análise de cluster (no SPSS o caminho é: analize / Classify /
Hierarchical Cluster) para identificar possíveis similaridades e diferenças nas aparições
deles nas capas dos jornais. Os primeiros resultados são apresentados em forma de uma
matriz de proximidade entre as variáveis. Aqui, espera-se os menores valores para as
variáveis que estiverem mais próximas e, portanto, formando um cluster. Nota-se, na
tabela abaixo, que a menor distância encontra-se entre as variáveis (4) “surpresa” e (10)
agenda da comunicação, com um valor euclidiano de 233. É possível também olhar cada
coluna, identificando as proximidades de uma variável em relação a todas as outras. Por
exemplo, a variável Poder de Elite apresenta as menores distâncias em relação a Agenda
da Comunicação (1165) e surpresa (1228). Já as maiores distâncias estão em relação a
relevância (4772). Evidente que o significado dessas relações depende de uma
compreensão do que significa cada categoria dessas.
Matriz de Proximidade
poder Celebri Entreteni fatos fatos Magni Relevân Sequên agenda
de elite dade mento surpresa negativos positivos tude cia cia comunica
poder de elite 1346,0 2254,0 1228,0 1561,0 1315,0 1552,0 4772,0 1318,0 1165,0
Celebridade 1346,0 1170,0 452,0 797,0 521,0 870,0 5040,0 638,0 321,0
Entreteni
2254,0 1170,0 1324,0 1667,0 1357,0 1674,0 5586,0 1492,0 1207,0
mento
Surpresa 1228,0 452,0 1324,0 581,0 335,0 586,0 4782,0 568,0 233,0
34
fatos
1561,0 797,0 1667,0 581,0 760,0 925,0 4761,0 903,0 586,0
negativos
Fatos
1315,0 521,0 1357,0 335,0 760,0 703,0 4817,0 635,0 294,0
Positivos
Magnitude 1552,0 870,0 1674,0 586,0 925,0 703,0 4826,0 940,0 647,0
Relevância 4772,0 5040,0 5586,0 4782,0 4761,0 4817,0 4826,0 4852,0 4893,0
Sequência
1318,0 638,0 1492,0 568,0 903,0 635,0 940,0 4852,0 453,0
Suíte
Agenda
1165,0 321,0 1207,0 233,0 586,0 294,0 647,0 4893,0 453,0
comunica
Esquema de Aglomeração
Cluster Combinado
Estágio Coeficientes
Cluster 1 Cluster 2
1 4 10 233,0
2 4 6 314,5
3 2 4 431,3
4 2 9 573,5
5 2 5 725,4
6 2 7 778,5
7 1 2 1355,0
8 1 3 1518,1
9 1 8 4925,4
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
E4 4 -+
E10 10 -+-+
E6 6 -+ |
E2 2 ---+-+
E9 9 ---+ |
E5 5 -----+-----+
E7 7 -----+ +-+
E1 1 -----------+ +-----------------------------------+
E3 3 -------------+ |
E8 8 -------------------------------------------------+
5000,00
4000,00
3000,00
2000,00
1000,00
0,00
exemplo usado aqui, o primeiro grupo indica que esses elementos selecionadores (4, 6,
10, 9, 2 e 7) tendem a aparecer mais próximos, ou seja, “surpresa”, “fatos positivos”,
“agenda da comunicação”, “sequência”, “celebridade” e “magnitude” ficam juntos no que
diz respeito à representação de distância euclidiana. Em outro grupo encontram-se as
variáveis (5, 1 e 3) “fatos negativos”, “poder de elite” e “entretenimento”. Por fim, o terceiro
cluster apresenta apenas a presença da variável (8), “relevância”. Além de permitir o
agrupamento, a análise de cluster também gera condições para verificação das
diferenças, ou seja, a de que existe a clara indicação de que em textos onde aparecem
fatos negativos/poder de elite/entretenimento, não há o elemento “relevância” e assim
sucessivamente.
Para continuar com o exemplo das publicações de temas sociais nas primeiras
páginas dos jornais, consideremos em uma análise de correspondência a relação entre
duas variáveis categóricas nominais, que são o tipo de fonte citada na chamada (se
oficial, disruptiva ou cidadão individualizado) e a abrangência do tema da chamada (se
local, regional, nacional ou internacional). O interesse aqui é saber se existe alguma
correspondência entre um tipo de fonte citada na chama com a abrangência do tema.
Antes de fazer o teste, vejamos uma tabela de contingência entre as duas variáveis.
Abrangência da chamada
Origem da fonte Local Regional Nacional Internacional Total
Oficial ou habitual 216 124 274 97 711
Disruptiva social 53 58 43 27 181
Cidadão individualizado 167 100 90 27 384
Total 436 282 407 151 1276
Os perfis nas linhas indicam uma correspondência maior (massa) entre fontes
oficiais e abrangência nacional (0,385), fontes disruptivas e abrangência regional (0,320)
e cidadãos individualizados e abrangência local (0,435). Quanto ao perfil nas colunas,
todas as abrangências mostram uma relação mais forte com o tipo de fonte oficial. Isso se
deve ao fato das fontes oficiais aparecerem em número significativamente superior aos
demais tipos nas primeiras páginas dos jornais. Elas totalizam 711 fontes em um total de
1276 citações nas primeiras páginas dos jornais, segundo indica a tabela anterior.
Confidence Singular
Proportion of Inertia Value
local
cidadão individualiz
0,25
nacional
oficial_habitual
0,00
Dimension 2
-0,25
regional
internacional
-0,50
disruptiva social
-0,75
RUNI, Adriano Leal. SPSS aplicado à pesquisa acadêmica. São Paulo: Editora
Atlas, 2009.
RAGIN, Charles C (1994). Constructing Social Research: the unit and diversity
of method. Pine Forge Press: Thousand Oaks.
TRIOLA, Mario F (1999). Introdução à Estatística (7ª edição). Editora LTC. Rio
de Janeiro (RJ).