Professional Documents
Culture Documents
MÉTODOS QUANTITATIVOS
PARA AS CIÊNCIAS SOCIAIS
Curitiba
Agosto - 2008
2
SUMÁRIO
INTRODUÇÃO ...................................................................................................................04
CAPÍTULO I
DEFINIÇÕES ESTATÍSTICAS BÁSICAS ..............................................................12
TIPOS DE VARIÁVEIS ...........................................................................................15
CAPÍTULO II
MATRIZ DE DADOS ..............................................................................................21
ÍNDICES E ESCALAS ............................................................................................21
ATRIBUIÇÃO DE PONTOS EM ESCALAS ...........................................................22
ESCALAS ...............................................................................................................23
INDICADORES ESTATÍSTICOS ............................................................................25
INDICADORES PARLAMENTARES E ELEITORAIS ........................................... 26
INDICADORES EDUCACIONAIS MAIS COMUNS .............................................. 29
INDICADORES SÓCIO-DEMOGRÁFICOS ...........................................................30
TIPOLOGIAS ..........................................................................................................32
CAPÍTULO III
MEDIDAS DE TENDÊNCIA CENTRAL ..................................................................33
MÉDIA ARITMÉTICA .............................................................................................33
MÉDIA PONDERADA ............................................................................................34
MEDIANA ...............................................................................................................35
MODA .....................................................................................................................36
QUE MEDIDA DE TENDÊNCIA CENTRAL USAR ................................................37
MEDIDAS DE POSIÇÃO ........................................................................................38
MEDIDAS DE DISPERSÃO, VARIABILIDADE OU ASSIMETRIA ........................ 38
AMPLITUDE TOTAL ..............................................................................................39
DESVIO PADRÃO ..................................................................................................40
VARIÂNCIA ............................................................................................................41
COEFICIENTE DE VARIAÇÃO DE PEARSON .....................................................41
QUE MEDIDA DE DISPERSÃO USAR ..................................................................42
MEDIDAS DE ASSIMETRIA E CURTOSE ............................................................43
CAPÍTULO IV
AMOSTRAGEM ......................................................................................................45
TIPOS DE AMOSTRAS ..........................................................................................46
3
INTRODUÇÃO
descrever algo, ela está na fase de taxonomia, pois ainda não há uma teoria presente no
processo. Apenas quando a proposição interrelaciona vários conceitos pode-se
considerar uma teoria. As taxonomias podem ser avaliadas como mais ou menos ricas,
porém, não se pode considerá-las como verdadeiras ou falsas. Já as teorias, quando se
sustentam, são verdadeiras, quando não, são falsas.
TEORIA
OBSERVAÇÕES
Indutivo Dedutivo
H não é verdadeiro
Nunca se pode afirmar a verdade de uma proposição. Pode-se, no máximo, afirmar que
uma hipótese é falsa. Falsibilidade e refutabilidade são critérios para estabelecer o que é
ciência ou não. Tensão entre teoria e empiria:
TEORIA DADOS
Envolve incluem
CONCEITOS INDICADORES (variáveis)
Em em
RELAÇÕES CAUSAIS CORRELAÇÃO
Expressas em baseados em
AFIRMAÇÕES GERAIS CASOS PARTICULARES
7
O primeiro esforço de uma pesquisa é fazer a relação com a teoria com a qual se
pretende trabalhar. A teoria precisa ser explicitada para identificar a hipótese inicial.
Modelos de teorias:
Cadeia causal X Y W Z
Feedback W Y
Z X
8
Todo conceito é uma abstração que serve para identificar ocorrências do mundo
real. A ciência precisa ter um mínimo de clareza sobre os seus conceitos. Quanto mais
precisos forem os conceitos, melhor será para a compreensão. São critérios para
definições claras de conceitos: 1) Deve-se procurar o aspecto essencial daquele termo; 2)
A definição não deve ser tautológica (circular); 3) Não devem ser formuladas em termos
negativos; 4) Não deve ser expressa em termos obscuros ou figurados.
É preciso entender que um conceito não é uma variável. Para ser estudado
empiricamente o conceito precisa ser transformado em variável e então ser testado na
realidade.
Exemplos:
Ou
Ou
Ou
Ou
Para afirmar que existe causalidade entre variáveis é preciso levar em conta
alguns critérios teóricos. A simples observação da realidade não garante a afirmação de
causalidade. Precisa haver nexo entre o fator independente e o dependente em relação à
teoria que se justifica na realidade. Tem que eliminar a possibilidade das relações serem
simétricas ou espúrias. Do ponto de vista empírico é preciso demonstrar que há
regularidade ou correlação entre dois fatores; seqüência temporal, pois um fator só causa
outro se ele vier antes e contigüidade temporal e espacial. Já para estabelecer no nível
empírico a relação de causalidade entre duas variáveis é preciso: observar diferentes
categorias ou valores da variável causal e estabelecer a covariação, direção causal e
ausência de relação espúria entre as variáveis. Uma causalidade entre dois fatores só é
11
Em suma, para inferir relação de causalidade entre dois fatores é preciso observar
casos em diferentes categorias ou valores da variável causal; estabelecer a covariação e
direção causal e mostrar que a relação não é espúria. Ainda que todas as condições
acima tenham sido cumpridas, deve-se considerar a possibilidade de teorias alternativas
para explicar a relação entre duas variáveis geradas porque as observações e suas
relações estão ligadas a uma amostra enviesada, porque as observações devem-se a um
conjunto de pequenas causas ou porque estão ligadas a um terceiro fator, que não está
sendo considerado.
CAPÍTULO I
EXEMPLO:
Número de Projetos de Lei apresentados por deputados na ALEP
55 21 41 12 7 85 21 25 34
22 49 32 23 73 41 21 50 5
65 2 21 14 42 11 20 21 11
5 14 28 18 31 9 12 22 24
45 12 39 12 11 3 20 3 34
9 51 120 26 114 27 49 13 2
K: número de classes.
N: número total de observações.
EXEMPLO:
K: 1 + 3,32 x log54 = 1 + 3,32 x 1,732 = 1 + 5,750 = 6,750
RESPOSTA: O número de classes seria de 7 para esta variável.
EXEMPLO:
R = 120 – 2 = 118
RESPOSTA: A amplitude total é de 118 casos.
EXEMPLO:
H = 118 / 6,750 = 17,48
RESPOSTA: a amplitude de classes é de 17,48.
EXEMPLO:
AMPLITUDE
AMPLITUDE APROXIMADA CATEGORIA CATEGORIA
CLASSES AMPLITUDE REAL
APROXIMADA CORRIGIDA (PROD. LEGIS.) AGREGADA
(p/ 16)
Classe 1 De 2 a 19,48 De 2 a 19 De 2 a 18 muito baixa (20) Baixa (39)
Classe 2 De 19,49 a 36,97 De 20 a 37 De 19 a 35 Baixa (19) 72,22%
Classe 3 De 36,98 a 54,46 De 38 a 54 De 36 a 52 Média baixa (9)
Média (13)
Classe 4 De 54,47 a 71,95 De 55 a 72 De 53 a 69 Média (2)
24,08%
Classe 5 De 71,96 a 89,44 De 73 a 89 De 70 a 86 Média alta (2)
Classe 6 De 89,45 a 106,93 De 90 a 107 De 87 a 103 Alta (0) Alta (2)
Classe 7 De 106,94 a 124,42 De 108 a 120 De 104 a 120 Muito alta (2) 3,70%
20
20
15
15
10
10
5
5
0
0
Fica evidenciado no histograma 1.1 que não se trata de uma distribuição normal, pois há
uma tendência de “acúmulo de casos” nas classes iniciais, reduzindo-se drasticamente a
partir da metade da distribuição. Entre outras coisas, o Graf. 1.1 indica que as chances de
encontrar deputados nos primeiros grupos de distribuição são maiores do que nos últimos
grupos. Ao contrário do que acontece no histograma do Graf. 1.2 a partir de uma
distribuição teórica qualquer. Fica evidente como a curva normal (de Gauss) aproxima-se
do formato de um sino, o que é desejável para análises estatísticas inferenciais - como
veremos mais adiante.
16
Exemplos:
Dicotômica/natural: sexo, nacionalidade (sim ou não)
Dicotômica/conceitual: ocupação (manual ou intelectual)
Dicotômica/construída: preferência partidária (republicana, democrata).
Exemplo:
Escolaridade (por grau), desempenho do governo (de ótimo a péssimo), etc.
mede é o mesmo atributo para todos e o que muda é a quantidade do atributo para cada
um.
Exemplo: número de projeto de leis no Congresso, número de estudantes em uma família,
número de erros em um livro, número de acidentes em um cruzamento.
Exemplo:
Renda (uma pessoa pode ganhar o dobro de outra); comprimento, altura, peso, volume,
tempo decorrido e velocidade.
20
QUADRO RESUMIDO
Sexo, marcas de
Nominal ou de atributos
veículos.
Qualitativa Escolaridade,
Ordinal ou de ordem desempenho de
governos.
Discreta Temperatura, escala de
Intervalar
(números inteiros) QI.
Quantitativa
Contínua Renda, altura, tempo
De razão
(números quebrados) decorrido.
Além da tipologia das variáveis, outra diferença entre elas diz respeito à validade e ao
nível de confiança que possuem para representar determinada característica analisada,
entendo-se por validade a congruência entre a definição operacional e o significado do
conceito, e por confiabilidade a consistência e estabilidade da medida.
Vale lembrar que uma medida não confiável não pode ser válida. Porém, uma medida
confiável pode não ser válida.
Para ser válida e confiável, só devem existir variações verdadeiras entre os casos
observados. As variações verdadeiras ocorrem entre as unidades de análise em relação
ao conceito que se pretende medir. Existem dois tipos de variações não-verdadeiras:
21
1.3.2 Erro randômico não está ligado diretamente a operacionalidade do conceito, mas à
operação do aplicador, cansaço, etc. A presença, extensão e direção desse erro não são
previsíveis. Esses erros podem ocorrer em várias direções, com tendência a se anular. O
erro randômico também pode afetar a confiabilidade das medidas.
Para evitar as variações não-verdadeiras:
1 - É preciso que haja correlação entre os diversos itens ligados a um mesmo conceito,
como, por exemplo, no caso de se medir o nível de adesão à democracia.
2 - Fazer pré-testes das medidas com indivíduos que não serão pesquisadas
posteriormente. Se a população for pequena, o teste pode ser feito com pessoas
próximas à população a ser pesquisada.
3 - Analisar o conteúdo das medidas.
4 - Usar mais de um observador quando coletar dados a partir de observações como, por
exemplo, a análise de programas eleitorais.
5 - Examinar se há correlação esperada entre as variáveis. A ausência de correlação
pode ser causada por erro de medida.
22
CAPÍTULO II
Exemplo:
V1 V2 V3 V4 Vn...
O1 R12 R21 R31 R41 R1n...
O2 R22 R22 R32 R42 R2n...
On... R1n... R2n... R3n... R4n... Rnn...
Todos os estudos chegam a esse tipo de matriz de dados. A variação entre eles depende
do número de variáveis e das unidades de análise.
Índices são medidas mais sofisticadas das variáveis, criadas a partir dos dados primários.
O índice é econômico porque reduz a uma única dimensão várias variáveis ligadas a
determinado conceito. Além disso, alguns conceitos são dificilmente avaliados por
variáveis isoladas. Apenas um índice que leva em conta vários indicadores pode fornecer
as informações buscadas. Por isso, trabalhar com índices torna a pesquisa mais rica em
informações. Porém, dificilmente consegue-se chegar a uma medida inquestionável. Os
índices e escalas são usados por várias razões:
1) é raro ser possível chegar a um único item que represente uma variável complexa.
Como o índice reúne vários itens, esse problema é solucionado.
2) Há variáveis dicotômicas que são transformadas em ordinais através de índices.
3) A análise pode ser mais eficiente.
23
Diferenças entre índices e escalas: Ambos são ordinais e compostos por diversos itens
tomados como indicadores de uma mesma variável, baseadas em mais de um item do
questionário.
O índice é constituído pela soma dos códigos de cada item seguida de atribuição de
ponto, sem que haja uma estrutura de intensidade entre os pontos.
A Escala se dá através da atribuição de pontos ao padrão da resposta, seguida de
estruturação e intensidade. As escalas são formas de medidas mais sofisticadas que os
índices.
1) Validade lógica – cada item tem que estar na mesma dimensão do conceito.
2) Variância do item – é preciso variar para entrar no índice.
3) Examinar relação bivariada entre os diversos itens do índice.
4) Examinar a relação multivariada, onde três itens precisam manter a relação. Se
algum item não tiver relação com os outros, deve ser abandonado.
Além disso, é importante para a construção de índices e escalas considerar os seguintes
fatores:
- período que se quer trabalhar
- população que se está trabalhando
- tipo de ocorrência a medir
Se a correlação entre duas variáveis de um mesmo índice for perfeita, ou seja, 1, pode-se
dispensar uma das variáveis, pois o conjunto delas não acrescenta nada para o índice
que será construído e em conseqüência para a análise.
2.5 ESCALAS
2.5.1 Escala de Likert (mais comuns) – são escalas que variam de 1 concorda muito, 2
concorda, 3 discorda, 4 discorda muito, 5 indeciso/indiferente. Há várias formas de
construir escalas. Elas oferecem mais segurança na ordenação porque leva em conta a
intensidade das respostas. Ex.: Construção de uma escala de visibilidade dos candidatos
na cobertura de quatro jornais nacionais (Folha de São Paulo, Estado de São Paulo, O
Globo e Jornal do Brasil) das eleições presidenciais de 2002 (CERVI, 2003):
As variáveis envolvidas nessa escala são: número da página, posição na página e formato de
matéria, considerando que essas três variáveis reunidas são capazes de indicar maior ou menor
visibilidade dos textos em um jornal, os códigos das diferentes ocorrências de cada uma delas
receberam pesos que variam de 1 a 6. Logo, cada uma das variáveis integrantes da escala tem
peso de 33,33% na composição final do índice
A variável Número da Página é importante para a visibilidade do texto porque se sabe que as
páginas ímpares de um jornal são mais visadas que as páginas pares, e que a primeira página tem
a maior visibilidade. As páginas do primeiro caderno têm uma visibilidade maior que as dos outros
25
RESULTADO:
Frequency Percent
Valid baixa 706 3,2
média 5329 23,9
alta 14332 64,2
muito alta 1956 8,8
Total 22323 100,0
2.5.2 Escala de distância social de Bogartus – é a escala usada para medir o grau de
sociabilidade. Ex. Discriminação a estrangeiros: 1 você aceitaria que albaneses
morassem no seu país, 2 você aceitaria que albaneses morassem na sua cidade, 3 você
aceitaria que albaneses morasse no seu bairro, 4 você aceitaria que albaneses fossem
seus vizinhos, 5 você aceitaria que um albanês se casasse com sua filha/filho.
2.5.3 Escala de Thurstone – procura construir grupos a partir de uma lista de itens. Em
seguida são atribuídos pontos para cada item, utilizando-se os itens em que houver
concordância de valores dados por juizes.
26
2.5.4 Escala de Guttman – baseada nas idéias de que alguns itens têm mais peso que
outros. Inicia do mais intenso e segue até o menos intenso.
Sempre haverá casos que contrariam a escala. Por isso, só deve haver escala quando
entre 90% e 95% dos casos puderem ser enquadrados nela. Caso contrário deve ser
tratado como índice e não como escala.
Além dos índices e escalas, a estatística conta com outros indicadores. Os mais comuns
são:
2.6.1 - Razão – usada para grupos distintos. (Razão Z = X/Y). Aplica-se quando um valor
não faz parte de outro, ou seja, uma razão representa o resultado da interação entre
outros dois números distintos. É muito usada para posição de grupos e posição de
população. Sua maior limitação é que a razão não é dinâmica. Serve para descrever os
eventos de uma população. Ex. razão de sexo, dependência e densidade populacional.
2.6.4 - Taxa – São as mais usadas. A taxa reflete melhor a dinâmica dos eventos sociais
em um intervalo de tempo qualquer. Taxa é o número de eventos ocorridos em um
intervalo dividido pelo número de indivíduos dispostos ao risco de enfrentar o evento no
mesmo intervalo. Leva em conta o conceito de exposição ao risco, o que não acontece
nos anteriores. Ex.: taxa de natalidade exclui homens, mulheres fora da idade reprodutiva,
ou seja, o número de nascimentos no período é dividido pelo número de mulheres entre
15 e 45 anos no período. A forma correta de evitar o viés em função dos desvios da
exposição ao risco, nos casos de fecundidade e mortalidade, é usar o total de indivíduos
expostos ao evento no meio do período (por exemplo, no meio do ano). Com isso busca-
27
2.7.1 - Fracionalização: 1 − ∑ pe 2
Onde,
pe = percentual de cadeiras ocupadas por partido político (Rae,1971)
Mede a dispersão partidária no parlamento e mostra a possibilidade de dois
parlamentares tomados ao acaso pertencerem a partidos diferentes.
N (n − 1)
2.7.2- Fracionalização máxima:
n( N − 1)
Onde,
N = número de cadeiras.
n = número de partidos parlamentares. (Era e Taylor, 1970)
Serve para medir a relação entre o número máximo de partidos no parlamento, tendo por
base o número de partidos parlamentares existentes.
ÍndiceFracionalização
2.7.3 - Fragmentação:
ÍndiceFracionalizaçãoMáxima
A partir dos dois índices anteriores, a fragmentação no parlamento pode variar entre eles.
1
2.7.4 - Número efetivo de partidos:
∑ pe2
Onde,
28
VotoPartidoT 1 − VotoPartidoT 0
2.8.1 - Índice de Avanço Eleitoral: VotoPartidoT 0
VotoTotalT 1 − VotoTotalT 0
VotoTotalT 0
Mede o crescimento real de um partido político no eleitorado entre duas disputas, sem a
influência das variações no tamanho do colégio eleitoral. (Santos, 1977).
Eleitorado
2.8.2 - Cociente Legal:
NúmerodeVagas
Indica o número de eleitores que cada cadeira no parlamento representa.
VotosVálidos
2.8.3 - Cociente Operacional ou Eleitoral:
NúmeroVagas
Indica o número de votos necessários para se obter uma cadeira no parlamento. Até
1997, no Brasil, os votos brancos eram somados aos válidos no cálculo do cociente
operacional. Isso foi alterado com a lei 9.504-97
VotosPartido
2.8.4 - Cociente Partidário:
CocienteEleitoral
Onde,
VotosPartido = soma entre votos na legenda e votos dados aos candidatos do partido.
Indica o número de lugares obtido pelo partido na distribuição dos votos disputados na
eleição. Deve-se desconsiderar as frações superiores ou inferiores. Elas serão tratadas
na distribuição das sobras.
VotosPartido
2.8.5 - Distribuição das Sobras: MédiaPartido =
CocientePartidário + 1
29
As vagas remanescentes são distribuídas pelo critério de maiores médias, obtidas a partir
da fórmula acima de distribuição das sobras. O cálculo deve ser repetido a todos os
partidos até que sejam ocupadas todas as vagas remanescentes.
N
2.8.6 - Índice de Competitividade: IC = −1
2W
Onde,
N = número real de candidatos.
W = tamanho da bancada (número de vagas).
Normativamente, é preciso que haja um número mínimo de candidato, pelo menos duas
vezes superior ao número de vagas, para que haja competitividade eleitoral. Quanto
maior for o resultado da equação, maior será a competição entre os candidatos na
eleição.
Categorias de competitividade:
Eleições Não-competitivas:
-Subcompetitiva (negativa) IC < 0
-Competitividade zero IC = 0
-Competitividade quase zero 0 < IC <0,1
-Quase-competitiva 0,1<= IC < 0,6
Eleições Competitivas:
-Baixa competitividade 0,6<= IC <= 1
-Alta competitividade IC > 1
( Desistentes + Derrotados)
2.9.1 - Renovação Bruta: x100
Total
Mede o número total de representantes novos em uma legislatura, comparando à anterior.
( Desistentes )
2.9.2 - Renovação Compulsória: x100
(Total )
É o percentual de novos parlamentares que substituíram os representantes da legislatura
anterior que não se candidataram à reeleição.
30
( Derrotados)
2.9.3 - Renovação Líquida: x100
(Re eleitos + Derrotados)
Indica o número de candidatos à reeleição que foram derrotados divido pelo total de
candidatos reeleitos e derrotados.
(reeleitos)
2.9.4 - Taxa de Conservação: x100
(derrotados + reeleitos)
Mostra o percentual de reeleitos em relação àqueles que se recandidataram.
Quando há mudança no tamanho das bancadas ou da representação legislativa, todas as
fórmulas anteriores precisam ter seus valores ponderados pela diferença no número de
vagas entre as eleições em análise.
(diferençaNúmeroVagasEntreEleições)
2.9.5 - Renovação Vegetativa: x100
( Desistent. + Derrot. + Dif .Núm.VagasEleições)
É a renovação que acontece quando há um aumento no número de representantes com
crescimento de vagas nos legislativos, por efeito da legislação eleitoral.
2∑
2.9.6 - Índice de Desproporcionalidade de Loosemore e Hanby: 1 (V − C )
Onde,
V = percentual de cadeiras obtidas pelo partido.
C = percentual de votos obtidos pelo partido.
Mais conhecido como índice D, mostra a diferença entre o número de cadeiras e de votos
obtidos em determinada eleição.
Essa fórmula elimina todos os adultos. Ela mostra a situação atual, não mostra o
passado, aqueles adultos que não estavam na escola na idade ideal.
regiões do País. O Brasil urbano colaborou para a transição por questões sociais, de
valores e econômicas. Os países mais desenvolvidos passaram por essa transição na
primeira metade do século XX. Os países africanos estão entrando na transição agora.
Vejamos alguns indicadores sócio-demográficos:
2.11.1.3 Taxa de fecundidade total = Soma das taxas específicas x 5 (mais usada)
O resultado é o número de crianças por mulher em determinado período e local.
33
2.12 TIPOLOGIAS
São medidas multidimensionais que levam em conta vários itens, mas não são escalas.
Ex. Conservadorismo na política externa e interna. Se combinadas com outras variáveis
pode resultar em novas tipologias. Ex. Sexo e nível de informação podem resultar em
homens informados e homens não informados, mulheres informadas e mulheres não
informadas. As vantagens das escalas e índices é que elas reduzem tendenciosidades.
Podem fornecer amplitude da variação maior que as variáveis simples e também reduzem
o número de variáveis.
34
CAPITULO III
3.1.1 MÉDIA ARITMÉTICA – é a medida com a qual estamos mais familiarizados. Trata-
se do centro de gravidade da distribuição das massas. É definida pelo somatório dos
resultados dividido pelo número total das ocorrências. Trata-se do valor que representa a
média da distribuição. Para a definição dessa medida o local em que os valores
encontram-se faz diferença, pois acaba interferindo no resultado final. A média pode ser
definida como o valor que divide as áreas de determinada distribuição em partes iguais.
Isso é diferente de dizer que a média divide a distribuição em duas partes iguais (de
mesmo formato). A divisão só acontece em duas partes iguais quando a distribuição é
normal, aproximando-se da curva de Gauss, como demonstra o gráfico 3.1 a seguir. Já o
gráfico 3.2 mostra que a média não se encontra no centro da distribuição.
Vamos retomar a tabela apresentada antes com o número de projetos de lei por deputado
estadual na ALEP para fazer uma média aritmética deles.
55 21 41 12 7 85 21 25 34
22 49 32 23 73 41 21 50 5
65 2 21 14 42 11 20 21 11
5 14 28 18 31 9 12 22 24
45 12 39 12 11 3 20 3 34
9 51 120 26 114 27 49 13 2
3.1.2 MÉDIA PONDERADA – Quando a média a ser extraída é de vários grupos, com
cada um deles tendo um número diferente de indivíduos, é preciso equiparar os grupos
ponderando cada universo. Para isso extrai-se a média de cada grupo, depois se
multiplica o valor obtido pelo número de indivíduos dos grupos, dividindo o resultado pela
somatória dos indivíduos. Assim estaremos ponderando a média. A partir do exemplo
abaixo, digamos que tivéssemos os dados brutos do número de projetos de lei
apresentados pelos deputados do sexo masculino e feminino, com a seguinte matriz de
dados brutos:
36
Masculino Feminino
22 28 31 20 55
65 39 11 12 45
5 12 114 20 49
9 23 85 25 14
21 14 41 50 51
2 18 11 21 120
12 12 9 22 73
41 26 3 3 27
32 7 21 13 49
21 42 21 5 34
2 34 24 11
3.1.3 MEDIANA – É o valor que ocupa o lugar central de uma série de valores ordenados.
Trata-se do ponto médio da distribuição, isto é, deixa de cada lado 50% dos casos. Se o
número de indivíduos for ímpar, a mediana coincidirá com o valor que ocupa o lugar
central. Se o número for par, a mediana será a média dos que ocupam os lugares
centrais. Sendo assim além de constituir um valor representativo da distribuição, a
mediana estabelece um limite que separa a metade superior da metade inferior. Quando
se quer aplicar um teste para um grupo e pretende-se aprovar apenas 50%, usa-se a
mediana como nota mínima a ser atingida pelos indivíduos que serão aprovados. Para
calcular a mediana é preciso organizar os dados por ordem crescente de valores. Apesar
37
Como neste caso a mediana (75) ficou um pouco acima da média (74,03), isso significa
que existem alguns alunos que estão mais distantes dos demais do grupo na ponta direita
da escala, ou seja, entre as notas mais elevadas, isso significa que por outro lado há uma
concentração de valores abaixo da Mediana. Utiliza-se mediana quando:
38
3.1.4 MODA – Como a própria denominação indica, trata-se do valor que ocorre com
maior freqüência na variável analisada. A moda é uma medida de tendência central pouco
usada. Pode não existir uma única moda em uma seqüência (o que caracteriza uma série
multímoda). Ela também pode ser bimodal, quando tem duas modas, ou polimodal,
quando possuir várias modas. É preciso ressaltar que embora seja a freqüência que se
destaca a moda não representa necessariamente a maioria do total de resultados. Por
exemplo, em uma eleição o vencedor obtém mais votos que os demais candidatos, mas
nem sempre possui a maioria dos votos. Uma característica importante da moda é a sua
aplicabilidade a todos os níveis de medida (nominal, ordinal e intervalar). No exemplo das
notas dos alunos, citado acima, a moda ficaria com valor 65.
Perceba que reunindo as três principais medidas de tendência central, teremos uma
riqueza maior de informações sobre a distribuição das notas:
Interpretando os dados temos que a mediana acima da média indica que há alguns casos
“desgarrados” de notas muito superiores à média. Já a moda em 70 mostra que embora
alguns alunos tenham obtido um desempenho bastante acima da média, metade deles
ficou com nota até a média, que é de 70. Graficamente, teríamos o que segue:
39
Graf. 3.3
Mediana 75,0
Média 74,03
Moda 65,0
0
60,00 65,00 70,00 75,00 80,00 85,00 90,00
A decisão sobre empregar a média, mediana ou moda envolve uma série de fatores, tais
como nível de mensuração, estabilidade da medida e manipulação, entre outras.
Quanto ao nível de mensuração, a moda é a única que pode ser calculada para qualquer
conjunto de dados, sendo assim, é possível medir dados nominais apenas com a moda. A
mediana exige pelo menos o nível ordinal, pois envolve a ordenação das categorias. A
40
Para um conjunto de valores ordenados por grandeza, o maior que divide o grupo em
duas partes iguais é a mediana. A partir daí, pode-se pensar em valores que subdividem o
conjunto em outras partes iguais. Quando essa divisão dá-se em quatro partes iguais,
elas são chamadas de Quartis. Da mesma forma, valores que dividem o conjunto em dez
partes iguais chamam-se Decis e valores que dividem em cem partes iguais são
chamados de Percentis.
41
Digamos que ao invés de uma única turma, como no exemplo anterior, houvesse duas
turmas de um mesmo professor. Uma medida de tendência central, tal como a média,
poderia ser usada para resumir o desempenho das notas dos alunos das duas turmas,
para sabermos se os alunos de cada uma delas tiveram desempenhos parecidos. Se os
valores fossem os da tabela abaixo, teríamos duas médias de notas muito parecidas nas
turmas A e B, tal como segue:
Graf. 3.4
1,00
4
Turma A
2,00
4
Turma B
0
50,00 60,00 70,00 80,00 90,00 100,00
Para resolver esse problema existe um outro grupo de medidas estatísticas, chamadas de
medidas de dispersão, variabilidade ou assimetria. Essas medidas acompanham as de
tendência central e têm o objetivo de complementar as informações fornecidas pelas
últimas. Em outras palavras, enquanto as medidas de tendência central mostram os
valores estáveis ou normais, as medidas de dispersão indicam os valores relativos ao
afastamento da norma.
Em estatística, para que haja uma descrição adequada de um fenômeno qualquer é
necessário não apenas medidas de tendência central, que mostram valores típicos, mas
também as medidas de dispersão, que indicam as oscilações em torno dos valores
centrais ou os desvios em relação a uma norma. Vejamos agora as principais medidas de
dispersão utilizadas em testes estatísticos.
43
3.3.1 AMPLITUDE TOTAL – A amplitude total dá uma idéia clara do campo de variação
dos valores em qualquer série. Ela também é chamada de limite (range) ou percurso, pois
representa a distância entre dois valores extremos de uma distribuição O cálculo da
amplitude total se dá pela diferença entre o maior e menor valor da distribuição.
AT = X máx – X min
Como medida de variabilidade, a Amplitude total tem o mesmo “status” que a Moda (mo)
na tendência central. Seu cálculo é rápido e fácil, porém, por depender de apenas dois
valores (máximo e mínimo) é instável. Por isso é considerada uma medida grosseira de
variabilidade, devendo ser usada como índice preliminar.
Voltemos ao exemplo anterior das duas turmas de alunos para identificar a AT de cada
uma delas:
AMPLITUDE SEMI-
TURMA CÁLCULO
INTERQUARTÍLICA
Terceiro quartil = 80 Primeiro quartil = 67,5
A 6,25
(80 – 67,5) / 2
Terceiro quartil = 94,5 Primeiro quartil = 56,5
B 19,0
(94,5 – 56,5) / 2
3.3.2 DESVIO PADRÃO – o desvio padrão (S) é a medida de variabilidade mais usada
como índice de dispersão, sendo também a mais confiável no que diz respeito à
44
generalização da amostra para a população da qual ela foi retirada. O Desvio padrão é a
raiz média quadrática dos desvios calculados em relação à média aritmética da série.
Vejamos como calcular o desvio padrão no exemplo acima.
Turma A Turma B
Alunos X X x2 X x x2
1 70 -4,42 19,54 55 -19,15 366,72
2 85 10,58 111,94 100 25,85 668,22
3 90 15,58 242,74 50 -24,15 583,22
4 80 5,58 31,14 65 -9,15 83,72
5 72,5 -1,92 3,69 58 -16,15 260,82
6 75 0,58 0,34 55 -19,15 366,72
7 70 -4,42 19,54 62 -12,15 147,62
8 65 -9,42 88,74 90 15,85 251,22
9 75 0,58 0,34 95 20,85 434,72
10 62,5 -11,92 142,09 94 19,85 394,02
11 77,5 3,08 9,49 85 10,85 117,72
12 65 -9,42 88,74 60 -14,15 200,22
13 80 5,58 31,14 95 20,85 434,72
Média 74,42 soma 789,42 74,15 soma 4309,69
O desvio padrão apresenta como propriedade inicial o fato de medir o grau de dispersão
em torno da média na mesma medida que a média. Se a distribuição que está sendo
medida for simétrica, o valor de até um desvio padrão para cima e para baixo da média
incluirá 68,20% dos casos. Até 1,96 desvio padrão incluirá 95,45% dos casos. Veremos o
que é uma distribuição simétrica mais adiante.
Além disso, o desvio padrão apresenta outras propriedades, tais como o fato de a soma
ou subtração de uma constante a todos os valores da série tornará o desvio padrão
inalterado ao contrário do que aconteceria com a média aritmética. Já no caso de
multiplicação ou divisão dos valores da série por uma constante, o desvio padrão também
será multiplicado ou dividido pela constante, assim como acontece com a média.
3.3.3 VARIÂNCIA – A variância (S2) é a média aritmética dos quadrados dos desvios de
cada valor de referência à sua média. É o mesmo cálculo para se obter o desvio padrão,
sem submeter o resultado à sua raiz quadrada. Seguindo esses passos para a obtenção
45
A variância não é muito utilizada como medida de dispersão pela inconveniência de ser
expressa pelo quadrado da variável em estudo. Como a variância equivale ao quadrado
do desvio padrão, utiliza-se muito mais este último.
podemos multiplicar o resultado por 100, para termos o valor em percentual. Como não
temos os valores da Turma C, assumiremos que ela possui um desvio padrão de 13,20 e
uma média 71,50.
Antes de decidir que medida de dispersão usar é preciso levar em conta a estabilidade,
forma e tipo de distribuição, medida de tendência central usada e nível de mensuração.
Quando a amostra é selecionada aleatoriamente, a estabilidade da medida segue a
seguinte ordem, da mais para a menos confiável: desvio padrão, variância e amplitude.
Como geralmente as amostras servem para estabelecer conclusões gerais à população, o
desvio padrão é a medida preferível. Porém, quando o desvio padrão é usado para
distribuições assimétricas, ele tende a fornecer uma impressão distorcida da variabilidade
da distribuição, pois dá um peso maior aos casos extremos. A amplitude também é
afetada pela ocorrência de valores extremos muito afastados da média. A amplitude semi-
quartílica, por dar importância aos valores centrais, é a medida de variação mais indicada
para esses casos, assim como a medida de tendência central preferencial é a mediana.
Por esse motivo, quando a única medida de tendência central utilizada no estudo é a
mediana, a medida de variabilidade indicada é a amplitude semi-interquartílica. Nos casos
em que se utiliza a média, todas as demais medidas de variabilidade podem ser
adotadas, dando preferência ao desvio padrão.
47
Quando a curva apresenta assimetria, ou seja, os dois lados não são iguais, a média fica
sempre do lado mais longo da cauda. Podemos extrair uma medida de assimetria
(positiva ou negativa) a partir das distâncias entre e média e a moda na curva, chamada
de Coeficiente de Assimetria de Pearson. Nesse caso, o resultado será na unidade da
medida. No caso do exemplo acima, em número de pontos.
No exemplo das notas dos alunos da Turma A, teríamos: Assimetria = 74,03 – 65 = 9,03.
O valor de 9,03 pontos é a medida de assimetria desta distribuição. Ela torna-se útil
quando se comparam medidas de tendência central em diversas distribuições de
freqüências. Nesse caso, pode surgir um novo problema, que é a comparação entre
unidades distintas, por exemplo, entre “nota” e “número de faltas” dos alunos. Como não
estão na mesma unidade torna-se impossível a comparação direta. Para resolver essa
questão, deve-se subtrair o resultado da equação acima pelo desvio padrão de cada
distribuição de valores. Assim, o resultado torna-se adimensional, sendo indicado por
número de desvios, como mostra a fórmula a seguir:
média – moda
Assimetria = _________________
Desvio Padrão
média – mediana
Coeficiente Quartílico de Assimetria = 3 x _________________
Desvio Padrão
CAPÍTULO IV
4. AMOSTRAGEM
4.1.2 Amostra sistemática – é uma variante da amostra probabilística, mas obriga que o
sorteio das unidades a serem selecionadas para a amostra considere todas as unidades,
do início ao fim da lista. A amostra sistemática, além de aleatória, tem a vantagem de
sempre ser representativa quando o intervalo de seleção não está correlacionado com
alguma característica da listagem de unidades da população. Na prática ela resulta da
escolha de um número inicial qualquer, de uma lista com todos os integrantes da
população enquanto os demais números são selecionados a partir de um certo intervalo
52
até preencher o total da amostra desejada. Por exemplo: quero retirar uma amostra de
100 pacientes em uma lista com 500 internos em um hospital. Considerando que a
posição de cada indivíduo na lista é aleatória, faço o sorteio de um número entre 1 e 5
(500/100=5) Se o sorteio for do número 2, a partir dele eu retiro um número a cada
intervalo de cinco na lista (2, 7, 12, 17, etc..) até obter a amostra de 100 indivíduos. Um
detalhe interessante é que uma vez estabelecido o ponto de partida e o intervalo, a
amostra sistemática não necessita da listagem completa de todos os indivíduos para ser
feita, pois podemos entrevistar uma pessoa a cada seis residências de uma rua, ainda
que não tenhamos a listagem completa da população daquela localidade. Essa amostra
só pode ser considerada probabilística quando o primeiro caso é escolhido aleatoriamente
e quando os indivíduos não estão dispostos por alguma ordem pré-determinada na lista,
tal como ordem de desempenho escolar entre alunos de uma escola. Aqui, a lista deve
ser por ordem alfabética.
4.1.4 Amostra por conglomerados – permite fazer várias entrevistas numa mesma
unidade geográfica. Em geral é parte de um desenho de amostra em múltiplos estágios.
As características dos indivíduos a serem entrevistados não precisam ser conhecidas
nem antes nem durante o processo de seleção da amostra. As únicas informações
necessárias referem-se às unidades geográficas e são mais fáceis de obter. O princípio
da amostra por conglomerados é oposto ao da estratificada. Enquanto nesta a população
se divide em grupos segundo características apropriadas e homogêneas, nos
conglomerados o que se busca é a heterogeneidade, pois quanto maior a variabilidade,
maior será a precisão. O processo começa com a seleção de uma amostra por meio de
vários estágios, partindo das unidades maiores para as menores, até chegar ao indivíduo
que se deseja estudar. Por exemplo: se quisermos conhecer determinada característica
de pacientes dos setores de emergência de hospitais podemos selecionar aleatoriamente
alguns hospitais, dividindo em dois grupos: públicos e privados. Depois selecionamos
algumas especialidades dentro desses hospitais e, em seguida, selecionamos
aleatoriamente os pacientes que serão entrevistados. Esse sistema será mais
representativo quanto mais heterogêneos forem os grupos. Se houver uma característica
que só aparece em determinado hospital ou especialidade e este não for selecionado,
terminará não fazendo parte das características identificadas pela amostra.
Margem de erro – diz o quão perto a estatística da amostra cai ou está em relação ao
parâmetro da população. Se em uma amostra uma estatística for de 25%, e uma margem
de erro de quatro pontos amostrais, na população o parâmetro deverá estar entre 21% e
29%.
Intervalo de confiança - diz que percentual de todas as amostras possíveis satisfaz a
margem de erro. Um intervalo de confiança de 95% indica que uma em cada 20
pesquisas com a mesma metodologia possivelmente irá apresentar um resultado fora da
margem de erro.
Erro amostral e intervalo de confiança são instrumentos que permitem fazer uma
estimativa, pois o parâmetro na população sempre é desconhecido. Além disso, a
existência de intervalos de confiança é uma prova de que a ciência pode falhar e que a
probabilidade de ocorrência dessa falha é estimada, ainda que as pesquisas realizadas
55
sejam totalmente corretas, pois sempre existirá o erro amostral, por maior que sejam as
amostras. No entanto outro tipo de erro, o erro não-amostral, pode levar a resultados
muito mais distantes do parâmetro da população, sem que haja condições de serem
detectados ou controlados. Ou seja, o erro amostral é apenas um dos erros possíveis de
uma pesquisa.
Quando se trabalha com amostras aleatórias simples, o tamanho da amostra depende da
variância das médias, também chamada de erro amostral. Quanto maior for a variância na
população – que é desconhecida – maior será a necessidade de uma amostra com mais
indivíduos. Para obter a variância da amostra utiliza-se a fórmula a seguir:
σ s
a) σx = b) sx =
n n
z.σ
2 2
z.s
a) n = b) n =
d d
Exemplo:
Definir tamanho da amostra para uma pesquisa a ser realizada com nível de confiança de
95% (valor correspondente na tabela = 1,96), margem de erro aceitável de 4% e variância
de 0,5.
56
Quando não há uma estimativa para a variância, o tamanho da amostra cresce, pois o
valor da variância desaparece da fórmula, como se vê a seguir:
Também é possível obter-se a margem de erro real de uma pesquisa a partir da variância
apresentada pela amostra e pelo tamanho da amostra, a partir da fórmula a seguir:
p.q
e = z.
n
Onde,
57
Existe ainda uma fórmula para fazer a correção do tamanho da amostra quando se está
trabalhando com populações pequenas. Trata-se do Fator de Correção da População
(FCP) e deve ser multiplicado pelo número de indivíduos encontrado na amostra para
grandes populações, como segue:
N −n
n x FCP
N −1
Onde:
n = tamanho da amostra;
N = tamanho da população;
Por exemplo, uma amostra de 600 indivíduos deve ser corrigida para aplicação em uma
população de 1000 pessoas.
N = 600 x 0,632 = 379,6 ou aproximadamente 380 entrevistas
Intervalo 95% 99% 95% 99% 95% 99% 95% 99% 95% 99% 95% 99%
confiança
1,0 1900 3000 3600 5700 6400 10100 8400 13270 9600 15160 10000 15800
1,5 960 1520 1850 2900 3300 5200 3800 6000 4300 6800 4500 7100
2,0 480 760 900 1400 1600 2500 2100 3300 2400 3800 2500 4000
2,5 340 540 650 1030 1160 1830 1350 2130 1540 2430 1600 2530
3,0 210 330 400 630 710 1120 930 1470 1060 1680 1100 1800
3,5 170 270 330 520 590 930 690 1090 790 1250 820 1300
4,0 120 190 225 350 400 630 520 820 600 950 625 990
4,5 105 165 200 315 360 570 420 660 480 760 500 790
5,0 75 120 150 235 260 410 340 540 370 580 400 640
5,5 70 110 130 205 235 370 275 435 315 500 330 520
6,0 ---- --- 100 160 180 280 230 360 270 430 280 440
6,5 --- --- 95 150 170 260 200 260 230 365 240 380
7,0 --- --- 75 120 130 200 170 270 190 300 200 330
7,5 --- --- 65 100 115 180 150 235 170 270 180 285
8,0 --- --- --- --- 100 160 130 200 150 240 160 250
8,5 --- --- --- --- 95 150 120 190 135 210 140 220
9,0 --- --- --- --- 80 125 105 165 115 180 120 200
9,5 --- --- --- --- 75 115 95 150 105 165 110 175
10,0 --- --- --- --- --- --- 85 135 95 150 100 160
58
CAPÍTULO V
5. CONCEITO DE PROBABILIDADE
p = n/N
que for cumprido o princípio da eqüiprobabilidade, ou seja, desde que todos os casos
igualmente prováveis. Onde p é a probabilidade de êxito e q é a probabilidade de não-
êxito, que é a diferença entre a probabilidade de êxito e 1, que seria acerto seguro..
Portanto, p + q = 1.
As estatísticas descritivas são pontuais, ou seja, para cada dado é obtido um valor que
representa seu parâmetro. Porém, na estimação trata-se da inferência de um parâmetro
através de um valor estatístico representativo (estimador). Portanto, o estimador é uma
estatística que serve para estimar parâmetros. Sempre é mais seguro que a estimativa
não seja pontual, mas por intervalo, o que garantirá uma probabilidade maior de acerto.
5.2.1 – Hipótese Nula (H0) - Ela indica que a diferença entre os valores é estatisticamente
nula. Essa diferença deve-se às oscilações do acaso. Ela sempre é representada como
uma relação matemática de igualdade:
Média 1 = Média 2; Média da Amostra = Média da População; Proporção 1 = Proporção 2
O que equivale dizer que:
Média 1 – Média 2 = 0; Média da Amostra – Média da População = 0, etc...
5.2.2 – Hipótese Alternativa (H1) – indica que as diferenças observadas não podem ser
explicadas por oscilações do acaso, ou seja, as diferenças são estatisticamente
significativas. Portanto, H1 sempre será a negação de H0.
Média 1 difere da Média 2; Média da Amostra difere da Média da População, etc...
5.3 ERRO
A prova de significância serve para que se tome uma decisão a respeito da hipótese nula,
mas essa decisão está sempre associada a um risco de erro. Existem dois erros possíveis
de se cometer em uma prova de significância.
Erro de tipo 1 (Alfa), quando se rejeita a hipótese nula, mesmo ela sendo verdadeira. A
probabilidade de cometer um erro tipo 1 é representada por Alfa, denominado de nível de
61
Se um pesquisador optar por rejeitar a hipótese nula, estando os valores na área crítica
ele terá chances maiores que as aceitáveis em cometer um erro do tipo 1.
A prova t de Student é usada para comparar médias entre uma variável contínua e outra
categórica, sendo que a hipótese nula é que “não existem diferenças significativas entre
os dois grupos”, as duas amostras podem ser consideradas como procedentes da mesma
população e as diferenças observadas entre eles são ocasionais. Foi elaborada por
Gosset, sob o pseudônimo de Student e demonstrada por Fisher em 1926. Em
62
5.6.1 Comparar uma distribuição observada a uma teórica: quando se lança um dado
90 vezes, teoricamente deveria haver 15 vezes cada face, como resultado. Trata-se de
comparar se as faces observadas no experimento diferem significativamente das
esperadas. Se o nível de significância (Alfa) do teste fica acima de 0,05, então, nada se
opõe a aceitar a hipótese nula de que não existe diferença estatisticamente significativa e
as observadas são frutos do acaso.
5.6.3 Comparar duas distribuições observadas com dados relacionados: São feitas
medições sobre os mesmos indivíduos que foram previamente igualados. Por exemplo, a
64
um grupo de 190 estudantes foi aplicado um exame tradicional e outro tipo teste. No
tradicional foram aprovados 120 alunos e no teste foram aprovados 130. Sabe-se que 110
alunos foram aprovados nos dois. Queremos saber se os dois tipos de provas oferecem
os mesmos resultados. A comparação de dados pareados leva em conta apenas as
freqüências cujas categorias não coincidem, abrindo mão das respostas iguais antes e
depois. Nesse caso, interessam apenas os alunos que foram aprovados em um teste e
não aprovados em outro.
da análise de suas variâncias. Com a ANOVA, a variabilidade total fica dividida em duas
componentes, a que se deve às diferenças entre grupos e a que se deve a diferenças
individuais dentro de cada grupo. A ANOVA mais comum é a análise de variância
unidirecional, ou seja, com uma única variável independente e uma variável dependente.
Mas existem outras possibilidades, como a ANOVA bidirecional, análise fatorial da
variância e a análise multivariada da variância, que não serão tratados aqui.
CAPÍTULO VI
6. CORRELAÇÃO
Uma correlação entre duas variáveis deve ser interpretada como a relação que existe
entre elas, ou então, considerando a variação como sendo concomitante entre elas. Ao
contrário dos testes anteriores, cujas medidas caracterizam uma única variável da
amostra, a correlação é uma medida de inter-relação entre pelo menos duas variáveis.
Sendo assim, podemos usá-la para saber se existe relação entre velocidade e
compreensão leitora entre estudantes brasileiros ou se existe relação entre volume de
leitura e rendimento acadêmico, por exemplo.
Para fazer a análise da relação entre duas variáveis, dependemos de duas pontuações
para cada indivíduo, uma para cada variável. Esse par de pontuações pode ser
representado sobre um eixo de coordenadas, chamado de diagrama de dispersão. Esse
diagrama ajuda a visualizar as relações entre as variáveis e também mostra,
graficamente, se a relação entre as variáveis é linear ou curvilínea, o que determinará a
viabilidade do uso da correlação linear de Pearson, como demonstram os exemplos
abaixo:
67
COEFICIENTE INTERPRETAÇÃO
r=1 Correlação perfeita
0,80 < r < 1 Muito alta
0,60 < r < 0,80 Ata
0,40 < r < 0,60 Moderada
0,20 < r < 0,40 Baixa
0,00 < r < 0,20 Muito baixa
r=0 Nula
A mesma interpretação vale para os coeficientes negativos
teóricos, qualquer correlação, ainda que pequena, desde que seja estatisticamente
significativa, indica um grau de relação entre as duas variáveis.
A correlação de Pearson é aplicada para se encontrar relações concretas em uma
população, porém pode ser usada para a estimação das relações a partir de uma
amostra. Para isso existe o erro-padrão de r, que permite estabelecer o intervalo de
confiança de r, ou seja, entre que valores o coeficiente poderá oscilar na população para
um determinado nível de significância.
Tabela – Exemplo 1
Não Y Y
X A B Marginal X
Não X C D Marginal Não X
Marginal Não Y Marginal Y Total de Casos (N)
Devem fazer parte das células de freqüências apenas os casos válidos, o que precisa
estar expresso aos leitores das análises. As variáveis a serem analisadas são chamadas
de X e Y. As categorias de grupamento dicotômico são chamados, por conseqüência, de
X, não-X , Y e não-Y. No exemplo da pesquisa sobre intenção de voto, os respondentes
que dizem votar no candidato A compõem as casas da linha X e aqueles que dizem votar
em qualquer outro candidato fazem parte da linha Não X.
As somas dos casos nas linhas (horizontais) e nas colunas (verticais) formam o que se
chama de Marginal. A somatória das marginais leva ao número total de casos analisados,
representado pela letra N.
Exemplo de tabela quádrupla para tipo de chamada de primeira página no jornal Gazeta
do Povo1
Outros temas (Não Y) Temas sociais (Y)
1ª dobra (X) 856 (0,244) 398 (0,113) 1254 (0,358)
2ª dobra (Não X) 1353 (0,386) 893 (0,255) 2246 (0,641)
2209 (0,631) 1291 (0,368) 3500 (0,999)
Nesse exemplo, a probabilidade aleatória de sortearmos uma chamada sobre tema social
do total de 3.500 existentes no banco é de 0,368, ou, percentualmente 36,8%. Já a
probabilidade aleatória de se sortear uma chamada de primeira dobra é de 0,358 (35,8%).
Se as duas variáveis fossem independentes (tema e posição na página) o produto das
probabilidades delas representaria a probabilidade esperada de sorteio de determinada
categoria. Por exemplo, se chamada sobre tema social e posição na 1ª dobra fossem
independentes, esperar-se-ia encontrar que:
( probabilidadeTemaSocialxprobabilidade1ª dobra = probabilidadeesperada )
Substituindo pelos valores observados no exemplo:
Perceba que o resultado da subtração entre a observada e esperada indica uma diferença
de - 0,018, ou seja, há menos chamadas sobre temas sociais na primeira dobra do que se
esperaria-se, caso as duas variáveis fossem totalmente independentes. Essa diferença
indica a existência de alguma relação entre as duas variáveis, portanto, não sendo
1
Os dados são do banco de cobertura da primeira página do jornal Gazeta do Povo no período eleitoral
(agosto a outubro) de 2002. São considerados como sendo de temas sociais as chamadas que fazem referência
à economia, temas sociais propriamente ditos, infra-estrutura e violência. São considerados temas não-sociais
os que dizem respeito a campanha eleitoral, político-institucional, ético-moral, variedades e outros. A
primeira dobra diz respeito à metade superior da página, enquanto a segunda dobra é a metade inferior da
mesma.
72
1254 x1291
Probabilidade esperada = = 462,54
3500
Não Y Y Não Y Y
X - + X + -
Não X + - Não X - +
Positiva Negativa
- Principais tópicos:
- Independência é igual a ausência de associação. Significa que as probabilidades das
células observadas são iguais aos valores esperados (obtidos multiplicando-se as
marginais da tabela).
- A tabela que apresenta diferenças entre a probabilidade esperada e observada mostra a
existência de uma correlação ou associação entre as duas variáveis (X e Y).
- Conhecendo um valor Delta da tabela é possível saber todos os outros.
- As duas configurações possíveis para Delta diferente de zero são a Correlação Positiva
e a Correlação Negativa.
O fato de não encontrarmos independência entre duas variáveis, ou seja, Delta diferente
de zero, não significa muita coisa. Isso não é suficiente para indicar a força de uma
correlação, por exemplo. O coeficiente Delta não deve ser usado para indicar a força de
uma correção por dois motivos principais:
1 – ele é sensível ao tamanho da amostra. Se dobrarmos o N no exemplo anterior
o valor de Delta também irá ficar o dobro. Isso impossibilita a comparação de coeficientes
Delta em amostras com N diferentes.
2 – O coeficiente Delta não possui um limite superior. Do lado inferior o limite é
zero, mas não é possível saber até quanto se pode chegar no outro limite. Isso
impossibilita estabelecer magnitudes comparativas quando não se tem limite superior.
Pelos dois motivos acima se presume a necessidade de encontrar outro índice que
indique a força de uma relação entre duas variáveis não-independentes. O que se busca,
então, é uma medida que seja insensível ao tamanho da amostra e que tenha limites
superiores e inferiores determinados. A partir daí pode-se estabelecer algumas regras
estatísticas para medir o grau de associação:
- deve ser igual a zero quando X e Y forem independentes, e;
- deve ser de no máximo + 1,00 para associação positiva e – 1,00 para associação
negativa;
O estatístico inglês G. Udny Yule apresentou uma proposta de coeficiente de correlação
no início do século XX, respeitando as regras acima para aplicação aos resultados de
uma tabela quádrupla. A primeira publicação do coeficiente foi em 1911 e Yule o batizou
74
( BxC ) − ( AxD)
Qxy =
( BxC ) + ( AxD)
Uma das principais características do Q de Yule é que por ser o resultado de produtos
cruzados, em qualquer tabela quádrupla, quando o Delta cresce, o Q de Yule também
aumenta. Além disso, o coeficiente tem limite superior em +1,00 e inferior em -1,00. Por
outro lado, o coeficiente Q será zero quando uma ou duas células estiverem vazias. Uma
distribuição muito heterogênea também não é recomendada para o cálculo do coeficiente
pelo motivo citado acima.
A sugestão é que o calculo será realizado sempre que a distribuição dos casos na tabela
ficar abaixo de uma relação 70:30, ou seja, não mais de 70% dos casos em uma
categoria e não menos de 30% em outra. No exemplo usado aqui, olhando para as
marginais percebe-se relações da ordem de 63:36 e 64:35, abaixo, portanto, da regra dos
70 : 30.
A interpretação do resultado parte do princípio de que o significado interno do Q de Yule
está ligado à probabilidade de um par de casos diferir em ambos os itens, ou seja, em um
ser Tema Social na Primeira Dobra e outro ser Tema Não Social na Segunda Dobra, para
ficarmos no exemplo tratado até aqui.
Um par B C é chamado de consistente quando em um caso ele indica possuir a
característica medida e em outra também (ser X e Y) Ou, quando apresenta a ausência
da característica nas duas variáveis (não X e não Y), também é chamado de consistente.
Já um par A D é chamado de inconsistente quando em uma variável apresenta a
característica analisada e em outra não (ser X e não Y) e vice-versa.
A fórmula para encontrar a probabilidade de pares consistentes é a seguinte:
75
2 x( BxC )
Probabilidade de pares consistentes =
N2
2 x(398 x1353)
No nosso exemplo, seria: = 0,087
3500 x3500
2 x(856 x893)
E, a probabilidade para pares inconsistentes seria: = 0,124
3500 x3500
ParesConsistentes − ParesInconsistentes
Q de Yule =
TotalParesDiferentesXeY
Sendo assim, é possível afirmar que Q de Yule é a melhor forma para predizer que X é Y
e não X é não Y e vice-versa.
Se o Q de Yule for zero então teríamos uma probabilidade igual ao acaso para predizer a
existência de pares consistentes (X e Y), (não X e Não Y). Qualquer valor diferente de
zero indica uma probabilidade maior que a do acaso para predição da consistência de
pares de casos pelo coeficiente de Yule. Nesse caso, o sinal indica em que direção deve
seguir a correlação predita, enquanto o valor de Q indica quão adequado será o resultado
em uma predição. Quanto maior, óbvio, mais adequado. A força da resposta pode ser
indicada como o que consta na tabela da página 63, variando de perfeita positiva, forte,
média, fraca e desprezível, até perfeita negativa.
Outro fator importante para a força preditiva do Q de Yule para correlação entre duas
variáveis é o tamanho da amostra, ou, a distribuição dos casos nas casas. A
recomendação é que exista pelo menos cinco casos em cada casa de uma tabela
quádrupla para as freqüências esperadas. Para saber se a distribuição mínima das
freqüências esperadas é respeitada sem precisar encontrar o valor esperado para todas
as casas, basta multiplicar duas marginais e dividir por N. O resultado será o menor valor
esperado para as células da tabela quádrupla. Portanto, se ele for maior do que cinco
todas as outras casas apresentarão valor esperado superior ao limite mínimo. O cálculo é
o seguinte:
76
1291x1254
No nosso exemplo = = 462,54
3500
Como 462,54 fica bem acima de 5, não precisamos temer, pois estamos respeitando o
limite mínimo de casos em cada casa para a realização do teste de Q de Yule. Vamos em
frente.
Até aqui, utilizamos o teste Q de Yule para indicar a correlação entre duas variáveis,
considerando que o número de casos indica a totalidade, ou seja, o universo estudado.
Porém, o coeficiente também pode ser usado em amostras, o que permitiria passar da
estatística descritiva à inferencial, extrapolando os resultados de uma amostra para o
universo de casos. Para que isso aconteça, antes de qualquer coisa é preciso que a
amostra seja probabilística. Como teoria da amostragem não é objeto desse capítulo,
vamos partir do princípio de que se trata de uma amostra probabilística.
Para podermos inferir resultados de uma amostra ao todo precisamos contar com o
conceito de intervalo de confiança, pois ele permite dizer que dentro de determinado
intervalo de valores amostrais encontra-se o valor do universo na maioria das vezes.
Tiram-se daí os limites superior e inferior do intervalo de confiança, ou seja, os valores
mínimo e máximo que indicam o intervalo dentro do qual é possível encontrar o valor para
todos os casos a partir da análise de uma amostra.
O Intervalo de Confiança mais usado é o de 95%, que equivale ao valor de 1,96 na tabela
Z. Com base nisso, podemos usar a fórmula abaixo para calcular os limites superior e
inferior do intervalo dentro do qual deve se encontrar o valor da correlação para toda
população a partir dos dados obtidos na amostra. A fórmula é:
(1 − Q 2 ) 2 x(1 / A + 1 / B + 1 / C + 1 / D )
1,96x
4
Limite Inferior = Qxy -
77
Assim:
Limite Superior = -0,173 + 0,028 = -0,145.
Limite Inferior = - 0,173 – 0,028 = - 0,201.
Esses resultados mostram que se os dados fizessem parte de uma amostra probabilística
de um universo, o valor do coeficiente de correlação Q de Yule para a população estaria
entre – 0,145 e -0,201.
Se o intervalo inclui o valor zero, isso indica que seria possível o coeficiente de correlação
inferido à população a partir da amostra ser zero, portanto, não poderíamos considerar os
valores da amostra para fazer inferências à população como um todo. No entanto, como o
intervalo apresentou valores negativos em ambos limites, então, pode-se afirmar que os
resultados valem para toda a população, ou seja, que o Q de Yule encontrado para a
correlação entre Chamadas de Temas Sociais e posição na Primeira Dobra é
estatisticamente significante.
Principais pontos:
A avaliação das relações entre duas variáveis em uma tabela quádrupla envolve os
seguintes conceitos:
1 – Independência, associação e sinal;
2 – Grau de correlação descrito;
3 – Inferência estatística, significância e intervalos de confiança.
78
Coeficiente de Determinação = r2
Quando multiplicado por 100, o coeficiente de determinação pode ser interpretado como a
porcentagem da variabilidade conjunta entre as duas variáveis.
Já o coeficiente de alienação é a proporção da variabilidade de Y (variável dependente)
que não é explicada pela variabilidade de X (variável independente). Sendo assim, para
obter a alienação, basta subtrair de um o coeficiente de determinação:
Coeficiente de Alienação = 1 – r2
x = a + b.y
ou
y= a + b.x
Onde:
a (coeficiente linear) é a ordenada de origem e indica a interseção da linha das
ordenadas, ou seja, a que altura o eixo Y é interceptado pela reta de regressão. Ele é
uma constante a ser adicionada para que a média das predições seja igual à média dos
valores obtidos.
b (coeficiente angular ou de regressão) representa o número de unidades que Y
modifica para cada unidade que X modifica. Ele expressa a declividade da reta de
regressão.
O resultado de uma equação de regressão gera como principal informação o Beta (B),
que é coeficiente de determinação, ou seja, quanto da mudança na variável independente
gera de alteração na variável dependente. Esse coeficiente é acompanhado do grau de
significância, sendo considerado estatisticamente significativo o resultado que demonstrar
significância abaixo de 0,05. A estatística t, contida nos resultados da equação, também é
um indicador de validade da relação. Quanto maior for essa estatística, maior será a
determinação de uma variável sobre outra. Quando a regressão é múltipla (existe mais de
uma variável independente em relação a uma dependente) torna-se útil o valor de Beta
padronizado. Isso porque nem todas as variáveis independentes estarão na mesma
unidade. O resultado de Beta padronizado transforma as unidades de cada variável em
unidades de desvio-padrão, tornando possível a comparação entre elas para a
identificação de qual apresenta maior importância na explicação do fenômeno analisado
na variável dependente. Aplicando a equação para estabelecer a capacidade de predição
de Taxa de Fecundidade e Esperança de Vida ao Nascer é possível identificar se a
primeira interfere na segunda. Para tanto usaremos um banco de dados com informações
de 119 países no mundo. O gráfico de dispersão é um bom exercício para identificarmos
a existência de correlação e, por conseguinte, de predição.
80
TAXA FECUNDIDADE(88)
5
1
40 50 60 70 80
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 14,658 ,564 25,978 ,000
ESPERANCA VIDA
-,164 ,009 -,852 -18,450 ,000
AO NASCER(87)
a. Dependent Variable: TAXA FECUNDIDADE(88)
CAPÍTULO VII
6.1 O QUESTIONÁRIO
Uma boa análise dos resultados de uma pesquisa eleitoral começa com algumas
delimitações. Em primeiro lugar é preciso delimitar o escopo da análise, buscando apenas
o que se deseja saber. Também é preciso considerar que a análise de uma só pesquisa
apresenta limitações no fornecimento de dados contextuais. O ideal é ter condições para
uma análise temporal. Os índices são uma importante ferramenta para a análise de dados
quantitativos.
Do ponto de vista geral o survey tem por objetivo descrever, explicar ou explorar
uma questão. A unidade de análise do survey normalmente é o indivíduo, mas podem ser
famílias, cidades, etc. É possível fazer survey com dados de pessoas e de outras
unidades de análise. Nesse caso é preciso tomar cuidado com a falácia ecológica.
POPULAÇÃO
AMOSTRA
PERGUNTA
CONCEITO
Conceito Pergunta
Intenção de voto Se a eleição para prefeito fosse hoje e os candidatos os seguintes, em quem o
senhor votaria?
Religião Qual a sua religião?
Escolaridade Até que série o senhor estudou?
Renda Qual a renda mensal da sua família?
Bingham e Moore (1934) definem entrevista como uma conversa com um objetivo
e assim como qualquer outra interação social é composta por um cumprimento, na
relação em si e na despedida. Em primeiro lugar, a estrutura do questionário deve possuir
essas três fases.
Além disso, quando forem tratados aspectos que quando reunidos em um conjunto
se constituem em uma escala, as perguntas precisam ser misturadas para evitar que dois
ou mais sejam apresentados um após o outro. Se o questionário tiver uma ordem lógica,
progredir do geral para o específico, fazendo perguntas pessoas só depois de se
estabelecer um bom nível de confiança, o pesquisador terá melhores condições para
obter respostas mais autênticas.
6.4 AS PERGUNTAS:
básico é realizar pelo menos um pré-teste ou estudo piloto com as perguntas para um
público com as mesmas características do público-alvo, evitando suposições a priori.
Para escrever boas perguntas em um survey Sudman e Bradburn (1982) dão três
sugestões básicas:
3ª - cada vez que fizer uma pergunta, indague porque você quer saber isso.
O viés é outro problema gerado pelo mau uso da linguagem na formulação das
perguntas, pois a escolha de palavras pode direcionar as respostas. Os questionários e
suas perguntas são feitos para realizar medições não-enviesadas, ou seja, não devem
favorecer sistematicamente determinados resultados. Não basta mensurar as variáveis, é
preciso mensurá-las corretamente. Convêm fazer um pré-teste para verificar se as
perguntas estão sendo compreendidas pelo público-alvo sempre que houver um novo
questionário para um novo público.
qualquer resposta possível. Nas perguntas fechadas as respostas possíveis são pré-
definidas e o entrevistado tem que escolher entre elas, pois o entrevistador apresenta
apenas algumas possibilidades de resposta. A primeira gera uma resposta espontânea
enquanto a segunda promove uma resposta estimulada. É indicado, em uma pesquisa
inicial e exploratória, onde não se conhece a abrangência e variabilidade das possíveis
respostas que as perguntas sejam abertas.
É importante notar que existem duas formas de apresentar perguntas abertas aos
entrevistados. Em uma delas há respostas escritas no questionário que devem ser
assinaladas pelo entrevistador e que não são apresentadas ao entrevistado, embora já
estejam codificadas. Na outra, existe um campo aberto para que o entrevistador ou o
próprio entrevistado anote exatamente a resposta que ele pretende fornecer à pergunta.
Nesse caso, após o trabalho de campo uma equipe de codificadores deverá fazer o
trabalho de organização das respostas escritas nos questionários.
91
Uma pergunta nunca pode gerar ameaça ao entrevistado. Se o tema for sensível
para o respondente ou se envolver comportamentos considerados socialmente
inaceitáveis é necessário verificar a melhor maneira de obter a informação sem provocar
o constrangimento, o que na maioria das vezes significa substituir uma pergunta direta por
várias indiretas. Pior do que perder um respondente que se irrita com uma pergunta
constrangedora é, a partir de então, receber respostas não-autênticas. Pode-se evitar o
constrangimento em função da falta de conhecimento deixando claro que as perguntas
não são testes, sendo natural que as pessoas não tenham respostas para todos os itens.
Perguntas que testam conhecimento são invariavelmente constrangedoras, porém,
podem ser importantes em uma pesquisa social por servirem como filtro das questões
sobre atitudes. Para reduzir o nível de ameaça pode-se iniciar uma pergunta com “você
sabe por acaso” ou “a propósito”.
Vale a pena lembrar que é importante perguntar apenas o que será utilizado na
pesquisa. Na última seção deve buscar as informações factuais, antecipando-as com a
justificativa de que essas questões são necessárias para caracterizar melhor o grupo de
pessoas que participam da pesquisa. Só então são feitas as questões sobre sexo, idade,
escolaridade, moradia, renda, etc... No final deve-se encerrar com uma lembrança de que
todas as declarações serão tratadas de maneira confidenciais e a apresentação dos
resultados será de tal forma a não permitir a identificação individual dos participantes.
A escala nominal é onde os números são usados apenas para identificar objetos,
pessoas ou categorias. Escala ordinal ocorre quando além da identificação, os números
ordenam numa dimensão específica as diferentes respostas. Na Escala intervalar as
92
A distinção entre os quatro níveis de escala é importante por ter relação direta com
a complexidade da análise estatística possível. As informações de qualquer uma das
escalas podem ser apresentadas através das estatísticas descritivas, tabelas ou gráficos,
porém, para usar estatísticas inferenciais, que permitem verificar se determinadas
relações são sistemáticas ou não, é preciso que os dados estejam em escalas nominais e
ordinais, pois assim eles poderão ser trabalhados com testes não-paramétricos. As
escalas intervalares e de razão permitem, além das estatísticas não-paramétricas, os
testes paramétricos.
Todas as perguntas que oferecerem mais de duas opções de resposta podem ser
convertidas em uma série binária de alternativas através do processo de codificação
dummy. Ex.: estado civil, religião, etc... Com isso é possível uma série de operações
estatísticas reservadas a escalas intervalares e de razão.
93
A numeração das respostas deve ser feita diretamente com os códigos que serão
usados para os testes estatísticos depois da coleta de informações. Exemplo:
A01. Qual a opinião do senhor sobre o desempenho, de maneira geral, do governador do Estado?
1. Péssimo
2. Ruim
3. Regular
4. Bom
5. Ótimo
8. NS
9. NR
Quando a pergunta permite mais de uma resposta, cada uma destas últimas irá se
transformar em uma nova variável, dummy, que no banco será codificado como presença
ou ausência 1 ou 0. Exemplo:
D01. Vou ler os nomes de algumas drogas e gostaria que me dissesse qual você já viu:
Aqui, o entrevistador irá marcar os códigos das drogas indicadas pelo entrevistado
e no momento da transposição de informações para o banco de dados cada alternativa se
transformará em uma variável e no questionário em que estiver marcada a resposta,
receberá código 1, se não, será código 0.Essa questão pode ser construída na forma de
tabela no questionário:
D01. Vou ler os nomes de algumas drogas e gostaria que me dissesse qual você já viu:
SIM NÃO
D010. Maconha
D011. Cocaína
D012. Heroína
D013. Haxixe
D014. Cola de Sapateiro
D015. Nenhuma
D016. OUTRA. Qual? _______________________
D017. NS D018. NR
1. A Favor
2. Contra
3. Não tem opinião formada (NÃO LER)
8. NS
9. NR
Ou então:
faz a revisão das questões, verifica se não está faltando nenhuma anotação e depois
preenche o campo reservado a ele com a resposta para cada pergunta. Esse campo será
usado pelo digitador no momento da transferência das informações do questionário para a
base de dados. Isso facilita o trabalho de digitação e evita o erro involuntário. Exemplo:
Estou participando de uma pesquisa acadêmica e gostaria de lhe fazer algumas perguntas. É muito
importante para nós sabermos o que você pensa sobre a qualidade de vida no/a seu/sua (bairro,
vila).
Q1. São várias as atitudes que as pessoas podem tomar para resolver problemas no/a
seu/sua (bairro, vila) ou vizinhança. No último ano você:. |___|
Q1.a. Foi membro de associação comunitária ou de (bairro, vila) Q1.a
1. Sim
2. Não
8. NS
9. NR
1. R. Enun. 3. Sig. Enun.
Q1.b. No último ano, você procurou algum vereador para resolver algum assunto |___|
relacionado ao/a seu/sua (bairro, vila) ou vizinhança? Q1.b
1. Sim
2. Não (VÁ PARA A Q1d.)
8. NS
9. NR
Q1.c. Você fez isso sozinho, através de um grupo ou associação, ou de ambas as |___|
formas? Q1.c
1. Sozinho
2. Através de grupo ou associação
97
3. Ambas as formas
8. NS
9. NR
1. R. Enun. 2. R. Op. 3. Sig. Enun. 4. Sig. Op.
_________________________________________________________________
__________________________________________________________________
Q1.d. No último ano, você procurou a prefeitura para resolver algum assunto |___|
relacionado ao/a seu/sua (bairro, vila) ou vizinhança? Q1.d
1. Sim
2. Não (VÁ PARA Q2)
8. NS
9. NR
Q1.e. Você fez isso sozinho(a), através de um grupo ou associação, ou de ambas as |___|
formas? Q1.e
1. Sozinho
2. Através de grupo ou associação
3. Ambas as formas
8. NS
9. NR
_________________________________________________________________
_________________________________________________________________
3.As pessoas no seu/sua (bairro, vila) geralmente procuram os vereadores? Se sim, como
normalmente o fazem?
________________________________________________________________
4. Porque você acha que as pessoas no seu (bairro,vila) (não) procuram os vereadores?
_________________________________________________________________
Q2. Excluindo as reuniões do Orçamento Participativo, você participou de alguma reunião |___|
com representantes ou técnicos da prefeitura no último ano? Q2
1. Sim
98
2. Não
8. NS
9. NR
1. R. Enun. 3. Sig. Enun.
Q3. No último ano, você se reuniu com vizinhos para discutir problemas do/da |___|
(bairro/vila)? Q3
1. Sim
2. Não
8. NS
10. NR
_________________________________________________________________
ATENÇÃO ENTREVISTADOR:
PERGUNTAR A PRÓXIMA QUESTÃO APENAS PARA OS QUE MORAM
EM PRÉDIO OU CONDOMÍNIO,
PARA OS DEMAIS VÁ PARA Q5.
Q4. (CE. p. 1 ) Com que freqüência você vai às reuniões do seu prédio ou |___|
condomínio?Você vai freqüentemente, algumas vezes, raramente ou nunca? Q4
1. Freqüentemente
2. Algumas vezes
3. Raramente
4. Nunca
8. NS
9. NR
______________________________________________________________
_____________________________________________________________
Q7. (CE, p. 2) Agora eu vou ler uma lista de problemas que existem em alguns (bairros,
vilas). Para cada um deles, diga se esse é um problema grave, é um problema ou se não
é um problema no seu (a) (bairro, vila).
Q7.a
Q7.b. Gangues 1 2 3 |___|
8 9
Q7.b
Q7.c. Tráfico de drogas 1 2 3 |___|
8 9
Q7.c
Q7.d. Muita discussão ou briga entre 1 2 3 8
|___| 9
vizinhos Q7.d
____________________________________________________________
____________________________________________________________
_____________________________________________________________
____________________________________________________________
5. O que você considera como sendo discussões ou brigas entre vizinhos? Por
favor, dê exemplos na sua vizinhança.
______________________________________________________________
Q12b. (CE, p. 3 ) Com que freqüência você usa a internet para enviar e-mail ou |___|
mensagens ou para participar de grupos de conversa? Você o faz ........(LER OPÇÕES) Q12b
1 – Diariamente ou quase todos os dias,
2 – Algumas vezes por semana,
3 – Algumas vezes por mês, ou
4 – Raramente.
7 – NSA
8 – NS
9- NR
1. R. Enun. 2. R. Op. 3. Sig. Enun. 4. Sig. Op. 5. Escala
Q14. (CE, p. 5 ) Há muitas maneiras das pessoas sentirem que fazem parte de um grupo.
Eu vou ler uma lista de grupos e gostaria que você me dissesse qual deles lhe dá o
sentimento mais forte de fazer parte do grupo. E em segundo lugar? E o que menos lhe
dá esse sentimento? (LER OPÇÕES)
|___|
Q14.a. O que lhe dá o sentimento mais forte de grupo:_______________ Q14.a
Q14.b. Em segundo lugar: __________________ |___|
Q14.c. E o que lhe dá menos o sentimento de grupo:__________________ Q14.b
1. Seu/sua (bairro, vila) |___|
2. Seus amigos Q14.c
3. Seus vizinhos
4. Sua igreja
5. Seus colegas de trabalho
6. Sua família
100
_______________________________________________________________________
_______________________________________________________________________
_______________________________________________________________________
Q15.a. Agora eu vou ler uma lista de afirmativas sobre vizinhos e vizinhança e gostaria |___|
de saber se você concorda ou discorda de cada uma delas. Q15.a
Você tem pouco a ver com as pessoas que moram neste/nesta (bairro, vila). Você
concorda ou discorda?
(SE CONCORDA, PERGUNTE): Concorda totalmente ou concorda em parte?
1- concorda totalmente
2- concorda em parte
(SE DISCORDA, PERGUNTE): Discorda em parte ou discorda totalmente?
3- discorda em parte
4- discorda totalmente
8- NS
9- NR
1. R. Enun. 2. R. Op. 3. Sig. Enun. 4. Sig. Op. 5. Escala
____________________________________________________________________
2. O que você entende por “ ter pouco a ver” com as pessoas do seu/sua (bairro,vila) ?
___________________________________________________________________
Q15.b. Nós podemos confiar nas pessoas que moram neste/nesta (bairro, vila). Você |___|
concorda ou discorda? Q15.b
(SE CONCORDA, PERGUNTAR): Concorda totalmente ou concorda em parte?
1- concorda totalmente
2- concorda em parte
(SE DISCORDA, PERGUNTAR): Discorda em parte ou discorda totalmente?
3- discorda em parte
4- discorda totalmente
8- NS
9- NR
1. R. Enun. 2. R. Op. 3. Sig. Enun. 4. Sig. Op. 5. Escala
______________________________________________________________________
6.10 O PRÉ-TESTE
PRÉ-TESTE
AVALIAÇÃO DA ENTREVISTA
Questionário: !____!____!
Entrevistador: ___________________________________________________
Numa escala de 0 a 10, sendo 0 Nenhuma dificuldade e 10 muita dificuldade, qual o grau de
dificuldade quanto a:
Tipos de dificuldades:
102
B2. QUALIDADE
DE VIDA E
CAPITAL
SOCIAL
B3. POLÍCIA E
CRIMINALIDADE
Numa escala de 0 a 10, sendo 0 Nenhuma dificuldade e 10 muita dificuldade, na sua opinião,
qual o grau de dificuldade em relação às escalas?
Tipos de dificuldades:
1. Distinção dos pontos
2. No de pontos
3. Outras (especificar)
1. Problema grave
2. É um problema
3. Não é problema
1.Concorda totalmente
2. Concorda e parte
3. Discorda e parte
4. Discorda totalmente
1. Muito boa
2. Boa
3. Ruim
4. Péssima
1. Sempre
2. De vez em quando
3. Raramente
4. Nunca
1. Diariamente, mais de 5
horas
2. Diariamente, de 3 a 5
horas
3. Diariamente, até 2 horas
4. Algumas vezes por
semana
5. Muito raramente
6. Nunca
1. Muito seguro
2. Seguro
3. Inseguro
4. Muito inseguro
1. Aumentou
2. Diminuiu
3. Continua o mesmo
1. muito democrática
2. razoavelmente democrática
3. pouco democrática
4. nada democrática
3.A. Interesse pelo assunto por bateria: Classificar o grau de interesse do entrevistado
em uma escala de 0 a 10, sendo 0 Nenhum interesse e 10 muito interessado:
BATERIA GRAU DE
INTERESSE
105
B1. INTRODUÇÃO
B2. QUALIDADE DE VIDA/CAPITAL SOCIAL
B3. POLÍCIA E CRIME
B4. PARTCIPAÇÃO E ASSOCIATIVISMO
B5. VALORES
B6. RELIGIÃO
B7. RAÇA E COR
B8. TRABALHO
B9. ESTRATIFICAÇÃO
_______________________________________________________________________________
_____________________________________________________________________________
______________________________________________________________________________
______________________________________________________________________________
______________________________________________________________________________
______________________________________________________________________________
______________________________________________________________________________
4. OUTROS COMENTÁRIOS
______________________________________________________________________________
______________________________________________________________________________
______________________________________________________________________________
______________________________________________________________________________
______________________________________________________________________________
CADERNO DO ENTREVISTADO
106
Página 01
Página 02
Muita atenção
Pouca atenção
Nenhuma atenção
Página 03
Discorda muito
Discorda
Não discorda nem concorda
Concorda
Concorda muito
Página 04
Sim, venderia o voto com certeza
Sim, poderia vender o voto em caso de emergência
Não venderia o voto nunca
Página 05
Sentiria muito medo
Sentiria pouco medo
Talvez sentisse medo
Não sentiria medo
Página 06
Concorda muito
Concorda pouco
Discorda pouco
Discorda muito.
107
BABBIE, Earl (2005). Métodos de Pesquisas de Survey. Belo Horizonte – MG: Editora
UFMG.
BARBETTA, Pedro Alberto (2003). Estatística Aplicada às Ciências Sociais (5ª edição
revisada). Editora da UFSC. Florianópolis (SC).
BUNCHAFT, Guenia & KELLNER, Sheilah Ribno de Oliveira (1999). Estatística Sem
Mistérios (2ª edição corrigida) vol. I, II, III e IV. Editora Vozes. Petrópolis (RJ).
FONSECA, Jairo Simon, MARTINS, Gilberto de Andrade & TOLEDO, Geraldo Luciano
(1995). Estatística Aplicada. Editora Atlas. São Paulo (SP).
TRIOLA, Mario F. (1999). Introdução à Estatística (7ª edição). Editora LTC. Rio de
Janeiro (RJ).