You are on page 1of 36

- Testes Qui-quadrado -

Aderncia e Independncia

1
1. Testes de Aderncia
Objetivo: Testar a adequabilidade de um modelo
probabilstico a um conjunto de dados observados.
Exemplo 1: Segundo Mendel (geneticista famoso), os resultados
dos cruzamentos de ervilhas amarelas redondas com ervilhas
verdes enrugadas ocorrem na proporo de 9:3:3:1, ou seja,
seguem uma distribuio de probabilidades dada por:
Resultado Amarela Amarela Verde Verde
redonda enrugada redonda enrugada

Probabilidade 9/16 3/16 3/16 1/16

Uma amostra de 556 ervilhas resultantes de cruzamentos de


ervilhas amarelas redondas com ervilhas verdes enrugadas foi
classificada da seguinte forma:
Resultado Amarela Amarela Verde Verde
redonda enrugada redonda enrugada
Frequncia
315 101 108 32 2
observada
H evidncias de que os resultados desse experimento
esto de acordo com a distribuio de probabilidades
proposta por Mendel?

4 categorias para os resultados dos cruzamentos:

Amarelas redondas (AR), Amarelas enrugadas (AE), Verdes


redondas (VR), Verdes enrugadas (VE).

Segundo Mendel, a probabilidade de cada categoria


dada por:

Probabilidades: AR AE VR VE
(de Mendel) 9/16 3/16 3/16 1/16

3
No experimento, 556 ervilhas foram classificadas segundo o
tipo de resultado, fornecendo a tabela a seguir:

Tipo de Frequncia
resultado observada
AR 315
AE 101
VR 108
VE 33
Total 556

Objetivo: Verificar se o modelo probabilstico proposto


adequado aos resultados do experimento.

4
Se o modelo probabilstico for adequado, a frequncia
esperada de ervilhas do tipo AR, dentre as 556 observadas,
pode ser calculada por:
556 x P(AR) = 556 x 9/16 = 312,75

Da mesma forma, temos para o tipo AE,

556 x P(AE) = 556 x 3/16 = 104,25

Para o tipo VR temos


556 x P(VR) = 556 x 3/16 = 104,25
E para o tipo VE,
556 x P(VE) = 556 x 1/16 = 34,75
5
Podemos expandir a tabela de frequncias dada anteriormente:

Tipo de Frequncia Frequncia esperada


resultado observada (por Mendel)
AR 315 312,75
AE 101 104,25
VR 108 104,25
VE 32 34,75
Total 556 556

Pergunta: Podemos afirmar que os valores observados


esto suficientemente prximos dos valores esperados,
de tal forma que o modelo probabilstico proposto por
Mendel adequado aos resultados desse experimento?

6
Testes de Aderncia Metodologia
Considere uma tabela de frequncias, com k 2 categorias de
resultados:
Frequncia
Categorias
Observada
1 O1
2 O2
3 O3

k Ok
Total n

em que Oi o total de indivduos observados na categoria i,


i = 1,...,k.

7
Seja pi a probabilidade associada categoria i, i = 1,..., k.
O objetivo do teste de aderncia testar as hipteses

H0 : p1 = po1 , .... , pk = pok


H1 : existe pelo menos uma diferena
sendo poi a probabilidade especificada para a categoria i,
i = 1, ..., k, fixada atravs do modelo probabilstico de
interesse.

Se Ei o total de indivduos esperados na categoria i,


quando a hiptese H0 verdadeira, ento:

Ei = n poi, i = 1, ...,k

8
Expandindo a tabela de frequncias original, temos

Frequncia Frequncia
Categorias
observada esperada, sob H
1 O1 E1
2 O2 E2
3 O3 E3

k Ok Ek
Total n n

Quantificao da distncia entre as colunas de frequncias:


k
( O E ) 2
2 i i

i 1 Ei 9
k
( O E ) 2
2 i i Estatstica do
Ei teste de aderncia
i 1

Supondo H verdadeira,
k
(O E )2
2 i i
~ q2 , aproximadamente,
i 1 Ei
sendo que q = k - 1 representa o nmero de graus de
liberdade.

Em outras palavras, se H0 verdadeira, a v.a. 2 tem


distribuio aproximada qui-quadrado com q graus de
liberdade.

IMPORTANTE.: Este resultado vlido para n grande e para


Ei 5, i = 1, ..., k. 10
Regra de deciso:
Pode ser baseada no nvel descritivo ou valor P, neste caso
P P ( q2 obs
2
),
2
em que obs o valor calculado, a partir dos dados, usando
a expresso apresentada para 2
.
Graficamente:

obs
2

Se, para a fixado, obtemos P a, rejeitamos a hiptese H0.


11

Exemplo (continuao): Cruzamentos de ervilhas
Hipteses:
H0 : O modelo probabilstico proposto por Mendel adequado.
H1 : O modelo proposto por Mendel no adequado.

De forma equivalente, podemos escrever:


H0: P(AR) =9/16; P(AE) = 3/16; P(VR) = 3/16; P(VE) = 1/16.
H1: ao menos uma das igualdades no se verifica.

A tabela seguinte apresenta os valores observados e


esperados (calculados anteriormente).

12
Resultado Oi Ei
AR 315 312,75
AE 101 104,25
VR 108 104,25
VE 32 34,75
Total 556 556
Clculo do valor da estatstica do teste (k = 4):
(Oi Ei ) 2 (315 312,75) 2 (101 104,25) 2 (108 104,25) 2 (32 34,75) 2
4

2
obs
1 Ei 312,75 104,25 104,25 34,75
0,016 0,101 0,135 0,218 0,470.
Usando a distribuio de qui-quadrado com q = k-1 = 3 graus de
liberdade, o nvel descritivo calculado por P P ( 32 0,470) 0,925.
Concluso: Para a = 0,05, como P = 0,925 > 0,05, no h
evidncias para rejeitarmos a hiptese H0, isto , ao nvel de
significncia de 5%, conclumos o modelo de probabilidades de
Mendel se aplica aos resultados do experimento.
13
O clculo do nvel descritivo P pode ser feito no Rcmdr,
via menu, atravs do seguinte caminho:

Distribuies Distribuies contnuas Distribuio Qui-


Quadrado Probabilidades da Qui-Quadrado Cauda Superior

Inserindo o valor 0,470 e o nmero de graus de


liberdade igual a 3, o valor P ser igual a 0,925431.

14
Exemplo 2: Deseja-se verificar se o nmero de acidentes em
uma estrada muda conforme o dia da semana. O nmero de
acidentes observado para cada dia de uma semana
escolhida aleatoriamente foram:

Dia da No. de
semana acidentes
Seg 20
Ter 10
Qua 10 O que pode ser dito?
Qui 15
Sex 30
Sab 20
Dom 35
15
Hipteses a serem testadas:

H0 : O nmero de acidentes no muda conforme o dia da semana;

H1 : Pelo menos um dos dias tem nmero diferente dos demais.

Se pi representa a probabilidade de ocorrncia de


acidentes no i-simo dia da semana,
H0 pi = 1/7 para todo i = 1,, 7
H1 : pi 1/7 para pelo menos um valor de i.

Total de acidentes na semana: n =140.


Logo, se H0 for verdadeira,
Ei = 140 x 1/7 = 20, i = 1,,7,
ou seja, esperamos 20 acidentes por dia.
16
Dia da No. de acidentes No. esperado de
semana observados (Oi ) acidentes (Ei )
Seg 20 20
Ter 10 20
Qua 10 20
Qui 15 20
Sex 30 20
Sab 20 20
Dom 35 20

Clculo da estatstica de qui-quadrado:


7
( O E ) 2
(20 20) 2
(10 20) 2
(10 20) 2
(15 20) 2
obs
2
i i

1 Ei 20 20 20 20
(30 20)2 (20 20)2 (35 20)2

20 20 20
0 5 5 1,25 5 0 11,25 27,50 17
Neste caso, temos ~ 6, aproximadamente.
2 2

O nvel descritivo dado por P P ( 62 27,50) 0,00012 ,


que pode ser obtido no Rcmdr pelo caminho (via menu):

Distribuies Distribuies contnuas Distribuio Qui-


Quadrado Probabilidades da Qui-Quadrado Cauda Superior
(inserindo o valor 27,50 e o nmero de graus de liberdade
igual a 6).

Concluso: Para a = 0,05, temos que P = 0,0001 < a.


Assim, h evidncias para rejeitarmos H0, ou seja,
conclumos ao nvel de significncia de 5% que o nmero de
acidentes no o mesmo em todos os dias da semana.

18
2. Testes de Independncia
Objetivo: Verificar se existe independncia entre duas variveis
medidas nas mesmas unidades experimentais.

Exemplo 3: A Associao de Imprensa do Estado de So Paulo


fez um levantamento com 1300 leitores, para verificar se a
preferncia por leitura de um determinado jornal independente
do nvel de instruo do indivduo. Os resultados obtidos foram:

Tipo de Jornal
Grau de instruo Jornal A Jornal B Jornal C Outros Total
1o Grau 10 8 5 27 50
2o Grau 90 162 125 73 450
Universitrio 200 250 220 130 800
Total 300 420 350 230 1300

19
Vamos calcular propores segundo os totais das colunas
(poderiam tambm ser calculadas pelos totais das linhas). Temos
a seguinte tabela:
Tipo de Jornal
Grau de
Jornal A Jornal B Jornal C Outros Total
instruo
1o Grau 3,33% 1,90% 1,43% 11,74% 3,85%
o
2 Grau 30,00% 38,57% 35,71% 31,74% 34,62%
Universitrio 66,67% 59,52% 62,86% 56,52% 61,54%
Total 100,00% 100,00% 100,00% 100,00% 100,00%

O que representam as porcentagens na colunas?


Distribuio de grau de instruo por tipo de jornal.
Independentemente da preferncia por um tipo de jornal:
3,85% dos leitores tm o 1 Grau,
34,62% tm o 2 Grau e
61,54% so universitrios. 20
Sob independncia entre grau de instruo e preferncia por um tipo
de jornal, o nmero esperado de leitores que tm:
1 Grau e preferem A igual a 300 x 0,0385=11,54 (= 300x50/1300),
2 Grau e preferem A 300 x 0,3462 = 103,85 (= 300x450/1300),
Universitrios e preferem A 300 x 0,6154 = 184,62 (= 300x800/1300).
Tipo de Jornal
Grau de
Jornal A Jornal B Jornal C Outros Total
instruo
10 11,54 8 16,15 5 13,46 27 8,85 50
1o Grau
(3,85% ) (3,85% ) (3,85% ) (3,85% ) (3,85%)
90 103,85 162 145,38 125 121,15 73 79,62 450
2o Grau
(34,62)% (34,62% ) (34,62% ) (34,62% ) (34,62%)
200 184,62 250 258,46 220 215,38 130 141,54 800
Universitrio
(61,54% ) (61,54% ) (61,54% ) (61,54% ) (61,54%)

Total 300 420 350 230 1300

As diferenas entre os valores observados e os esperados no


so muito pequenas. Preferncia por um tipo de jornal e grau de
instruo parecem no ser independentes.
21
Testes de Independncia Metodologia
Em geral, os dados referem-se a mensuraes de duas
caractersticas (A e B) feitas em n unidades experimentais, que
so apresentadas conforme a seguinte tabela:

A \ B B1 B2 ... Bs Total
A1 O11 O12 ... O1s O1.
A2 O21 O22 ... O2s O2.
... ... ... ... ... ...
Ar Or1 Or2 ... Ors Or.
Total O.1 O.2 ... O.s n

Hipteses a serem testadas Teste de independncia:


H0 : A e B so variveis independentes
H1: As variveis A e B no so independentes
22
Quantas observaes devemos esperar em cada casela, se
A e B forem independentes?
Oi. O. j
Eij
n

Distncia entre os valores observados e os valores esperados


sob a suposio de independncia:
s r
( O E ) 2

2
ij ij

i 1 j 1
Eij
Supondo H0 verdadeira,
r s (O E )2

2 ij ij
~ q2
i 1 j 1 Eij
aproximadamente, sendo q = (r 1)(s 1 ) o nmero de
graus de liberdade. 23
Regra de deciso:
Pode ser baseada no valor P (nvel descritivo), neste caso

P P( q2 obs
2
),
em que obs o valor calculado, a partir dos dados,
2

usando a expresso apresentada para 2


.

Graficamente:

obs
2

Se, para a fixado, obtemos P a, rejeitamos a hiptese H0 de


independncia. 24
Exemplo 3 (continuao): Estudo da independncia entre
preferncia por um tipo de jornal e grau de instruo. 1300 eleitores
foram entrevistados ao acaso.
Hipteses: H0 : As variveis preferncia por um tipo de jornal e grau
de instruo so independentes.
H1: Existe dependncia entre as variveis.
Tabela de valores observados
Tipo de Jornal
Grau de
Jornal A Jornal B Jornal C Outros Total
instruo
1o Grau 10 8 5 27 50
2o Grau 90 162 125 73 450
Universitrio 200 250 220 130 800
Total 300 420 350 230 1300
Exemplo do clculo dos valores esperados sob H0 (independncia):
Nmero esperado de leitores que tm 1 Grau e preferem o jornal A:
300 50
E11 11,54 . 25
1300
Tabela de valores observados e esperados (entre parnteses)
Tipo de Jornal
Grau de instruo Jornal A Jornal B Jornal C Outros Total
1o Grau 10 8 5 27
50
(11,54) (16,15) (13,46) (8,85)
o 90 162 125 73
2 Grau 450
(103,85) (145,38) (121,15) (79,62)
200 250 220 130
Universitrio 800
(184,62) (258,46) (215,38) (141,54)
Total 300 420 350 230 1300

2 Grau e prefere jornal B: Universitrio e prefere outros jornais:

420 450 230800


E22 145,38 E34 141,54
1300 1300
Lembre-se:
Oi. O.j
Eij
n.. 26
Clculo da estatstica de qui-quadrado:
Tipo de Jornal
Grau de
Jornal A Jornal B Jornal C Outros Total
instruo
1o Grau 10 8 5 27
50
(11,54) (16,15) (13,46) (8,85)
2o Grau 90 162 125 73
450
(103,85) (145,38) (121,15) (79,62)
200 250 220 130
Universitrio 800
(184,62) (258,46) (215,38) (141,54)
Total 300 420 350 230 1300
(10 11,54) 2 (8 16,15) 2 (5 13,46) 2 (27 8,85) 2
obs
2

11,54 16,15 13,46 8,85
(90 103,85) 2 (162 145,38) 2 (125 121,15) 2 (73 79,62) 2

103,85 145,38 121,15 79,62
(200 184,62) 2 (250 258,46) 2 (220 215,38) 2 (130 141,54) 2

184,62 258,46 215,38 141,54
0,21 4,12 5,32 37,25 1,85 1,90 0,12 0,55 1,28 0,28 0,10 0,94
53,91. 27
Determinao do nmero de graus de liberdade:

Categorias de Grau de instruo: s = 3


q = (r 1)(s 1)=32 = 6
Categorias de Tipo de jornal: r = 4

O nvel descritivo (valor P): P P ( 62 53,910) 0,0001


Supondo a 0,05, temos P < a .
Assim, temos evidncias para rejeitar a independncia entre as
variveis grau de instruo e preferncia por tipo de jornal ao nvel
de 5% de significncia, i., a preferncia por um jornal depende
do grau de instruo do leitor.
Os clculos podem ser feitos diretamente no Rcmdr:
Estatsticas Tabelas de Contingncia Digite e analise tabela de
dupla entrada
28
Sada do Rcmdr:
data: .Table
X-squared = 53.9099, df = 6, p-value = 7.692e-10

> .Test$expected # Expected Counts


1 2 3 4
1 11.53846 16.15385 13.46154 8.846154
2 103.84615 145.38462 121.15385 79.615385
3 184.61538 258.46154 215.38462 141.538462

> round(.Test$residuals^2, 2) # Chi-square Components


1 2 3 4
1 0.21 4.12 5.32 37.25
2 1.85 1.90 0.12 0.55
3 1.28 0.28 0.10 0.94

29
Exemplo 4: 1237 indivduos adultos classificados segundo a
presso sangunea (mm Hg) e o nvel de colesterol (mg/100cm3).

Verificar se existe independncia entre essas variveis.

Presso
Colesterol Total
< 127 127 a 166 > 166
< 200 117 168 22 307
200 a 260 204 418 63 685
> 260 67 145 33 245
Total 388 731 118 1237

Hipteses:
H0 : Presso sangunea e nvel de colesterol so independentes;
H1 : Nvel de colesterol e presso sangunea so variveis dependentes

30
Rcmdr: Estatsticas Tabelas de Contingncia Digite e analise tabela
de dupla entrada
Sada do Rcmdr: data: .Table
X-squared = 13.5501, df = 4, p-value = 0.008878

> .Test$expected # Expected Counts


1 2 3
1 96.29426 181.4204 29.28537
2 214.85853 404.7979 65.34357
3 76.84721 144.7817 23.37106

> round(.Test$residuals^2, 2) # Chi-square Components


1 2 3
1 4.45 0.99 1.81
2 0.55 0.43 0.08
3 1.26 0.00 3.97

Para = 0,05, temos P < . Assim, temos evidncias para rejeitar


a hiptese de independncia entre as variveis presso
sangunea e nvel de colesterol ao nvel de 5% de significncia.
31
Exemplo 5: Uma indstria, desejando melhorar o nvel de seus
funcionrios em cargos de chefia, montou 2 cursos experimentais de
ingls utilizando 2 metodologias distintas (MA, MB). Os dados
referentes ao conceito obtido no curso (A, B ou C) e metodologia
utilizada esto na tabela a seguir:
(a) Identifique as variveis em estudo. Classifique-as.
(b) Construa uma tabela de contingncia para as variveis
metodologia e conceito.
(c) Conclua se existe associao entre essas variveis (a = 10%).

32
Funcionrio Metodologia Conceito
Dados: 1
2
MA
MA
A
B
3 MB A
4 MB B
5 MA A
6 MA B
7 MA C
8 MB B
9 MB B
10 MA B
11 MB C
12 MB A
13 MB B
14 MB A
15 MB C
16 MA A
17 MA B
18 MB C
19 MA C
20 MB C
21 MB A
22 MA C
23 MB C
24 MA A
25 MA B
26 MB B
27 MA A
28 MB C
29 MA A
30 MA B
31 MA A
32 MA A
33 MB B
34 MB B
35 MA A
36 MA A
37 MA A
38 MB B
39 MB C 33
40 MB C
Rcmdr: Construo da tabela de contingncia (ou tabela de
frequencias conjuntas)

34
Sada do Rcmdr:
> .Table Metodologia
Conceito MA MB
A 11 4
B 6 8
C 3 8
> rowPercents(.Table) # Row Percentages
Metodologia
Conceito MA MB Total Count
A 73.3 26.7 100 15
B 42.9 57.1 100 14
C 27.3 72.7 100 11

X-squared = 5.8251, df = 2, p-value = 0.05434


> round(.Test$residuals^2, 2) # Chi-square Components
Metodologia
Conceito MA MB
A 1.63 1.63
B 0.14 0.14
C 1.14 1.14
Para = 0,05, temos P > . Assim, no temos evidncias para rejeitar a
hiptese de independncia entre as variveis metodologia e conceito 35
ao nvel de 5% de significncia.
36

You might also like