You are on page 1of 15

Captulo V Bondad de Ajuste-Prueba Chi-Cuadrado Tablas de Contingencia con dos criterios de clasicacin.

Anlisis de varianza: comparacin de ms de dos medias


Mara Margarita Olivares M. Junio 2004

0.1
0.1.1

Prueba Chi-cuadrado: Bondad de Ajuste


Introduccin:

Hasta ahora todas las situaciones que hemos examinado han tenido como suposicin bsica que los datos que se tienen provienen de una distribucin dada que depende de uno o varios parmetros desconocidos los cuales se pueden estimar por medio de un nmero, un intervalo de conanza o hacer pruebas de hiptesis referente a ellos. Si tenemos un conjunto de valores muestrales x1 , x2 , , xn , correpondiente a una muestra aleatoria simple X1 , X2 , , Xn y se desea saber si hay motivos razonables para considerar la distribucin de esta muestra, como una distribucin de probabilidad dada, es importante tener criterios para decidir si efectivamente es razonable suponer, basndose en los resultados experimentales, acerca de la veracidad de la hiptesis formulada. A partir de las observaciones podemos trazar una curva de frecuencias acumuladas ( o un histograma ) y compararla con la funcin de distribucin de la hiptesis ( o funcin de probabilidad o densidad, segn la variable sea discreta o continua) y obtener as una idea, al menos cualitativa de la coincidencia entre ambas distribuciones. Sin embargo, es necesario, para dar un veredicto preciso, introducir alguna medida cuantitativa del grado de desviacin que muestran los datos respecto a la distribucin hipottica. Si esta medida excede algn lmite adecuado jo debemos rechazar la hiptesis y viceversa. Tal medida de la desviacin se puede denir de diversas formas, nosotros estudiaremos una de ellas: la prueba Chi-Cuadrado introducida por K.Pearson. Las pruebas que tratan este tipo de problemas, se llaman pruebas de Bondad de Ajuste.

0.1.2

Caso Discreto:

Supongamos que X es discreta y se realizan n observaciones del experimento en investigacin. Sea 1 , 2 , , k con (k n), el nmero de observaciones distintas de la variable X , f1 , f2 , , fk son las frecuencias correspondientes, es decir, fi es el nmero de observaciones iguales a i . (Eventualmente fi = 0 para algn i).

Sea pi = P (X = i ) , i = 1, 2, , k;

la distribucin hipottica, la cual suponemos totalmente especicada, es decir, en su expresin no aparecen parmetros desconocidos. Sea fi n el estimador de mxima verosimilitud de pi , f1 + f2 + , fk = n. Observaciones: a) Si n est jo, fi es el nmero de veces que aparece i en n repeticiones del experimento y pi representa la probabilidad de obtener i , luego, fi tiene distribucin binomial de parmetros (n, pi ), donde E (fi ) = npi . La diferencia fi npi mide la desviacin entre las frecuencias observadas y las frecuencias esperadas. K. Pearson demostr que si tomamos X2 =
k X (fi npi )2 i=1

k X i=1

pi = 1

npi

k k X f2 X i n (si pi = 1) npi i=1 i=1

obtenemos una medida de la desviacin cuyas propiedades son particularmente sencillas: Se puede demostrar que si n , (npi 5), el estadstico X = bajo la hiptesis que pi = P (X = i ) , i = 1, 2, , k es la verdadera distribucin (sin parmetros desconocidos) tiene distribucin Chi-Cuadrado con k 1 grados de libertad. 2
2 k X (fi npi )2 i=1

npi

(Para una demostracin ver : Mtodos Matemticos de Estadstica, de Harald Cramer, Cap.XXX, 30.1.; un esbozp de la demostracin en Mathematical Statistics, an introducction, Wiebe R. Pestman; una demostracin rigurosa en Wilks,S.S.Mthematical Statistics, Jhon Wiley & Sons, Inc., New York 1962) b) Si los valores pi = P (X = i ) , i = 1, 2, , k fueron obtenidos estimando r parmetros desconocidos de la distribucin hipottica P, la expresin k X (fi npi )2 2 X = npi i=1

cuando n (npi 5) tiene distribucin Chi-Cuadrado con k 1r grados de libertad. (Mtodos Matemticos de Estadstica, de Harald Cramer, Cap.XXX, 30.3).

Toma de Decisin: Nosotros queremos que fi est cercano a npi , es decir, que el valor observado
2 Xobs

k X (fi npi )2 i=1

npi

que representa la probabilidad de rechazar la hiptesis nula, siendo cierta probabilidad de cometer un error de primera especie. 2 Si Xobs > x2 ,k1r rechazamos la hiptesis nula. Ejemplo: Despus de lanzar un dado 300 veces, se han obtenido las siguientes frecuencias: cara 1 2 3 4 5 6 frecuencias 43 49 56 45 66 41 al nivel = 0.05, se puede decir que el dado est bien construido?. 3

est cercano a cero, procedemos jando el nivel de signicacin de la prueba, hallamos x2 ,k1r a partir de P X 2 > x2 ,k1r =

1. Si el dado est bien construido debe suceder que H0 : 1 = P (X = i) , i = 1, 2, , 6 6


1 6

En este caso, E (fi ) = npi = 300 Evaluamos


2 Xobs

= 50.

La distribucin del estadstico es Chi-Cuadrado con k 1 = 5 grados de libertad. Al buscar en la tabla hallamos que
2 X5;0.05 = 11.07 2 por lo tanto al nivel de 5% aceptamos H0 pues X 2 < X5;0.05 y concluimos que el dado est bien construido. 2 Para hallar el p valor debemos calcular P (X5 > 8.96) es algo mayor a 0, 10.

k X (fi 50)2 i=1

50

= 8.96

0.1.3

Caso Continuo:

Esta es una simple generalizacin del caso discreto. Se procede de la siguiente manera: sean x1 , , xn n observaciones de la variable aleatoria X, las cuales tabulamos en una tabla de frecuencias, si k es el nmero de intervalos de clase, Ii , es el i esimo intervalo tal que:
k X i=1

P (Ii ) = 1,

fi el nmero de observaciones que caen en Ii , denotando por pi = P (Ii ) la probabilidad terica, el estadstico de prueba ser: X =
2 k X (fi npi )2 i=1

npi

si n (npi 5), su distribucin es Chi-Cuadrado con k 1 r grados de libertad, donde r es el nmero de parmetros estimados en la distribucin terica. Si no hay parmetros estimados, en este caso, r = 0, la distribucin del estadstico ser X 2 con k 1 grados de libertad. 4

Ejemplos: 1. Un generador de nmeros aleatorios produjo n = 100 nmeros, los cuales aparecen tabulados en la siguiente tabla: Clases 0.0 0.099 Frecuencias 7 0.5 Clases 0.599 Frecuencias 13 0.1 0.2 0.199 0.299 14 8 0. 0.75 0.699 0.799 17 4 0.3 0.4 0.399 0.499 16 6 0.85 0.9 0.8599 0.999 10 5

Queremos probar al nivel de conanza 99%( = 0.01) la hiptesis que dichos nmeros provienen de una distribucin uniforme en [0, 1] . La longitud de cada intervalo de clase Ii es |Ii | = 0.099 ' 0.1 = pi = P (Ii ) si P es uniforme en [0, 1] ; n = 100, npi = 10 5, i = 1, 2, , 10, X =
2 k X (fi npi )2 i=1

npi

2 ; Xobs = 20

tiene aproximadamente distribucin Chi-Cuadrado con nueve grados de libertad, en la tabla hallamos que
2 X9;0.01 = 21, 666;

luego, al nivel de conanza de 99% aceptamos la hiptesis. Si = 0.05 se rechaza la hiptesis nula pues
2 X9;0.05 = 16, 916;

el p valor est entre esos dos niveles de signicacin, por lo que se rechaza la hiptesis nula. 2. Los resultados del peso en gramos de 570 nios nacidos en un cierto

hospital estn tabulados en la siguiente tabla: Clases Fracuencias Clases Fracuencias Clases Fracuencias Clases Fracuencias (0, 2400) (2401, 2600) (2601, 2800) (2801, 3000) 10 13 19 60 (3001, 3200) (3201, 3400) (3401, 3600) (3601, 3800) 61 72 92 80 (3801, 4000) (4001, 4200) (4201, 4400) 66 48 21 (4401, 4600) (4601, 4800) 4801 9 15 4

Queremos probar el ajuste de estos datos a una distribucin normal por medios de una prueba Chi-Cuadrado al 95% y 99% de conanza.
2 Estimamos = X = 3540; 2 = S1 = 283, 240, (la primera y la ltima clase estn abiertas, arbitariamente hemos tomado en ellas como marcas de clase los valores 1900 y 5100 gramos). Si suponemos = 3540; 2 = 283, 240, calculamos _

pi = P (Ii ) obtendremos: X =
2 k X (fi 570pi )2 i=1 2 ; Xobs = 24, 283.

570pi

Puesto que hemos estimado dos parmetros, la distribucin de nuestro estadstico de prueba es asintticamente Chi-Cuadrado con 11 grados de libertad, obteniendo
2 2 X11;0.05 = 19, 675; X11;0.01 = 24, 725

as el p-valor est entre esos dos niveles por lo que rechazamos la hiptesis nula.

0.1.4

Tablas de Contingencia con dos criterios de clasicacin:

Un problema frecuente en el anlisis de datos enumerativos es el de la independencia de dos mtodos de clasicacin de los sucesos observados. Por 6

ejemplo, clasicamos los defectos de los muebles producidos en una planta de fabricacin, primero, de acuerdo al tipo de defecto y segundo, de acuerdo al turno de produccin. Lo que deseamos investigar es una posible dependencia entre las dos clasicaciones. Varan las proporciones de los diversos tipos de defectos de un turno a otro?. Por ejemplo, se observa un total de n = 309 muebles con defectos y se clasican en cuatro tipos de defectos : A, B, C, D. Al mismo tiempo, cada mueble se identica de acuerdo al turno de produccin en el que es fabricado. Tabla de Contingencia Turnos Defecto A Defecto B Defecto C Defecto D Total 1 15(22.51) 21(20.99) 45(38.94) 13(11.56) 94 2 26(22.99) 31(21.44) 34(39.77) 5(11.81) 96 3 33(28.50) 17(26.57) 49(49.29) 20(14.63) 119 Total 74 69 128 38 309 Denotamos por pA la probabilidad de que el defecto sea del tipo A, anlogamente para pB , pC , pD ; estas probabilidades las llamaremos probabilidades de las columnas de la tabla y se satisface: pA + pB + pC + pD = 1 Anlogamente pi , i = 1, 2, 3 es la probabilidad de que ocurra un defecto en el turno i (probabilidad de la la i) donde: p1 + p2 + p3 = 1. Si las clasicaciones son independientes, entonces la probabilidad correspondiente a una celda debe ser el producto de las probabilidades de la la y de la columna correspondiente a dicha celda. Por ejemplo, la probabilidad de que un defecto particular ocurra en el turno 1 y sea del tipo A debe ser p1 pA . La hiptesis nula se reere a la independencia de las dos clasicaciones. No se especican los valores numricos de las probabilidades de las celdas. Por lo tanto, debemos estimar las probabilidades de las las y de las columnas para poder estimar las frecuencias de celdas esperadas. Los estimadores de mxima verosimilitud de las probabilidades correspondientes a las columnas, son: 74 69 1 2 pA = cn = 309 pB = cn = 309 38 3 4 pC = cn = 128 pD = cn = 309 309 7

donde ci , i = 1, 2, 3, 4 es la frecuencia observada de la columna i. Similarmente, 94 96 p1 = r1 = 309 p2 = r2 = 309 p3 = r3 = 119 n n n 309 son los estimadores de las probabilidades correspondientes a las las, ri , i = 1, 2, 3 es la frecuencia observada de la la i. Si ni,j es la frecuencia observada de la celda que se encuentra en la la i y la columna j de la tabla de contingencia, entonces, la estimacin del valor esperado de nij es en particular para n11 E(n11 ) = np1 pA = n en general, ri cj , i = 1, 2, 3; j = 1, 2, 3, 4. n En nuestro ejemplo, hemos colocado los clculos de las frecuencias esperadas entre parntesis, en la tabla de contingencia. El estadstico de prueba, en general, es E(nij ) =

r1 c1 r1 c1 = , n n n

E(nij ) donde c es el nmero de columnas y r es el nmero de las.


j=1 i=1

X =

c r X X nij E(nij )

2 X(c1)(r1) ,

y debemos restar el nmero total de estimaciones, es decir, por cada estimacin, (r 1) en total por las las, ya que la r esima queda determinada por las primeras (r 1), anlogamente, por cada estimacin, (c 1) en total por las columnas, se obtiene el nmero de grados de libertad del estimador: rc 1 (r 1) (c 1) = (r 1)(c 1). En nuestro ejemplo 2 3 4 X X nij E(nij )
j=1 i=1

Observacin: El nmero de grados de libertad debera ser rc menos 1 por la restriccin r c XX nij = n,
j=1 i=1

X2 =

E(nij )

2 X6

el valor observado del estimador es


2 Xobs = 19.18

donde

A un nivel = 0, 05 la regin de rechazo viene dadad por 2 X0.05;6 , 2 2 P X6 > X0.05;6 = 0, 05

valindonos de la tabla se obtiene un p-valor menor que 0.005, mucho menor que 0, 05.

2 2 Utilizando la tabla se obtiene que X0.05;6 = 12, 60 como Xobs = 19.18 cae en la regin de rechazo se rechaza la hiptesis nula, es decir, se concluye que no hay independencia entre el turno y el tipo de defecto. El p valor se calcula hallando 2 P X6 > 19, 18

0.1.5

Anova

Anlisis de Varianza: Para introducir el mtodo de Anlisis de Varianza (ANOVA) vamos a estudiar un ejemplo sencillo: Supongamos que el nmero de horas de sueo de los miembros de una familia est dada por: Adultos 8.4 7.7 7.9 Nios 9.8 9.9 10.3 Queremos constatar si la variacin (diferencia entre las medias), es debida a la edad no es signicativa esa diferencia. y1 = _ y2 =
_ 8.4+7.7+7.9 = 8(media del grupo i = 1 3 9.8+9.9+10.3 = 10(media del grupo i = 3

de adultos) 2 de nios)

Si yij es la observacin nmero j del grupo i : yij = yi + (yij yi )


_ _

Hagamos una tabla que compare cada resultado con la media de su grupo: j=1 j=2 j=3 Adultos (i = 1) 8 + 0.4 8 0.3 8 0.1 Nios (i = 2) 10 0.2 10 0.1 10 + 0.3 Observe que tenemos dos grupos, cada uno con medias diferentes.La media de toda la muestra (uniendo los dos grupos) es:
_

y =

yij

8.4 + 7.7 + 7.9 + 9.8 + 9.9 + 10.3 =9 6 _ _ _ _ = y + (yi y) + (yij yi )

Hagamos una tabla que muestre la variacin de la media de cada grupo con la media general: j=1 j=2 j=3 Adultos (i = 1) 9 1 + 0.4 9 1 0.3 9 1 0.1 Nios (i = 2) 9 + 1 0.2 9 + 1 0.1 9 + 1 + 0.3 donde y es la media general y) compara la media de cada grupo con la media general _ (yij yi ) variacin de cada individuo respecto a la media de su grupo
_ (yi _ _

sumamos i = 1, 2 (nmero de grupos), j = 1, 2, 3 (observaciones en cada grupo):


3 3 3 2 2 2 XX XX _ _ XX _ 2 _ 2 (yij y) = (yi y) + (yij yi )2 i=1 j=1 i=1 j=1 i=1 j=1 2 3 XX _ _ _ (yi y)(yij yi ) = 0. i=1 j=1 _

porque

2 ya que
3 P _

j=1

(yij yi ) = 3yi 3yi = 0.

Esta descomposicin es la idea bsica del ANOVA, (Anlisis de Varianza en ingls), si N = n1 + n2 , ni es el nmero de observaciones del grupo i
2 S2
i _ 1 XX = (yij yi )2 N 2 i=1 j=1

10

es un estimador puntual de la varianza 2 de la muestra Yij ( se supone que todas las variables tienen la misma varianza). Es fcil ver que
ni 2 2 XX _ _ X _ _ 2 (yi y) = ni (yi y)2 . i=1 j=1 i=1

En general: si (Yij ) , i = 1, 2, , k; j = 1, 2, , ni ; (k es el nmero de poblaciones o grupos), Yij N(mi , 2 ) :


_

Yi
2 Sk

ni 1 X = Yij estima mi ni j=1 k n

i _ 1 XX = (Yij Yi )2 es un estimador de 2 , N = n1 + n2 + , nk . N k i=1 j=1

Se quiere hacer la siguiente prueba de hiptesis: H0 : m1 = m2 = = mk Bajo la hiptesis nula 1 X _ _ 2 S = ni (yi y) k 1 i=1
2 k

H1 : existen al menos dos medias diferentes

estima 2 y F =

S2
2 Sk

Fk1,.Nk

Una discrepancia con la hiptesis nula queda indicada por un valor grande de F, ya que el numerador (variabilidad de la media de cada grupo con la media general), cuando la hiptesis nula es falsa, ser en promedio ms grande que el denominador (variabilidad dentro de cada grupo) por lo que la regin de rechazo para un dado ser: [F > fk1,Nk, ] donde P ([F > fk1,Nk, ]) = . 11

2 En nuestro ejemplo, k = 2, n1 = n2 = 3, N = 6, S 2 = 6, S2 = 0.1, F = 60, si = 0.01, f1,4, = 21.20 por lo que se rechaza la hiptesis a este nivel. El p valor es 0.015 el cual representa

P ([F > 60]) Observe que en nuestro ejemplo slo hay dos grupos, este contraste es identco al de la rpuba T- de student hecha para comparar dos medias, se puede demostrar que el cociente
S2
2 S2

el cuadrado del estadstico T, n1 + n2 2 grados

de libertad. El mtodo que hemos expuesto, se denomina, Anlisis de varianza con un slo factor o clasicacin simple. Fue inventado por Fisher (1925) con el objetivo de descomponer la variabilidad de un experimento (variabilidad total) en componentes independientes que puedan asignarse a diferentes causas. Por ejemplo, si queremos comparar el rendimineto de k mquinas medido por su produccin diaria. Existen diversos factores que pueden inuir en la produccin diaria de cada mquina ( aunque trabajen en condiciones idnticas), por ejemplo, pureza de la materia prima, desajustes aleatorios de la mquina, temperatura de funcionamiento, habilidad del operario, etc. Si medimos durante ni das la produccin diaria de la mquina i
k X i=1

ni = N es el total de datos

Si yij es la produccin diaria de la mquina i en el da j, el objetivo del anlisis es 1. comprobar si todas las mquinas son idnticas respecto a la produccin media diaria 2. Si las mquinas no tienen la misma produccin media, estimar la produccin media de cada una. El anlisis de varianza formula esta situacin mediante un modelo matemtico, nosotros tratamos slo el modelo con un solo factor. La motivacin es la siguiente: comparacin de medias de poblaciones normales. Hemos estudiado el problema de comparar dos medias de poblaciones normales, cuando hay igual varianza e independencia de las dos muestras, usando una prueba T de Student, ya sea construyendo un intervalo 12

de conanza o haciendo una prueba de hiptesis. Mediante el anlisis de varianza se generaliza este problema a la comparacin de medias de k poblaciones a partir de muestras independientes de tamaos n1 , , nk . Se trata de hallar una prueba para H0 : 1 = 2 = = k H1 : i 6= j para algn i 6= j donde Yij tiene distribucin N(i , 2 ); i = 1, 2, , k; j = 1, 2, , ni . El inconveniente de hacer esta prueba dos a dos es que el error de primera especie se incremente por cada prueba. Fisher desarroll este mtodo para comparar ms de dos medias, comparando la variabilidad interna de los grupos con la variabilidad entre grupos. Bajo hiptesis nula, Yij es normal N(, 2 ), se tiene la siguiente descomposicin de la variabilidad total
ni ni ni k k k XX XX _ _ XX _ 2 _ 2 (yij y) = (yi y) + (yij yi )2 i=1 j=1 _ i=1 j=1 _ i=1 j=1

donde,

i=1 j=1

hiptesis nula y suponiendo igualdad de varianzas es F = donde


2 Sk

k ni PP

(yi y)2 =

i=1

k P

ni (yi y)2 , el estadstico de prueba bajo la


S2
2 Sk

Fk1,.Nk
k n

representa la variabilidad interna de los grupos y S2 =


k

i _ 1 XX = (yij yi )2 N k i=1 j=1

1 X _ _ 2 ni (yi y) k 1 i=1

la variabilidad entre grupos. Valores grandes de F indican que la hiptesis nula no es verdadera. 13

Observaciones: Los resultados del contraste F en la prueba ANOVA son sustancialmente vlidos aunque los datos no sean normales, en ese sentido se dice que es una tcnica robusta frente a desviaciones de la normalidad. El efecto de desigualdad de las varianzas en los grupos sobre el contraste F y los contrastes de medias dependen de que el nmero de observaciones en cada grupo sea igual o muy distinto. Si todos los grupos tienen el mismo nmero de observaciones, el contraste F es igualmente exacto aunque las varianzas sean distintas. Es decir, podemos despreocuparnos de las varianzas a efectos de contrastes de medias, siempre que haya aproximadamente el mismo nmero de observaciones por grupo, en caso contrario, diferencias entre las varianzas pueden ser graves.

14

You might also like