You are on page 1of 5

El estadstico Chi-cuadrado

Una medida muy extendida para medir la dependencia e independencia, es el estadstico Chicuadrado, que da una medida de la diferencia entre las frecuencias observadas en la tabla y
las frecuencias esperadas en caso de independencia. Recordamos el clculo de dichas
frecuencias esperadas eij:

fi . f . j

eij

Con el estadstico Chi-cuadrado se obtiene una medida de diferencia entre las frecuencias
esperadas y las frecuencias observadas. El estadstico se calcula en la forma siguiente:

( f ij eij ) 2

2
exp

i

eij

Observamos las siguientes propiedades de este estadstico:


Si todas las frecuencias observadas son iguales a la correspondiente frecuencia esperada,
2
f i , j ei , j entonces exp

( f ij eij ) 2
eij

( f ij f ij ) 2

eij

0.

Esto ocurre slo cuando las dos variables de la tabla son independientes; Por tanto, si hay
2
independencia entre las dos variables de la tabla, exp 0

Cuanto mayor sea la diferencia entre las frecuencias observadas y esperadas en la tabla, el
valor de Chi cuadrado ser mayor. Es decir, a mayor intensidad de la asociacin entre las
variables, Chi-cuadrado ser mayor.
El valor de Chi-cuadrado siempre es positivo o cero (pues es suma de nmeros positivos, ya
que los denominadores de la suma son todos positivos al ser suma de nmeros elevados al
cuadrado.
En general, a mayor nmero de sumandos, se obtendr un valor mayor.

Los grados de libertad de un estadstico calculado sobre un conjunto datos se refieren al


nmero de cantidades independientes que se necesitan en su clculo, menos el nmero de
restricciones que ligan a las observaciones y el estadstico. El nmero de grados de libertad del
estadstico Chi-cuadrado se calcula de la siguiente forma:
Se calcula, en primer lugar el nmero de sumandos, es decir m x n, siendo n y m el
nmero de filas y nmero de columnas en la tabla.
A esta cantidad se debe restar el nmero de restricciones impuestas a las frecuencias
observadas. Observamos que podemos cambiar todas las frecuencias de la tabla sin
cambiar los totales por filas y columnas, excepto los datos en la ltima fila y la ltima
columna de la tabla, pues una vez que fijemos todos los valores excepto estos, quedan
automticamente fijados. Por tanto, si la tabla tiene m filas y n columnas, el nmero de
grados de libertad es (m-1) x (n-1). Expresamos esta dependencia en la siguiente forma:

2
exp

( f ij eij ) 2
eij

(2n 1)( m 1)

Ejemplo: Supervivencia en el Titanic


El 10 de abril de 1912, el Titanic zarpaba con 1317 pasajeros a bordo, ante la admiracin de
una muchedumbre de curiosos que contemplaban atnitos como aquella mole de acero se
alejaba majestuosamente del puerto. Cinco das despus los medios de comunicacin de todo
el mundo se hicieron eco de la increble noticia: el barco ms grande jams construido yaca a
casi cuatro mil metros de profundidad. La tabla 3.1 muestra la distribucin de pasajeros, segn
supervivencia y clase social
Tabla 1. Distribucin de pasajeros en el Titanic segn supervivencia y clase social
Sobrevi
No
Tota
ve
sobrevive
l
Primera
322
194
128
clase
Segunda
280
119
161
clase
Tercera
711
138
573
clase
Total
451
862
131
3

Calculemos en el ejemplo las frecuencias esperadas en caso de independencia. Observamos


que, una vez calculados los datos de la primera columna, los de la segunda se deducen
automticamente (es decir no son libres). Lo mismo ocurre con la ltima fila, una vez
calculadas las dos primeras, queda automticamente fijada. Por tanto los grados de libertad
son (3-1)x(2-1)=2=k (denotamos como k. los grados de libertad)

e1,1

f1. f .1 322 451

110,6
n
1313

En la tabla 2 mostramos las frecuencias esperadas en caso de independencia. Observamos que


los grados de libertad son slo 2, pues una vez calculadas una frecuencia esperada en la
primera fila y otra en la segunda, las dems se deducen automticamente, si no queremos
variar los totales de filas y columnas.
Tabla 2. Frecuencias esperadas en el Titanic segn supervivencia y clase social
Sobrevi
No
Tota
ve
sobrevive
l
Primera
322
110,6
211,4
clase
Segunda
280
clase
96,2
183,8
Tercera
711
clase
244,2
466,8
Total
451
862
131
3
Observamos, al comparar las tablas 1 y 2 que en primer clase hay mayor frecuencia observada
que la esperada de supervivencia si no hubiese relacin entre supervivencia y clase social.
Mientras en segunda clase hay unos pocos ms de lo esperado y en tercera casi la mitad de lo
esperado. El salvamento no fue entonces equitativo! A continuacin llevamos a cabo los
clculos del estadstico Chi- cuadrado:
Tabla 3. Clculo de Chi cuadrado
Sobrevive
No sobrevive
2
Primera clase
(194 110,6)
(128 211,4) 2
62,9
32,9
211,4
110,6
Segunda clase
(119 96,2) 2
(181 183,8) 2
5,4
2,8
96,2
183,8
Tercera clase
(138 244,2) 2
(573 466,8) 2
46,2
24,2
244,2
466,8
2
exp

i

( f ij eij ) 2
eij

= 62,9+32,9+5,4+2,8+46,2+24,2 = 174,4

Los grados de libertad, en este caso son k= (3-1)x(2-1) = 2.


En la figura 1 mostramos la forma que toma el estadstico Chi-cuadrado, en caso de variables
independientes, para diverso nmero de grados de libertad. Como hemos indicado, a mayor
nmero de grados de libertad el valor ser mayor. As, para 4 grados de libertad la moda (valor
ms probable) se sita cerca del valor 5, mientras que para 32 grados de libertad se sita
cerca de 39.
El valor obtenido 174,4 es muy poco probable en caso de independencia, pues observamos que
para 2 grados de libertad los valores mayores que 10 apenas aparece. De hecho la
probabilidad de obtener un valor mayor que 10,6 es slo 0,005. Deducimos que el salvamento
de los viajeros en el Titanic no fue independiente de su clase social.
Figura 1. Forma del estadstico Chi-cuadrado

Probabilidad de un valor
superior - Alfa ()
Grados
libertad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

0,1
2,71
4,61
6,25
7,78
9,24
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26

0,05 0,025 0,01 0,005


3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77

5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98

6,63
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89

7,88
10,60
12,84
14,86
16,75
18,55
20,28
21,95
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67

Contraste de independencia
En el ejemplo hemos llevado a cabo un contraste de independencia Chi-cuadrado, que nos
permite determinar si existe una relacin entre dos variables categricas.
Recordars que un contraste de hiptesis es un procedimiento estadstico, con una serie de
pasos que lleva a la aceptacin o rechazo de una hiptesis estadstica. Los pasos a realizar en
un contraste de hiptesis son los siguientes:
1. Fijar las hiptesis que se quieren contrastar: La hiptesis nula H 0 y la hiptesis alternativa
H1. Estas hiptesis son complementarias una de otra.
2. Fijar el nivel de significacin, o probabilidad mxima de rechazar la hiptesis nula H 0, en
caso de que sea cierta. Recordemos que el nivel de significacin es la probabilidad de
Error Tipo I (probabilidad de rechazar la hiptesis nula, cuando de hecho es cierta).

3. Elegir un estadstico de contraste, que tenga alguna relacin con la hiptesis. Formacin a
partir del estadstico de una regla de decisin, dividiendo los posibles valores del
estadstico en dos regiones: (a) Si el estadstico cae en la regin crtica (o de rechazo), se
rechaza la hiptesis nula; (b) si el estadstico cae en la regin de aceptacin, no se puede
rechazar la hiptesis nula.
4. Se comprueba el valor del estadstico y se toma la decisin de rechazar o no la hiptesis.
En el contraste de independencia, se desea decidir si las dos variables en una tabla de
contingencia estn o no asociadas. Siguiendo los pasos anteriores, se tendra
1. Fijar las hiptesis que se quieren contrastar. Estas hiptesis son las siguientes:
H0: Las variables en filas y columnas de la tabla son independientes
H1: Hay asociacin entre las filas y columnas de la tabla
2. Fijamos el nivel de significacin; lo ms usual es elegir un valor =0,05. Esto quiere decir
que la probabilidad mxima que fijamos para el error tipo I (rechazar la hiptesis de
independencia cuando sea falsa) es 0,05.
3. Elegir un estadstico de contraste, que tenga alguna relacin con la hiptesis. En este caso,
elegimos el estadstico Chi cuadrado,

2
exp

i

( f ij eij ) 2

eij

(2n 1)( m1) , que tiene

relacin con la hiptesis nula, pues se basa en la comparacin de frecuencias observadas y


frecuencias esperadas en caso de independencia. Si la hiptesis nula H0 es cierta (hay
independencia entre filas y columnas) es de esperar un valor del Chi cuadrado ser
pequeo y si, por el contrario es falsa, ser grande. Formaremos una regla decisin,
dividiendo los posibles valores de Chi- cuadrado en dos regiones:
2
Si el valor calculado exp tiene una probabilidad menor que (nivel de significacin)
rechazamos la hiptesis nula H0 (hay independencia entre filas y columnas), pues el
valor obtenido es improbable para una tabla con filas y columnas independientes. En
este caso, suponemos que las variables estn asociadas.
2
exp
Si el valor calculado
tiene una probabilidad igual o mayor que (nivel de
significacin) no podemos rechazar la hiptesis nula H0. En este caso no tomamos
ninguna decisin.
Nota: Observamos que el rechazo de la hiptesis nula tiene ms fuerza que su aceptacin,
pues nos basamos en una situacin muy poco probable: De ser cierta la independencia de las
variables es muy poco probable obtener un alto valor de Chi- cuadrado. Por tanto, si
obtenemos un alto valor de Chi-cuadrado, rechazamos que la hiptesis sea cierta.
Pero un valor pequeo de Chi cuadrado puede ser debido a varias causas: Puede ser que las
variables sean independientes; puede ser que estn asociadas, pero la asociacin sea muy
pequea; o puede ser que el tamao de la muestra de datos sea pequeo y no permita ver la
asociacin. En este caso (cuando no podemos rechazar la hiptesis nula) tendramos que
estudiar mejor los datos para ver por qu se obtiene este valor pequeo de Chi- cuadrado.
Ejemplo: Deporte y bienestar
Un investigador quiere estudiar si hay asociacin entre la prctica deportiva y la sensacin de
bienestar. Extrae una muestra aleatoria de 100 sujetos. Los datos aparecen a continuacin.
Sensacin
Prctica
Tota
de
deportiva
l
Bienestar
S
no
S
20
25
45
No
10
45
55
Total
30
70
100
Contraste la hiptesis de independencia entre bienestar y prctica de deporte (alfa = 0,01).
Primero calculamos las frecuencias esperadas en caso de independencia: eij
Tabla 4. Frecuencias esperadas
Sensacin
Prctica
de
deportiva
Bienestar
S
No
S
13,5
31,5

fi . f . j
n

No

16,5

38,5

Posteriormente calculamos el estadstico Chi-cuadrado:

2
exp

( f ij eij ) 2
eij

= 3,1296 + 2,5606 + 1,3413 + 1,0974 = 8,13

Los grados de libertad son: (n-1) x (m-1) = 1 x 1 = 1; Mirando en la tabla Chi-cuadrado


obtenemos que la probabilidad de obtener un valor 8,13 o mayor con 1 grado de libertad es p
= 0,004. Por tanto el valor es estadsticamente significativo, pues es menor que 0,01.
La decisin que se debe tomar es rechazar la hiptesis de independencia entre bienestar y
prctica deportiva.
3.1. Interpretacin y clculo del p valor
El p-valor se puede interpretar de dos maneras diferentes:
La probabilidad de rechazar la hiptesis nula cuando en verdad es cierta.
La probabilidad de obtener un valor del estadstico igual o mayor al dado, cuando la
hiptesis nula es cierta.
Esto significa en el caso de un contraste de independencia:
Un valor cercano a p=0, indicara un valor muy improbable de Chi-cuadrado si la
hiptesis nula es cierta; por tanto llevara a rechazar la hiptesis de independencia
Un valor cercano a p=1, indicara un valor muy probable de Chi-cuadrado si la hiptesis
nula es cierta; por tanto no rechazaramos la hiptesis de independencia
Clculo del p valor:
Primero: los grados de libertad, gl= (filas-1) x (columnas-1).
Segundo: te sitas en esos grados de libertad en la tabla (fila).
Tercero: buscas el valor de Chi- cuadrado de tu caso en la fila del segundo paso.
Cuarto: cuando lo sites, el valor de p ser el que se indica en la parte superior de esa
columna.
Por ejemplo, en el caso de grados de libertad = 1 y el valor del test sea 7,88, p=0,005.
Nota: Cuanto ms alto es el valor de Chi cuadrado, ms bajo es p-valor
Condiciones de aplicacin de Chi- cuadrado
Observa que al estudiar el valor de Chi-cuadrado en la tabla de la distribucin, obtenemos
siempre un valor positivo. Es decir, siempre hacemos un contraste unilateral.
Si las frecuencias esperadas en las celdas son muy pequeas, puesto que en la frmula
2
exp

i

( f ij eij ) 2
eij

aparecen dividiendo, se obtendra un valor alto de Chi-cuadrado,

aunque las diferencias entre frecuencias observadas y esperadas fuese grande. Por eso, se
recomienda que se use una muestra de suficiente tamao. Estas son dos recomendaciones
importantes
- Como mximo el 20% de las frecuencias esperadas pueden ser menores que el valor 5.
- No debe usarse si hay frecuencias esperadas inferiores a 1.

You might also like