Professional Documents
Culture Documents
Tabla de contingencia
Las tablas de contingencia son tablas que ponen en relacin los datos de dos variables
distintas. A travs de un anlisis de tabla de contiengencia podremos saber como se relacionan
dos variables entre s. Es uno de los anlisis ms sencillos y a la vez ms utilizados en
investigacin social y de mercado.
1. Requisitos:
Dos variables categricas. Si la variable es mtrica o interval la tabla de contingencia no sera
el anlisis adecuado y habria que acudir a otro tipo de anlisis o recodificar la variable para
convertirla en nominal u ordinal. Al tomar esta decisin perderamos informacin en favor de la
claridad y sencillez que aporta un anlisis de tabla de contingencia.
3. Interpretacin
Segn nuestros datos, generados a partir de dos variables aleatorias, hay 500 personas, 267
hombres y 233 mujeres. 117 personas (un 23,4%) estn muy insatisfechas. De ellas, hay 63
hombres, es decir un 23,6% de los hombres, que estn muy insatisfechos, mayor porcentaje
que entre las mujeres con un 23,2%.
4. Estadsticos
A simple vista no parece que haya mucha diferencia entre la satisfaccin de hombres y
mujeres, por lo que parece que sexo y satisfaccin son variables independientes entre s. Sin
embargo, el ojo de buen cubero no es suficiente y es necesario recurrir a algn tipo de test que
sirva para estudiar la dependendica entre las dos variables.
Chi cuadrado:
Estudia la relacin entre las variables. Se selecciona en el men estadstico de la tabla de
contingencia. La hiptesis nula a contrastar es la independencia de las variables, siendo la
dependencia la hiptesis alternativa.
Al pedir el chi cuadrado SPSS nos da su valor, que se calcula al poner en relacin los valores
observados con los esperados. En nuestro caso la Chi-cuadrado es de 3,157. Esto de por s
solo no nos dice mucho, sin embargo SPSS tambin nos facilita el nivel de significacin que
en este caso es de 0,532. Este nivel indica la probabilidad de rechazar la hiptesis nula de
independencia siendo cierta. Si esta probabilidad es menor que 0,05 se rechaza la hiptesis
nula y en consecuencia diremos que las variables son dependientes entre s. En nuestro
ejemplo, el nivel de significacin es de 0,532, por lo que no podemos rechazar la hiptesis nula
y decimos que las variables son independientes entre s, o que no guardan una relacin de
dependencia.
La chi cuadrado est muy influenciada por el tamao muestral. De modo que cuando tenemos
muestras grandes la chi crece y es ms fcil rechazar la hiptesis nula de independencia.
Para que el contraste de la chi sea estadsticamente vlido cada celda de la tabla deber tener
una frecuencia esperada de 5. En nuestro ejemplo, como se ve en la lnea de texto bajo la
tabla de ejemplo no hay ninguna casilla que tenga menos de 5, por lo que nuestro test ser
estadsticamente vlido. En el caso de que haya celdas con menos de 5 observaciones una
posible solucin es la recodificacin de una variable con muchas categoras en una con menor
nmero de categoras. Chi cuadrado puede funcionar con un porcentaje pequeo de celdas en
las que se espere una frecuencia inferior a 5, pero con ms de un 20% de las casillas con una
frecuencia menor a 5 el test deja de ser fiable.
Hasta ahora solo sabemos si existe o no dependencia entre las variables, pero no sabemos
nada acerca del tipo de relacin entre las variables . El siguiente grupo de estadsticos sirve
para medir el grado de relacin entre las variables.
La chi cuadrado nos avisa de si hay o no relacin pero no nos habla muy bien de la fuerza de la
relacin, ya que su valor se haya relacionado con el tamao muestral y no est acotado. Por
ello, hay una serie de estadsticos basados en chi que corrigen este problema teniendo en
cuenta el nmero de casos.
Como se puede observar, los datos de los tres estadsticos coinciden en la tabla de nuestro
ejemplo. Phi y Cramer siempre coinciden cuando al menos una de las variables tiene dos
categoras de respuesta. El coeficiente de contingencia no es exactamente el mismo, aunque
en este caso vara solo en el tercer decimal, que no sale por defecto en SPSS, por lo que
coincide con los otros dos estadsticos.
-Phi: Permite medir el grado de relacin de dos variables. Se utiliza en el caso especial de
tablas con dos filas y dos columnas (2x2). Valores cercanos a 0 indican poca relacin y valores
cercanos a 1 indican mucha fuerza en la relacin. Se calcula como la raz cuadrada de chi
cuadrado entre el nmero de casos.
Se frmula es: =2/n donde 2 es el valor de la chi y n es igual al nmero de casos.
Aunque en nuestro ejemplo no hara falta recurrir a phi ni a ningn otro estadstico, ya que la
chi cuadrado nos mostr que no haba relacin de dependencia entre las variables, la hemos
pedido con objeto de ilustrar el ejemplo. El valor de phi es de 0,079 lo que indica una relacin
muy baja. Adems, el coeficiente de significacin sigue alertando de que no hay relacin de
dependencia entre ambas variables.
V= 2/min(r-1)(c-1)
Donde 2 es el valor de phi, r es el nmero de filas y c el nmero de columnas.
En nuestro ejemplo, la variable sexo tiene dos filas, por lo que el mnimo de (r-1)(c-1) = 2-1= 1.
Elegimos la variable sexo que es la que menos categoras tiene y le restamos 1. La phi, por
tanto, se divide por 1, motivo por el que la V de Cramer da el mismo resultado que la Phi
cuando al menos una de las variables tiene solo dos categoras.
Por defecto, SPSS nos saca tres valores de Lambda diferentes. Dos asimtricas cuando una
de las variables puede ser considerada como dependiente y otra simtrica cuando no hay
razn para pensar que hay una variable dependiente de la otra.
- Tau de Goodman Se parece a la Lambda aunque su clculo es algo ms complejo pues tiene
en cuenta todas las categoras de respuesta y no nicamente la que ms casos contempla. Al
igual que Lambda adopta valores de 0 a 1, dnde 0 es independencia y 1 total dependencia. El
valor de la Tau se interpreta como el porcentaje que mejora el error la inclusin de la variable
independiente en la prediccin de los valores de la variable dependiente. Por tanto, utilizar el
sexo como variable independiente mejorara la prediccin de la satisfaccin en un 1% un valor
muy bajo y que sigue sin ser significativo estadsticamente.
Tau-c: : Es parecida a la Tau-b. Alcanza valores extremos en tablas que no son cuadradas, por
lo que su uso es recomendable en tablas de tipo rectangular. Para ver su clculo ir al enlace de
la Tau-b.
A continuacin vamos a ver un par de ejemplos del uso y la interpretacin de una tabla de
contingencia:
Ejemplos:
Ejemplo 1. Una variable nominal y otra ordinal
Vamos a ver un ejemplo en el que realizamos un anlisis de contingencia con dos variables,
una de tipo nominal y otra de tipo ordinal. Nuestro ejemplo va a estar basado en el estudio CIS
2980sobre el ltimo debate de la nacin de febrero de 2013.
Hemos seleccionado las variables P2 (inters de los debates) y P25 (sexo). Dentro del men
de SPSS anlizar/estadsticos descriptivos/tablas de contingencia colocamos la variable sexo
en la columna y en la fila la variable inters. En el men casillas pediremos los porcentajes por
columna, adems de los observados que salen por defecto. En el men estadsticos pediremos
los estadscos para variables nominales, ya que al menos una de nuestras variables es de tipo
nominal. Pediremos, por tanto, chi, phi, V de Crammer, Coeficiente de contingencia, Lambda y
la Tau de Goodman. Le damos a aceptar y obtenemos la siguiente salida en la hoja de
resultados.
Echando un primer ojo a la tabla vemos que no hay una relacin aparente entre las variables
sexo e inters por el debate. En trminos generales, hombres y mujeres parecen presentar
porcentajes muy similares de inters. Por ejemplo, un 28,2% de los hombres creen que para la
gente estos debates son bastante interesantes, porcentaje similar al de las mujeres con un
29,4%.
Sin embargo, el nivel de significacin de la chi cuadradado es de 0,00, lo que indica que estas
dos variables se hayan relacionadas de algn modo. Ya hemos alertado que la chi cuadrado es
muy sensible a determinados supuestos. Uno de ellos es que un elevado porcentaje de casillas
con una frecuencia inferior a 5 imposibilita el uso de este estadstico. En este caso hay 2
casillas (un 16,7% del total) que tienen una frecuencia observada inferior a 5. Como la
frecuencia observada difiere mucho de la frecuencia esperada, el estadstico se vuelve
significativo a pesar de que no existe relacin verdadera entre ambas variables. Por ende,
todos aquellos estadsticos basados en la chi cuadrado indicarn cierto grado de relacin entre
las variables. Sin embargo, aquellos basados en el error parecen ser algo ms resistentes a
este efecto, por lo que si nos encontramos con un caso en el que hay muchas casillas con
frecuencias pequeas y no queremos recodificar las variables, lo ms indicado ser el uso de
los estadsitcos basados en el error, como Lambda o la Tau de Goodman, aunque tampoco son
inmunes, por lo que lo ms apropiado es recodificar las variables si la lgica lo permite.
En este caso, el problema es de fcil solucin, ya que solo tenemos que eliminar del anlisis
los casos que no supieron o no que quisieron contestar a esta pregunta. De ah la importancia
de depurar bien la base de datos y de eliminar valores perdidos en los anlisis a no ser de que
pretendamos buscar una relacin causal que motive esa no respuesta.
A continuacin volvemos a realizar el anlisis pero dejando fuera los casos no sabe y no
contesta.
Cmo se puede observar ahora el nivel de siginificacin es de 0,227, por tanto, mayor que
0,05. Por ello, no podemos rechazar la hiptesis inicial y decimos que las variables sexo e
inters no estn relacionadas entre s. El resto de estadsticos basados en la chi cuadrado
ahora tampoco son significativos y su valor ha bajado considerablemente hasta 0,053.
Un 74,3% de los hombres se interesa mucho o bastante por el deporte, mientras que entre las
mujeres este porcentaje es de un 51,1%. Se puede apreciar, por tanto, cierto grado de relacin
entre ambas variables pero para asegurarnos debemos comprobar pidiendo los estadsticos
correspondientes.
Como vemos en este estudio hay muchos casos (n= 8.909) por lo que la chi cuadrado saldr
muy alta y probablemente significativa. Es necesario pedir los estadsticos basados en chi
cuadrado que como hemos visto tienen en cuenta el nmero de casos.
La relacin entre ambas variables es fuerte ya que la V de Crammer tiene un valor de 0,271. En
datos procedentes de encuestas es raro encontrar estadsticos con grados muy altos de
relacin. Normalmente a modo de norma no escrita en investigacin social podemos considerar
una relacin fuerte cuando la V de Crammer es mayor que 0,240. Esta norma no es fija y como
siempre adems del estadstico que resume la informacin de la tabla es preferible examinar
detalladamente la tabla.
Por el contrario, en los estadsticos basados en el error obtenemos menor fuerza de relacin.
Segn el estadstico lambda conocer el inters por los deportes de una persona nos ayuda a
reducir el error de la variable sexo en un 21,8% un porcentaje a tener en cuenta. Sin embargo,
conocer el sexo no nos ayuda a conocer el inters, de hecho SPSS nos alerta de que no es
posible dicho clculo porque el error tpico asinttico es igual a 0. Por tanto, nuestras dos
variables se hayan relacionadas, aunque dicha relacin no es suficiente para realizar buenas
predicciones de una variable conociendo los valores de la otra.
http://investigayanaliza.blogspot.pe/2013/11/tabla.html