You are on page 1of 9

ANLISIS ESTADSTICO

Tabla de contingencia
Las tablas de contingencia son tablas que ponen en relacin los datos de dos variables
distintas. A travs de un anlisis de tabla de contiengencia podremos saber como se relacionan
dos variables entre s. Es uno de los anlisis ms sencillos y a la vez ms utilizados en
investigacin social y de mercado.

1. Requisitos:
Dos variables categricas. Si la variable es mtrica o interval la tabla de contingencia no sera
el anlisis adecuado y habria que acudir a otro tipo de anlisis o recodificar la variable para
convertirla en nominal u ordinal. Al tomar esta decisin perderamos informacin en favor de la
claridad y sencillez que aporta un anlisis de tabla de contingencia.

2. Cmo calcular una tabla de contingencia en SPSS:


La ruta a seguir en el SPSS es: Anlisis/Estadsticos descriptivos/Tablas de contingencia
Procedimiento: Una variable en la fila y otra variable en la columna. En el men casilla
pedimos el porcentaje por columna, adems de la frecuencia de observados que sale en SPSS
por defecto. Adems, en el men estadsticos pediremos la chi cuadrado. Con esto tenemos un
primer anlisis de tabla de contingencia.

3. Interpretacin
Segn nuestros datos, generados a partir de dos variables aleatorias, hay 500 personas, 267
hombres y 233 mujeres. 117 personas (un 23,4%) estn muy insatisfechas. De ellas, hay 63
hombres, es decir un 23,6% de los hombres, que estn muy insatisfechos, mayor porcentaje
que entre las mujeres con un 23,2%.

4. Estadsticos
A simple vista no parece que haya mucha diferencia entre la satisfaccin de hombres y
mujeres, por lo que parece que sexo y satisfaccin son variables independientes entre s. Sin
embargo, el ojo de buen cubero no es suficiente y es necesario recurrir a algn tipo de test que
sirva para estudiar la dependendica entre las dos variables.

Chi cuadrado:
Estudia la relacin entre las variables. Se selecciona en el men estadstico de la tabla de
contingencia. La hiptesis nula a contrastar es la independencia de las variables, siendo la
dependencia la hiptesis alternativa.
Al pedir el chi cuadrado SPSS nos da su valor, que se calcula al poner en relacin los valores
observados con los esperados. En nuestro caso la Chi-cuadrado es de 3,157. Esto de por s
solo no nos dice mucho, sin embargo SPSS tambin nos facilita el nivel de significacin que
en este caso es de 0,532. Este nivel indica la probabilidad de rechazar la hiptesis nula de
independencia siendo cierta. Si esta probabilidad es menor que 0,05 se rechaza la hiptesis
nula y en consecuencia diremos que las variables son dependientes entre s. En nuestro
ejemplo, el nivel de significacin es de 0,532, por lo que no podemos rechazar la hiptesis nula
y decimos que las variables son independientes entre s, o que no guardan una relacin de
dependencia.

Para ver cmo se calcula la chi cuadrado pincha sobre el enlace.

Cosas a considerar de chi cuadrado:

La chi cuadrado est muy influenciada por el tamao muestral. De modo que cuando tenemos
muestras grandes la chi crece y es ms fcil rechazar la hiptesis nula de independencia.

Para que el contraste de la chi sea estadsticamente vlido cada celda de la tabla deber tener
una frecuencia esperada de 5. En nuestro ejemplo, como se ve en la lnea de texto bajo la
tabla de ejemplo no hay ninguna casilla que tenga menos de 5, por lo que nuestro test ser
estadsticamente vlido. En el caso de que haya celdas con menos de 5 observaciones una
posible solucin es la recodificacin de una variable con muchas categoras en una con menor
nmero de categoras. Chi cuadrado puede funcionar con un porcentaje pequeo de celdas en
las que se espere una frecuencia inferior a 5, pero con ms de un 20% de las casillas con una
frecuencia menor a 5 el test deja de ser fiable.

Hasta ahora solo sabemos si existe o no dependencia entre las variables, pero no sabemos
nada acerca del tipo de relacin entre las variables . El siguiente grupo de estadsticos sirve
para medir el grado de relacin entre las variables.

Estadsticos para medir la fuerza de la relacin:


En el men estadsticos dentro de tabla de contingencia de SPSS es posible seleccionar varios
estadsticos para medir la fuerza de la relacin. Es importante saber si nuestras variables son
nominales u ordinales, ya que segn sea el tipo de variable elegiremos uno u otro estadstico.
Cuando al menos una de nuestras variables es nominal debemos escoger los estadsticos para
variables nominales. Si fueran las dos ordinales podramos seleccionar estadsticos para
variables ordinales que aportan mayor informacin.

4.a Estadsticos para variables nominales:


Medidas que tienen que ver con el valor de Chi cuadrado:

La chi cuadrado nos avisa de si hay o no relacin pero no nos habla muy bien de la fuerza de la
relacin, ya que su valor se haya relacionado con el tamao muestral y no est acotado. Por
ello, hay una serie de estadsticos basados en chi que corrigen este problema teniendo en
cuenta el nmero de casos.
Como se puede observar, los datos de los tres estadsticos coinciden en la tabla de nuestro
ejemplo. Phi y Cramer siempre coinciden cuando al menos una de las variables tiene dos
categoras de respuesta. El coeficiente de contingencia no es exactamente el mismo, aunque
en este caso vara solo en el tercer decimal, que no sale por defecto en SPSS, por lo que
coincide con los otros dos estadsticos.

Veamos ahora estos estadsticos por separado:

-Phi: Permite medir el grado de relacin de dos variables. Se utiliza en el caso especial de
tablas con dos filas y dos columnas (2x2). Valores cercanos a 0 indican poca relacin y valores
cercanos a 1 indican mucha fuerza en la relacin. Se calcula como la raz cuadrada de chi
cuadrado entre el nmero de casos.
Se frmula es: =2/n donde 2 es el valor de la chi y n es igual al nmero de casos.

Aunque en nuestro ejemplo no hara falta recurrir a phi ni a ningn otro estadstico, ya que la
chi cuadrado nos mostr que no haba relacin de dependencia entre las variables, la hemos
pedido con objeto de ilustrar el ejemplo. El valor de phi es de 0,079 lo que indica una relacin
muy baja. Adems, el coeficiente de significacin sigue alertando de que no hay relacin de
dependencia entre ambas variables.

-Coeficiente de contingencia: Es una prolongacin de la phi para variables con ms de dos


categoras. Sin embargo, sus valores no estn normalizados y su lmite es menor que 1. Para
conocer el lmite mximo de C deberamos calcularlo. Por ello, para ahorrar tiempo, se suele
utilizar la V de cramer que s est normalizada y tiene el lmite mximo en 1, lo que indicara
una relacin de dependencia perfecta.

El coeficiente de contingencia se calcula como la raz cuadrada de 2 entre 2 ms el nmero


de casos.
C=2/(2+n)
Donde 2 es el valor de chi cuadrado

-V de Crammer: Es quizs el estadstico ms utilizado en las tablas de contingencia junto con


Lamda. Su origen es similar al de Phi, aunque es vlido para variables con ms de dos
categoras de respuesta. Toma valores entre 0 y 1. 1 indica mxima dependencia y 0
independencia. El valor de la V para tablas con alguna variable con dos categoras coincide con
el valor de phi. La V de Cramer se obtiene ajustando phi para el nmero de filas o columnas de
la tabla, cualquiera que sea el menor.

V= 2/min(r-1)(c-1)
Donde 2 es el valor de phi, r es el nmero de filas y c el nmero de columnas.

En nuestro ejemplo, la variable sexo tiene dos filas, por lo que el mnimo de (r-1)(c-1) = 2-1= 1.
Elegimos la variable sexo que es la que menos categoras tiene y le restamos 1. La phi, por
tanto, se divide por 1, motivo por el que la V de Cramer da el mismo resultado que la Phi
cuando al menos una de las variables tiene solo dos categoras.

Medidas basadas en el error proporcional


- Lambda: Estadstico utilizado para determinar si usar los resultados de una de las variables
sirve para predecir los resultados de otra. Lambda toma valores entre 0 y 1, donde 0 indica
independencia entre las variables y 1 total dependencia. Lambda igual a 1 implicara que la
variable independiente consigue reducir a 0 el error de la variable dependiente y digo implicara
porque es un caso extremo que no se suele dar. En nuestro ejemplo implicara que conociendo
la variable sexo podramos averiguar que satisfaccin tiene un sujeto cualquiera, algo poco
probable incluso asumiendo un cierto grado de dependencia entre variables.

Por defecto, SPSS nos saca tres valores de Lambda diferentes. Dos asimtricas cuando una
de las variables puede ser considerada como dependiente y otra simtrica cuando no hay
razn para pensar que hay una variable dependiente de la otra.

Cmo calcular lambda

- Tau de Goodman Se parece a la Lambda aunque su clculo es algo ms complejo pues tiene
en cuenta todas las categoras de respuesta y no nicamente la que ms casos contempla. Al
igual que Lambda adopta valores de 0 a 1, dnde 0 es independencia y 1 total dependencia. El
valor de la Tau se interpreta como el porcentaje que mejora el error la inclusin de la variable
independiente en la prediccin de los valores de la variable dependiente. Por tanto, utilizar el
sexo como variable independiente mejorara la prediccin de la satisfaccin en un 1% un valor
muy bajo y que sigue sin ser significativo estadsticamente.

Cmo calcular la Tau de Goodman

4.b Medidas de asociacin para variables ordinales:


Cuando nuestras dos variables son ordinales podemos elegir ciertos estadsticos que averiguan
si conocer el orden de los casos en una variable resulta til para predecir el orden de otra.
Estos estadsticos toman valores entre -1 y 1. Donde 0 es independencia, -1 dependencia
negativa perfecta (A mayor x menor y y viceversa), y 1 dependencia positiva perfecta. Entre
estos estadsticos encontramos Gamma, Tau-b, Tau-c y D de Sommers. Tienen en comn la
consideracin del ordenamiento de las categoras de las variables considerando todos los
pares posibles en una tabla.

Gamma: La desventaja de este estadstico es que tiende a sobrestimar el grado de relacin,


por lo que es ms comn el uso de otros estadsticos para variables ordinales. Suele presentar
valores mayores que las tau b y c. Su clculo se realiza poniendo en relacin los casos
concordantes con los casos discordantes. Este estadstico no tiene en cuenta el nmero de
casos empatados y tampoco hace correciones segn el tamao de la tabla.
Cmo calcular Gamma .

Tau-b de Kendall: La Tau b de Kendall es parecida a Gamma, aunque tiene en cuenta el


nmero de casos empatados. Toma valores entre -1 y 1, aunque no alcanza los valores
extremos en tablas que no son cuadradas, es decir, en tablas con diferente nmero de filas que
de columnas.
Cmo calcular la Tau-b de Kendall.

Tau-c: : Es parecida a la Tau-b. Alcanza valores extremos en tablas que no son cuadradas, por
lo que su uso es recomendable en tablas de tipo rectangular. Para ver su clculo ir al enlace de
la Tau-b.

D de Sommers: La D de Sommers es un estadstico similar a la Tau-b, aunque su frmula


vara ligeramente. Sus valores tambin oscilan entre -1 y 1. Presenta tres resultados diferentes:
variable x como dependiente, variable y como dependiente y versin simtrica.
Cmo calcular la D de Sommers

A continuacin vamos a ver un par de ejemplos del uso y la interpretacin de una tabla de
contingencia:
Ejemplos:
Ejemplo 1. Una variable nominal y otra ordinal
Vamos a ver un ejemplo en el que realizamos un anlisis de contingencia con dos variables,
una de tipo nominal y otra de tipo ordinal. Nuestro ejemplo va a estar basado en el estudio CIS
2980sobre el ltimo debate de la nacin de febrero de 2013.

Hemos seleccionado las variables P2 (inters de los debates) y P25 (sexo). Dentro del men
de SPSS anlizar/estadsticos descriptivos/tablas de contingencia colocamos la variable sexo
en la columna y en la fila la variable inters. En el men casillas pediremos los porcentajes por
columna, adems de los observados que salen por defecto. En el men estadsticos pediremos
los estadscos para variables nominales, ya que al menos una de nuestras variables es de tipo
nominal. Pediremos, por tanto, chi, phi, V de Crammer, Coeficiente de contingencia, Lambda y
la Tau de Goodman. Le damos a aceptar y obtenemos la siguiente salida en la hoja de
resultados.

Echando un primer ojo a la tabla vemos que no hay una relacin aparente entre las variables
sexo e inters por el debate. En trminos generales, hombres y mujeres parecen presentar
porcentajes muy similares de inters. Por ejemplo, un 28,2% de los hombres creen que para la
gente estos debates son bastante interesantes, porcentaje similar al de las mujeres con un
29,4%.

Sin embargo, el nivel de significacin de la chi cuadradado es de 0,00, lo que indica que estas
dos variables se hayan relacionadas de algn modo. Ya hemos alertado que la chi cuadrado es
muy sensible a determinados supuestos. Uno de ellos es que un elevado porcentaje de casillas
con una frecuencia inferior a 5 imposibilita el uso de este estadstico. En este caso hay 2
casillas (un 16,7% del total) que tienen una frecuencia observada inferior a 5. Como la
frecuencia observada difiere mucho de la frecuencia esperada, el estadstico se vuelve
significativo a pesar de que no existe relacin verdadera entre ambas variables. Por ende,
todos aquellos estadsticos basados en la chi cuadrado indicarn cierto grado de relacin entre
las variables. Sin embargo, aquellos basados en el error parecen ser algo ms resistentes a
este efecto, por lo que si nos encontramos con un caso en el que hay muchas casillas con
frecuencias pequeas y no queremos recodificar las variables, lo ms indicado ser el uso de
los estadsitcos basados en el error, como Lambda o la Tau de Goodman, aunque tampoco son
inmunes, por lo que lo ms apropiado es recodificar las variables si la lgica lo permite.

En este caso, el problema es de fcil solucin, ya que solo tenemos que eliminar del anlisis
los casos que no supieron o no que quisieron contestar a esta pregunta. De ah la importancia
de depurar bien la base de datos y de eliminar valores perdidos en los anlisis a no ser de que
pretendamos buscar una relacin causal que motive esa no respuesta.

A continuacin volvemos a realizar el anlisis pero dejando fuera los casos no sabe y no
contesta.

Cmo se puede observar ahora el nivel de siginificacin es de 0,227, por tanto, mayor que
0,05. Por ello, no podemos rechazar la hiptesis inicial y decimos que las variables sexo e
inters no estn relacionadas entre s. El resto de estadsticos basados en la chi cuadrado
ahora tampoco son significativos y su valor ha bajado considerablemente hasta 0,053.

Ejemplo 2. Una variable nominal y otra ordinal


Vamos a ver otro ejemplo parecido pero con variables que guardan cierta relacin entre ellas
para ver cmo se comportan nuestros estadsticos:
La base de datos que vamos a usar es el estudio 2833 del CIS sobre hbitos deportivos en
2010. Las variables que vamos a usar son P1 (inters por los deportes) y la P65 (sexo).

Un 74,3% de los hombres se interesa mucho o bastante por el deporte, mientras que entre las
mujeres este porcentaje es de un 51,1%. Se puede apreciar, por tanto, cierto grado de relacin
entre ambas variables pero para asegurarnos debemos comprobar pidiendo los estadsticos
correspondientes.

Como vemos en este estudio hay muchos casos (n= 8.909) por lo que la chi cuadrado saldr
muy alta y probablemente significativa. Es necesario pedir los estadsticos basados en chi
cuadrado que como hemos visto tienen en cuenta el nmero de casos.

La relacin entre ambas variables es fuerte ya que la V de Crammer tiene un valor de 0,271. En
datos procedentes de encuestas es raro encontrar estadsticos con grados muy altos de
relacin. Normalmente a modo de norma no escrita en investigacin social podemos considerar
una relacin fuerte cuando la V de Crammer es mayor que 0,240. Esta norma no es fija y como
siempre adems del estadstico que resume la informacin de la tabla es preferible examinar
detalladamente la tabla.

Por el contrario, en los estadsticos basados en el error obtenemos menor fuerza de relacin.
Segn el estadstico lambda conocer el inters por los deportes de una persona nos ayuda a
reducir el error de la variable sexo en un 21,8% un porcentaje a tener en cuenta. Sin embargo,
conocer el sexo no nos ayuda a conocer el inters, de hecho SPSS nos alerta de que no es
posible dicho clculo porque el error tpico asinttico es igual a 0. Por tanto, nuestras dos
variables se hayan relacionadas, aunque dicha relacin no es suficiente para realizar buenas
predicciones de una variable conociendo los valores de la otra.

Ejemplo 3. Dos variables ordinales


Por ltimo, vamos a ver un ejemplo en el que ponemos en relacin dos variables de tipo
ordinal. El estudio que vamos a utilizar es el mismo del ejemplo anterior 2833 del CIS sobre
hbitos deportivos.
Hemos elegido las variables edad e inters por los deportes. Como en el caso anterior hemos
eliminado del anlisis los casos perdidos.
La variable continua edad la hemos recodificado en una variable ordinal segn intervalos
ptimosa la variable inters deporte para que presente las mayores diferencias posibles entre
estas dos variables.
Antes de nada, hemos de comprobar cmo estn ordenadas las categoras de nuestras
variables. La variable P1 (inters deporte) est ordenada de menor a mayor, mientras que la
variable edad est codificada de mayor a menor. A fin de facilitar el anlisis es aconsejable
hacer que nuestras variables presenten un mismo tipo de ordenacin. Para ello, recodificamos
P.1 en orden inverso.
Los estadsticos para variables ordinales muestran una ligera relacin de carcter negativo. A
mayor edad, menor inters por el deporte y viceversa. En la tabla de contingencia podemos ver
que un 30% de los menores de 27 estn muy interesados por el deporte, mientras que este
porcentaje va disminuyendo progresivamente hasta los mayores de 72 con un 12,4%. Las
categoras mucho y nada interrelacionan muy bien con la edad, sin embargo las categoras
bastante y poco presentan porcentajes similares para todas las edades, por lo que lo
estadsticos no muestran una relacin muy pronunciada. An as queda patente el mayor
inters de los ms jvenes por los deportes. La significacin aproximada es menor que 0,5, por
lo que dicha relacin puede ser extrapolada al conjunto de la poblacin. Es decir, las
diferencias observadas en nuestra muestra son extrapolables al conjunto de la poblacin, en
este caso los espaoles.

Artculos relacionados en este blog


Clculo de chi cuadrado Clculo de lambda Clculo de tau de Goodman Calculo de
Gamma Tau-b y c de Kendall Clculo D de Sommers

http://investigayanaliza.blogspot.pe/2013/11/tabla.html

You might also like