Professional Documents
Culture Documents
2
2
) (
La desviacin estndar o tpica es el promedio de desviacin de los valores de las
observaciones respecto de la media, expresada en los valores originales de la medicin de la
variable. Esto no es otra cosa que la raz cuadrada de la varianza. Cuanto ms se aleje el valor
respecto de la media, mayor ser la desviacin estndar. Se aplica a variables medidas a nivel
intervalar o de razn. Su frmula de clculo es la siguiente:
n
x x
S
2
) (
2.5. Ejecucin de tablas de frecuencias, medidas de tendencia central y de dispersin en
SPSS
La serie de comanda a ejecutar seran los siguientes:
1. Analizar en la barra del men de SPSS
2. Estadsticos descriptivos
3. Frecuencias / Ingresar variables
4. Estadsticos > Tendencia central / Seleccionar media, mediana y moda, segn
corresponda al nivel de medicin de las variables
Dispersin / Seleccionar desviacin estndar y varianza. Slo para
variables intervalares
5. Continuar
6. Aceptar
5
2.6. Ejemplo de un caso aplicado en SPSS
Si alguien quisiera saber la proporcin de chilenos que se considera feliz podemos intentar
responder dicha pregunta a partir de la Encuesta CEP Diciembre de 2008 (www.cepchile.cl),
ya que contiene una pregunta al respecto. Puesto que la variable ha sido medida en una escala
Likert de cuatro categoras, bastara extraer simplemente una distribucin de frecuencias.
Antes de eso, sin embargo, los valores No sabe (codificados usualmente con valores 8) y
No contesta (codificados usualmente con valores 9) habra que incluirlos como Valores
perdidos y, de este modo, obtendremos el porcentaje vlido de casos para la variable
felicidad.
Los pasos seran:
1. Seleccionar la columna de valores en la variable felicidad e identificar los valores
asociados a No sabe (8) y No contesta (9)
2. Aceptar
3. Seleccionar la columna de valores perdidos en la variable felicidad e ingresar los
valores 8 y 9 como valores perdidos
4. Aceptar
6
Luego ya estamos en condiciones de realizar una distribucin de frecuencias de modo ms
adecuado. Continenos entonces con el resto del procedimiento:
1. Analizar en la barra del men de SPSS
2. Estadsticos descriptivos
3. Frecuencias / seleccionar e ingresar la variable felicidad a la casilla de variables
4. Continuar
5. Aceptar
7
Finalmente, la tabla de distribucin de frecuencias sera la siguiente:
Considere su vida en general, qu tan feliz o infeliz Ud. dira que es su vida en
general?
57 3,8 3,8 3,8
333 22,2 22,3 26,1
713 47,4 47,6 73,7
394 26,2 26,3 100,0
1498 99,5 100,0
1 ,1
6 ,4
7 ,5
1505 100,0
Para nada f eliz
No muy f eliz
Bastante f eliz
Muy f eliz
Total
Vlidos
No sabe
No contesta
Total
Perdidos
Total
Frecuencia Porcentaje
Porcentaje
vlido
Porcentaje
acumulado
En dnde, segn se puede apreciar en la columna de porcentaje vlido de la tabla, un 26.3%
de los chilenos se considera en general en su vida Muy feliz versus el 3.8% que se
considera Para Nada Feliz. Del mismo modo, observamos que una parte significativa de los
chilenos se considera No muy feliz, 22.3%.
A partir de estos datos surgen una serie de posibles preguntas al respecto, por ejemplo,
Depende el nivel de felicidad de las personas del sexo, la edad, la escolaridad o el NSE?
Responder preguntas como esta requiere, sin embargo, de un tipo de anlisis distinto. En
estadstica lo denominamos Anlisis Bivariado, ya que incluye una variable dependiente y al
menos una variable independiente.
8
3. RELACIONES ENTRE VARIABLES NOMINALES Y ORDINALES
3.1. El estudio de la relacin entre variables
En las ciencias sociales a menudo se desea determinar la existencia o no de relacin entre dos
variables, para lo cual se realizan diferentes pruebas de significacin estadstica. La forma en
que se relacionan dos variables se denomina asociacin entre dos variables. El inters de este
tipo de anlisis se centra principalmente en la forma en que se distribuye la variable
dependiente en funcin de las diferentes categoras o valores de la variable independiente. Es
decir, la variable que atrae primordialmente la atencin del investigador, y cuya variacin
trata de explicar, se llama variable dependiente, porque se supone que los valores que toma
dicha variable dependen de los valores que presentan otras variables. Estas variables que se
suponen influyen en los valores que toma la variable dependiente son las variables
independientes (explicativas o causales), ya que permiten conocer por qu vara la variable
dependiente de la forma que lo hace en una determinada poblacin (usualmente una muestra).
Sin embargo, los resultados que aparecen al establecer relaciones significativas entre dos variables
son de naturaleza descriptiva y tales resultados no explican por qu ocurre dicha relacin. Esto es,
una correlacin entre dos variables no implica necesariamente una relacin causal entre ellas
puesto que en cualquier correlacin podra existir una tercera variable que explique la asociacin
entre las dos variables que han sido medidas (relacin espuria). A su vez, se debe verificar que la
variable independiente (causa) anteceda temporalmente a la variable dependiente (efecto). Del
mismo modo, se hace necesaria la existencia de una teora que nos permita discriminar entre las
simples relaciones estadsticas y las relaciones causales propiamente tales.
El estudio de la relacin entre dos variables se puede caracterizar mediante: i) la existencia o no
de asociacin; ii) la fuerza de dicha asociacin y iii) la direccin de sta.
2
Ciertamente solamente
tiene sentido ii) y iii) si se verifica en i) la existencia de relacin entre las variables. Para ello se
utilizan un conjunto de pruebas de significacin estadstica, las cuales dependern del nivel de
medicin de las variables.
A la base de dicho anlisis se encuentra la teora y las hiptesis que se puedan desprender
de sta. En otras palabras, en el estudio de relaciones entre variables intentamos testear
empricamente hiptesis que nos resultan plausibles a la luz de un cierto marco terico-
analtico. Una hiptesis no es otra cosa que una respuesta tentativa a la pregunta de
investigacin (problema). Es una prediccin respecto del posible resultado que se espera
encontrar. Y, en el estudio de relaciones entre variables, sta guarda relacin con el hecho de
determinar si las variaciones en los valores de la variable independiente se encuentran o no
asociados a las variaciones en los valores de la variable dependiente. Puesto que una hiptesis
requiere de verificacin emprica, se hace necesario realizar una prueba de significacin
estadstica para determinar si la hiptesis planteada se verifica o no.
3.2. Las pruebas de significacin estadsticas
Para la determinacin de la existencia o no de asociacin entre la variable dependiente y las
variables independientes se utilizar el coeficiente estadstico Chi Cuadrado de Pearson. La
intensidad de la asociacin se determinar mediante el coeficiente V de Cramer. Para la
determinacin de a direccin de la asociacin, en tanto, se efectuar el coeficiente de correlacin
de Spearman.
2
Una cuarta caracterstica hace referencia a la naturaleza de la relacin. Es decir, a la forma de distribucin de X
respecto de Y, ya sea de forma lineal, curvilnea o de otra naturaleza.
9
La prueba de significacin estadstica basada en el coeficiente Chi Cuadrado de Pearson tiene
como fin examinar asociacin entre variables categricas (nominales u ordinales).
3
Existe
asociacin entre variables cuando los valores de una de ellas dependen de los valores de otra.
Cuando dos variables estn relacionadas es posible predecir los valores de la variable dependiente
en funcin de los valores de las variables independientes. No existe relacin cuando stas son
independientes. Dos variables independientes no tienen nada en comn. El estadstico Ji-
cuadrado, sin embargo, no permite estudiar la intensidad de la relacin entre las variables.
La prueba basada en el Coeficiente V de Cramer tiene como finalidad comparar grados de
asociacin entre variables medidas a nivel nominal. El Coeficiente V de Cramer asume valores
entre 0 y 1, en donde, valores prximos a 0 indican una muy baja asociacin entre las variables y
valores prximos a 1 indicas una fuerte asociacin.
Finalmente, la prueba de significacin estadstica basada en el Coeficiente de Correlacin de
Spearman tiene por objeto determinar la direccin y la intensidad de la asociacin entre dos
variables medidas a nivel ordinal. Dicho coeficiente toma valores entre -1 y +1. Los valores
cercanos a -1 +1 indican fuerte asociacin entre las variables mientras que los valores cercanos
a 0 indican una muy baja asociacin. Si el valor es positivo, la variables varan en la misma
direccin, en tanto, si es negativo lo hacen en direcciones opuestas (a medida que aumenta una
disminuye la otra). Se debe tener presente que Spearman est pensado para detectar relaciones de
tipo lineal, pero no todas las relaciones son lineales (por ejemplo, las curvilneas).
No obstante, bien vale la pena recordar al respecto dos cosas. En primer lugar, en la investigacin
en ciencias sociales rara vez nos encontramos con variables altamente asociadas. Y, en segundo
lugar, la interpretacin de la magnitud de dicha asociacin va a depender del tipo de estudio y si
se enmarca en las ciencias sociales o en las llamadas ciencias duras. En particular, qu niveles de
asociacin sern considerados como bajos, medios o altos sern determinados por el investigador
en funcin de la prctica disciplinaria aplicada al estudio de la temtica que se investiga. No
obstante lo anterior existen ciertas convenciones ms o menos generalizadas. En virtud de tales
consideraciones se entender en el marco del presente curso, una vez verificada una relacin
estadsticamente significativa entre las variables, como: i) una asociacin baja, a los valores
inferiores a 0.2; ii) como media, a los valores iguales o mayores que 0.2 y menores que 0.3; y iii)
como alta, a los valores superiores o iguales a 0.3.
Para las pruebas estadsticas en cuestin, si el p-valor asociado al estadstico de contraste es
menor que el nivel de significacin 0.05, se rechazar la hiptesis nula H
0
a un nivel de
confianza del 95%, y se aceptar la hiptesis alternativa H
1
(asociacin entre la variable
dependiente y la independiente). El nivel de significacin constituye el valor crtico a partir del
cual estamos dispuestos a aceptar o rechazar una hiptesis dentro de ciertos mrgenes razonables
de error, siendo el mximo estndar en ciencias sociales de un 5% (95% de confianza). Entre
menor sea el nivel de significacin, mayor es el nivel de confianza y, por consiguiente, menor ser
la probabilidad de cometer un error en la prueba de hiptesis. Los errores que se pueden cometer
son de dos: (i) el error tipo I (alfa), el cual se produce cuando se acepta la hiptesis
alternativa siendo sta falsa; y (ii) el error tipo II (beta), el cual se genera cuando se rechaza
la hiptesis alternativa siendo sta verdadera.
3
Utilizamos la prueba Chi-cuadrado en variable ordinales porque el Coeficiente de Correlacin de Spearman
(ver ms adelante) nicamente da cuenta de relaciones de tipo lineal.
10
3.4. Ejecucin de tablas de contingencia con medidas de asociacin en SPSS
En el caso de trabajar con SPSS en la versin en ingls se deben dar los siguientes pasos:
1. Analizar en la barra del men de SPSS.
2. Estadsticos descriptivos
3. Tablas de contingencia / Ingresar la variable dependiente(s) en filas y
independiente(s) en columnas
4. Casillas
/ Frecuencias > Sacar seleccin en observadas.
/ Porcentajes > Seleccionar columna.
5. Continuar
6. Estadsticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), segn
corresponda al nivel de medicin de las variables.
7. Continuar
8. Aceptar
3.5. Ejemplo de un caso aplicado en SPSS
Retomemos nuestra inquietud anterior en trminos de, por ejemplo, responder la siguiente
pregunta: El nivel de felicidad depende del NSE de las personas? Es decir, A medida que se
aumenta en el NSE, aumenta tambin el nivel de felicidad? La hiptesis alternativa general
sera: el nivel de felicidad de las personas se encuentra determinado por su NSE. En tanto, la
hiptesis especfica alternativa sera: el nivel de felicidad de las personas aumenta a medida
que aumenta su NSE.
Se debe tener presente que ambas variables son ordinales y, por ende, podemos aplicar el
Coeficiente de Correlacin de Spearman. No hay olvidar dejar fuera los valores perdidos (No
sabe (8) / No responde (9)).
11
12
Finalmente se obtendr la siguiente tabla de contingencia con su respectiva prueba de
significacin estadstica. Analice e interprete los resultados. Qu puede concluir al respecto?
Tabla de contingencia Consi dere su vida en general, qu tan feliz o infel iz Ud. dira que
es su vi da en general? * Nivel Socioeconmico
% de Nivel Socioeconmico
6,0% 2,0% 3,9%
29,5% 16,6% 22,3%
41,3% 53,5% 48,8% 47,6%
23,2% 27,9% 51,2% 26,3%
100,0% 100,0% 100,0% 100,0%
Para nada f eliz
No muy f eliz
Bastante f eliz
Muy f eliz
Considere su vida en
general, qu tan
f eliz o inf eliz Ud. dira
que es su vida en
general?
Total
BAJO MEDIO ALTO
Niv el Socioeconmico
Total
13
Medidas simtri cas
,193 ,024 7,601 ,000
c
,180 ,025 7,083 ,000
c
1499
R de Pearson Interv alo por intervalo
Correlacin de Spearman Ordinal por ordinal
N de casos vlidos
Valor Error tp. asint.
a
T aproximada
b
Sig.
aproximada
Asumiendo la hiptesis alternat iv a.
a.
Empleando el error tpico asintt ico basado en la hiptesis nula.
b.
Basada en la aproximacin normal.
c.
4. INTRODUCCIN DE VARIABLES DE CONTROL
4.1. Aspectos conceptuales
Dado la complejidad de la realidad, esto es, su multidimensionalidad (que se expresa tanto en las
mltiples dimisiones que suele involucrar un concepto como en la multiciplicidad de variables
que inciden en la manifestacin de un fenmeno determinado), muchos de los fenmenos sociales
no son susceptibles de ser apropiadamente caracterizados a partir del estudio de la relacin entre
dos variables (dependiente e independiente). La simple determinacin de la existencia o no de
relacin entre dos variables no es suficiente para determinar si dicha relacin es verdadera o
espuria (falsa). En ese momento no podemos estar seguros acerca de los resultados encontrados ya
que eventualmente stos podran deberse a una tercera variable, que hasta ese momento no ha sido
considerada en el anlisis. Y si ese fuera el caso, la relacin original sera explicada no por la
variable independiente, sino por esta tercera variable. Dicha variable es nombrada en tal caso
como interviniente y pondra en evidencia la falsedad de la relacin original. Eventualmente
tambin, la relacin original podra verse modificada nicamente en algunas de las categoras de
la tercera variable. En tal caso hablamos de una relacin condicionada.
En trminos generales, al momento de elaborar una relacin entre dos variables (particularmente
del tipo causa-efecto) se suele introducir una tercera variable, la cual se denomina variable
control. Lo que se intenta es determinar si sta posee un determinado efecto sobre la relacin entre
la variable dependiente y la independiente que pudiera modificar parcial (condicionada) o
totalmente la relacin original (interviniente). Por ende, cuando se descubre una relacin entre dos
variables, lo que est en juego es lograr determinar si se trata de una relacin verdadera o espuria.
Puesto que las variables en ciencias sociales se encuentran con frecuencia asociadas unas con
otras, resulta necesario asegurarse de que exista una asociacin verdadera entre las dos variables
originales. Cuando esto no ocurre hablamos de una relacin espuria, o sea, que la relacin
aparente entre dos variables se debe a la asociacin de ambas variables con una tercera variable
ajena a la relacin original.
Por consiguiente, la adecuada determinacin de la relacin bivariable original se logra mediante la
inclusin de variables control que eventualmente pudieran invalidar dicha relacin, lo cual es
clave para no arribar a conclusiones errneas sobre las relaciones entre variables sin haber
dilucidado antes si se trataba o no de relaciones espurias. En definitiva, de lo que se trata es de
comprobar si la relacin inicial que aparece entre dos variables es real o aparente, mediante la
introduccin de una variable de control. A su vez, interesa comprobar si la ausencia de relacin
entre dos variables es tambin real o se debe, por el contrario, a la existencia de una tercera
variable que suprime la relacin entre las dos variables originales.
14
Ms concretamente, hay al menos tres situaciones tpicas en la investigacin social en donde las
variables de control son necesarias:
La primera de ellas se presenta cuando una tcnica estadstica (por ejemplo, Chi Cuadrado de
Pearson) muestra que dos variables estn relacionadas, y se duda si entre ambas existe una
relacin, no slo estadstica, sino de dependencia (o causal). Es decir, se intenta dilucidar si tal
relacin es real o espuria.
La segunda, en tanto, se presenta cuando se intenta descubrir relaciones ocultas entre las
variables. As por ejemplo, se puede intentar averiguar por qu resulta tan pequea (o tan alta)
la intensidad de la relacin entre dos variables cuando todo hace pensar que su relacin
debera ser mucho mayor (o menor).
Y, en tercer lugar, en muchas ocasiones se presenta la duda acerca de si la relacin que se
establece entre dos variables originales funciona en todas las circunstancias o, por el contrario,
se manifiesta nicamente bajo determinadas condiciones (categoras de la variable control).
El razonamiento estadstico de la tcnica del control por una tercera variable es muy sencillo. En
Primer lugar calculamos la relacin entre la variable dependiente y la independiente y, a
continuacin, se repite el procedimiento para cada una de las categoras de la(s) variable(s)
control.
Ahora bien, en trminos estadsticos, el que la relacin entre dos variables sea independiente de la
influencia de terceras variables significa que cualquiera que sea la tercera variable que se
introduzca como control, la relacin entre las variables iniciales se mantendr en cada una de las
categoras de la(s) variable(s) control.
Para el caso contrario, cabe distinguir al menos dos
situaciones: i) cuando existe dependencia de terceras variables y la relacin desaparece por
completo en todas las categoras (relacin espuria) y ii) cuando existe dependencia de terceras
variables y la relacin desaparece parcialmente en alguna de las categoras (relacin de tipo
condicional o tambin denominada de interaccin).
4.2. Ejecucin de tablas de contingencia con medidas de asociacin en SPSS,
introduciendo variables control
1. Analizar en la barra del men de SPSS.
2. Estadsticos descriptivos
3. Tablas de contingencia / Ingresar la variable dependiente(s) en filas y la variable
independiente(s) en columnas. La(s) variable(s) control se ingresan en capa.
4. Casillas
/ Frecuencias > Sacar seleccin en observadas.
/ Porcentajes > Seleccionar columna.
5. Continuar
6. Estadsticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), segn
corresponda al nivel de medicin de las variables.
7. Continuar
8. Aceptar
15
4.3. Anlisis de los datos
Al momento de escribir el informe de anlisis de datos usted debe tener en consideracin:
4.3.1. Para el caso de la prueba de significacin estadstica Chi-cuadrado de Pearson
Situacin 1: Asociacin.
En este caso usted debiera sealar que: existe asociacin estadsticamente significativa entre
la variable dependiente y la variable independiente. Ello ocurre cuando el estadstico de
contraste es menor a 0.05.
Situacin 2: No asociacin.
De modo anlogo al caso anterior usted debiera indicar que: no existe asociacin
estadsticamente significativa entre la variable dependiente y la variable independiente.
Ello ocurre cuando el estadstico de contraste es mayor a 0.05.
*** Se debe prestar especial atencin al porcentaje de celdas con frecuencia esperada
inferior a 5. Que no supere el 25% de las celdas. Si ese fuera el caso se recomienda
recodificar, ya que de lo contrario se corre el riesgo de llegar a una conclusin errnea.
4.3.2. Para el caso del Coeficiente V de Cramer y Spearman
Slo consideraremos el Coeficiente V de Cramer como parte del anlisis cuando Chi-cuadrado de
Pearson sea estadsticamente significativo. Es decir, cuando exista asociacin entre la variable
dependiente y la variable independiente. Usualmente, por lo dems, cuando Chi-cuadrado de
Pearson es significativo, lo es tambin V de Cramer.
Situacin 1: Existe una intensidad de asociacin baja (0.0 < V de Cramer 0.2) entre la variable
dependiente y la variable independiente.
Situacin 2: Existe una intensidad de asociacin media (0.2 < V de Cramer 0.3) entre la
variable dependiente y la variable independiente.
Situacin 3: Existe una intensidad de asociacin alta (0.3 < V de Cramer 1.0) entre la variable
dependiente y la variable independiente.
4.3.3. Para el caso del Coeficiente de Correlacin de Spearman
La intensidad de la relacin se interpreta tal como el coeficiente de V de Cramer. Luego debe
indicarse la direccin de la relacin: si es directa o inversamente proporcional.
4.3.4. Para el caso de la introduccin de variables control
Al realizar un cruce entre la variable dependiente (Y) y la variable independiente (Y) incluyendo
una variable de control (C), se debe realizar un anlisis de los datos de modo similar a cuando
trabajamos con dos variables. As, nos encontraremos con las siguientes situaciones:
Situacin 1: Dependencia/Independencia
16
La variable Y depende de la variable X, independientemente de la variable C. Tal situacin
ocurre cuando el estadstico de contraste es menor a 0.05 en cada una de las categoras de la
variable de control.
La variable Y no depende de la variable X, independientemente de la variable C. Dicha
situacin ocurre cuando el estadstico de contraste es mayor a 0.05 en cada una de las
categoras de la variable de control.
Situacin 2: Relacin condicionada.
La variable Y depende de la variable X, salvo en el caso de las categoras de variable C (en
donde se da una asociacin no significativa).
La variable Y no depende de la variable X, salvo en el caso de las categoras de la variable
C (en donde se da una asociacin significativa).
Situacin 3: Relacin espuria
La variable Y no depende de la variable X sino de la variable C (no existe asociacin
significativa en cada una de las categoras de la variable control).
5. EL PAPEL DE LA TEORA Y LOS MODELOS DE RELACIONES
En trminos generales asumimos que no resulta razonable llevar a cabo una investigacin de
carcter emprico sin un marco terico o analtico apropiado a nuestras preguntas (problema)
de investigacin.
La teora juega al menos cinco funciones fundamentales. En primer lugar, nos permite
delimitar aquellos mbitos de realidad a los que se le debe prestar atencin. En segundo lugar,
nos permite discriminar cules han de ser las variables relevantes en el estudio: variable
dependiente, independientes y de control. En tercer lugar, nos permite establecer el sentido de
tales relaciones (modelos) y formular, por consiguiente, hiptesis de trabajo. Y, en quinto
lugar, nos permite interpretar los resultados encontrados. Sin una adecuada teora no
podramos, por ejemplo, distinguir entre una simple relacin estadstica de una causal.
La elaboracin de representaciones acerca del sentido de las relaciones entre las variables de
un problema de investigacin se puede llevar a cabo mediante frmulas matemticas
relativamente complejas o mediante representaciones conceptuales a travs de diagramas de
flechas (que son ms frecuentes en las ciencias sociales). Tales representaciones son
especialmente relevantes en el anlisis estadstico multivariado. Nos permite establecer de
modo sencillo las mltiples relaciones que se desprenden del marco terico/analtico, lo cual
es clave para la formulacin de las hiptesis de investigacin, de modo tal de orientar las
decisiones que se deben ir tomando al momento de seleccionar e interpretar las diferentes
pruebas estadsticas (asociadas con la prueba de hiptesis).
___________________________________________________________________________
Bibliografa
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage, London).
Garca Ferrando, Manuel (1997). Socioestadstica (Alianza Editorial, Madrid).
Snchez Carrin, Juan J. (1995). Manual de Anlisis de Datos (Alianza Editorial, Madrid).
Ritzer, Ferris J. (2003). Estadstica para las Ciencias Sociales (McGraw-Hill, Mxico).