Análisis Estadístico

1
ANLISIS ESTADSTICO UNIVARIADO, BIVARIADO Y

VARIABLES CONTROL
1

El presente documento de trabajo tiene por objeto enfatizar de un modo sencillo algunos de
los contenidos vistos en clases en relacin con el anlisis univariado, bivariado y variables
control. Cada uno de los aspectos aqu tratados puede ser profundizado con el apoyo de la
bibliografa sugerida para el curso, segn se ha indicado en el programa. Por tratarse de un
texto preliminar, mucho de lo que aqu se expone est sujeto a futuras correcciones y
actualizaciones, constituyendo el primero de una serie de apuntes que sern entregados en el
transcurso del semestre acadmico.

1. TIPOS DE VARIABLES

Las variables pueden ser clasificadas segn diferentes tipos de criterios, entre ellos podemos
mencionar el nivel de medicin y el lugar que ocupan en la investigacin.

1.1. Segn nivel de medicin

El nivel de medicin de una variable determina tanto el tipo de operaciones matemticas que
puede realizarse (suma, resta, multiplicacin, divisin, etc.) como el tipo de tcnicas
estadsticas correspondiente para la prueba de hiptesis. De acuerdo a su nivel de medicin
las variables pueden ser clasificadas en nominales, ordinales, intervalares y de razn.

Las variables nominales, tambin llamadas variables cualitativas o categricas, hacen
referencia a ciertas cualidades o atributos en los valores de una variable. Es decir, dichos
valores (categoras) no pueden ser ordenados a partir de un criterio de jerarqua. Ejemplo:
sexo, religin, zona (urbano/rural), etc. En el caso de sexo, si asignamos valor 1 = hombre y
valor 2 = mujer, difcilmente resulta razonable sostener que mujer vale dos veces hombre. De
igual modo queda de manifiesto que los valores son asignados de un modo arbitrario.
Perfectamente pudimos haber otorgado el valor 1 a mujer (y no el valor 2).

En las variables ordinales, a diferencia de las nominales, los valores de la variable pueden ser
ordenados a partir de algn criterio de jerarquizacin. Se puede establecer por consiguiente un
orden ascendente o descendente entre los distintos valores (o categoras). Ejemplo: NSE
(bajo, medio, alto), percepcin de progreso del pas (progresando, estancado, en decadencia),
etc.

En las variables intervalares, al igual que las ordinales, los valores de la variable pueden ser
jerarquizados. Y, a su vez, a diferencia de las ordinales, los distintos valores de la variable son
equidistantes. Existen intervalos regulares entre las puntuaciones de la variable en su escala
de medicin. Ejemplo: temperatura. En ciencias sociales se asume que, de acuerdo a una
cierta convencin no ortodoxa, las variables medidas a travs de escalas Likert de cinco
categoras (muy de acuerdo, de acuerdo, ni de acuerdo/ni en desacuerdo, en desacuerdo, muy
en desacuerdo) se comportan como si fueran variables intervalares. No obstante, debe
chequearse si distribucin si se ajusta o no a una curva normal.

1
Profesor Jaime Fierro, Socilogo y Magster en Ciencias Sociales de la Universidad de Chile. Ph.D. en Ciencia
Poltica de la Universidad de Essex, Inglaterra. Actualizado al primer semestre de 2010.
2
Las variables de razn se diferencian de las intervalares por el hecho de que el 0 no es un
valor fijado de un modo arbitrario (como podra ser el caso de la temperatura en donde el
valor de 0 grados no significa ausencia de temperatura), sino que es real y representa la
ausencia del atributo. Ejemplo: mortalidad, edad, ingresos, etc.

*** Se debe tener presente el hecho de que cualquier variable puede ser recodificada en un
nivel inferior de medicin, pero no as lo contrario. Podemos, por ejemplo, recodificar una
variable intervalar en ordinal o nominal, pero en ningn caso podemos pasar de una variable
medida a nivel nominal a una de tipo ordinal o intervalar.

1.2. Segn el lugar que ocupan en la investigacin

Variable dependiente: corresponde a la variable (fenmeno) que intentamos caracterizar o
explicar.

Variable(s) independiente(s): corresponde(n) a la(s) variable(s) que explicara(n) las
variaciones en los valores de la variable dependiente. En ltima instancia seran las causas del
fenmeno bajo estudio. El proceso de corroboracin de relaciones de tipo casual requerir,
entre otras cosas, del descarte de relaciones espurias (falsas).

Variables de control: se introducen con la finalidad de determinar si la relacin inicial entre
la variable dependiente y la(s) independiente(s) es verdadera. Esto permitira aumentar la
validez interna de un estudio (relacin causa-efecto).

Variables intervinientes: son aquellas variables que haran que la relacin inicial entre la
variable dependiente y la independiente sea: i) falsa en el caso de ser verdadera inicialmente;
o ii) verdadera en el caso de ser falsa inicialmente. Es decir, las variaciones o no en los
valores de las puntuaciones de la variable dependiente no se deben a las variaciones en los
valores de la variable dependiente, sino ms bien a una accin de una tercera variable.

Variables condicionantes: son variables que median la relacin entre la variable dependiente
y la independiente sin modificarla completamente, salvo en algunas de sus categoras o
valores.

3
2. ANLISIS UNIVARIADO

Al realizar un anlisis univariado nos concentramos en cada variable de modo independiente.
Usualmente trabajamos con distribuciones de frecuencias, medidas de tendencia central y
medidas de dispersin.

2.2. Distribucin de frecuencias

La distribucin defrecuencias nos indica el nmero de casos que hay en cada categora de la
variable. A partir de dichos valores, en una tabla de frecuencias, se calcula el porcentaje
(respecto del total de observaciones), porcentaje vlido (excluido los valores perdidos) y el
porcentaje acumulado (porcentaje de la primera categora, luego ste ms el de la segunda
categora y as sucesivamente). Se aplica para variables nominales, ordinales y en cierto tipo
de variables intervalares (por ejemplo, en escalas Likert).

Adems de la tabla de frecuencias tambin es posible hacer representaciones grficas tales
como: grfico de barras, grfico circular o un polgono de frecuencias.

2.3 Medidas de tendencia central: media, mediana y moda

Las medidas de tendencia central dan cuenta del tipo de distribucin que tienen los valores de
la variable respecto de un valor tpico, o puntuacin central, a partir del cual se agrupan. Se
calculan para variables medidas a nivel nominal, ordinal y en algunas intervalares (por
ejemplo, en escalas Likert).

La media o promedio corresponde a la suma de todas las puntuaciones de la variable dividida
por el nmero total de casos.

La mediana es el valor que divide por la mitad a las puntuaciones de la variable: los que estn
por debajo de ste y los que estn por encima. Es decir, es el valor que divide en dos mitades
a las observaciones.

La moda es el valor que ms que ms se repite del conjunto de observaciones, pudiendo haber
ms de una moda (bimodal o multimodal).

*** En una curva de distribucin normal coinciden la media, la mediana y la moda.

4
2.4. Medidas de dispersin: desviacin estndar y varianza

Las medidas de dispersin indican el grado variabilidad de de los datos respecto de la media
(promedio). Se debe tener presente que una propiedad de la media es que la suma de las
diferencias de todos los valores de la variable respecto de la media es siempre 0. Es por ello
que para el clculo de la varianza y la desviacin estndar la se procede a elevar la sumatoria
de las diferencias al cuadrado.

La varianza es el valor promedio del cuadrado de las puntuaciones respecto de la media. Se
utiliza mucho en pruebas de inferencia estadstica (de la muestra al universo), pero su unidad
de medida no es directamente interpretable (ya que est al cuadrado), razn por la cual se
recurre a la desviacin estndar. Su frmula de clculo es la siguiente:

n
x x
S

2
2
) (

La desviacin estndar o tpica es el promedio de desviacin de los valores de las
observaciones respecto de la media, expresada en los valores originales de la medicin de la
variable. Esto no es otra cosa que la raz cuadrada de la varianza. Cuanto ms se aleje el valor
respecto de la media, mayor ser la desviacin estndar. Se aplica a variables medidas a nivel
intervalar o de razn. Su frmula de clculo es la siguiente:

n
x x
S

2
) (

2.5. Ejecucin de tablas de frecuencias, medidas de tendencia central y de dispersin en
SPSS

La serie de comanda a ejecutar seran los siguientes:

1. Analizar en la barra del men de SPSS
2. Estadsticos descriptivos
3. Frecuencias / Ingresar variables
4. Estadsticos > Tendencia central / Seleccionar media, mediana y moda, segn
corresponda al nivel de medicin de las variables
Dispersin / Seleccionar desviacin estndar y varianza. Slo para
variables intervalares
5. Continuar
6. Aceptar

5
2.6. Ejemplo de un caso aplicado en SPSS

Si alguien quisiera saber la proporcin de chilenos que se considera feliz podemos intentar
responder dicha pregunta a partir de la Encuesta CEP Diciembre de 2008 (www.cepchile.cl),
ya que contiene una pregunta al respecto. Puesto que la variable ha sido medida en una escala
Likert de cuatro categoras, bastara extraer simplemente una distribucin de frecuencias.
Antes de eso, sin embargo, los valores No sabe (codificados usualmente con valores 8) y
No contesta (codificados usualmente con valores 9) habra que incluirlos como Valores
perdidos y, de este modo, obtendremos el porcentaje vlido de casos para la variable
felicidad.

Los pasos seran:
1. Seleccionar la columna de valores en la variable felicidad e identificar los valores
asociados a No sabe (8) y No contesta (9)
2. Aceptar
3. Seleccionar la columna de valores perdidos en la variable felicidad e ingresar los
valores 8 y 9 como valores perdidos
4. Aceptar

6
Luego ya estamos en condiciones de realizar una distribucin de frecuencias de modo ms
adecuado. Continenos entonces con el resto del procedimiento:

1. Analizar en la barra del men de SPSS
3. Frecuencias / seleccionar e ingresar la variable felicidad a la casilla de variables
4. Continuar
5. Aceptar

7

Finalmente, la tabla de distribucin de frecuencias sera la siguiente:

Considere su vida en general, qu tan feliz o infeliz Ud. dira que es su vida en
general?
57 3,8 3,8 3,8
333 22,2 22,3 26,1
713 47,4 47,6 73,7
394 26,2 26,3 100,0
1498 99,5 100,0
1 ,1
6 ,4
7 ,5
1505 100,0
Para nada f eliz
No muy f eliz
Bastante f eliz
Muy f eliz
Total
Vlidos
No sabe
No contesta
Total
Perdidos
Total
Frecuencia Porcentaje
Porcentaje
vlido
Porcentaje
acumulado

En dnde, segn se puede apreciar en la columna de porcentaje vlido de la tabla, un 26.3%
de los chilenos se considera en general en su vida Muy feliz versus el 3.8% que se
considera Para Nada Feliz. Del mismo modo, observamos que una parte significativa de los
chilenos se considera No muy feliz, 22.3%.

A partir de estos datos surgen una serie de posibles preguntas al respecto, por ejemplo,
Depende el nivel de felicidad de las personas del sexo, la edad, la escolaridad o el NSE?
Responder preguntas como esta requiere, sin embargo, de un tipo de anlisis distinto. En
estadstica lo denominamos Anlisis Bivariado, ya que incluye una variable dependiente y al
menos una variable independiente.
8
3. RELACIONES ENTRE VARIABLES NOMINALES Y ORDINALES

3.1. El estudio de la relacin entre variables

En las ciencias sociales a menudo se desea determinar la existencia o no de relacin entre dos
variables, para lo cual se realizan diferentes pruebas de significacin estadstica. La forma en
que se relacionan dos variables se denomina asociacin entre dos variables. El inters de este
tipo de anlisis se centra principalmente en la forma en que se distribuye la variable
dependiente en funcin de las diferentes categoras o valores de la variable independiente. Es
decir, la variable que atrae primordialmente la atencin del investigador, y cuya variacin
trata de explicar, se llama variable dependiente, porque se supone que los valores que toma
dicha variable dependen de los valores que presentan otras variables. Estas variables que se
suponen influyen en los valores que toma la variable dependiente son las variables
independientes (explicativas o causales), ya que permiten conocer por qu vara la variable
dependiente de la forma que lo hace en una determinada poblacin (usualmente una muestra).

Sin embargo, los resultados que aparecen al establecer relaciones significativas entre dos variables
son de naturaleza descriptiva y tales resultados no explican por qu ocurre dicha relacin. Esto es,
una correlacin entre dos variables no implica necesariamente una relacin causal entre ellas
puesto que en cualquier correlacin podra existir una tercera variable que explique la asociacin
entre las dos variables que han sido medidas (relacin espuria). A su vez, se debe verificar que la
variable independiente (causa) anteceda temporalmente a la variable dependiente (efecto). Del
mismo modo, se hace necesaria la existencia de una teora que nos permita discriminar entre las
simples relaciones estadsticas y las relaciones causales propiamente tales.

El estudio de la relacin entre dos variables se puede caracterizar mediante: i) la existencia o no
de asociacin; ii) la fuerza de dicha asociacin y iii) la direccin de sta.
2
Ciertamente solamente
tiene sentido ii) y iii) si se verifica en i) la existencia de relacin entre las variables. Para ello se
utilizan un conjunto de pruebas de significacin estadstica, las cuales dependern del nivel de
medicin de las variables.

A la base de dicho anlisis se encuentra la teora y las hiptesis que se puedan desprender
de sta. En otras palabras, en el estudio de relaciones entre variables intentamos testear
empricamente hiptesis que nos resultan plausibles a la luz de un cierto marco terico-
analtico. Una hiptesis no es otra cosa que una respuesta tentativa a la pregunta de
investigacin (problema). Es una prediccin respecto del posible resultado que se espera
encontrar. Y, en el estudio de relaciones entre variables, sta guarda relacin con el hecho de
determinar si las variaciones en los valores de la variable independiente se encuentran o no
asociados a las variaciones en los valores de la variable dependiente. Puesto que una hiptesis
requiere de verificacin emprica, se hace necesario realizar una prueba de significacin
estadstica para determinar si la hiptesis planteada se verifica o no.

3.2. Las pruebas de significacin estadsticas

Para la determinacin de la existencia o no de asociacin entre la variable dependiente y las
variables independientes se utilizar el coeficiente estadstico Chi Cuadrado de Pearson. La
intensidad de la asociacin se determinar mediante el coeficiente V de Cramer. Para la
determinacin de a direccin de la asociacin, en tanto, se efectuar el coeficiente de correlacin
de Spearman.

2
Una cuarta caracterstica hace referencia a la naturaleza de la relacin. Es decir, a la forma de distribucin de X
respecto de Y, ya sea de forma lineal, curvilnea o de otra naturaleza.
9
La prueba de significacin estadstica basada en el coeficiente Chi Cuadrado de Pearson tiene
como fin examinar asociacin entre variables categricas (nominales u ordinales).
3
Existe
asociacin entre variables cuando los valores de una de ellas dependen de los valores de otra.
Cuando dos variables estn relacionadas es posible predecir los valores de la variable dependiente
en funcin de los valores de las variables independientes. No existe relacin cuando stas son
independientes. Dos variables independientes no tienen nada en comn. El estadstico Ji-
cuadrado, sin embargo, no permite estudiar la intensidad de la relacin entre las variables.

La prueba basada en el Coeficiente V de Cramer tiene como finalidad comparar grados de
asociacin entre variables medidas a nivel nominal. El Coeficiente V de Cramer asume valores
entre 0 y 1, en donde, valores prximos a 0 indican una muy baja asociacin entre las variables y
valores prximos a 1 indicas una fuerte asociacin.

Finalmente, la prueba de significacin estadstica basada en el Coeficiente de Correlacin de
Spearman tiene por objeto determinar la direccin y la intensidad de la asociacin entre dos
variables medidas a nivel ordinal. Dicho coeficiente toma valores entre -1 y +1. Los valores
cercanos a -1 +1 indican fuerte asociacin entre las variables mientras que los valores cercanos
a 0 indican una muy baja asociacin. Si el valor es positivo, la variables varan en la misma
direccin, en tanto, si es negativo lo hacen en direcciones opuestas (a medida que aumenta una
disminuye la otra). Se debe tener presente que Spearman est pensado para detectar relaciones de
tipo lineal, pero no todas las relaciones son lineales (por ejemplo, las curvilneas).

No obstante, bien vale la pena recordar al respecto dos cosas. En primer lugar, en la investigacin
en ciencias sociales rara vez nos encontramos con variables altamente asociadas. Y, en segundo
lugar, la interpretacin de la magnitud de dicha asociacin va a depender del tipo de estudio y si
se enmarca en las ciencias sociales o en las llamadas ciencias duras. En particular, qu niveles de
asociacin sern considerados como bajos, medios o altos sern determinados por el investigador
en funcin de la prctica disciplinaria aplicada al estudio de la temtica que se investiga. No
obstante lo anterior existen ciertas convenciones ms o menos generalizadas. En virtud de tales
consideraciones se entender en el marco del presente curso, una vez verificada una relacin
estadsticamente significativa entre las variables, como: i) una asociacin baja, a los valores
inferiores a 0.2; ii) como media, a los valores iguales o mayores que 0.2 y menores que 0.3; y iii)
como alta, a los valores superiores o iguales a 0.3.

Para las pruebas estadsticas en cuestin, si el p-valor asociado al estadstico de contraste es
menor que el nivel de significacin 0.05, se rechazar la hiptesis nula H
0
a un nivel de
confianza del 95%, y se aceptar la hiptesis alternativa H
1
(asociacin entre la variable
dependiente y la independiente). El nivel de significacin constituye el valor crtico a partir del
cual estamos dispuestos a aceptar o rechazar una hiptesis dentro de ciertos mrgenes razonables
de error, siendo el mximo estndar en ciencias sociales de un 5% (95% de confianza). Entre
menor sea el nivel de significacin, mayor es el nivel de confianza y, por consiguiente, menor ser
la probabilidad de cometer un error en la prueba de hiptesis. Los errores que se pueden cometer
son de dos: (i) el error tipo I (alfa), el cual se produce cuando se acepta la hiptesis
alternativa siendo sta falsa; y (ii) el error tipo II (beta), el cual se genera cuando se rechaza
la hiptesis alternativa siendo sta verdadera.

3
Utilizamos la prueba Chi-cuadrado en variable ordinales porque el Coeficiente de Correlacin de Spearman
(ver ms adelante) nicamente da cuenta de relaciones de tipo lineal.
10
3.4. Ejecucin de tablas de contingencia con medidas de asociacin en SPSS

En el caso de trabajar con SPSS en la versin en ingls se deben dar los siguientes pasos:

1. Analizar en la barra del men de SPSS.
3. Tablas de contingencia / Ingresar la variable dependiente(s) en filas y
independiente(s) en columnas
4. Casillas
/ Frecuencias > Sacar seleccin en observadas.
/ Porcentajes > Seleccionar columna.
5. Continuar
6. Estadsticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), segn
corresponda al nivel de medicin de las variables.
7. Continuar
8. Aceptar

3.5. Ejemplo de un caso aplicado en SPSS

Retomemos nuestra inquietud anterior en trminos de, por ejemplo, responder la siguiente
pregunta: El nivel de felicidad depende del NSE de las personas? Es decir, A medida que se
aumenta en el NSE, aumenta tambin el nivel de felicidad? La hiptesis alternativa general
sera: el nivel de felicidad de las personas se encuentra determinado por su NSE. En tanto, la
hiptesis especfica alternativa sera: el nivel de felicidad de las personas aumenta a medida
que aumenta su NSE.

Se debe tener presente que ambas variables son ordinales y, por ende, podemos aplicar el
Coeficiente de Correlacin de Spearman. No hay olvidar dejar fuera los valores perdidos (No
sabe (8) / No responde (9)).

11

12

Finalmente se obtendr la siguiente tabla de contingencia con su respectiva prueba de
significacin estadstica. Analice e interprete los resultados. Qu puede concluir al respecto?

Tabla de contingencia Consi dere su vida en general, qu tan feliz o infel iz Ud. dira que
es su vi da en general? * Nivel Socioeconmico
% de Nivel Socioeconmico
6,0% 2,0% 3,9%
29,5% 16,6% 22,3%
41,3% 53,5% 48,8% 47,6%
23,2% 27,9% 51,2% 26,3%
100,0% 100,0% 100,0% 100,0%
Para nada f eliz
No muy f eliz
Bastante f eliz
Muy f eliz
Considere su vida en
general, qu tan
f eliz o inf eliz Ud. dira
que es su vida en
general?
Total
BAJO MEDIO ALTO
Niv el Socioeconmico
Total

13
Medidas simtri cas
,193 ,024 7,601 ,000
c
,180 ,025 7,083 ,000
c
1499
R de Pearson Interv alo por intervalo
Correlacin de Spearman Ordinal por ordinal
N de casos vlidos
Valor Error tp. asint.
a
T aproximada
b
Sig.
aproximada
Asumiendo la hiptesis alternat iv a.
a.
Empleando el error tpico asintt ico basado en la hiptesis nula.
b.
Basada en la aproximacin normal.
c.

4. INTRODUCCIN DE VARIABLES DE CONTROL

4.1. Aspectos conceptuales

Dado la complejidad de la realidad, esto es, su multidimensionalidad (que se expresa tanto en las
mltiples dimisiones que suele involucrar un concepto como en la multiciplicidad de variables
que inciden en la manifestacin de un fenmeno determinado), muchos de los fenmenos sociales
no son susceptibles de ser apropiadamente caracterizados a partir del estudio de la relacin entre
dos variables (dependiente e independiente). La simple determinacin de la existencia o no de
relacin entre dos variables no es suficiente para determinar si dicha relacin es verdadera o
espuria (falsa). En ese momento no podemos estar seguros acerca de los resultados encontrados ya
que eventualmente stos podran deberse a una tercera variable, que hasta ese momento no ha sido
considerada en el anlisis. Y si ese fuera el caso, la relacin original sera explicada no por la
variable independiente, sino por esta tercera variable. Dicha variable es nombrada en tal caso
como interviniente y pondra en evidencia la falsedad de la relacin original. Eventualmente
tambin, la relacin original podra verse modificada nicamente en algunas de las categoras de
la tercera variable. En tal caso hablamos de una relacin condicionada.

En trminos generales, al momento de elaborar una relacin entre dos variables (particularmente
del tipo causa-efecto) se suele introducir una tercera variable, la cual se denomina variable
control. Lo que se intenta es determinar si sta posee un determinado efecto sobre la relacin entre
la variable dependiente y la independiente que pudiera modificar parcial (condicionada) o
totalmente la relacin original (interviniente). Por ende, cuando se descubre una relacin entre dos
variables, lo que est en juego es lograr determinar si se trata de una relacin verdadera o espuria.
Puesto que las variables en ciencias sociales se encuentran con frecuencia asociadas unas con
otras, resulta necesario asegurarse de que exista una asociacin verdadera entre las dos variables
originales. Cuando esto no ocurre hablamos de una relacin espuria, o sea, que la relacin
aparente entre dos variables se debe a la asociacin de ambas variables con una tercera variable
ajena a la relacin original.

Por consiguiente, la adecuada determinacin de la relacin bivariable original se logra mediante la
inclusin de variables control que eventualmente pudieran invalidar dicha relacin, lo cual es
clave para no arribar a conclusiones errneas sobre las relaciones entre variables sin haber
dilucidado antes si se trataba o no de relaciones espurias. En definitiva, de lo que se trata es de
comprobar si la relacin inicial que aparece entre dos variables es real o aparente, mediante la
introduccin de una variable de control. A su vez, interesa comprobar si la ausencia de relacin
entre dos variables es tambin real o se debe, por el contrario, a la existencia de una tercera
variable que suprime la relacin entre las dos variables originales.

14

Ms concretamente, hay al menos tres situaciones tpicas en la investigacin social en donde las
variables de control son necesarias:

La primera de ellas se presenta cuando una tcnica estadstica (por ejemplo, Chi Cuadrado de
Pearson) muestra que dos variables estn relacionadas, y se duda si entre ambas existe una
relacin, no slo estadstica, sino de dependencia (o causal). Es decir, se intenta dilucidar si tal
relacin es real o espuria.
La segunda, en tanto, se presenta cuando se intenta descubrir relaciones ocultas entre las
variables. As por ejemplo, se puede intentar averiguar por qu resulta tan pequea (o tan alta)
la intensidad de la relacin entre dos variables cuando todo hace pensar que su relacin
debera ser mucho mayor (o menor).
Y, en tercer lugar, en muchas ocasiones se presenta la duda acerca de si la relacin que se
establece entre dos variables originales funciona en todas las circunstancias o, por el contrario,
se manifiesta nicamente bajo determinadas condiciones (categoras de la variable control).

El razonamiento estadstico de la tcnica del control por una tercera variable es muy sencillo. En
Primer lugar calculamos la relacin entre la variable dependiente y la independiente y, a
continuacin, se repite el procedimiento para cada una de las categoras de la(s) variable(s)
control.

Ahora bien, en trminos estadsticos, el que la relacin entre dos variables sea independiente de la
influencia de terceras variables significa que cualquiera que sea la tercera variable que se
introduzca como control, la relacin entre las variables iniciales se mantendr en cada una de las
categoras de la(s) variable(s) control.

Para el caso contrario, cabe distinguir al menos dos
situaciones: i) cuando existe dependencia de terceras variables y la relacin desaparece por
completo en todas las categoras (relacin espuria) y ii) cuando existe dependencia de terceras
variables y la relacin desaparece parcialmente en alguna de las categoras (relacin de tipo
condicional o tambin denominada de interaccin).

4.2. Ejecucin de tablas de contingencia con medidas de asociacin en SPSS,
introduciendo variables control

1. Analizar en la barra del men de SPSS.
3. Tablas de contingencia / Ingresar la variable dependiente(s) en filas y la variable
independiente(s) en columnas. La(s) variable(s) control se ingresan en capa.
4. Casillas
/ Frecuencias > Sacar seleccin en observadas.
/ Porcentajes > Seleccionar columna.
5. Continuar
6. Estadsticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), segn
corresponda al nivel de medicin de las variables.
7. Continuar
8. Aceptar

15
4.3. Anlisis de los datos

Al momento de escribir el informe de anlisis de datos usted debe tener en consideracin:

4.3.1. Para el caso de la prueba de significacin estadstica Chi-cuadrado de Pearson

Situacin 1: Asociacin.

En este caso usted debiera sealar que: existe asociacin estadsticamente significativa entre
la variable dependiente y la variable independiente. Ello ocurre cuando el estadstico de
contraste es menor a 0.05.

Situacin 2: No asociacin.

De modo anlogo al caso anterior usted debiera indicar que: no existe asociacin
estadsticamente significativa entre la variable dependiente y la variable independiente.
Ello ocurre cuando el estadstico de contraste es mayor a 0.05.

*** Se debe prestar especial atencin al porcentaje de celdas con frecuencia esperada
inferior a 5. Que no supere el 25% de las celdas. Si ese fuera el caso se recomienda
recodificar, ya que de lo contrario se corre el riesgo de llegar a una conclusin errnea.

4.3.2. Para el caso del Coeficiente V de Cramer y Spearman

Slo consideraremos el Coeficiente V de Cramer como parte del anlisis cuando Chi-cuadrado de
Pearson sea estadsticamente significativo. Es decir, cuando exista asociacin entre la variable
dependiente y la variable independiente. Usualmente, por lo dems, cuando Chi-cuadrado de
Pearson es significativo, lo es tambin V de Cramer.

Situacin 1: Existe una intensidad de asociacin baja (0.0 < V de Cramer 0.2) entre la variable
dependiente y la variable independiente.

Situacin 2: Existe una intensidad de asociacin media (0.2 < V de Cramer 0.3) entre la
variable dependiente y la variable independiente.

Situacin 3: Existe una intensidad de asociacin alta (0.3 < V de Cramer 1.0) entre la variable
dependiente y la variable independiente.

4.3.3. Para el caso del Coeficiente de Correlacin de Spearman

La intensidad de la relacin se interpreta tal como el coeficiente de V de Cramer. Luego debe
indicarse la direccin de la relacin: si es directa o inversamente proporcional.

4.3.4. Para el caso de la introduccin de variables control

Al realizar un cruce entre la variable dependiente (Y) y la variable independiente (Y) incluyendo
una variable de control (C), se debe realizar un anlisis de los datos de modo similar a cuando
trabajamos con dos variables. As, nos encontraremos con las siguientes situaciones:

Situacin 1: Dependencia/Independencia
16
La variable Y depende de la variable X, independientemente de la variable C. Tal situacin
ocurre cuando el estadstico de contraste es menor a 0.05 en cada una de las categoras de la
variable de control.

La variable Y no depende de la variable X, independientemente de la variable C. Dicha
situacin ocurre cuando el estadstico de contraste es mayor a 0.05 en cada una de las
categoras de la variable de control.

Situacin 2: Relacin condicionada.

La variable Y depende de la variable X, salvo en el caso de las categoras de variable C (en
donde se da una asociacin no significativa).

La variable Y no depende de la variable X, salvo en el caso de las categoras de la variable
C (en donde se da una asociacin significativa).

Situacin 3: Relacin espuria

La variable Y no depende de la variable X sino de la variable C (no existe asociacin
significativa en cada una de las categoras de la variable control).

5. EL PAPEL DE LA TEORA Y LOS MODELOS DE RELACIONES

En trminos generales asumimos que no resulta razonable llevar a cabo una investigacin de
carcter emprico sin un marco terico o analtico apropiado a nuestras preguntas (problema)
de investigacin.

La teora juega al menos cinco funciones fundamentales. En primer lugar, nos permite
delimitar aquellos mbitos de realidad a los que se le debe prestar atencin. En segundo lugar,
nos permite discriminar cules han de ser las variables relevantes en el estudio: variable
dependiente, independientes y de control. En tercer lugar, nos permite establecer el sentido de
tales relaciones (modelos) y formular, por consiguiente, hiptesis de trabajo. Y, en quinto
lugar, nos permite interpretar los resultados encontrados. Sin una adecuada teora no
podramos, por ejemplo, distinguir entre una simple relacin estadstica de una causal.

La elaboracin de representaciones acerca del sentido de las relaciones entre las variables de
un problema de investigacin se puede llevar a cabo mediante frmulas matemticas
relativamente complejas o mediante representaciones conceptuales a travs de diagramas de
flechas (que son ms frecuentes en las ciencias sociales). Tales representaciones son
especialmente relevantes en el anlisis estadstico multivariado. Nos permite establecer de
modo sencillo las mltiples relaciones que se desprenden del marco terico/analtico, lo cual
es clave para la formulacin de las hiptesis de investigacin, de modo tal de orientar las
decisiones que se deben ir tomando al momento de seleccionar e interpretar las diferentes
pruebas estadsticas (asociadas con la prueba de hiptesis).
___________________________________________________________________________
Bibliografa
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage, London).
Garca Ferrando, Manuel (1997). Socioestadstica (Alianza Editorial, Madrid).
Snchez Carrin, Juan J. (1995). Manual de Anlisis de Datos (Alianza Editorial, Madrid).
Ritzer, Ferris J. (2003). Estadstica para las Ciencias Sociales (McGraw-Hill, Mxico).

Análisis Estadístico

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis Estadístico

Uploaded by

Copyright:

Available Formats

1

ANLISIS ESTADSTICO UNIVARIADO, BIVARIADO Y

You might also like