You are on page 1of 11

Regresin con variables independientes cualitativas

1.- Introduccin ........................................................................................................................2 2.- Regresin con variable cualitativa dicotmica ...................................................................2 3.- Regresin con variable cualitativa de varias categoras......................................................6

1.- Introduccin. Aunque el modelo de regresin lineal parece indicado cuando la naturaleza de ambas variables X e Y sean cuantitativas, no obstante es fcilmente demostrable que no es problema alguno operar con variables independientes cualitativas. En el caso de una variable X dicotmica, la regresin simple equivale a un contraste de medias. El supuesto de normalidad en las distribuciones ligadas (para los diferentes valores de X) es equivalente al supuesto de normalidad en las poblaciones orgenes de las dos muestras en el contraste de medias. El supuesto de homocedasticidad es el equivalente al de igualdad de varianza en las poblaciones orgenes. Y por ltimo, el de linealidad (entre los puntos medio de las distribuciones ligadas), se cumple por cuanto entre dos puntos (las medias de ambas muestras) siempre se puede definir una recta. Comenzaremos por desarrollar el caso en que la variable independiente presenta dos categoras, lo que permitir asimilarlo al contraste de medias. Posteriormente trataremos el caso en el la variable independiente presenta mas categoras, lo que ser asimilado al anlisis de la varianza. Se observar una total equivalencia de la regresin con ambas pruebas, con la ventaja de que la regresin ofrece un enfoque ms parsimonioso y permite adems conocer la proporcin de variabilidad explicada por la variable independiente ( R 2 ).

2.- Regresin con variable cualitativa dicotmica. Supongamos que tenemos las siguientes puntuaciones obtenidas en una determinada prueba de habilidad verbal por un grupo de varones y otro de mujeres:

Varones: 10, 12, 15, 8, 11 Mujeres: 12, 13, 9, 18, 16 Pretendemos estudiar si la variable sexo afecta al rendimiento. Como se sabe, habitualmente este tipo de contraste se resuelve mediante el contraste de medias: comparamos las media de los varones con la de las mujeres y estudiamos la significacin de la diferencia de medias obtenida. Tales pruebas pueden ser abordadas igualmente desde la regresin. Comenzaremos con el contraste de medias y mostraremos su equivalencia. Si hacemos los anlisis mediante un contraste de medias, los datos quedaran dispuestos de la siguiente manera:

Los varones se han agrupado con el valor de 1 y las mujeres, con el valor de 2. Los resultados son:
Estadsticos de grupo Desviacin tp. 2,58844 3,50714 Error tp. de la media 1,15758 1,56844

Habilidad verbal

Sexo 1 2

N 5 5

Media 11,20000 13,60000

Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas

Prueba T para la igualdad de medias 95% Intervalo de confianza para la diferencia Inferior Superior 2,09523 2,16412

F Habilidad verbalSe han asumido varianzas iguales No se han asumido varianzas iguales ,701

Sig. ,427

t -1,231 -1,231

gl 8 7,361

Diferencia Error tp. de Sig. (bilateral) de medias la diferencia ,253 ,256 -2,40000 -2,40000

1,94936 -6,89523 1,94936 -6,96412

Se observa, como dato ms relevante, que las medias de varones y mujeres son 11.2 y 13.6 respectivamente, junto que el valor de t es -1.231, con una significacin de 0.253, que indica que no hay diferencias entre ambos sexos. Si estos clculos los realizamos mediante la regresin simple, habremos primeramente de efectuar una cierta modificacin sobre la variable X en el sentido de someterla a una cierta codificacin, la codificacin dummy, o en espaol, ficticia, de forma tal que sea susceptible de ser tratada con la regresin lineal. Se trata de codificar una categora como 0 -ausencia de un determinado rasgo- y 1 la otra categora -presencia de ese rasgo-. En el caso que nos concierne si codificamos varones como 0 y mujeres como 1, estaremos queriendo decir, que en primer caso hay ausencia del "sexo mujer" y en otro presencia. As, el fichero de datos ser:

5 Y el resultado del anlisis de regresin:


Resumen del modelo R cuadrado corregida ,054 Error tp. de la estimacin 3,08221

Modelo 1

R ,399a

R cuadrado ,159

a. Variables predictoras: (Constante), Sexo

ANOVAb Suma de cuadrados 14,400 76,000 90,400 Media cuadrtica 14,400 9,500

Modelo 1

gl 1 8 9

Regresin Residual Total

F 1,516

Sig. ,253a

a. Variables predictoras: (Constante), Sexo b. Variable dependiente: Habilidad verbal

Coeficientesa Coeficient es estandari zados Beta ,399

Modelo 1

(Constante) Sexo

Coeficientes no estandarizados B Error tp. 11,200 1,378 2,400 1,949

t 8,125 1,231

Sig. ,000 ,253

a. Variable dependiente: Habilidad verbal

Se observa una total equivalencia. El contraste se realiza mediante el anlisis de la varianza que da un valor de 1.515 (el valor de t al cuadrado 1.2312=1.516) y Tambin el valor de t para la pendiente (2.4, que es la diferencia de las medias) equivalente al valor de t en le contraste de medias. Por otro, lado la significaciones siempre la misma 0.253 que anteriormente. Las medias de ambos grupos equivalen a las puntuaciones estimadas para cuando X vale 0 (los varones) y X vale 1 (las mujeres). As la ecuacin de regresin ser:

Y = 11.2 + 2.4 X
De esta forma, cuando se trata de varones la puntuacin prevista en Habilidad verbal ser:

Y = 11.2 + 2.4 X = 11.2 + 2.4 * 0 = 11.2


Y para las mujeres:

Y = 11.2 + 2.4 X = 11.2 + 2.4 *1 = 13.6

3.- Regresin con variables cualitativas de varias categoras.

Esta prueba es equivalente a la ya conocida de anlisis de la varianza donde se estudia el efecto de una variable cualitativa de varias categoras con otra cuantitativa. Como se sabe, para aplicar el modelo de regresin lineal han de respetarse los supuestos del modelo. Conseguido esto, sea con la estrategia que sea, se aplicar el modelo. Estos supuestos para datos transversales son: linealidad, normalidad y homocedasticidad. Los dos ltimos son los mismos que los supuestos del anlisis de la varianza, as que nada que decir al respecto. Queda la cuestin de la linealidad, que para dos medias (contrastes de medias) siempre se cumple, ya que dos puntos, cualesquiera que sean siempre pueden ser unidos mediante una recta. Otra cuestin es cuando se trata de tres o ms puntos, que difcilmente estarn exactamente alineados, por lo que para ello hemos de idear otra estrategia. La solucin consiste en generar tantas variables independientes como categoras haya en el factor, y a continuacin codificar cada una de estas variables con ceros y unos segn la categora a la que pertenezca los distintos sujetos. Veamos un ejemplo. Supongamos que aplicamos tres mtodos de enseanza (A, B y C) sobre tres grupos de sujetos, generaramos tres variables: X1, X2 y X3. Los sujetos que pertenecen al grupo A seran codificados como 1 (presencia en X1) en la variable X1 y 0 en las restantes (ausencia en X2 y X3). As: X1 1 X2 0 X3 0

Los sujetos que pertenecen al grupo B, tendran la siguiente codificacin: X1 0 X2 1 X3 0

Y los sujetos pertenecientes al grupo C: X1 0 X2 0 X3 1

Obsrvese que no es necesaria la variable X3. Con las dos primeras variables codificadas siempre estamos al tanto del grupo al que pertenecen los distintos sujetos. Si explcitamente estn en X1 o X2, no hay problemas, y si no estn en ninguna de ellas, entonces se entiende que estn en X3. Matemticamente es conveniente hacerlo as, porque si no estaremos introduciendo una variable (cualquiera de ellas) que queda explicada por las otras, con lo que nos encontraremos con un problema de colinealidad, con matrices singulares y sin posible solucin. Por tanto, generaremos dos variables con la siguiente codificacin:

Grupo A Grupo B Grupo C

X1 1 0 0

X2 0 1 0 6

7 Por otro lado, el hecho de plantear el anlisis de la varianza como un problema de regresin mltiple permite salvar el supuesto de linealidad. De nuevo, cada una de las variables independientes slo tiene dos posibles valores sobre los cuales establecer una recta. Ahora la ecuacin de regresin corresponde geomtricamente con un plano y aunque las tres medias no estn alineadas en una recta (una dimensin) s lo estn en un plano (dos dimensiones)

Veamos un ejemplo. Supongamos que tenemos tres grupos de sujetos de estudiantes de matemticas a los que hemos aplicado tres mtodos de enseanza distintos: A, B y C. Los resultados en esta materia son los siguientes:

A B C _____________ 6 5 7 7 6 6 6 5 6 5 5 7 4 4 8 5 5 8 5 5 7 5 6 6 _____________

Si aplicramos sobre estos datos un anlisis de la varianza, configuraramos la matriz de datos de la siguiente manera:

8 A continuacin: Analizar/Comparar medias/Anova de un factor:

Completamos el subcuadro de dialogo de la siguiente manera:

9 Obteniendo los siguientes resultados:

ANOVA Rendimiento Suma de cuadrados 13,000 15,625 28,625 gl 2 21 23 Media cuadrtica 6,500 ,744 F 8,736 Sig. ,002

Inter-grupos Intra-grupos Total

Veamos ahora cmo habramos de disponer de los datos para operar desde el modelo de regresin:

10 A continuacin:

Completando el subcuadro de dilogo de la siguiente manera:

10

11 Obtendremos los siguientes resultados:

ANOVAb Suma de cuadrados 13,000 15,625 28,625 Media cuadrtica 6,500 ,744

Modelo 1

gl 2 21 23

Regresin Residual Total

F 8,736

Sig. ,002a

a. Variables predictoras: (Constante), X2, X1 b. Variable dependiente: Y

Coeficientesa Coeficient es estandari zados Beta -,540 -,755

Modelo 1

(Constante) X1 X2

Coeficientes no estandarizados B Error tp. 6,875 ,305 -1,250 ,431 -1,750 ,431

t 22,543 -2,898 -4,058

Sig. ,000 ,009 ,001

a. Variable dependiente: Y

Obsrvese cmo el anlisis de la varianza sobre el modelo de regresin es exactamente el mismo. Adems, sabemos que los mtodos de enseanza dan cuenta de un 45% de la variabilidad de los datos. Por otro lado, las puntuaciones previstas para los diferentes mtodos de enseanza son:

Mtodo A:

Y = 6.875 1.250 X 1 1.75 X 2 = 6.875 1.25 *1 1.75 * 0 = 5.625 Mtodo B: Y = 6.875 1.250 X 1 1.75 X 2 = 6.875 1.25 * 0 1.75 *1 = 5.12 5 Mtodo C: Y = 6.875 1.250 X 1 1.75 X 2 = 6.875 1.25 * 0 1.75 * 0 = 6.875

que son las medias de los grupos A, B y C respectivamente

11