You are on page 1of 5

Otros autores consideran fundamentales a las distribuciones normal, binomial y de Student, y hacen

referencia a otras, como la distribucin chi cuadrado (x


2
) que, a diferencia de la primeras, no es
paramtrica, es decir, no requiere supuestos tan rigurosos acerca de la poblacin, como por ejemplo de
que esta se distribuya normalmente (Kohan N, 1994:191).
Hay otras leyes que tienen alcance ms general, como por ejemplo la ley de distribucin de las medias
(Vessereau A, 1962:24) que establece que, cualquiera que sea la distribucin (binomial, gaussiana, etc),
el desvo estndar de las medias aritmticas de todas las muestras posibles de n elementos disminuye
inversamente a la raz cuadrada de n. Esto significa que cuanto ms grandes sean las muestras, menos
desviacin o dispersin habr entre sus medias aritmticas.


CAPTULO 4: CORRELACION Y REGRESION

4.1 INTRODUCCIN

El anlisis de correlacin permite averiguar el tipo y el grado de asociacin estadstica entre
dos o ms variables, mientras que el anlisis de regresin permite hacer predicciones sobre
la base de la correlacin detectada.
Ms concretamente, una vez realizado el anlisis de correlacin, pueden obtenerse dos
resultados: que haya correlacin o que no la haya. Si hay correlacin, entonces se emprende
un anlisis de regresin, consistente en predecir cmo seguirn variando esas variables
segn nuevos valores.
Por ejemplo, si sobre la base de haber examinado a 40 alumnos se concluye una alta
correlacin en sus notas en ambos parciales, conociendo la nota del primer parcial de un
alumno nmero 41, podremos predecir con algn margen de seguridad cunto se sacar
este alumno en el segundo parcial.
En general el anlisis de correlacin se realiza conjuntamente con el anlisis de regresin.
Mientras el anlisis de correlacin busca asociaciones, el anlisis de regresin busca
predicciones, es decir, predecir el comportamiento de una variable a partir del
comportamiento de la otra.
As, la correlacin y la regresin estn ntimamente ligadas. En el nivel ms sencillo, ambas
implican la relacin entre dos variables y utilizan el mismo conjunto de datos bsicos, pero
mientras la correlacin tiene que ver con la magnitud y la direccin de la relacin, la
regresin se centra en el uso de la relacin para hacer una prediccin. Esta ltima es sencilla
cuando la relacin es perfecta, pero la situacin es ms compleja si la relacin es imperfecta
(Pagano, 127).
La correlacin es til porque permite hacer predicciones, porque permite establecer
correlaciones (paso previo para la determinacin de una conexin causal), y para realizar
pruebas de confiabilidad de instrumentos de medicin como los tests (prueba test-retest)
(Pagano, 99).
Por ltimo, vale la pena aclarar que en el contexto de un estudio cientfico, no basta con
determinar el grado de correlacin entre dos variables en una muestra. Es necesario adems
establecer, mediante una prueba de significacin (por ejemplo la prueba t), si la correlacin
establecida en la muestra puede extenderse a toda la poblacin con un determinado nivel de
confianza. Esta tarea corresponder a la estadstica inferencial.

Correlacin lineal.- Las relaciones entre variables pueden ser de muchos tipos. a) Hay
relaciones deterministas que responden a modelos matemticos tericos, como por ejemplo
la relacin entre la intensidad de una corriente y la resistencia del conductor, o bien, la
relacin entre la factura de consumo de agua y el nmero de metros cbicos consumidos.
Estas relaciones son habituales en ciencias exactas. b) Otras relaciones no son tan
deterministas, pero pueden eventualmente parecerse slo parecerse- a algn modelo
matemtico terico determinista, en cuyo caso se concluye que ese modelo explica bien la
relacin, aunque no lo haga perfectamente. Estas relaciones son habituales en las ciencias
sociales (Botella, 1993:181).
Dentro de los muchos modelos tericos a los cuales podra ajustarse una relacin no
determinista se cuentan los modelos lineales, los modelos cuadrticos, los modelos cbicos,
etc. El primero se representa mediante una recta, y los restantes mediante diversos tipos de
curva como parbolas e hiprbolas. El presente artculo har referencia, por razones de
simplicidad, a las relaciones lineales y, por tanto, a la correlacin lineal.

Correlacin y causalidad.- El hecho de que dos variables estn correlacionadas, no significa
necesariamente que una sea la causa y la otra el efecto: la correlacin no siempre significa
causalidad. Entre otras cosas, una alta correlacin puede deberse a que ambas variables X e
Y dependen cada una independientemente de otra variable Z, y entonces, al variar Z hace
variar conjuntamente a X e Y, produciendo un efecto de alta correlacin que puede dar la
apariencia de causalidad. Por dar un ejemplo: entre memoria visual (X) y memoria auditiva
(Y) puede haber una alta correlacin, pero ello no significa que la memoria visual sea la
causa de la memoria auditiva, ya que ambas pueden estar dependiendo de otro factor Z ms
general, llmese "memoria", o "cantidad de ARN".
Si realizar el anlisis de correlacin es algo relativamente fcil (se trata de recoger datos y
aplicar una frmula), determinar el vnculo causal suele implicar un procedimiento ms
laborioso, como por ejemplo la ejecucin de un diseo experimental que implique la
comparacin de dos grupos sometidos a condiciones diferentes y donde haya un control
sobre la influencia de variables extraas.

El siguiente esquema permite visualizar algunos pasos posibles para llevar a cabo un anlisis
de correlacin seguido de un anlisis de regresin. El esquema sintetiza, al mismo tiempo,
los temas a tratar en el presente artculo.



4.2 EL ANLISIS DE CORRELACIN

Juan se sac una buena nota en el primer parcial, y por lo tanto es bastante probable que
tambin saque buena nota en el segundo parcial. Esta persona tiene ms edad y por lo
tanto es ms probable que le falte alguna pieza dentaria. Abundan esta clase de
razonamientos en la vida cotidiana, que suelen aceptarse sin demasiada crtica.
Sin embargo, en un estudio cientfico es habitual que estas hiptesis deban ser comprobadas
ms all de las certidumbres subjetivas. Para constatar si hay realmente asociacin entre
dos o ms variables cualesquiera, se emplea una herramienta denominada anlisis de
correlacin, que tambin evala el grado o intensidad en que dichas variables estn
asociadas. Se examina aqu el caso ms sencillo (dos variables), que se estudia dentro de la
estadstica bivariada.
En el siguiente ejemplo se exponen tres posibles distribuciones de frecuencias bivariadas (1)
referidas a las primeras y segundas notas de exmenes parciales.

Alumno Tabla 1 Tabla 2 Tabla 3
X Y X Y X Y
A
B
C
D
E
3
4
6
6
8
2
5
5
6
6
3
4
6
6
8
3
4
6
6
8
3
4
6
6
8
2
3
5
5
7
Si las variables son

CUANTITATIVAS
Se calcula la correlacin con

CUALITATIVAS ORDINALES
Se calcula la correlacin con

METODO ANALITICO
Coeficiente de correlacin por
rangos de Spearman

METODO ANALITICO
Coeficiente de
correlacin de Pearson

METODO GRAFICO
Diagrama de
dispersin

Se calcula la
regresin
(prediccin) con

Para interpretar mejor este
coeficiente, se calcula el
coeficiente de determinacin

METODO ANALITICO
Mtodo de los cuadrados
mnimos

METODO GRAFICO
Recta de regresin

F
G
9
10
9
9
9
10
9
10
9
10
8
9
X = Nota del primer parcial
Y = Nota del segundo parcial

En la Tabla 1 se han consignado las notas de los parciales de un grupo de 7 alumnos
ordenadas en forma creciente.
Un somero examen visual de la tabla revela que hay bastante asociacin entre las variables
X e Y: quienes sacaron buena nota en el primer parcial tienden a sacar buena nota en el
segundo, y lo mismo para quienes sacaron bajas notas, con lo cual ambas variables tienden
a variar concomitantemente o conjuntamente.
Sin embargo, debe tenerse presente que la asociacin o correlacin entre ambas variables
no depende de la similitud entre X y Y, sino de la similitud de sus modos de variacin. As, en
la Tabla 2 las notas de los primeros y segundos parciales de cada alumno son iguales, y en la
Tabla 3 la nota del segundo parcial es diferente, pero siempre menor en un punto. Sin
embargo, en ambas tablas la correlacin es la misma.

El anlisis de correlacin busca establecer esencialmente tres cosas:
1) Presencia o ausencia de correlacin.- Dadas dos o ms variables, si existe o no correlacin
entre ellas.
2) Tipo de correlacin.- En caso de existir correlacin, si esta correlacin es directa o inversa.
En la correlacin directa, ambas variables aumentan (o disminuyen) concomitantemente, y
en la correlacin inversa ambas variables varan inversamente, o tambin puede decirse "en
relacin inversamente proporcional", lo que significa que cuando una aumenta la otra
disminuye, o viceversa (2). En el siguiente esquema se muestran algunos ejemplos de
correlacin directa e inversa.

Tipos de correlacin

Tipo Definicin Ejemplos en psicologa
Correlacin
directa o
positiva
Ambas variables
aumentan (o
disminuyen) en
forma concomitante.
Cociente intelectual/calificacin: A mayor CI, mayor
calificacin obtenida en el examen.
Tiempo/retencin: A mayor tiempo para memorizar,
mayor cantidad de palabras retenidas.
Test laboral/rendimiento futuro: A mayor puntaje en un
test de aptitud tcnica, mayor rendimiento en dicha
rea dentro de x aos (esto es tambin un modo de
estimar la validez predictiva de un test).
Correlacin
inversa o
negativa
Una variable
aumenta y la otra
disminuye (o
viceversa) en forma
concomitante.
Edad/memoria: Al aumentar la edad, disminuye la
memoria.
Numero de ensayos/cantidad de errores: Al aumentar
el nmero de ensayos, disminuye la cantidad de
errores.
Cansancio/atencin: Al aumentar el cansancio
disminuye la atencin.

3) Grado de correlacin.- El grado o intensidad de la correlacin, es decir, cunta
correlacin tienen en trminos numricos.

Para hacer todas estas averiguaciones, se puede recurrir a tres procedimientos.
a) El mtodo tabular.- Una correlacin podra constatarse con la simple visualizacin de
tablas de correlacin como las indicadas anteriormente, pero habitualmente las cosas no son
tan fciles, sobre todo porque hay bastante mayor cantidad de datos, y porque estos casi
nunca registran los mismos incrementos para ambas variables. Por lo tanto, debe
abandonarse la simple visualizacin de las tablas y utilizar procedimientos ms confiables,
como los grficos (diagramas de dispersin o dispersiogramas) y los analticos (por ejemplo
el coeficiente de Pearson).
b) El mtodo grfico.- Consiste en trazar un diagrama de dispersin.
c) El mtodo analtico.- Consiste en aplicar una frmula que permita conocer no slo el tipo
de correlacin (directa o inversa) sino tambin una medida cuantitativa precisa del grado de
correlacin. La frmula del coeficiente de Pearson es un ejemplo tpico para medir correlacin
entre variables cuantitativas.

4.3 CLCULO GRFICO DE LA CORRELACIN

Un grfico es mucho mejor que una tabla para apreciar rpidamente si hay o no correlacin
entre variables. Existen varias maneras de graficar la correlacin (3), pero aqu se describir
el procedimiento clsico: el diagrama de dispersin. El diagrama de dispersin es
bsicamente una nube de puntos, donde cada punto corresponde al entrecruzamiento de
cada par de valores de X e Y. Este diagrama puede realizarse independientemente del clculo
analtico de la correlacin.
Por ejemplo, el diagrama de dispersin correspondiente a la Tabla 1 se asemeja al diagrama
A del esquema de diagramas de dispersin.
A este diagrama se ha agregado a ojo una lnea imaginaria, que viene a representar ms o
menos el ordenamiento lineal de los puntos (que van desde abajo a la izquierda hacia arriba
a la derecha). El diagrama se llama 'de dispersin' porque muestra cun dispersos (prximos
o alejados) estn los puntos alrededor de dicha recta. Fcil es advertir que cuanto ms
alineados estn, ms correlacin habr. En el ejemplo A del esquema sobre diferentes
diagramas de dispersin, los puntos tienden a ubicarse en las proximidades de la recta
imaginaria, lo que indica que estn poco dispersos. Si los puntos figurasen ms alejados
habra ms dispersin, y por lo tanto menor correlacin entre X e Y.
El caso B muestra correlacin inversa, pues el ordenamiento de los puntos indican que, a
medida que aumenta X, va disminuyendo Y. As entonces, cuando la lnea imaginaria va de
abajo a la izquierda hacia arriba a la derecha, hay correlacin directa, y cuando va desde
arriba a la izquierda hacia abajo a la derecha hay correlacin inversa. Dicho ms
tcnicamente, en el primer caso la recta tiene una inclinacin o pendiente positiva, y en
segundo su pendiente es negativa.
El caso C revela, por su parte, que a medida que aumenta Y, los valores de X ni aumentan ni
disminuyen, permaneciendo fijos en el valor 5. Por lo tanto no hay correlacin. En general no
la hay cuando una de las variables no vara (en este caso X permanece constante en el valor
5).
El caso D es similar al anterior: all los valores de Y permanecen constantes en el nmero 4,
mientras va variando X. Tampoco hay correlacin.
El caso E muestra un ejemplo donde varan ambas variables, pero sin embargo no hay
correlacin. En esa nube es imposible trazar una lnea imaginaria representativa de la
orientacin de los puntos, simplemente porque no hay tal orientacin lineal. Los valores que
van asumiendo las variables son en principio aleatorios (varan al azar). Tampoco hay
correlacin.
El caso F nos muestra un caso de correlacin perfecta o mxima (en este caso directa), pues
no hay dispersin de puntos alrededor de la lnea imaginaria: todos estn sobre ella. Estas
regularidades perfectas no suelen encontrarse fcilmente, ni menos an en ciencias
sociales, porque los fenmenos obedecen siempre a muchas causas que estarn actuando
para romper la armona natural entre X e Y.
Tambin hay casos de correlacin no lineal, donde en lugar de una recta imaginaria se traza
una curva. En este artculo se presentan solamente los casos ms sencillos, es decir, los
casos de correlacin lineal, representables mediante rectas.

Diferentes diagramas de dispersin


Si bien una nube de puntos puede dar una idea de si hay o no correlacin, o de si es directa
o inversa, todava no proporciona informacin sobre cuanta correlacin hay. Esta
informacin se obtiene mediante un clculo analtico.

4.4 CLCULO ANALTICO DE LA CORRELACIN

La correlacin se calcula analticamente mediante ciertos coeficientes, que sern distintos
segn se trate de correlacionar variables nominales, ordinales o cuantitativas, y segn se
trate de otras consideraciones varias.
Si bien existen muchos coeficientes de correlacin (4), en lo que sigue se explicarn algunos
de los ms utilizados: el coeficiente de correlacin lineal de Pearson (para variables
cuantitativas), y el coeficiente de correlacin por rangos de Spearman (para variables
cualitativas ordinales).

a) Coeficiente de correlacin lineal de Pearson

Este coeficiente (que se designa con r), fue creado por Karl Pearson (1857-1936) para
relacionar variables cuantitativas (es decir, variables que, como nota de examen, se miden
mediante nmeros).
El coeficiente de Pearson es un nmero comprendido entre -1 y +1, y que posee un
determinado signo (positivo o negativo). El valor numrico indica cuanta correlacin hay,
mientras que el signo indica qu tipo de correlacin es (directa si el signo es positivo,
inversa si es negativo). En el siguiente esquema se muestran algunos posibles valores de r.

Algunos valores del coeficiente de Pearson

Y

10
9
8
7
6
5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10 X

A) Correlacin directa

Y

10
9
8
7
6
5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10 X

B) Correlacin inversa

Y

10
9
8
7
6
5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10 X

C) Sin correlacin

Y

10
9
8
7
6
5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10 X

D) Sin correlacin

Y

10
9
8
7
6
5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10 X

E) Sin correlacin

Y

10
9
8
7
6
5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10 X

F) Correlacin directa
perfecta

You might also like