Otros autores consideran fundamentales a las distribuciones normal, binomial y de Student, y hacen
referencia a otras, como la distribucin chi cuadrado (x
2 ) que, a diferencia de la primeras, no es paramtrica, es decir, no requiere supuestos tan rigurosos acerca de la poblacin, como por ejemplo de que esta se distribuya normalmente (Kohan N, 1994:191). Hay otras leyes que tienen alcance ms general, como por ejemplo la ley de distribucin de las medias (Vessereau A, 1962:24) que establece que, cualquiera que sea la distribucin (binomial, gaussiana, etc), el desvo estndar de las medias aritmticas de todas las muestras posibles de n elementos disminuye inversamente a la raz cuadrada de n. Esto significa que cuanto ms grandes sean las muestras, menos desviacin o dispersin habr entre sus medias aritmticas.
CAPTULO 4: CORRELACION Y REGRESION
4.1 INTRODUCCIN
El anlisis de correlacin permite averiguar el tipo y el grado de asociacin estadstica entre dos o ms variables, mientras que el anlisis de regresin permite hacer predicciones sobre la base de la correlacin detectada. Ms concretamente, una vez realizado el anlisis de correlacin, pueden obtenerse dos resultados: que haya correlacin o que no la haya. Si hay correlacin, entonces se emprende un anlisis de regresin, consistente en predecir cmo seguirn variando esas variables segn nuevos valores. Por ejemplo, si sobre la base de haber examinado a 40 alumnos se concluye una alta correlacin en sus notas en ambos parciales, conociendo la nota del primer parcial de un alumno nmero 41, podremos predecir con algn margen de seguridad cunto se sacar este alumno en el segundo parcial. En general el anlisis de correlacin se realiza conjuntamente con el anlisis de regresin. Mientras el anlisis de correlacin busca asociaciones, el anlisis de regresin busca predicciones, es decir, predecir el comportamiento de una variable a partir del comportamiento de la otra. As, la correlacin y la regresin estn ntimamente ligadas. En el nivel ms sencillo, ambas implican la relacin entre dos variables y utilizan el mismo conjunto de datos bsicos, pero mientras la correlacin tiene que ver con la magnitud y la direccin de la relacin, la regresin se centra en el uso de la relacin para hacer una prediccin. Esta ltima es sencilla cuando la relacin es perfecta, pero la situacin es ms compleja si la relacin es imperfecta (Pagano, 127). La correlacin es til porque permite hacer predicciones, porque permite establecer correlaciones (paso previo para la determinacin de una conexin causal), y para realizar pruebas de confiabilidad de instrumentos de medicin como los tests (prueba test-retest) (Pagano, 99). Por ltimo, vale la pena aclarar que en el contexto de un estudio cientfico, no basta con determinar el grado de correlacin entre dos variables en una muestra. Es necesario adems establecer, mediante una prueba de significacin (por ejemplo la prueba t), si la correlacin establecida en la muestra puede extenderse a toda la poblacin con un determinado nivel de confianza. Esta tarea corresponder a la estadstica inferencial.
Correlacin lineal.- Las relaciones entre variables pueden ser de muchos tipos. a) Hay relaciones deterministas que responden a modelos matemticos tericos, como por ejemplo la relacin entre la intensidad de una corriente y la resistencia del conductor, o bien, la relacin entre la factura de consumo de agua y el nmero de metros cbicos consumidos. Estas relaciones son habituales en ciencias exactas. b) Otras relaciones no son tan deterministas, pero pueden eventualmente parecerse slo parecerse- a algn modelo matemtico terico determinista, en cuyo caso se concluye que ese modelo explica bien la relacin, aunque no lo haga perfectamente. Estas relaciones son habituales en las ciencias sociales (Botella, 1993:181). Dentro de los muchos modelos tericos a los cuales podra ajustarse una relacin no determinista se cuentan los modelos lineales, los modelos cuadrticos, los modelos cbicos, etc. El primero se representa mediante una recta, y los restantes mediante diversos tipos de curva como parbolas e hiprbolas. El presente artculo har referencia, por razones de simplicidad, a las relaciones lineales y, por tanto, a la correlacin lineal.
Correlacin y causalidad.- El hecho de que dos variables estn correlacionadas, no significa necesariamente que una sea la causa y la otra el efecto: la correlacin no siempre significa causalidad. Entre otras cosas, una alta correlacin puede deberse a que ambas variables X e Y dependen cada una independientemente de otra variable Z, y entonces, al variar Z hace variar conjuntamente a X e Y, produciendo un efecto de alta correlacin que puede dar la apariencia de causalidad. Por dar un ejemplo: entre memoria visual (X) y memoria auditiva (Y) puede haber una alta correlacin, pero ello no significa que la memoria visual sea la causa de la memoria auditiva, ya que ambas pueden estar dependiendo de otro factor Z ms general, llmese "memoria", o "cantidad de ARN". Si realizar el anlisis de correlacin es algo relativamente fcil (se trata de recoger datos y aplicar una frmula), determinar el vnculo causal suele implicar un procedimiento ms laborioso, como por ejemplo la ejecucin de un diseo experimental que implique la comparacin de dos grupos sometidos a condiciones diferentes y donde haya un control sobre la influencia de variables extraas.
El siguiente esquema permite visualizar algunos pasos posibles para llevar a cabo un anlisis de correlacin seguido de un anlisis de regresin. El esquema sintetiza, al mismo tiempo, los temas a tratar en el presente artculo.
4.2 EL ANLISIS DE CORRELACIN
Juan se sac una buena nota en el primer parcial, y por lo tanto es bastante probable que tambin saque buena nota en el segundo parcial. Esta persona tiene ms edad y por lo tanto es ms probable que le falte alguna pieza dentaria. Abundan esta clase de razonamientos en la vida cotidiana, que suelen aceptarse sin demasiada crtica. Sin embargo, en un estudio cientfico es habitual que estas hiptesis deban ser comprobadas ms all de las certidumbres subjetivas. Para constatar si hay realmente asociacin entre dos o ms variables cualesquiera, se emplea una herramienta denominada anlisis de correlacin, que tambin evala el grado o intensidad en que dichas variables estn asociadas. Se examina aqu el caso ms sencillo (dos variables), que se estudia dentro de la estadstica bivariada. En el siguiente ejemplo se exponen tres posibles distribuciones de frecuencias bivariadas (1) referidas a las primeras y segundas notas de exmenes parciales.
Alumno Tabla 1 Tabla 2 Tabla 3 X Y X Y X Y A B C D E 3 4 6 6 8 2 5 5 6 6 3 4 6 6 8 3 4 6 6 8 3 4 6 6 8 2 3 5 5 7 Si las variables son
CUANTITATIVAS Se calcula la correlacin con
CUALITATIVAS ORDINALES Se calcula la correlacin con
METODO ANALITICO Coeficiente de correlacin por rangos de Spearman
METODO ANALITICO Coeficiente de correlacin de Pearson
METODO GRAFICO Diagrama de dispersin
Se calcula la regresin (prediccin) con
Para interpretar mejor este coeficiente, se calcula el coeficiente de determinacin
METODO ANALITICO Mtodo de los cuadrados mnimos
METODO GRAFICO Recta de regresin
F G 9 10 9 9 9 10 9 10 9 10 8 9 X = Nota del primer parcial Y = Nota del segundo parcial
En la Tabla 1 se han consignado las notas de los parciales de un grupo de 7 alumnos ordenadas en forma creciente. Un somero examen visual de la tabla revela que hay bastante asociacin entre las variables X e Y: quienes sacaron buena nota en el primer parcial tienden a sacar buena nota en el segundo, y lo mismo para quienes sacaron bajas notas, con lo cual ambas variables tienden a variar concomitantemente o conjuntamente. Sin embargo, debe tenerse presente que la asociacin o correlacin entre ambas variables no depende de la similitud entre X y Y, sino de la similitud de sus modos de variacin. As, en la Tabla 2 las notas de los primeros y segundos parciales de cada alumno son iguales, y en la Tabla 3 la nota del segundo parcial es diferente, pero siempre menor en un punto. Sin embargo, en ambas tablas la correlacin es la misma.
El anlisis de correlacin busca establecer esencialmente tres cosas: 1) Presencia o ausencia de correlacin.- Dadas dos o ms variables, si existe o no correlacin entre ellas. 2) Tipo de correlacin.- En caso de existir correlacin, si esta correlacin es directa o inversa. En la correlacin directa, ambas variables aumentan (o disminuyen) concomitantemente, y en la correlacin inversa ambas variables varan inversamente, o tambin puede decirse "en relacin inversamente proporcional", lo que significa que cuando una aumenta la otra disminuye, o viceversa (2). En el siguiente esquema se muestran algunos ejemplos de correlacin directa e inversa.
Tipos de correlacin
Tipo Definicin Ejemplos en psicologa Correlacin directa o positiva Ambas variables aumentan (o disminuyen) en forma concomitante. Cociente intelectual/calificacin: A mayor CI, mayor calificacin obtenida en el examen. Tiempo/retencin: A mayor tiempo para memorizar, mayor cantidad de palabras retenidas. Test laboral/rendimiento futuro: A mayor puntaje en un test de aptitud tcnica, mayor rendimiento en dicha rea dentro de x aos (esto es tambin un modo de estimar la validez predictiva de un test). Correlacin inversa o negativa Una variable aumenta y la otra disminuye (o viceversa) en forma concomitante. Edad/memoria: Al aumentar la edad, disminuye la memoria. Numero de ensayos/cantidad de errores: Al aumentar el nmero de ensayos, disminuye la cantidad de errores. Cansancio/atencin: Al aumentar el cansancio disminuye la atencin.
3) Grado de correlacin.- El grado o intensidad de la correlacin, es decir, cunta correlacin tienen en trminos numricos.
Para hacer todas estas averiguaciones, se puede recurrir a tres procedimientos. a) El mtodo tabular.- Una correlacin podra constatarse con la simple visualizacin de tablas de correlacin como las indicadas anteriormente, pero habitualmente las cosas no son tan fciles, sobre todo porque hay bastante mayor cantidad de datos, y porque estos casi nunca registran los mismos incrementos para ambas variables. Por lo tanto, debe abandonarse la simple visualizacin de las tablas y utilizar procedimientos ms confiables, como los grficos (diagramas de dispersin o dispersiogramas) y los analticos (por ejemplo el coeficiente de Pearson). b) El mtodo grfico.- Consiste en trazar un diagrama de dispersin. c) El mtodo analtico.- Consiste en aplicar una frmula que permita conocer no slo el tipo de correlacin (directa o inversa) sino tambin una medida cuantitativa precisa del grado de correlacin. La frmula del coeficiente de Pearson es un ejemplo tpico para medir correlacin entre variables cuantitativas.
4.3 CLCULO GRFICO DE LA CORRELACIN
Un grfico es mucho mejor que una tabla para apreciar rpidamente si hay o no correlacin entre variables. Existen varias maneras de graficar la correlacin (3), pero aqu se describir el procedimiento clsico: el diagrama de dispersin. El diagrama de dispersin es bsicamente una nube de puntos, donde cada punto corresponde al entrecruzamiento de cada par de valores de X e Y. Este diagrama puede realizarse independientemente del clculo analtico de la correlacin. Por ejemplo, el diagrama de dispersin correspondiente a la Tabla 1 se asemeja al diagrama A del esquema de diagramas de dispersin. A este diagrama se ha agregado a ojo una lnea imaginaria, que viene a representar ms o menos el ordenamiento lineal de los puntos (que van desde abajo a la izquierda hacia arriba a la derecha). El diagrama se llama 'de dispersin' porque muestra cun dispersos (prximos o alejados) estn los puntos alrededor de dicha recta. Fcil es advertir que cuanto ms alineados estn, ms correlacin habr. En el ejemplo A del esquema sobre diferentes diagramas de dispersin, los puntos tienden a ubicarse en las proximidades de la recta imaginaria, lo que indica que estn poco dispersos. Si los puntos figurasen ms alejados habra ms dispersin, y por lo tanto menor correlacin entre X e Y. El caso B muestra correlacin inversa, pues el ordenamiento de los puntos indican que, a medida que aumenta X, va disminuyendo Y. As entonces, cuando la lnea imaginaria va de abajo a la izquierda hacia arriba a la derecha, hay correlacin directa, y cuando va desde arriba a la izquierda hacia abajo a la derecha hay correlacin inversa. Dicho ms tcnicamente, en el primer caso la recta tiene una inclinacin o pendiente positiva, y en segundo su pendiente es negativa. El caso C revela, por su parte, que a medida que aumenta Y, los valores de X ni aumentan ni disminuyen, permaneciendo fijos en el valor 5. Por lo tanto no hay correlacin. En general no la hay cuando una de las variables no vara (en este caso X permanece constante en el valor 5). El caso D es similar al anterior: all los valores de Y permanecen constantes en el nmero 4, mientras va variando X. Tampoco hay correlacin. El caso E muestra un ejemplo donde varan ambas variables, pero sin embargo no hay correlacin. En esa nube es imposible trazar una lnea imaginaria representativa de la orientacin de los puntos, simplemente porque no hay tal orientacin lineal. Los valores que van asumiendo las variables son en principio aleatorios (varan al azar). Tampoco hay correlacin. El caso F nos muestra un caso de correlacin perfecta o mxima (en este caso directa), pues no hay dispersin de puntos alrededor de la lnea imaginaria: todos estn sobre ella. Estas regularidades perfectas no suelen encontrarse fcilmente, ni menos an en ciencias sociales, porque los fenmenos obedecen siempre a muchas causas que estarn actuando para romper la armona natural entre X e Y. Tambin hay casos de correlacin no lineal, donde en lugar de una recta imaginaria se traza una curva. En este artculo se presentan solamente los casos ms sencillos, es decir, los casos de correlacin lineal, representables mediante rectas.
Diferentes diagramas de dispersin
Si bien una nube de puntos puede dar una idea de si hay o no correlacin, o de si es directa o inversa, todava no proporciona informacin sobre cuanta correlacin hay. Esta informacin se obtiene mediante un clculo analtico.
4.4 CLCULO ANALTICO DE LA CORRELACIN
La correlacin se calcula analticamente mediante ciertos coeficientes, que sern distintos segn se trate de correlacionar variables nominales, ordinales o cuantitativas, y segn se trate de otras consideraciones varias. Si bien existen muchos coeficientes de correlacin (4), en lo que sigue se explicarn algunos de los ms utilizados: el coeficiente de correlacin lineal de Pearson (para variables cuantitativas), y el coeficiente de correlacin por rangos de Spearman (para variables cualitativas ordinales).
a) Coeficiente de correlacin lineal de Pearson
Este coeficiente (que se designa con r), fue creado por Karl Pearson (1857-1936) para relacionar variables cuantitativas (es decir, variables que, como nota de examen, se miden mediante nmeros). El coeficiente de Pearson es un nmero comprendido entre -1 y +1, y que posee un determinado signo (positivo o negativo). El valor numrico indica cuanta correlacin hay, mientras que el signo indica qu tipo de correlacin es (directa si el signo es positivo, inversa si es negativo). En el siguiente esquema se muestran algunos posibles valores de r.