You are on page 1of 22

Relacin entre variables cuantitativas

El Coeficiente de correlacin por Rangos de Pearson: definicin, clculo, importancia e


interpretacin.
La prueba Chi-Cuadrado de Pearson: definicin, clculo, interpretacin e importancia.
Coeficientes de Asociacin
Tema 3: Descripcin Global de un Colectivo y Comparaciones desde la Perspectiva Bivariable
Ecuacin de una recta.
Regresin: definicin e importancia
El mtodo de los mnimos cuadrados: definicin e importancia.
Estimacin de una ecuacin de regresin lineal simple por el mtodo de los Mnimos
Cuadrados.
Coeficiente de Correlacin y Determinacin: definicin, clculo e interpretacin.
Relacin entre variables cualitativas
La asociacin entre variables presenta dos aspectos distintos pero estrechamente relacionados:
ANLISIS DE REGRESIN SIMPLE ANLISIS DE CORRELACIN SIMPLE
Establece la naturaleza de la relacin entre
variables, estudia la relacin funcional entre las
variables y por tanto proporciona un mecanismo de
prediccin o pronstico
Determina el grado o la fuerza de la relacin o
asociacin entre las variables
ANLISIS ESTADSTICO DE DOS VARIABLES CUANTITATIVAS
Nivel de Medicin: Intervalo, Razn
_____________________Relacin entre variables cuantitativas
El anlisis de regresin se utiliza con el propsito de hacer predicciones, y su objetivo es el
desarrollo de un modelo estadstico que pueda ser utilizado para predecir los valores de una
variable de respuesta o dependiente basados en los valores de una variable independiente o
explicativa.
En regresin los datos provienen de observaciones efectuadas en dos variables, las
distribuciones formadas para tales conjuntos de datos se denominan bivariantes o bivariadas.
Representacin Grfica de una Distribucin Bidimensional.

Sean las siguientes Observaciones: X
1
, X
2
X
n
Y
1
, Y
2
Y
n

Y
X X
1
Y
1
(X
1 ,
Y
1
)
NUBE DE
PUNTOS
Objetivo del Anlisis de
Regresin
Diagrama de
Dispersin
_____________________Relacin entre variables cuantitativas
Y
X Relacin Lineal Positiva
Y
X Relacin Lineal Negativa
Y
X Relacin Lineal Positiva
Perfecta Y
X
Relacin Lineal Negativa
Perfecta
_____________________Relacin entre variables cuantitativas
Y
X
No exixte relacin
Y
Relacin Curvilinea
Positiva
X
Y
X
Relacin Curvilinea
Negativa
Y
X
Relacin Curvilinea
Positiva
En el caso de que el Diagrama de Dispersin indique una relacin de tipo lineal muchas son las
rectas que se pueden ajustar a la nube de puntos.
Dado un conjunto de datos bibariados (x,y)
Cmo se obtiene la recta de mejor ajuste?

Cmo elegir una recta de tal modo que los
errores o diferencias que se generan entre el
valor real y el valor obtenido a travs de la recta
ajustada sean mnimos?

MTODO DE LOS MNIMOS CUADRADOS

Posee la propiedad de que la suma de los
cuadrados de las desviaciones de los valores
reales de Y o las distancias verticales de los
puntos a la lnea recta sea mnima .
Simblicamente:
( )
)

2
1
para y nte de x rrespondie l valor co (MMC con e
y de Calculado Valor y
y de Observado Valor y
y y
i
n
i
i
=
=

=
_____________________Relacin entre variables cuantitativas
El Mtemtico
Francs Adrian
Legendre (s.XIX)
Defini el mtodo
que implica encontrar
la Lnea Recta que
mejor se ajuste a los
datos
Y
X X
1
Y
1
(X
1 ,
Y
1
)
X
2
Y
2
(X
2 ,
Y
2
)
(X
1 ,

1
)
(X
2 ,

2
)
e
2
+
e
1
-
Supongase que =a+bx es la ecuacin de una recta, donde () representa el valor predicho (Y)
que corresponde a un valor particular de (X). El criterio de los MINIMOS CUADRADOS requiere
que se encuentren constantes a y b tales que la suma sea tan pequea como sea
posible.


( )
2
1

=

n
i
i
y y
_____________________Relacin entre variables cuantitativas
IMPORTANCIA DEL MTODO DE LOS MNIMOS CUADRADOS
Permite realizar una estimacin confiable ya que garantiza que la suma de los
errores o desvos al cuadrado sea mnima

El procedimiento para adaptar una recta a un conjunto de puntos presenta una
recta resultante con las siguientes caractersticas:

Es nula la suma de las desviaciones verticales de los puntos a partir de la
recta
Es mnima la suma de los cuadrados de las desviaciones .


SU IMPORTANCIA FUNDAMENTAL RADICA EN QUE NINGUNA OTRA RECTA
DARA LA SUMA MENOR DE LAS DESVIACIONES ELEVADAS AL
CUADRADO.

_____________________Relacin entre variables cuantitativas
Estimacin de una Ecuacin de Regresin Lineal Simple por el Mtodo de los Mnimos
Cuadrados
El Anlisis de Regresin Lineal Simple incluye dos aspectos fundamentales:
Encontrar una ecuacin para
describir la forma de relacin
entre las variables
Estimar una variable a partir de otra
variable; la variable que se estima es la
dependiente y la variable a partir del cual
se estima es la independiente.
X en Y
Y en X
La ecuacin de la Lnea recta es:

Y=a+bx donde:

Y= Variable dependiente
a= Valor de la ordenada en el
origen
b= Pendiente de la recta
X= Variable independiente

_____________________Relacin entre variables cuantitativas
La Ecuacin de la Recta de mejor ajuste est determinado por:

La pendiente (b) indica la inclinacin de la recta respecto al eje X.
La ordenada en el origen (a) denominada intercepto o punto de corte de la recta con el eje de las
ordenadas.

Los valores de las Constantes que satisfacen el criterio de los Mnimos Cuadrados se obtienen por
medio del siguiente sistema de Ecuaciones Normales:

+ = x b Na y

+ =
2
x b x a xy
1ra Ecuacin Normal
2da Ecuacin Normal
Resolviendo el Sistema de Ecuaciones
x b y a =
( ) ( )( )
( ) ( )
2
2

=
x x N
x y xy N
b
bx a y + =
El coeficientes de regresin a es el valor que toma la variable dependiente y cuando la variable
independiente x vale cero.

El coeficientes de regresin b es el incremento negativo o positivo que sufre la variable dependiente y
cada vez que la variable independiente x se incrementa en una unidad.
_____________________Relacin entre variables cuantitativas
La recta de regresin por Mnimos Cuadrados de y sobre x encontrada ser:
bx a y + =
Una vez llevado a cabo el ajuste se hace necesario medir la dispersin que existe entre
los valores reales y los obtenidos a travs de la recta ajustada.
Varianza de la Recta de Regresin de
y/x:
( )
N
y y
S
n
i
x
y

=

=
1
2

2
Desviacin Estndar o Error Estndar de Estimacin permite conocer la dispersin
existente entre los valores reales y los estimados. Proporciona la desviacin de los
errores de prediccin y por lo tanto es una indicacin de la variabilidad de los valores
reales respecto a los obtenidos con la recta de regresin.
_____________________Relacin entre variables cuantitativas
_____________________Relacin entre variables cuantitativas
El anlisis de correlacin se utiliza con el propsito de de disponer de un
indicador cuantitativo que permite sintetizar el grado de la asociacin entre
variables.
Objetivo del Anlisis de
Correlacin
La relacin que pueda
existir
La direccin o tipo de
asociacin
El grado de intensidad
Aspectos que contempla el Anlisis de Correlacin
Un modelo que nos permite hacer estimaciones o predicciones no estara completo s no conocemos
acerca de la intensidad de la relacin o el grado de asociacin entre las dos variables en estudio.
Y
X Correlacin Positiva Perfecta
r=1
Y
X Correlacin Negativa Perfecta
r=- 1

Y
X
Sin Correlacin
r=0
Coeficiente de Correlacin r de Pearson (r), (Rxy): Es un coeficiente que mide el grado de la
relacin de dependencia que existe entre las variables (x,y), cuyos valores van desde 1,
correspondiente a una correlacin negativa perfecta, hasta 1, correspondiente a una correlacin
positiva perfecta.
y disminuir de una
manera perfectamente
predecible en la medida
en que x aumenta
y aumenta de una
manera perfectamente
predecible conforme se
incrementa x
No esiste relacin entre x e
y.
_____________________Relacin entre variables cuantitativas
( ) ( ) ( )
( )
( ) y" " de suma la de Cuadrado y
x" " de suma la de Cuadrado x
xy" " productos los de Suma xy
y" " de cuadrados los de Suma y
x" " de cuadrados los de Suma x
" x " de valores los de Suma x
variable otra la de elaborado no Puntaje y
variable una de elaborado no Puntaje x
y) (x, valores de pares de total Numero N
Lineal n Correlaci de e Coeficient r
2
2
2
2
2
1 1
2
2
1 1
2
1 1 1
=
=
=
=
=
=
=
=
=
=
(
(

|
.
|

\
|
|
.
|

\
|
(
(

|
.
|

\
|
|
.
|

\
|
|
.
|

\
|
|
.
|

\
|



= = = =
= = =
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
y y N x x N
y x y x N
r
Para llevarse a cabo un anlisis de correlacin de un conjunto de datos, el
coeficiente de correlacin se calcula trabajando directamente con los valores de
las variables:
_____________________Relacin entre variables cuantitativas
La magnitud del Coeficiente de
Correlacin (r) indica cuan cerca
estn los puntos de la recta
Cuando r = -1 existe una correlacin negativa
perfecta, inversamente proporcional

Cuando r = 1 existe una correlacin positiva
perfecta, directamente proporcional

Cuando r = 0 las variables se denominan
incorrelacionadas o con ausencia asociacin o
dependencia entre ellas


El grado de intensidad del coeficiente de
correlacin ser ms fuerte, mientras ms
se aleje r del valor cero.
Otra medida que se puede utilizar para expresar la relacin entre dos variables aleatorias es la
COVARIANZA ya que constituye una medida numrica de la variacin simultnea de las dos
variables aleatoria x y y es decir, indica la medida en la que dos variables VARAN
JUNTAS. Al igual que para el coeficiente de correlacin, un signo positivo indica una relacin
directa, en tanto que un signo negativo indica una relacin inversa.
( )( ) | |
n
y y x x
Cov
n
i
i i
y x

=

=
1
) , (
Cuando el valor observado de y tiende a variar en la misma direccin con respecto a su media,
entonces los productos de esas desviaciones tienden a ser positivos. Por ello la suma de esos
productos sera positiva, indicando una relacin directa.
Para transformar la Covarianza en el coeficiente de
correlacin es:
( )
( )( ) Sy Sx
xy Cov
r =
Donde Cov (xy) expresa el valor esperado del producto
Y Sx, Sy las desviaciones estndar
( ) ) ( y y x x
El valor estadstico r es la covarianza entre x y
y.
_____________________Relacin entre variables cuantitativas
Cuando se estudia la Varianza como una medida de aproximacin del ajuste, se
requiere tambin una medida que indique que tan bueno es el ajuste que se ha
realizado. Una medida utl es:
2
o
COEFICIENTE DE DETERMINACIN: Es un coeficiente que se encuentra asociado a la
lnea de regresin y es el grado en que las predicciones que se basan en la ecuacin de
regresin son superiores a las basadas en el valor promedio de y es decir, s las
proyecciones que se fundamentan en la recta no son mejores que las que utiliza el valor
promedio de y no tiene sentido contar con una ecuacin de regresin.
) ( y
Y
X
y
Y
X
y

Dispersin de puntos respecto de la


media del grupo
Dispersin de puntos en lo referente
a la lnea
_____________________Relacin entre variables cuantitativas
Y
X
y
y
( ) y y VT
i
=
bx a y + =
( ) y y VE
i
=
( )
i i
y y VNE =
( ) y y VT
i
=
Distancia Total a Error Total o Variacin total
y
( ) y y VE
i
=
Distancia de la lnea de regresin a la y
Distancia de una observacin individual a la lnea de regresin
( )
i i
y y VNE =
_____________________Relacin entre variables cuantitativas
( )
o al cuadrad dia enos la me s reales m Suma de lo
y y otal VariacinT
i

2

=
La dispersin (error) asociada a la recta es mucho menor que la dispersin (error) relacionada con
,las predicciones que se basan en la lnea sern mejores que las basadas en .

La variacin de los puntos respecto de recibe el nombre de variacin total
y
y
y
( )
cuadrado al stimados enos los e s reales m Suma de lo
y y Explicada No Variacin
i

=
( )
uadrado media al c s menos la s estimado Suma de lo
y y Explicada Variacin
i

=
El porcentaje de variacin explicada, r
2
, Es la razn de la variacin explicada a la variacin total.
VNE VE otal VariacinT
VNE VT xplicada VariacinE
Donde
T Variacin
Explicada Variacin
r
+ =
=
=
:
otal

2
1 0
2
s s r
_____________________Relacin entre variables cuantitativas
Relacin entre dos Variables Cualitativas
Nivel de Medicin: Ordinal y Nominal
El coeficiente de Correlacin por Rango de Spearman tambin conocido como Coeficiente de
Determinacin Gradual o rho de Spearman es una medida de asociacin que requiere que ambas
variables en estudio sean medidas por lo menos en una escala ordinal de manera que los objetos
o individuos en estudio puedan colocarse en dos series ordenadas.
Procedimiento:
1.- Se ordenan los valores de una de las variables y lo acompaamos de su correspondiente valor
ordenado en la otra variable
2.- Para cada par de observaciones (rangos) calculamos su diferencia
di= rango de ui rango de vi
3.- Se eleva al cuadrado cada di y se suman todos los valores encontrados
4.- Se calcula para determinar la discrepancia entre los rangos la siguiente frmula:
( ) 1
6
1
2
2

=

n n
di
rs
1 1 s s rs
rs= -1 La asociacin es negativa e inversa, las
ordenaciones son perfectamente contrarias

rs= 0 No existe asociacin

rs= 1 Las ordenaciones son todas
concordantes

_____________________Relacin entre variables cualitativas
Relacin entre dos variables nominales: Ji Cuadrado de Pearson
La prueba Ji Cuadrado de Pearson es una medida para proporcionar el grado de asociacin
entre dos variables nominales, busca evidenciar la diferencia que existe entre los valores
observados en las casillas y los que se habran obtenido en el supuesto de que las dos
variables no estuvieran relacionadas o fuesen independientes. Esta diferencia viene dada por
el estadstico Ji cuadrado.
ral Total Gene
la a la casil olumna par inal por C * Total M a casilla ila para l inal por F Total M
E
Casilla
arg arg
=
( )
silla de una ca a esperada Frecuenci E
asilla a de una c a observad Frecuenci O
y f e e las f o ncias entr las dif ere Medida de
E
E O
ij
ij
n
i ij
ij ij
=
=
=

=

2
1
2
2
_
_
_____________________Relacin entre variables cualitativas
O
11



O
12


O
13


O
1
.

O
21



O
22


O
23


O
2
.

O.
1


O.
2


O.
3


O..

E
11

E
21
E
22

E
13

E
23

E
12

Total Marginal por fila
Total General
Total Marginal por Columna
T
A
B
L
A
D
E
C
O
N
T
I
N
G
E
N
C
I
A
Coeficientes de Asociacin
El Coeficiente PHI denotado () , es un caso particular del coeficiente de correlacin
de Pearson, y se utiliza para conocer el grado de asociacin entre dos variables
supeditadas al diseo 2x2.
A fin de utilizar adecuadamente el coeficiente PHI como medida de asociacin entre las variables
x y y dicotomizadas, de deben tomar en cuenta las siguientes condiciones:

Datos nominales: Las variables x y y, deben ser nominales, ya que se requerirn las
frecuencias observadas.
Tablas de contingencia 2x2: Los datos deben poder colocarse en un diseno 2x2 (2
renglones y 2 columnas). Es inadecuado aplicar el coeficiente PHI a disenos mayores de 2x2,
donde se comparan varios grupos o varias categoras.
Muestreo aleatorio: Para poder comprobar la significancia y validez de PHI, la muestra en
estudio debe haber sido extrada en forma aleatoria.
Lmite Mximo: Aunque su lmite mximo es igual a 1, algunas veces el mximo que se puede
alcanzar es inferior a la unidad.
Para interpretar el coeficiente PHI, es preciso calcular el PHI mximo y tener un punto de
referencia respecto a la cuanta de la relacin:
( )( )
( )( )
ores las anteri tarias de Complemen ,Q Q
iable la otra porcin de Mayor pro P
totales los cuatro orcin de Mayor prop P
donde
P Q
Q P
J K
J
K
K J
K J
mx
=
=
=
=
var
:
|
N
2
2
_
| =
_____________________Relacin entre variables cualitativas
Coeficientes de Asociacin
El Coeficiente de Contingencia denotado (C) y El Coeficiente V de Cramer denotado (V),
son medidas que determina el grado de asociacin o relacin entre dos conjuntos de
atributos colocados en una tabla de contingencia (doble entrada) con un diseo mayor de
2x2.
2
2
_
_
+
=
N
C
Coeficiente de Contingencia
Donde:
X
2
= Valor Calculado de Ji Cuadrado
N = Nmero Total de Casos
_____________________Relacin entre variables cualitativas
Caractersticas de los Coeficientes de Asociacin :
a) Cuando exista una completa carencia de asociacin, el coeficiente debe ser nulo, igual a
cero.
b) Cuando las variables muestran completa dependencia entre s, estando perfectamente
correlacionadas, el coeficiente debe ser igual a la unidad.
Coeficiente V de Cramer
( ) 1
2

=
l n
V
_
Donde:
X
2
= Valor Calculado de Ji Cuadrado
n = Nmero Total de Casos
l = Columna o rengln ms pequeo de los dos
1 0 s sV
erior Lm C sup 0 s s
El lmite superior es una funcin del nmero de categoras. Cuando K=r
(Columnas = filas), el lmite superior es
bla de una ta categoras Nmero de K
Donde
K
K
=

:
1
Limitacin en b
Relacin entre variables cuantitativas
Tema 3: Descripcin Global de un Colectivo y Comparaciones desde la Perspectiva Bivariable
Relacin entre variables cualitativas
Ecuacin de una recta
Regresin: definicin e importancia
El mtodo de los mnimos cuadrados
Estimacin de una ecuacin (MMC)
Coeficiente de Correlacin y Determinacin
El Coeficiente de correlacin por Rangos de Pearson
La prueba Ji-Cuadrado de Pearson
Coeficientes de Asociacin
C O N C L U S I N

You might also like