You are on page 1of 44

Mgs.

Mario Surez Correlacin y Regresin


1
CORRELACIN Y REGRESIN EMPLEANDO EXCEL Y GRAPH

1) ANLISIS DE CORRELACIN

Dado dos variables, la correlacin permite hacer estimaciones del valor de una de ellas conociendo el
valor de la otra variable.

1.1) DIAGRAMA DE DISPERSIN

Los diagramas de dispersin son planos cartesianos en los que se marcan los puntos correspondientes a
los pares ordenados (X,Y) de los valores de las variables.

1.2) CLASIFICACIN DE LA CORRELACIN

1.2.1) Segn la relacin entre variables

- Correlacin lineal: Se representa mediante una lnea recta.

- Correlacin no lineal: Se representa con una lnea curva.

1.2.2) Segn el nmero de variables

- Correlacin simple: La variable dependiente acta sobre la variable independiente.

- Correlacin mltiple: Cuando la variable dependiente acta sobre varias variables independientes.

- Correlacin parcial: Cuando la relacin que existe entre una variable dependiente y una
independiente es de tal forma que los dems factores permanezcan constantes.

1.2.3) Segn el valor cuantitativo

- Correlacin perfecta: El valor del coeficiente de correlacin es 1

- Correlacin imperfecta: El coeficiente de correlacin es menor a 1 sea en sentido positivo o
negativo.

- Correlacin nula: El coeficiente de correlacin es 0. No existe correlacin entre las variables.
Ejemplo: Nmero de calzado de una persona y su cociente intelectual.


1.2.4) Segn el signo

- Correlacin positiva.- Dos variables tiene correlacin positiva cuando al aumentar o disminuir el
valor de una de ellas entonces el valor correspondiente a la otra aumentar o disminuir
respectivamente, es decir, cuando las dos variables aumentan en el mismo sentido. Ejemplo: Peso de
una persona y su talla.

- Correlacin negativa.- Dos variables tiene correlacin negativa cuando al aumentar o disminuir el
valor de una de ellas entonces el valor de la otra disminuir o aumentar respectivamente, es decir, una
variable aumenta y otra disminuye o viceversa. Ejemplo: Nmero de partidos ganados por un equipo en
una temporada y su posicin final en la tabla.



Mgs. Mario Surez Correlacin y Regresin
2
1.3) COEFICIENTES DE CORRELACIN

Los coeficientes de correlacin son medidas que indican la situacin relativa de los mismos sucesos
respecto a las dos variables, es decir, son la expresin numrica que nos indica el grado de relacin
existente entre las 2 variables y en qu medida se relacionan. Son nmeros que varan entre los lmites
+1 y -1. Su magnitud indica el grado de asociacin entre las variables; el valor r = 0 indica que no
existe relacin entre las variables; los valores 1 son indicadores de una correlacin perfecta positiva
(al crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o decrecer X, decrece o crece Y).



No hay correlacin














Correlacin Positiva















Correlacin Negativa


Mgs. Mario Surez Correlacin y Regresin
3
Para interpretar el coeficiente de correlacin utilizamos la siguiente escala:


Valor Significado
-1 Correlacin negativa grande y perfecta
-0,9 a -0,99 Correlacin negativa muy alta
-0,7 a -0,89 Correlacin negativa alta
-0,4 a -0,69 Correlacin negativa moderada
-0,2 a -0,39 Correlacin negativa baja
-0,01 a -0,19 Correlacin negativa muy baja
0 Correlacin nula
0,01 a 0,19 Correlacin positiva muy baja
0,2 a 0,39 Correlacin positiva baja
0,4 a 0,69 Correlacin positiva moderada
0,7 a 0,89 Correlacin positiva alta
0,9 a 0,99 Correlacin positiva muy alta
1 Correlacin positiva grande y perfecta

1.3.1) COEFICIENTE DE CORRELACIN DE KARL PEARSON

Llamando tambin coeficiente de correlacin producto-momento.

Se calcula aplicando la siguiente ecuacin:

)(

)


r = Coeficiente producto-momento de correlacin lineal
X X x = ;

Y Y y =

Ejemplo ilustrativo:
Con los datos sobre las temperaturas en dos das diferentes en una ciudad, determinar el tipo de
correlacin que existe entre ellas mediante el coeficiente de PEARSON.

X 18 17 15 16 14 12 9 15 16 14 16 18 X =180
Y 13 15 14 13 9 10 8 13 12 13 10 8 Y= 138

Solucin:

Se calcula la media aritmtica


Para X:



Para Y:




Mgs. Mario Surez Correlacin y Regresin
4
Se llena la siguiente tabla:

X Y x = X-

y = Y-

x
2
xy y
2

18 13 3 1,5 9 4,5 2,25
17 15 2 3,5 4 7 12,25
15 14 0 2,5 0 0 6,25
16 13 1 1,5 1 1,5 2,25
14 9 -1 -2,5 1 2,5 6,25
12 10 -3 -1,5 9 4,5 2,25
9 8 -6 -3,5 36 21 12,25
15 13 0 1,5 0 0 2,25
16 12 1 0,5 1 0,5 0,25
14 13 -1 1,5 1 -1,5 2,25
16 10 1 -1,5 1 -1,5 2,25
18 8 3 -3,5 9 -10,5 12,25
=180 = 138 72 28 63


Se aplica la frmula:

)(

()()


Existe una correlacin moderada

En Excel se calcula de la siguiente manera:






Mgs. Mario Surez Correlacin y Regresin
5
El diagrama de dispersin en Excel:




El diagrama de dispersin en el programa Graph:










Mgs. Mario Surez Correlacin y Regresin
6

TAREA DE INTERAPRENDIZAJE

1) Elabore un organizador grfico de los tipos de correlacin.

2) Con los datos de la siguiente tabla sobre las temperaturas del da X y del da Y en determinadas
horas en una ciudad

X 9 10 12 14 16 18 20 22 24 26 28 30
Y 12 14 15 16 17 20 22 23 26 28 31 32

2.1) Calcule el coeficiente de correlacin de Pearson empleando la frmula y mediante Excel.
0,99
2.2) Elabore el diagrama de dispersin de manera manual.
2.3) Elabore el diagrama de dispersin empleando Excel.
2.4) Elabore el diagrama de dispersin empleando el programa Graph.

3) Cree y resuelva un ejercicio similar al anterior.

4) Consulte y presente un ejemplo resuelto del coeficiente de correlacin de Pearson para datos
agrupados en intervalos en http://www.monografias.com/trabajos85/coeficiente-correlacion-karl-
pearson/coeficiente-correlacion-karl-pearson.shtml

1.3.2) COEFICIENTE DE CORRELACIN POR RANGOS DE SPEARMAN

Este coeficiente se emplea cuando una o ambas escalas de medidas de las variables son ordinales, es
decir, cuando una o ambas escalas de medida son posiciones. Ejemplo: Orden de llegada en una carrera
y peso de los atletas.
Se calcula aplicando la siguiente ecuacin:

)

s
r = Coeficiente de correlacin por rangos de Spearman
d = Diferencia entre los rangos ( X menos Y)
n = Nmero de datos

Nota: Los datos hay que traducirlos u ordenarlos en rangos. A los puntajes ms elevados le asignamos
el rango 1 al siguiente el rango 2 y as sucesivamente. Si se repiten dos puntajes o ms se calculan las
medias aritmticas.
Ejemplo ilustrativo: La siguiente tabla muestra el rango u orden obtenido en la primera evaluacin
(X) y el rango o puesto obtenido en la segunda evaluacin (Y) de 8 estudiantes universitarios en la
asignatura de Estadstica. Realizar el diagrama de dispersin y calcular el coeficiente de correlacin por
rangos de Spearman.

Estudiante X Y
Dyana 1 3
Elizabeth 2 4
Mario 3 1
Orlando 4 5
Mathas 5 6
Josu 6 2
Anita 7 8
Luca 8 7
Mgs. Mario Surez Correlacin y Regresin
7
Solucin:

El diagrama de dispersin hecho en Excel se muestra en la siguiente figura:



Para calcular el coeficiente de correlacin por rangos de Spearman de se llena la siguiente tabla:

Estudiante X Y
d= X-Y d
2
=(X-Y)
2
Dyana 1 3
-2 4
Elizabeth 2 4
-2 4
Mario 3 1
2 4
Orlando 4 5
-1 1
Mathas 5 6
-1 1
Josu 6 2
4 16
Anita 7 8
-1 1
Luca 8 7
1 1

d
2
= 32

Se aplica la frmula:

)


(



Por lo tanto existe una correlacin positiva moderada entre la primera y segunda evaluacin de los 8
estudiantes.











Mgs. Mario Surez Correlacin y Regresin
8
En Excel se calcula de la siguiente manera:




TAREA DE INTERAPRENDIZAJE

1) Consulte sobre la biografa de Spearman y realice un organizador grfico de la misma.

2) La siguiente tabla muestra el rango u orden obtenido en la primera evaluacin (X) y el rango o
puesto obtenido en la segunda evaluacin (Y) de 8 estudiantes universitarios en la asignatura de
Matemtica.

X Y
1 4
2 5
3 6
4 8
5 3
6 2
7 1
8 7


2.1) Realice el diagrama de dispersin en forma manual.

2.2) Realice el diagrama de dispersin empleando Excel.

2.3) Realice el diagrama de dispersin empleando el programa Graph.

2.4) Calcule el coeficiente de correlacin por rangos de Spearman empleando la ecuacin.
-0,19
2.5) Calcule el coeficiente de correlacin empleando Excel.
-0,1905
3) Cree y resuelva un ejercicio similar al anterior.





Mgs. Mario Surez Correlacin y Regresin
9

4) La siguiente tabla muestra las calificaciones de 8 estudiantes universitarios en las asignaturas de
Matemtica y Estadstica. Calcular el coeficiente de correlacin por rangos de Spearman y realizar el
diagrama de dispersin.
N Estudiante Matemtica Estadstica
1
Dyana
10 8
2
Elizabeth
9 6
3
Mario
8 10
4
Orlando
7 9
5
Mathas
7 8
6
Josu
6 7
7
Anita
6 6
8
Luca
4 9


Consulte la solucin de este ejercicio en http://www.monografias.com/trabajos85/coeficiente-
correlacion-rangos-spearman/coeficiente-correlacion-rangos-spearman.shtml

5) Cree y resuelva un ejercicio similar al anterior.


1.4) COEFICIENTE DE DETERMINACIN

Revela qu porcentaje del cambio en Y se explica por un cambio en X. Se calcula elevando al cuadrado
el coeficiente de correlacin.

)(

)

X X x =
Y Y y =
r = Coeficiente de correlacin de Pearson

Coeficiente de determinacin


La ecuacin del coeficiente producto-momento (Coeficiente de Pearson)

)(

)
puede
escribirse en la forma equivalente:

()()
[

()

][

()

]


De donde coeficiente de determinacin =

( )



Ejemplo ilustrativo
Con los datos de la siguiente tabla sobre las temperaturas, calcular el coeficiente de determinacin
empleando la ecuacin obtenida de la forma equivalente del coeficiente de Pearson.

X 18 17 15 16 14 12 9 15 16 14 16 18
Y 13 15 14 13 9 10 8 13 12 13 10 8



Mgs. Mario Surez Correlacin y Regresin
10

Solucin:

Se calcula el coeficiente de Pearson llenando la siguiente tabla:

X Y XY X
2
Y
2

18 13 234 324 169
17 15 255 289 225
15 14 210 225 196
16 13 208 256 169
14 9 126 196 81
12 10 120 144 100
9 8 72 81 64
15 13 195 225 169
16 12 192 256 144
14 13 182 196 169
16 10 160 256 100
18 8 144 324 64
X=180 Y =138 XY=2098 X
2
= 2772 X
2
=1650


Se aplica la ecuacin para calcular el coeficiente de Pearson.


()()
[

()

][

()


[ ()

][ ()

]




[ ][ ]

[][]



Elevando al cuadrado coeficiente de Pearson queda calculado el coeficiente de determinacin.

Coeficiente de determinacin =

()



Esto establece que 17,28% del cambio en Y se explica mediante un cambio en X.


Nota:

El r
2
tiene significado slo para las relaciones lineales. Dos variables pueden tener r
2
=0 y sin embargo
estar relacionadas en sentido curvilneo. El valor de r
2
no se interpreta como si la variable Y fuera
causado por un cambio de la variable X, ya que la correlacin no significa causa.










Mgs. Mario Surez Correlacin y Regresin
11
En Excel se calcula elevando al cuadrado el coeficiente de correlacin o insertando la funcin
=COEFICIENTE.R2 como muestra la siguiente figura:





TAREA DE INTERAPRENDIZAJE

1) La siguiente tabla muestra el dinero en miles de dlares gastado en publicidad por una empresa (X)
para vender sus productos, y el nmero en miles de clientes (Y) que compran los productos de la
empresa.

X 15 17 14 13 18 20 17 18 16 14 20 18
Y 30 34 28 26 32 40 34 36 32 25 40 36


1.1) Realice el diagrama de dispersin en forma manual.

1.2) Realice el diagrama de dispersin empleando Excel.

1.3) Realice el diagrama de dispersin empleando el programa Graph.

1.4) Calcule el coeficiente de Pearson empleando las dos frmulas.
0,96015
1.5) Calcule el coeficiente de determinacin empleando las dos frmulas y mediante Excel.
0,9219



Mgs. Mario Surez Correlacin y Regresin
12
2) La siguiente tabla muestra el tiempo en minutos dedicado al estudio y la calificacin sobre 10
obtenida.
X 140 150 130 120 170 190 180 160 200 110 100 90
Y 7 8 7 6 8 10 9 8 10 6 5 4

2.1) Realice el diagrama de dispersin en forma manual.

2.2) Realice el diagrama de dispersin empleando Excel.

2.3) Realice el diagrama de dispersin empleando el programa Graph.

2.4) Calcule el coeficiente de Pearson empleando las dos frmulas.
0,9817
2.5) Calcule el coeficiente de determinacin empleando las dos frmulas y mediante Excel.
0,9638
3) Cree y resuelva un ejercicio similar a los anteriores.


2) ANLISIS DE REGRESIN

Los primeros y ms importantes estudios al respecto se deben a los cientficos Francis Galton (1822-
1911) y Karl Pearson (1857-1936). Fue Galton quien utiliz por primera vez el trmino regresin para
indicar que, aunque influida por la estatura de sus padres, la estatura de los hijos regresaba a la media
general.

La regresin examina la relacin entre dos variables, pero restringiendo una de ellas con el objeto de
estudiar las variaciones de una variable cuando la otra permanece constante. En otras palabras, la
regresin es un mtodo que se emplea para predecir el valor de una variable en funcin de valores
dados a la otra variable. En estadstica la palabra predecir no se utiliza en el sentido empleado por los
astrlogos, futurlogos y mentalistas, sino mas bien en un sentido lgico como es el de utilizar el
conocimiento del comportamiento de una variable para obtener informacin sobre otra variable. Por
ejemplo, puede predecirse el resultado que obtendr un estudiante en su examen final, basados en el
conocimiento de las calificaciones promedio de sus exmenes parciales, o predecir la preferencia de los
estudiantes por profesiones cientficas, conociendo los promedios de sus calificaciones en los estudios
escolares.

En todos los casos de regresin existe una dependencia funcional entre las variables. En el caso de dos
variables, siendo una de ellas (X) variable independiente y la otra (Y) la dependiente, se habla de
regresin de Y sobre X; Por ejemplo, los ingenieros forestales utilizan la regresin de la altura de los
rboles sobre su dimetro, lo cual significa que midiendo el dimetro (variable independiente) y
reemplazando su valor en una relacin definida segn la clase de rbol se obtiene la altura, y aun sin
necesidad de clculos aprecian la altura utilizando grficas de la funcin de dependencia, altura =
funcin del dimetro.


2.1) PRINCIPIO DE LOS MNIMOS CUADRADOS

2.1.1) LA RECTA DE LOS MNIMOS CUADRADOS

Se llama lnea de mejor ajuste y se define como la lnea que hace mnima la suma de los cuadrados de
las desviaciones respecto a ella de todos los puntos que corresponden a la informacin recogida.

Mgs. Mario Surez Correlacin y Regresin
13
La recta de los mnimos cuadrados que aproxima el conjunto de puntos ( )
1 1
,Y X , ( )
2 2
,Y X , ( )
3 3
,Y X
,( )
N N
Y X , tomando en cuenta a Y como variable dependiente tiene por ecuacin


A esta ecuacin suele llamarse recta de regresin de Y sobre X, y se usa para estimar los valores de Y
para valores dados de X.

Si a la recta de regresin

se le suma en ambos lados (

) se obtiene



Si a la recta de regresin

se multiplica por X a ambos lados y luego se suma


(

) se obtiene



Las constantes
0
a

y
1
a quedan fijadas al resolver simultneamente las ecuaciones anteriormente
encontradas, es decir, al resolver el siguiente sistema de ecuaciones:

+ =
+ =


2
1 0
1 0
X a X a XY
X a N a Y

Que se llaman las ecuaciones normales para la recta de mnimos cuadrados.

Las constantes
0
a

y
1
a de las anteriores ecuaciones tambin se pueden calcular empleando las
siguientes frmulas:

()

()




Otra ecuacin para los mnimos cuadrados para X X x = y Y Y y = de la recta de regresin de Y
sobre X es:
(

)
La recta de los mnimos cuadrados que aproxima el conjunto de puntos ( )
1 1
,Y X , ( )
2 2
,Y X , ( )
3 3
,Y X
,( )
N N
Y X , tomando en cuenta a X como variable dependiente tiene por ecuacin



A esta ecuacin suele llamarse recta de regresin de X sobre Y, y se usa para estimar los valores de X
para valores dados de Y. Las constantes

quedan fijadas al resolver el siguiente sistema de


ecuaciones:

+ =
+ =


2
1 0
1 0
Y b Y b XY
Y b N b X



Las constantes

del sistema de ecuaciones anterior se pueden calcular empleando las siguientes


frmulas:

()

()




Mgs. Mario Surez Correlacin y Regresin
14
Otra ecuacin para los mnimos cuadrados para X X x = y Y Y y = es:

(

)

El punto de interseccin entre las rectas X a a Y
1 0
+ = con Y b b X
1 0
+ = se simboliza ( ) Y X, y se llama
centroide o centro de gravedad.


Ejemplo ilustrativo

Con los datos de la siguiente tabla sobre la altura en centmetros (X) y los pesos en kilogramos (Y) de
una muestra de 8 estudiantes varones tomada al azar del segundo semestre de una universidad.

X 152 157 162 167 173 178 182 188
Y 56 61 67 72 70 72 83 92

1) Ajustar la recta de mnimos cuadrados para Y como variable dependiente resolviendo el sistema:

+ =
+ =


2
1 0
1 0
X a X a XY
X a N a Y


2) Ajustar la recta de mnimos cuadrados para Y como variable dependiente empleando las frmulas:

()

()



3) Ajustar la recta de mnimos cuadrados para Y como variable dependiente empleando la frmula:
(

)
4) Ajustar la recta de mnimos cuadrados para X como variable dependiente resolviendo el sistema:

+ =
+ =


2
1 0
1 0
Y b Y b XY
Y b N b X


5) Calcular el punto centroide.

6) Calcular el coeficiente de determinacin.

7) Elaborar el diagrama de dispersin. Y en el mismo diagrama graficar las dos rectas de mnimos
cuadrados obtenidas en los pasos anteriores.

8) Estimar el valor de Y cuando X = 200 en el diagrama de dispersin de Y como variable dependiente.
R: 8,2

9) Estimar el valor de X cuando Y= 100 en el diagrama de dispersin X como variable dependiente.




Mgs. Mario Surez Correlacin y Regresin
15
Solucin:

Para comenzar a resolver el ejercicio se llena la siguiente tabla:

X Y XY X
2
Y
2

152 56
8512 23104 3136
157 61
9577 24649 3721
162 67
10854 26244 4489
167 72
12024 27889 5184
173 70
12110 29929 4900
178 72
12816 31684 5184
182 83
15106 33124 6889
188 92
17296 35344 8464
X =1359 Y = 573 XY = 98295 X
2
= 231967 Y
2
= 41967

1) Reemplazando valores en el sistema se tiene:

+ =
+ =


2
1 0
1 0
X a X a XY
X a N a Y



{






Resolviendo el sistema por determinantes (regla de Cramer) se obtiene:

|


|
|


|

|


|




Interpretacin:

- El valor

indica que la recta tiene una pendiente positiva aumentando a razn de 0,864

- El valor de

indica el punto en donde la recta interseca al eje Y cuanto X = 0










Mgs. Mario Surez Correlacin y Regresin
16
En Excel el sistema se resuelve de la siguiente manera:




Reemplazando valores en la ecuacin respectiva se obtiene:




2) Con los datos de la tabla anterior se substituye valores en las siguientes ecuaciones:

()


()

()


()




Reemplazando valores en la ecuacin respectiva se obtiene:




3) Se calcula las medias aritmticas de X y Y para llenar la siguiente tabla:


Mgs. Mario Surez Correlacin y Regresin
17



X Y x=-

y=-

xy x
2
y
2
152 56
-17,88 -15,625 279,297 319,516 244,141
157 61
-12,88 -10,625 136,797 165,766 112,891
162 67
-7,875 -4,625 36,422 62,016 21,391
167 72
-2,875 0,375 -1,078 8,266 0,141
173 70
3,125 -1,625 -5,078 9,766 2,641
178 72
8,125 0,375 3,047 66,016 0,141
182 83
12,125 11,375 137,922 147,016 129,391
188 92
18,125 20,375 369,297 328,516 415,141
X=1359 Y=573

xy = 956,625 x
2
= 1106,875 x
2
= 925,875


Reemplazando valores en la frmula respectiva se obtiene:

(

( ) ( ) ( )













4) Reemplazando valores en sistema respectivo se obtiene:

+ =
+ =


2
1 0
1 0
Y b Y b XY
Y b N b X


{




Resolviendo el sistema se obtiene:



Mgs. Mario Surez Correlacin y Regresin
18
Reemplazando valores en la ecuacin de la recta de mnimos cuadrados se obtiene:





Interpretacin:

- El valor

indica que la recta tiene una pendiente positiva aumentando a razn de 1,033

- El valor de

indica el punto en donde la recta interseca al eje X cuanto Y = 0




5) Para calcular el centroide ( ) Y X, se resuelve el sistema formado por las dos rectas de los mnimos
cuadrados en donde X es

y Y es

.

{




Al resolver el sistema se obtiene el centroide: X = 169,3 y Y = 71,092


6) Se aplica la ecuacin para calcular el coeficiente de Pearson.


()()
[

()

][

()


[ ()

][ ()

]




Elevando al cuadrado coeficiente de Pearson queda calculado el coeficiente de determinacin.

Coeficiente de determinacin =

()




7) En Excel, insertando grfico de dispersin se obtiene la siguiente figura:




Mgs. Mario Surez Correlacin y Regresin
19
Empleando el programa Graph se obtiene la siguiente figura:


8) Reemplazando X = 200 en la ecuacin solicitada se obtiene:


9) Reemplazando Y = 100 en la ecuacin solicitada se obtiene:


TAREA DE INTERAPRENDIZAJE

1) Consulte sobre la biografa de Francis Galton y de Cramer, y realice un organizador grfico de cada
una.

2) Dada la siguiente tabla sobre la altura en centmetros (X) y los pesos en kilogramos (Y) de una
muestra de 8 estudiantes varones tomada al azar del segundo semestre de una universidad.

X 150 155 160 165 170 175 180 185
Y 55 60 63 67 70 74 79 85

2.1) Ajuste la recta de mnimos cuadrados para Y como variable dependiente resolviendo el sistema. El
sistema resuelva de manera manual y mediante Excel.

+ =
+ =


2
1 0
1 0
X a X a XY
X a N a Y




Mgs. Mario Surez Correlacin y Regresin
20
2.2) Ajuste la recta de mnimos cuadrados para Y como variable dependiente empleando las frmulas

()

()



2.3) Ajuste la recta de mnimos cuadrados para Y como variable dependiente empleando la frmula
(

)


2.4) Ajuste la recta de mnimos cuadrados para X como variable dependiente resolviendo el sistema. El
sistema resuelva de manera manual y mediante Excel.

+ =
+ =


2
1 0
1 0
Y b Y b XY
Y b N b X



2.5) Ajuste la recta de mnimos cuadrados para X como variable dependiente empleando las frmulas

()

()



2.6) Ajuste la recta de mnimos cuadrados para X como variable dependiente empleando la frmula
(

)

2.7) Calcule el punto centroide de manera manual y empleando Excel.



2.8) Calcule el coeficiente de determinacin.
0,99
2.9) Elabore el diagrama de dispersin. Y en el mismo diagrama graficar las dos rectas de mnimos
cuadrados obtenidas en los pasos anteriores. Elabore de manera manual, empleando Excel y el
programa Graph.

2.10) Estime el valor de Y cuando X = 173 en el diagrama de dispersin de Y como variable
dependiente.

73,6

2.11) Estime el valor de X cuando Y = 73 en el diagrama de dispersin de Y como variable
dependiente.

172,2
3) Cree y resuelva un ejercicio similar al anterior con datos obtenidos de 10 amigas suyas.





Mgs. Mario Surez Correlacin y Regresin
21
2.1.2) LA PARBOLA DE LOS MNIMOS CUADRADOS

La parbola de mnimos cuadrados que aproxima el conjunto de puntos (X
1
,Y
1
) , (X
2
,Y
2
),
(X
3
,Y
3
),..(X
N
,Y
N
) tiene ecuacin dada por
2
2 1 0
X a X a a Y + + = , donde las constantes
0
a ,
1
a y
2
a se
determinan al resolver simultneamente el sistema de ecuaciones que se forma al multiplicar la
ecuacin
2
2 1 0
X a X a a Y + + = por 1, X, Y sucesivamente, y sumando despus.

E + E + E = E
E + E + E = E
E + E + = E
4
2
3
1
2
0
2
3
2
2
1 0
2
2 1 0
X a X a X a Y X
X a X a X a XY
X a X a N a Y


Ejemplo ilustrativo

La siguiente tabla muestra la poblacin de un pas en los aos 1960-2010 en intervalos de 5 aos.

Ao 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Poblacin (millones) 4,52 5,18 6,25 7,42 8,16 9,12 10,92 11,62 12,68 13,12 13,97

1) Ajustar una parbola de mnimos cuadrados de la forma
2
2 1 0
X a X a a Y + + =


2) Calcular los valores de tendencia para los aos dados.


3) Estimar la poblacin para los aos 2015 y 2020.

4) Calcular el coeficiente de determinacin.

5) Elaborar un diagrama de dispersin, y en el mismo diagrama graficar la parbola de los mnimos
cuadrados.

Nota: Se recomienda codificar o cambiar la numeracin de los aos, eligiendo X de modo que el ao
central, 1985, corresponda a X= 0, para que se hagan ms fciles los clculos.



Solucin:

1) Para ajustar una parbola de mnimos cuadrados se llena la siguiente tabla:

Ao X Y X
2
X
3
X
4
XY X
2
Y
1960 -5 4,52 25 -125 625 -22,6 113
1965 -4 5,18 16 -64 256 -20,72 82,88
1970 -3 6,25 9 -27 81 -18,75 56,25
1975 -2 7,42 4 -8 16 -14,84 29,68
1980 -1 8,16 1 -1 1 -8,16 8,16
1985 0 9,12 0 0 0 0 0
1990 1 10,92 1 1 1 10,92 10,92
1995 2 11,62 4 8 16 23,24 46,48
2000 3 12,68 9 27 81 38,04 114,12
Mgs. Mario Surez Correlacin y Regresin
22
2005 4 13,12 16 64 256 52,48 209,92
2010 5 13,97 25 125 625 69,85 349,25
0 102,96 110 0 1958 109,46 1020,66

Se reemplaza valores en el sistema y se obtiene:

E + E + E = E
E + E + E = E
E + E + = E
4
2
3
1
2
0
2
3
2
2
1 0
2
2 1 0
X a X a X a Y X
X a X a X a XY
X a X a N a Y


{




Resolviendo el sistema empleando determinantes (regla de Cramer) se obtiene:




Mgs. Mario Surez Correlacin y Regresin
23
El sistema resuelto en Excel se muestra en la siguiente figura:



Reemplazando los valores encontrados se obtiene la ecuacin de la parbola de mnimos cuadrados:

Y = 9,464 + 0,995X - 0,01X


2


2) Los valores de tendencia se obtienen al reemplazar los valores de X en la ecuacin de la parbola de
mnimos cuadrados, los cuales se presenta en la siguiente tabla:

Ao X Y Valores de tendencia
Y = 9,464 + 0,995X - 0,01X
2

1960 -5 4,52 4,24
1965 -4 5,18 5,32
1970 -3 6,25 6,39
1975 -2 7,42 7,43
1980 -1 8,16 8,46
1985 0 9,12 9,46
1990 1 10,92 10,45
1995 2 11,62 11,41
2000 3 12,68 12,36
2005 4 13,12 13,28
2010 5 13,97 14,19
Mgs. Mario Surez Correlacin y Regresin
24
3) Para estimar la poblacin de los aos 2015 y 2020 se transforma estos aos a X siguiendo la
secuencia de la tabla anterior, siendo X = 6 para el ao 2015 y X= 7 para el 2020

Entonces para el 2015 se tiene:
Y = 9,464 + 0,995X - 0,01X
2
=9,464 + 0,995(6) - 0,01(6)
2
= 9,464 + 5,97-0,36 =15,074

Para el 2020 se tiene:
Y = 9,464 + 0,995X - 0,01X
2
=9,464 + 0,995(7) - 0,01(7)
2
= 9,464 + 6,965-0,49 =15,939

4) Se llena la siguiente tabla y se aplica la ecuacin para calcular el coeficiente de Pearson

Ao X Y X
2
XY Y
2
1960 -5 4,52 25 -22,6 20,430
1965 -4 5,18 16 -20,72 26,832
1970 -3 6,25 9 -18,75 39,063
1975 -2 7,42 4 -14,84 55,056
1980 -1 8,16 1 -8,16 66,586
1985 0 9,12 0 0 83,174
1990 1 10,92 1 10,92 119,246
1995 2 11,62 4 23,24 135,024
2000 3 12,68 9 38,04 160,782
2005 4 13,12 16 52,48 172,134
2010 5 13,97 25 69,85 195,161
0 102,96 110 109,46 1073,490


()()
[

()

][

()


[ ()

][ ()

]



Elevando al cuadrado coeficiente de Pearson queda calculado el coeficiente de determinacin.
Coeficiente de determinacin =

()


El coeficiente de determinacin calculado en Excel se muestra en la siguiente figura:

Mgs. Mario Surez Correlacin y Regresin
25



5) El diagrama de dispersin y la parbola de los mnimos cuadrados mediante Excel se muestra en la
siguiente figura:













Mgs. Mario Surez Correlacin y Regresin
26
Empleando el programa Graph se obtiene la siguiente figura:





TAREA DE INTERAPRENDIZAJE

1) La siguiente tabla muestra la poblacin aproximada de la Provincia de Imbabura en los aos
1960-2010 en intervalos de 5 aos.

Ao 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Poblacin (miles) 123 140 170 201 221 247 296 315 344 356 379

1.1) Ajuste una parbola de mnimos cuadrados de la forma
2
2 1 0
X a X a a Y + + =

Y = 256,464 + 26,991X - 0,265X
2


1.2) Calcule los valores de tendencia para los aos dados de manera manual y empleando Excel.


Ao 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
Valor de tendencia 114,88 144,26 173,11 201,42 229,21 256,46 283,19 309,39 335,05 360,19 384,79

1.3) Estime la poblacin para los aos 2015 y 2020
Ao 2015 = 408,87 miles de habitantes
Ao 2020 = 432,42 miles de habitantes

1.4) Calcule el coeficiente de determinacin de manera manual y empleando Excel.
Mgs. Mario Surez Correlacin y Regresin
27
0,992

1.5) Elabore un diagrama de dispersin, y en el mismo diagrama graficar la parbola de los mnimos
cuadrados de manera manual, empleando Excel y empleando Graph.


2) Cree y resuelva un ejercicio de aplicacin de la parbola de los mnimos cuadrados con datos de la
poblacin del Ecuador o de cualquier otro pas de manera manual, empleando Excel y Graph.


2.1.3) REGRESIN EXPONENCIAL

Cuando la curva de regresin de y sobre x es exponencial, es decir para cualquier x considerada, la
media de la distribucin est dada por la siguiente ecuacin predictora:



Tomando logaritmos en ambos miembros:


y se puede estimar ahora log Y y log , y de ah obtener o y | , aplicando los mtodos de los mnimos
cuadrados.

Donde las constantes o y | quedan fijadas al resolver simultneamente las ecuaciones:

+ =
+ =
2
log log log
log log log
X X Y X
X N Y
| o
| o





Ejemplo ilustrativo: Las cifras siguientes son datos sobre el porcentaje de llantas radiales producidas
por cierto fabricante que an pueden usarse despus de recorrer cierto nmero de millas:

Miles de Millas recorridas (X) 1 2 5 15 25 30 35 40
Porcentaje til (Y) 99 95 85 55 30 24 20 15

1) Elaborar el diagrama de dispersin.
2) Ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados.
3) Calcular la ecuacin predictora.
4) Graficar la ecuacin predictora.
5) Estimar qu porcentaje de las llantas radiales del fabricante durarn 50000 millas.

Solucin:
1) Elaborando el diagrama de dispersin empleando Excel se obtiene la siguiente figura:

Mgs. Mario Surez Correlacin y Regresin
28


Empleando el programa Graph se obtiene la siguiente figura:


2) Se llena la siguiente tabla:

X Y log Y X
2
X logY
1 99 1,996 1 1,996
2 95
1,978 4 3,955
5 85
1,929 25 9,647
15 55
1,740 225 26,105
25 30
1,477 625 36,928
30 24
1,380 900 41,406
35 20
1,301 1225 45,536
40 15
1,176 1600 47,044
X=153

log Y=12,97759 X
2
= 4605 X logY = 212,61769


Mgs. Mario Surez Correlacin y Regresin
29
Resolviendo empleando Excel se muestra en la siguiente figura:





Reemplazando valores en el sistema se obtiene:

+ =
+ =
2
log log log
log log log
X X Y X
X N Y
| o
| o


{


{




Al resolver el sistema se obtiene:

|


|
|


|

|


|



Reemplazando valores se obtiene:





Aplicando el antilogaritmo se obtiene:



()



Mgs. Mario Surez Correlacin y Regresin
30
Resolviendo empleando Excel se muestra en la siguiente figura:



3) Reemplazando en la ecuacin predictora se obtiene:


4) Graficando la ecuacin predictora empleando Excel se obtiene la siguiente figura:


Mgs. Mario Surez Correlacin y Regresin
31

En Graph se obtiene la siguiente figura:



5) La estimacin del porcentaje de llantas radiales que durarn 50000 millas se obtiene reemplazando
en la ecuacin predictora el valor de X = 50



Entonces el porcentaje sera de 9,106%

TAREA DE INTERAPRENDIZAJE

1) Elabore un organizador grfico sobre la regresin exponencial.

2) Las cifras siguientes son datos sobre el porcentaje de llantas radiales producidas por cierto fabricante
que an pueden usarse despus de recorrer cierto nmero de millas:

Miles de Millas recorridas (X) 1 2 5 10 20 30 40 50
Porcentaje til (Y) 98 92 80 64 36 32 17 11

2.1) Ajuste una curva exponencial aplicando el mtodo de mnimos cuadrados. Resolver manualmente
y empleando Excel. Realizar los clculos empleando la mayor cantidad de decimales.

2.2) Calcule la ecuacin predictora.


2.3) Grafique la ecuacin predictora de manera manual, empleando Excel y el programa Graph.

2.4) Estime qu porcentaje de las llantas radiales del fabricante durarn 35000 millas.
21,7%

Mgs. Mario Surez Correlacin y Regresin
32
3) Cree y resuelva un ejercicio empleando los conocimientos de la regresin exponencial de manera
manual, empleando Excel y Graph.


2.1.4) REGRESIN POTENCIAL

La regresin potencial tiene por ecuacin predictora:




y la regresin recproca es:




Para el primer caso los valores siguen una ley potencial. Si la ecuacin predictora est dada por:
|
o X Y = , tomando logaritmos en ambos miembros, queda:




Donde las constantes o y | quedan fijadas al resolver simultneamente las ecuaciones:

+ =
+ =
2
) (log log log log log
log log log
X X Y X
X N Y
| o
| o


Para el segundo caso, si la ecuacin predictora est dada por ) /( 1 X Y + = | o , entonces invirtiendo, la
misma expresin se puede escribir 1 / ) ( / 1 X Y + = | o , o sea:




Donde las constantes o y | quedan fijadas al resolver simultneamente las ecuaciones:

+ =
+ =
2
1
1
X X
Y
X
X N
Y
| o
| o


Ejemplos ilustrativo N 1

Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es el volumen (variable
independiente) e Y es la presin de una masa dada de gas (variable resultante).

X 1 2 3 4 5 6 7
Y 7 30 90 170 290 450 650

1.1) Elaborar el diagrama de dispersin.
1.2) Ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados.
1.3) Calcular la ecuacin predictora.
1.4) Graficar la ecuacin predictora.
1.5) Estimar la presin de la masa de gas de volumen 9.
Mgs. Mario Surez Correlacin y Regresin
33


Solucin:

1.1) El diagrama de dispersin elaborado en Excel se presenta en la siguiente figura:





El diagrama de dispersin elaborado en Graph se presenta en la siguiente figura:





Mgs. Mario Surez Correlacin y Regresin
34
1.2) Para ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados se llena la siguiente
tabla:

X Y log X log Y log X log Y (log X)
2

1 7 0,0000 0,8451 0,0000 0,0000
2 30 0,3010 1,4771 0,4447 0,0906
3 90 0,4771 1,9542 0,9324 0,2276
4 170 0,6021 2,2304 1,3429 0,3625
5 290 0,6990 2,4624 1,7211 0,4886
6 450 0,7782 2,6532 2,0646 0,6055
7 650 0,8451 2,8129 2,3772 0,7142
X=28

logX=3,7024 logY=14,4354 log X log Y =8,8829 (log X)
2
= 2,4890

Reemplazando valores en el sistema de ecuaciones se obtiene:

+ =
+ =
2
) (log log log log log
log log log
X X Y X
X N Y
| o
| o


{


{




Al resolver el sistema se obtiene: log = 0,819 ; = 2,351

Reemplazando valores en la ecuacin predictora expresada en logaritmos se tiene:




1.3) Para calcular la ecuacin predictora, primero se calcula el valor de de la siguiente manera:



Reemplazando en la ecuacin predictora se obtiene:



1.4) Graficando la ecuacin predictora mediante Excel se muestra en la siguiente figura:


Mgs. Mario Surez Correlacin y Regresin
35
Empleando Graph se obtiene la siguiente figura:



1.5) Para estimar la presin de la masa de gas de volumen 9 se reemplaza el valor X = 9 en la ecuacin
predictora



Ejemplo ilustrativo N 2
Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es la variable
independiente e Y la variable resultante.
X 1 2 3 4 5 6 7
Y 1,4 1 0,9 0,7 0,6 0,55 0,5
2.1) Elaborar el diagrama de dispersin.
2.2) Calcular las constantes o y | , aplicando el mtodo de mnimos cuadrados.
2.3) Calcular la ecuacin predictora.
2.4) Graficar la ecuacin predictora.
2.5) Estimar el valor de Y para X = 9

Solucin:
2.1) El diagrama de dispersin elaborado en Excel se muestra en la siguiente figura:



Mgs. Mario Surez Correlacin y Regresin
36
El diagrama de dispersin elaborado en Graph se muestra en la siguiente figura:

2.2) Para calcular las constantes o y | , aplicando el mtodo de mnimos cuadrados se llena la
siguiente tabla:

X Y 1/Y X(1/Y) X
2

1 1,4 0,7143 0,7143 1
2 1 1,0000 2,0000 4
3 0,9 1,1111 3,3333 9
4 0,7 1,4286 5,7143 16
5 0,6 1,6667 8,3333 25
6 0,55 1,8182 10,9091 36
7 0,5 2,0000 14,0000 49
X = 28

(1/Y) = 9,7388 X(1/Y) = 45,0043 X
2
= 140

Reemplazando valores en el siguiente sistema se obtiene:

+ =
+ =
2
1
1
X X
Y
X
X N
Y
| o
| o

{


{




Al resolver el sistema se obtiene:
= 0,5271; = 0,2160

2.3) Para calcular la ecuacin predictora se reemplaza los valores encontrados de y , y se obtiene:







Mgs. Mario Surez Correlacin y Regresin
37
2.4) La grfica la ecuacin predictora elaborada en Excel se muestra en la siguiente figura:





La grfica la ecuacin predictora elaborada en Graph se muestra en la siguiente figura:



2.5) Para estimar el valor de Y para X = 9 se reemplaza el valor de X en la ecuacin predictora.










Mgs. Mario Surez Correlacin y Regresin
38
TAREA DE INTERAPRENDIZAJE

1) Elabore un organizador grfico sobre la regresin potencial.

2) Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es el volumen (variable
independiente) e Y es la presin de una masa dada de gas (variable resultante).

X 1 2 3 4 5 6 7
Y 5 35 90 180 300 460 670

2.1) Elabore el diagrama de dispersin de manera manual, empleando Excel y Graph

2.2) Ajuste una curva exponencial aplicando el mtodo de mnimos cuadrados empleando por lo menos
4 decimales para los clculos.

2.3) Calcule la ecuacin predictora.


2.4) Grafique la ecuacin predictora de manera manual, empleando Excel y Graph.

2.5) Estime la presin de la masa de gas de volumen 9.
979,17

3) Cree y resuelva un ejercicio similar al anterior.

4) Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es la variable
independiente e Y la variable resultante.

X 1 2 3 4 5 6 7
Y 1,5 1 0,8 0,9 0,5 0,4 0,3

4.1) Elabore el diagrama de dispersin de manera manual, empleando Excel y Graph.

4.2) Calcule las constantes o y | , aplicando el mtodo de mnimos cuadrados de manera manual y
empleando Excel.
= 0,0159; = 0,4196
4.3) Calcule la ecuacin predictora.



4.4) Grafique la ecuacin predictora de manera manual, empleando Excel y Graph.

4.5) Estime el valor de Y para X = 8
0,2965

5) Cree y resuelva un ejercicio similar al anterior de manera manual, empleando Excel y el programa
Graph.








Mgs. Mario Surez Correlacin y Regresin
39
2.2) ERROR ESTNDAR DE ESTIMACIN

Es el grado de dispersin de los datos con respecto a la recta de regresin


El error estndar de estimacin se calcula con la frmula:



Donde:

= cada valor de Y

= valor estimado de Y a partir de la recta de regresin


N = nmero de datos

Nota: Como se puede observar, el error estndar de estimacin es un clculo de la desviacin estndar
de la muestra de datos con respecto a la recta de regresin, en la que

sustituye a la media de la
muestra, y con n-2 en el denominador en vez de n-1. La razn de que sea n-2, es debido a que se pierde
2 grados de libertad al calcular las 2 constantes,

en la recta de regresin.

Otras ecuaciones para calcular el error estndar de estimacin son:



Donde:

= ordenada en el origen (punto de interseccin de la recta con el eje y)


1
a = pendiente de la recta (tangente del ngulo de inclinacin de la recta)





Ejemplo ilustrativo
Calcular error estndar de estimacin empleando las 3 frmulas dadas, utilizando los datos de la tabla
del ejemplo para ajustar la recta de mnimos cuadrados para Y como variable dependiente.

X Y
152 56
157 61
162 67
167 72
173 70
178 72
182 83
188 92


Solucin:

Para comenzar a resolver este ejemplo recordemos que ya se obtuvo los valores respectivos al resolver
el ejemplo para ajustar la recta de mnimos cuadrados, los cuales fueron:

X = 1359; Y = 573; XY = 98295; X
2
= 231967; Y
2
= 41967; xy = 956,625; x
2
= 1106,875;
y
2
= 925,875;

= -75,191;

= 0,864;


Mgs. Mario Surez Correlacin y Regresin
40
1) Para emplear la primera frmula se llena la siguiente tabla:

X Y Y
est
= -75,191+0,86X Y
est
(Y- Y
est
)
2
152 56 -75,191+0,86(152) 55,529 0,222
157 61 -75,191+0,86(157) 59,829 1,371
162 67 -75,191+0,86(162) 64,129 8,243
167 72 -75,191+0,86(167) 68,429 12,752
173 70 -75,191+0,86(173) 73,589 12,881
178 72 -75,191+0,86(178) 77,889 34,680
182 83 -75,191+0,86(182) 81,329 2,792
188 92 -75,191+0,86(188) 86,489 30,371
103,312

Se reemplaza valores en la primera frmula se obtiene:




Realizando los clculos de los componentes de la frmula empleando Excel se obtiene un valor ms
exacto, ya que Excel utiliza una mayor cantidad de decimales al realizar los clculos. Estos clculos se
muestran en la siguiente figura:


Mgs. Mario Surez Correlacin y Regresin
41


2) Reemplazando valores en la segunda frmula se obtiene:

()() ()






Los clculos de los componentes de la frmula empleando Excel se muestran en la siguiente figura:



Mgs. Mario Surez Correlacin y Regresin
42
3) Reemplazando valores en la tercera frmula se obtiene:

()





Los clculos de los componentes de la frmula empleando Excel se muestran en la siguiente figura:



En Excel:


Mgs. Mario Surez Correlacin y Regresin
43
El diagrama dispersin y la recta de mnimos cuadrados elaborado en Excel se muestra en la siguiente
figura, donde R
2
es el coeficiente de determinacin:



Interpretacin: El valor de

, significa que los puntos estn dispersos a una distancia de


4,064 de la recta de regresin.
TAREA DE INTERAPRENDIZAJE

Dada la siguiente tabla sobre la altura en centmetros (X) y los pesos en kilogramos (Y) de una muestra
de 8 estudiantes varones tomada al azar del segundo semestre de una universidad.

X 150 155 160 165 170 175 180 185
Y 56 61 64 68 72 75 80 90

1) Calcule el coeficiente de determinacin de manera manual y empleando Excel.
0,97

2) Calcule el error estndar de estimacin empleando la primera frmula. Utilice 5 decimales para los
clculos. Los elementos de la frmula calcule empleando Excel, tal como se indic en el ejemplo.
2,1

3) Calcule el error estndar de estimacin empleando la segunda frmula. Utilice 5 decimales para los
clculos. Los elementos de la frmula calcule empleando Excel, tal como se indic en el ejemplo.
2,1

4) Calcule el error estndar de estimacin empleando la tercera frmula. Utilice 5 decimales para los
clculos. Los elementos de la frmula calcule empleando Excel, tal como se indic en el ejemplo.
2,1

5) Calcule el error estndar de estimacin empleando exclusivamente Excel.
2,1

6) Elabore el diagrama de dispersin, y en el mismo diagrama graficar la recta de regresin. Realice de
manera manual, empleando Excel y Graph.





Mgs. Mario Surez Correlacin y Regresin
44
REFERENCIAS BIBLIOGRFICAS

SUREZ, Mario, (2012), Interaprendizaje de Estadstica Bsica, Universidad Tcnica del Norte
TAPIA , Fausto Ibarra, Ecuador.

SUREZ, Mario, (2011), Coeficiente de correlacin de Pearson para datos agrupados en intervalos,
www.monografias.com/trabajos86/

SUREZ, Mario, (2011), Coeficiente de Correlacin por Rangos de Spearman,
www.monografias.com/trabajos85/

SUREZ, Mario, (2011), La recta de los mnimos cuadrados, www.monografias.com/trabajos85/

SUREZ, Mario (2011), Anlisis de regresin mediante la parbola de los mnimos cuadrados,
www.monografias.com/trabajos86/

SUREZ, Mario (2011), Regresin potencial mediante el mtodo de los mnimos cuadrados,
www.monografias.com/trabajos89/

SUREZ, Mario (2011), Regresin exponencial mediante el mtodo de los mnimos cuadrados,
www.monografias.com/trabajos89/

You might also like