You are on page 1of 54

Las medidas de dispersin nos informan sobre cunto se alejan del centro los valores de la distribucin.

Las medidas de dispersin son:


Rango o recorrido
El rango es la diferencia entre el mayor y el menor de los datos de una distribucin estadstica.
Desviacin media
La desviacin respecto a la media es la diferencia entre cada valor de la variable estadstica y la media
aritmtica.
Di = x - x
La desviacin media es la media aritmtica de los valores absolutos de las desviaciones respecto a la
media.
La desviacin media se representa por

Ejemplo
Calcular la desviacin media de la distribucin:
9, 3, 8, 8, 9, 8, 9, 18

Desviacin media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresin de la desviacin mediaes:

Ejemplo
Calcular la desviacin media de la distribucin:
xi

fi

xi fi

|x - x|

|x - x| fi

12.5

37.5

9.286

27.858

17.5

87.5

4.286

21.43

22.5

157.5

0.714

4.998

27.5

110

5.714

22.856

32.5

65

10.174

21.428

21

457.5

98.57

Varianza
La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la media de una
distribucin estadstica.
La varianza se representa por

Varianza para datos agrupados

Para simplificar el clculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a
las anteriores.

Varianza para datos agrupados

Ejercicios de varianza
Calcular la varianza de la distribucin:
9, 3, 8, 8, 9, 8, 9, 18

Calcular la varianza de la distribucin de la tabla:


xi

fi

xi fi

xi2 fi

10, 20)

15

15

225

20, 30)

25

200

5000

30,40)

35

10

350

12 250

40, 50)

45

405

18 225

50, 60

55

440

24 200

60,70)

65

260

16 900

70, 80)

75

150

11 250

42

1 820

88 050

Propiedades de la varianza
1 La varianza ser siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
2 Si a todos los valores de la variable se les suma un nmero la varianza no vara.
3 Si todos los valores de la variable se multiplican por un nmero la varianza quedamultiplicada por
el cuadrado de dicho nmero.
4 Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede
calcular la varianza total.
Si todas las muestras tienen el mismo tamao:

Si las muestras tienen distinto tamao:

Observaciones sobre la varianza


1 La varianza, al igual que la media, es un ndice muy sensible a las puntuaciones extremas.
2 En los casos que no se pueda hallar la media tampoco ser posible hallar la varianza.
3 La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones estn
elevadas al cuadrado.

Desviacin tpica
La desviacin tpica es la raz cuadrada de la varianza.
Es decir, la raz cuadrada de la media de los cuadrados de las puntuaciones de desviacin.

La desviacin tpica se representa por .

Desviacin tpica para datos agrupados

Para simplificar el clculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.

Desviacin tpica para datos agrupados

Ejercicios de desviacin tpica


Calcular la desviacin tpica de la distribucin:
9, 3, 8, 8, 9, 8, 9, 18

Calcular la desviacin tpica de la distribucin de la tabla:


xi

fi

xi fi

xi2 fi

15

15

225

25

200

5000

35

10

350

12 250

45

405

18 225

55

440

24 200

65

260

16 900

75

150

11 250

42

1 820

88 050

Propiedades de la desviacin tpica


1 La desviacin tpica ser siempre un valor positivo o cero, en el caso de que las puntuaciones sean
iguales.
2 Si a todos los valores de la variable se les suma un nmero la desviacin tpica no vara.
3 Si todos los valores de la variable se multiplican por un nmero la desviacin
tpica quedamultiplicada por dicho nmero.
4 Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones
tpicas se puede calcular la desviacin tpica total.
Si todas las muestras tienen el mismo tamao:

Si las muestras tienen distinto tamao:

Observaciones sobre la desviacin tpica


1 La desviacin tpica, al igual que la media y la varianza, es un ndice muy sensible a las puntuaciones
extremas.
2 En los casos que no se pueda hallar la media tampoco ser posible hallar la desviacin tpica.
3 Cuanta ms pequea sea la desviacin tpica mayor ser la concentracin de datos alrededor de
la media.

Coeficiente de variacin
El coeficiente de variacin es la relacin entre la desviacin tpica de una muestra y su media.

El coeficiente de variacin se suele expresar en porcentajes:

El coeficiente de variacin permite comparar las dispersiones de dos distribuciones distintas, siempre que
sus medias sean positivas.
Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre s.
La mayor dispersin corresponder al valor del coeficiente de variacin mayor.
Ejercicio
Una distribucin tiene x = 140 y = 28.28 y otra x = 150 y = 25. Cul de las dos presenta mayor
dispersin?

La primera distribucin presenta mayor dispersin.

Puntuaciones tpicas
Puntuaciones diferenciales
Las puntuaciones diferenciales resultan de restarles a las puntuaciones directas la media aritmtica.
xi = Xi X
Puntuaciones tpicas
Las puntuaciones tpicas son el resultado de dividir las puntuaciones diferenciales entre ladesviacin
tpica. Este proceso se llama tipificacin.
Las puntuaciones tpicas se representan por z.

Observaciones sobre puntuaciones tpicas


La media aritmtica de las puntuaciones tpicas es 0.
La desviacin tpica de las puntuaciones tpicas es 1.
Las puntuaciones tpicas son adimensionales, es decir, son independientes de las unidades utilizadas.
Las puntuaciones tpicas se utilizan para comparar las puntuaciones obtenidas en distintas distribuciones.
Ejemplo
En una clase hay 15 alumnos y 20 alumnas. El peso medio de los alumnos es 58.2 kg y el de las alumnas y
54.4 kg. Las desviaciones tpicas de los dos grupos son, respectivamente, 3.1 kg y 5.1 kg. El peso de Jos es
de 70 kg y el de Ana es 65 kg. Cul de ellos puede, dentro del grupo de alumnos de su sexo, considerarse
ms grueso?

Jos es ms grueso respecto de su grupo el Pilar respecto al suyo.


Desviacin media
Desviacin respecto a la media
La desviacin respecto a la media es la diferencia en valor absoluto entre cada valor de la variable
estadstica y la media aritmtica.
Di = |x - x|
Desviacin media
La desviacin media es la media aritmtica de los valores absolutos de las desviaciones respecto a la
media.
La desviacin media se representa por

Ejemplo:
Calcular la desviacin media de la distribucin:
9, 3, 8, 8, 9, 8, 9, 18

Desviacin media para datos agrupados


Si los datos vienen agrupados en una tabla de frecuencias, la expresin de la desviacin media es:

Ejemplo:
Calcular la desviacin media de la distribucin:
xi

fi

xi fi

|x -x|

|x - x| fi

[10, 15)

12.5

37.5

9.286

27.858

[15, 20)

17.5

87.5

4.286

21.43

[20, 25)

22.5

157.5

0.714

4.998

[25, 30)

27.5

110

5.714

22.856

[30, 35)

32.5

65

10.714

21.428

21

457.5

98.57

Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro
partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.
Q2 coincide con la mediana.
Clculo de los cuartiles
1. Ordenamos los datos de menor a mayor.

2. Buscamos el lugar que ocupa cada cuartil mediante la expresin

Nmero impar de datos


2, 5, 3, 6, 7, 4, 9

Nmero par de datos


2, 5, 3, 4, 6, 7, 1, 9

Clculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentra


frecuencias acumuladas.

, en la tabla de las

Li es el lmite inferior de la clase donde se encuentra el cuartil.


N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase del cuartil.
ai es la amplitud de la clase.
Ejercicio de cuartiles
Calcular los cuartiles de la distribucin de la tabla:
fi

Fi

[50, 60)

[60, 70)

10

18

[70, 80)

16

34

[80, 90)

14

48

[90, 100)

10

58

[100, 110)

63

[110, 120)

65

65
Clculo del primer cuartil

Clculo del segundo cuartil

Clculo del tercer cuartil

Deciles
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D5 coincide con la mediana.
Clculo de los deciles

En primer lugar buscamos la clase donde se encuentra


frecuencias acumuladas.

, en la tabla de las

Li es el lmite inferior de la clase donde se encuentra el decil.


N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase el decil..
ai es la amplitud de la clase.
Ejercicio de deciles
Calcular los deciles de la distribucin de la tabla:
fi

Fi

[50, 60)

[60, 70)

10

18

[70, 80)

16

34

[80, 90)

14

48

[90, 100)

10

58

[100, 110)

63

[110, 120)

65

65
Clculo del primer decil

Clculo del segundo decil

Clculo del tercer decil

Clculo del cuarto decil

Clculo del quinto decil

Clculo del sexto decil

Clculo del sptimo decil

Clculo del octavo decil

Clculo del noveno decil

Percentiles
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
P50 coincide con D5.
Clculo de los percentiles

En primer lugar buscamos la clase donde se encuentra


frecuencias acumuladas.

, en la tabla de las

Li es el lmite inferior de la clase donde se encuentra el percentil.


N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase del percentil.
ai es la amplitud de la clase.
Ejercicio de percentiles
Calcular el percentil 35 y 60 de la distribucin de la tabla:
fi

Fi

[50, 60)

[60, 70)

10

18

[70, 80)

16

34

[80, 90)

14

48

[90, 100)

10

58

[100, 110)

63

[110, 120)

65

65
Percentil 35

Percentil 60

Teorema De Chebyshev.
Para demostrar cmo la desviacin estndar es indicadora de la dispersin de la distribucin de una variable
aleatoria, el matemtico ruso Pafnuty Lvovich Chbyshev desarroll un teorema en el que ofrece una garanta
mnima acerca de la probabilidad de que una variable aleatoria asuma un valor dentro de k desviaciones
estndar alrededor de la media.

Para cualquier variable aleatoria X con media y desviacin estndar , la probabilidad de que X tome un
valor contenido enk desviaciones estndar de la media, siendo k una constante positiva cualquiera, es
cuando menos

1 - 1/k

Simblicamente, el teorema se expresa de cualquiera de las siguientes maneras:


TEOREMA DE CHEBYSHEV

La desigualdad de Chbyshev es muy importante, ya que permite determinar los lmites de las probabilidades
de variables aleatorias discretas o continuas sin tener que especificar sus funciones de probabilidad. Este
teorema asegura que la probabilidad de que una variable aleatoria se aleje de la media no ms de k
desviaciones estndar, es menor o igual a 1/k2 para algn valor de k >1. Aunque la garanta no siempre es
muy precisa, la ventaja sobre este teorema es su gran generalidad por cuanto es aplicable a cualquier
variable aleatoria con cualquier distribucin de probabilidad, ya sea discreta o continua.

Distribucin normal
Variable aleatoria de la distribucin normal
Una variable aleatoria continua, X, sigue una distribucin normal de media y desviacin tpica , y se
designa por N(, ), si se cumplen las siguientes condiciones:
1. La variable puede tomar cualquier valor: (-, +)
2. La funcin de densidad, es la expresin en trminos de ecuacin matemtica de la curva de Gauss:

Curva de la distribucin normal

El campo de existencia es cualquier valor real, es decir, (-, +).


Es simtrica respecto a la media .
Tiene un mximo en la media .
Crece hasta la media y decrece a partir de ella.
En los puntos y + presenta puntos de inflexin.
El eje de abscisas es una asntota de la curva.
El rea del recinto determinado por la funcin y el eje de abscisas es igual a la unidad.
Al ser simtrica respecto al eje que pasa por x = , deja un rea igual a 0.5 a la izquierda y otra igual a 0.5
a la derecha.
La probabilidad equivale al rea encerrada bajo la curva.
p( - < X + ) = 0.6826 = 68.26 %
p( - 2 < X + 2) = 0.954 = 95.4 %
p( - 3 < X + 3) = 0.997 = 99.7 %
Tabla de la curva normal (0, 1)
La tabla nos da las probabilidades de P(z k), siendo z la variable tipificada.
Estas probabilidades nos dan la funcin de distribucin (k).

(k) = P(z k)
Bsqueda en la tabla de valor de k
Unidades y dcimas en la columna de la izquierda.
Cntesimas en la fila de arriba.
P(Z a)

P(Z 1.47) = 0.9292


P(Z > a) = 1 - P(Z a)

P(Z > 1.47) = 1 P(Z 1.47) = 1 0.9292 = 0.0708


P(Z a) = 1 P(Z a)

P(Z 1.47) = 1 P(Z 1.47) = 1 0.9292 = 0.0708


P(Z > a) = P(Z a)

p(Z > 1.47) = p(Z 1.47) = 0.9292


P(a < Z b ) = P(Z b) P(Z a)

P( 0.45 <Z 1.47) = P(Z 1.47) P(Z 0.45) =


= 0.9292 0.6736 = 0.2556
P(b < Z a ) = P(a < Z b )

P(1.47 <Z 0.45) = P( 0.45 <Z 1.47) =


= P(Z 1.47) P(Z 0.45) = 0.9292 0.6736 = 0.2556
P(a < Z b ) = P(Z b) [ 1 P(Z a)]

P(-1.47 < Z 0.45) = P(Z 0.45) [ 1 P(Z 1.47)]=


= 0.6736 (1 0.9292) = 0.6028
p=K
Nos encontramos con el caso inverso a los anteriores, conocemos el valor de la probabilidad y se trata de
hallar el valor de la abscisa. Ahora tenemos que buscar en la tabla el valor que ms se aproxime a K.
p = 0.75Z 0.68
Para calcular la variable X nos vamos a la frmula de la tipificacin.
(X - )/ = 0.68X = + 0.68

Aproximacin de la binomial por la normal


Teorema de Moivre
Si:
n p 5 y n q 5.
La distribucin binomial B(n, p) se puede aproximar mediante una distribucin normal:

Ejemplo:
En una ciudad una de cada tres familias posee telfono. Si se eligen al azar 90 familias, calcular la
probabilidad de que entre ellas haya por lo menos 30 tengan telfono.

La funcin de probabilidad de la distribucin binomial, tambin denominada funcin de la distribucin


de Bernoulli, es:

n es el nmero de pruebas.
k es el nmero de xitos.
p es la probabilidad de xito.

q es la probabilidad de fracaso.

El nmero combinatorio
Ejemplo:
La ltima novela de un autor ha tenido un gran xito, hasta el punto de que el 80% de los lectores ya la han
leido. Un grupo de 4 amigos son aficionados a la lectura:
1Cul es la probabilidad de que el grupo hayan leido la novela 2 personas?
n=4
p = 0.8
q = 0.2
B(4, 0.8)

2Y cmo mximo 2?

Media y varianza de la distribucin binomial


Media

Varianza

Desviacin tpica

Ejemplo
La probabilidad de que un artculo producido por una fabrica sea defectuoso es 0.02. Se envi un cargamento
de 10.000 artculos a unos almacenes. Hallar el nmero esperado de artculos defectuosos, la varianza y la
desviacin tpica.

Coeficiente de curtosis
c) Curtosis
El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona
central de la distribucin.
Se definen 3 tipos de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de
la variable (el mismo que presenta una distribucin normal).
Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de
la variable.
Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de
la variable.

El Coeficiente de Curtosis viene definido por la siguiente frmula:

Los resultados pueden ser los siguientes:

g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).

Ejemplo: Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura de un grupo
de alumnos (leccin 2):

Variable

Frecuencias absolutas

Frecuencias relativas

(Valor)

Simple

Acumulada

Simple

Acumulada

1,20

3,3%

3,3%

1,21

13,3%

16,6%

1,22

13,3%

30,0%

1,23

11

6,6%

36,6%

1,24

12

3,3%

40,0%

1,25

14

6,6%

46,6%

1,26

17

10,0%

56,6%

1,27

20

10,0%

66,6%

1,28

24

13,3%

80,0%

1,29

27

10,0%

90,0%

1,30

30

10,0%

100,0%

Recordemos que la media de esta muestra es 1,253

S((xi - xm)^4)*ni

S((xi - xm)^2)*ni

0,00004967

0,03046667

Luego:

(1/30) * 0,00004967
g2 =

-------------------------------------------------

-3

= -1,39

((1/30) * (0,03046667))^2

Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que se trata de una
distribucin platicrtica, es decir, con una reducida concentracin alrededor de los valores centrales de la
distribucin.
LINEA RECTA
La idea de lnea recta es uno de los conceptos intuitivos de la Geometra (como son tambin el punto y
el plano).
La recta se puede entender como un conjunto infinito de puntos alineados en
una nica direccin. Vista en un plano, una recta puede ser horizontal, vertical o
diagonal (inclinada a la izquierda o a la derecha).
La lnea de la derecha podemos verla, pero a partir de los datos que nos entrega la
misma lnea (par de coordenadas para A y par de coordenadas para B en el plano
cartesiano) es que podemos encontrar una expresin algebraica (una funcin) que
determine a esa misma recta.
El nombre que recibe la expresin algebraica (funcin) que determine a una recta dada
se denomina Ecuacin de la Recta.
Para comprender este proceder es como si la misma lnea solo se cambia de ropa para que sepan de
su existencia pero expresada en trminos matemtiicos (como una ecuacin).
Es en este contexto que la Geometra analtica nos ensea que una recta es la representacin grfica de una
expresin algebraica (funcin) o ecuacin lineal de primer grado.
Esta ecuacin de la recta vara su formulacin de acuerdo con los datos que se conozcan de la lnea recta
que se quiere representar algebraicamente. Dicho en otras palabras, hay varias formas de representar la
ecuacin de la recta.
1. Ecuacin general de la recta
Esta es una de las formas de representar la ecuacin de la recta.

De acuerdo a uno de los postulados de la Geometra Euclidiana, para determinar una lnea recta slo es
necesario conocer dos puntos (A y B) de un plano (en un plano cartesiano), con abscisas (x) y ordenadas
(y).

Ahora bien, conocidos esos dos puntos, todas las rectas del plano, sin excepcin, quedan incluidas en la
ecuacin
Ax + By + C = 0
Que tambin puede escribirse como
ax + by + c = 0
y que se conoce como: la ecuacin general de la lnea recta, como lo afirma el siguiente:
Teorema
La ecuacin general de primer grado Ax + By + C = 0, donde A, B, C pertenecen a
los nmeros reales (
); y en que A y B no son simultneamente nulos,
representa una lnea recta.

2. Ecuacin principal de la recta


Esta es otra de las formas de representar la ecuacin de la recta.
Pero antes de entrar en la ecuacin principal de la recta conviene recordar lo siguiente:
Cada punto (x, y) que pertenece a una recta se puede representar en un sistema de coordenadas, siendo x el
valor de la abscisa (horizontal) e y el valor de la ordenada (vertical).
(x, y) = (Abscisa , Ordenada)
Ejemplo: El punto (3, 5) tiene por abscisa 3 y por ordenada 5.
Si un par de valores (x, y) pertenece a la recta, se dice que ese punto satisface la ecuacin.
Ejemplo: El punto (7, 2) (el 7 en la abscisa x y el 2 en la ordenada y) satisface la ecuacin y = x 5, ya que
al reemplazar queda
2 = 7 5 lo que resulta verdadero.
Recordado lo anterior, veamos ahora la ecuacin de la recta que pasa solo por un punto conocido y cuya
pendiente (de la recta) tambin se conoce, que se obtiene con la frmula
y = mx + n
que considera las siguientes variables: un punto (x, y), la pendiente (m) y el punto de intercepcin en la
ordenada (n), y es conocida como ecuacin principal de la recta (conocida tambin como forma
simplificada, como veremos luego).
Al representar la ecuacin de la recta en su forma principal vemos que aparecieron dos nuevas variables:
la m y la n, esto agrega a nuestra ecuacin de la recta dos nuevos elementos que deben considerase al
analizar o representar una recta: la pendiente y elpunto de intercepcin (tambin llamado intercepto) en
el eje de las ordenadas (y).

Respecto a esto, en el grfico de la izquierda, m representa


la pendiente de la recta y permite obtener su grado de
inclinacin (en relacin a la horizontal o abscisa), y n es
el coeficiente de posicin, el nmero que seala el punto donde la
recta interceptar al eje de las ordenadas (y).
Forma simplificada de la ecuacin de la recta
Si se conoce la pendiente m, y el punto donde la recta corta al eje de
ordenadas es (0, b) (corresponde a n en la frmula principal ya
vista), podemos deducir, partiendo de la ecuacin de la recta de la
forma
y y1 = m(x x1)
y b = m(x 0)
y b = mx
y = mx + b
Esta es una segunda forma de la ecuacin principal de la recta (se la llama tambin forma explcita de la
ecuacin) y se utiliza cuando se conocen la pendiente y la ordenada al origen (o intercepto), que
llamaremos b ( no olvidemos que corresponde a la n en la primera forma de la ecuacin principal). Tambin se
puede utilizar esta ecuacin para conocer la pendiente y la ordenada al origen a partir de una ecuacin dada.
Ejemplo: La ecuacin y = 4x + 7 tiene pendiente 4 y coeficiente de posicin 7, lo cual indica que interceptar
al eje y en el punto (0, 7).
Conocida la frmula de la ecuacin principal (simplificada o explcita, como quieran llamarla) de la recta es
posible obtener la ecuacin de cualquier recta siempre que se nos den al menos dos variables de ella: puede
ser la pendiente, puede ser un punto o puede ser el intercepto.
Esto significa que si te dan esa informacin se puede conseguir una ecuacin de la forma y = mx + b que
cumple con esas condiciones dadas. Ntese que la ecuacin y = mx + b es la forma generalizada de la forma
principal y = mx + n; por lo tanto, la bcorresponde al valor de n (el intercepto en la ordenada y).
Ejemplo 1:
Hallar la ecuacin de la recta que tiene pendiente m = 3 e intercepto b = 10.
Tenemos que hallar la ecuacin de la recta, esto es, y = mx + b.
Usamos la informacin que tenemos:
m = 3 y b = 10 y sustituimos en la ecuacin
y = 3x + 10.
La ecuacin que se pide es y = 3x + 10.
Ntese que esta forma principal (simplificada o explcita) tambin podemos expresarla como una ecuacin
general:
y 3x 10 = 0, la cual amplificamos por 1, quedando como
y + 3x + 10 = 0, que luego ordenamos, para quedar

3x y + 10 = 0
Ejemplo 2
Hallar la ecuacin de la recta que pasa por el punto (1, 2) y tiene pendiente m = 5.
Tenemos que hallar la ecuacin de la recta, esto es, y = mx + b.
Usamos a informacin: m = 5 y sustituimos en la ecuacin:
y = 5x + b
Ahora tenemos que buscar la b; usamos el otro dato; la recta pasa por el punto (1, 2), por lo tanto, ese punto
es una solucin de la ecuacin que buscamos. Se sustituyen esos valores de x = 1, y = 2 en la ecuacin que
estamos buscando: 2 = 5 (1) + b
Despejamos la variable b en:
2 = 5 (1) + b
2=5+b
2+5=b
b=7
Sustituimos el valor de b en la ecuacin que buscamos: y = 5x + 7
La ecuacin en su forma principal (simplificada o explcita) es y = 5x + 7.
La cual tambin podemos expresar en su forma general:
y = 5x + 7
y + 5x 7 = 0
la cual ordenamos y queda
5x + y 7 = 0

Pendiente de una Recta


Con respecto a la pendiente es necesario conocer los siguientes enunciados:
Las rectas paralelas tienen la misma pendiente.
Si una recta tiene pendiente m = 3 y es paralela a otra, entonces esa otra tambin tiene pendiente m = 3.
Las rectas perpendiculares tienen pendientes recprocas y opuestas.
Si una recta tiene pendiente m = 5 y es perpendicular a otra, entonces esa otra tiene pendiente 5.
Adems:
Si m = 0 la recta es horizontal (paralela al eje x). Si y = 0, la recta es perpendicular. Si n = 0 la recta pasa por
el origen.

Determinar la pendiente
Aprendido lo anterior es muy fcil hallar la ecuacin de la recta que pasa por un punto y tiene una pendiente
dada, o para hallar la ecuacin de la recta que pasa por dos puntos.
Si nos dicen, por ejemplo, que una recta tiene una pendiente de 2 y que pasa por el punto (1, 3), slo tenemos
que sustituir estos valores en la ecuacin principal y nos quedara:
3 = 2 1 + n,
y despejando n, queda n = 1.
Por lo tanto, la ecuacin de esa recta ser:
y = 2x + 1.

Si nos dicen que la recta pasa por el punto (1, 3) y (2, 5), slo tenemos que sustituir
estos valores en la ecuacin principal y obtendremos dos ecuaciones con dos
incgnitas:
3 = m 1 + n,
5 = m 2 + n.
Ahora, observemos el grfico de la derecha: Cuando se tienen dos puntos de una
recta P1 (x1, y1) y P2 (x2, y2), la pendiente, que es siempre constante, queda
determinada por el cuociente entre la diferencia de las ordenadas de esos dos puntos
y la diferencia de las abscisas de los mismos puntos, o sea, con la frmula

Entonces, a partir de esta frmula de la pendiente se puede tambin obtener la


ecuacin de la recta, con la frmula:
y y1 = m(x x1)
Esta forma de obtener la ecuacin de una recta se suele utilizar cuando se conocen su pendiente y las
coordenadas de uno solo de sus puntos.
Entonces, la ecuacin de la recta que pasa por el punto P1 = (x1, y1) y tiene la pendiente dada m, se
establece de la siguiente manera:
y y1 = m(x x1)
Ver: PSU: Matemticas,
Pregunta 36_2010
Pregunta 15_2006

Ejemplo
Hallar la ecuacin de la recta que pasa por el punto A (2, 4) y que tiene una pendiente de 1/3

Al sustituir los datos en la ecuacin, resulta lo siguiente:


y y1 = m(x x1)
y (4) = 1/3(x 2)
3(y + 4) = 1(x 2)
3y + 12 = x + 2
3y +12 + x 2 = 0
3y + x + 10 = 0
x + 3y + 10 = 0
Volviendo a la ecuacin general de la recta (Ax + By + C = 0), en ella la pendiente (m) y el coeficiente de
posicin (n) quedan determinados por:

Ejemplo: Cul es la pendiente y el coeficiente de posicin de la recta 4x 6y + 3 = 0?

Ecuacin de la recta que pasa por dos puntos


Sean P(x1, y1) y Q(x2, y2) dos puntos de una recta. Sobre la base de estos dos puntos conocidos de una recta,
es posible determinar su ecuacin.
Para ello tomemos un tercer punto R(x, y), tambin perteneciente a la recta.
Como P, Q y R pertenecen a la misma recta, se tiene que PQ y PR deben tener la misma pendiente. O sea

y
Luego, la ecuacin de la recta que pasa por dos puntos es:

que tambin se puede expresar como

Ejemplo 1:
Determina la ecuacin general de la recta que pasa por los puntos P(1, 2) y Q(3, 4)

y2=x1
yx+1=0

Ejemplo 2:
Determina la ecuacin general de la recta que pasa por los puntos P1(4, 3) y P2(3, 2)
Sabemos que la ecuacin de la recta que pasa por dos puntos es:

Reemplazamos los valores:

2 3 = y 3
3 4
x4

5 = y 3
7
x4

y 3 = x 4 (5 /7)

y 3 = 5 x + 20
7

7 (y 3) = 5 x + 20

7y +21 + 5x 20 = 0

5x 7y + 1 = 0

Que se corresponde con una ecuacin de la forma general


Ax + By + C = 0
Donde
A=5
B=7
C=1
Ecuacin de la recta dados puntopendiente (se conoce un punto y se conoce la pendiente)
Por lo ya visto, y por los ejemplos anteriores, sabemos que la ecuacin de la recta que pasa por dos puntos
est determinada por

pero

Luego, si reemplazamos en la ecuacin anterior obtenemos

despejando, llegamos a:
y y1 = m(x x1)
Ejemplo:
Determina la ecuacin general de la recta de pendiente 4 y que pasa por el punto (5, 3)
y y1 = m(x x1)
y (3) = 4(x 5)
y + 4 = 4x + 20
Luego la ecuacin pedida es 4x + y 16 = 0.
Ejercicios para obtener la ecuacin general de la recta dados un punto y la pendiente
Recuerde que la frmula inicial es y y1 = m(x x1)
Funcin de dos variables
Una funcin de dos variables es una regla de correspondencia que asigna a cada pareja de nmeros reales
(x, y) un y slo un nmero real z.
El conjunto de parejas ordenadas para las cuales la regla de correspondencia d un nmero real se
llama dominio de la funcin. El conjunto de valores z que corresponden a los pares ordenados se
llama imagen o contradominio.
Una funcin de dos variables se denota usualmente con la notacin
z = f (x, y)
Las variables x, y se llaman variables independientes, y z se llama variable dependiente.
La grfica de una funcin de dos variables es el conjunto de puntos con coordenadas (x, y, z) en donde (x, y)
est en el dominio de f y z = f (x, y).
Este conjunto de puntos forma una superficie en el espacio tridimensional.

En consecuencia, la grafica de una funcin f de dos variables es una superficie que consta de todos los
puntos del espacio tridimensional cuyas coordenadas cartesianas estn determinadas por las ternas
ordenadas de nmeros reales (x, y, z). Como el dominio de f es un conjunto de puntos del plano x, y, y puesto
que cada par ordenado (x, y) del dominio de f corresponde a solo un valor de z, ninguna recta perpendicular al
plano x,y puede intersectar a la grafica de f en mas de un punto.
Ejemplo ilustrativo 1
La funcin f del ejemplo 1 es el conjunto de todos los pares ordenados de la forma (P, z) tales que
z=v25- x2 -y2
Por tanto, la grafica de f es la semiesfera en el plano x y por arriba de este cuyo centro es el origen y
tiene radio 5. Esta semiesfera se muestra en la figura 1.

Ejemplo 2: dibuje la grafica de la funcin


Sol/: la grafica de f es la superficie que tiene la ecuacin z=x2 +y2 . La traza de la superficie en el
plano x,y se obtiene al utilizar la ecuacin z=0 simultneamente con la ecuacin de la superficie. Al hacerlo
resulta x2 +y2=0 la cual representa el origen. Las trazas en los planos xz y yz se obtiene al emplear
las ecuaciones z=x2 +y2. Estos trazos son las parbolas z= x2 y z= y2.

Tipos de variables
Variable independiente
Una variable independiente es aquella cuyo valor no depende del de otra variable.
La variable independiente en una funcin se suele representar por x.
La variable independiente se representa en el eje de abscisas.
Variable dependiente
Una variable dependiente es aquella cuyos valores dependen de los que tomen otra variable.
La variable dependiente en una funcin se suele representar por y.
La variable dependiente se representa en el eje ordenadas.
La variable y est en funcin de la variable x.

Variables estadsticas
Variable cualitativa
Las variables cualitativas se refieren a caractersticas o cualidades que no pueden ser medidas
con nmeros. Podemos distinguir dos tipos:
Variable cualitativa nominal
Una variable cualitativa nominal presenta modalidades no numricas que no admiten un criterio de
orden. Por ejemplo:

El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo.
Variable cualitativa ordinal o variable cuasicuantitativa
Una variable cualitativa ordinal presenta modalidades no nmericas, en las que existe un orden. Por
ejemplo:
La nota en un examen: suspenso, aprobado, notable, sobresaliente.
Puesto conseguido en una prueba deportiva: 1, 2, 3, ...
Medallas de una prueba deportiva: oro, plata, bronce.

Variable cuantitativa
Una variable cuantitativa es la que se expresa mediante un nmero, por tanto se pueden realizar
operaciones aritmticas con ella. Podemos distinguir dos tipos:
Variable discreta
Una variable discreta es aquella que toma valores aislados, es decir no admite valores intermedios entre
dos valores especficos. Por ejemplo:
El nmero de hermanos de 5 amigos: 2, 1, 0, 1, 3.
Variable continua
Una variable continua es aquella que puede tomar valores comprendidos entre dos nmeros. Por
ejemplo:
La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.
En la prctica medimos la altura con dos decimales, pero tambin se podra dar con tres decimales.

Variable aleatoria
Se llama variable aleatoria a toda funcin que asocia a cada elemento del espacio muestral E un
nmero real.
Se utilizan letras maysculas X, Y, ... para designar variables aleatorias, y las respectivas minsculas (x, y, ...)
para designar valores concretos de las mismas.
Variable aleatoria discreta
Una variable aleatoria discreta es aquella que slo puede tomar valores enteros.
Ejemplos
El nmero de hijos de una familia, la puntuacin obtenida al lanzar un dado.
Variable aleatoria continua

Una variable aleatoria continua es aquella que puede tomar todos los valores posibles dentro de un
cierto intervalo de la recta real.
Ejemplos
La altura de los alumnos de una clase, las horas de duracin de una pila.
Variable aleatoria binomial
La variable aleatoria binomial, X, expresa el nmero de xitos obtenidos en cada prueba del experimento.
La variable binomial es una variable aleatoria discreta, slo puede tomar los valores 0, 1, 2, 3, 4, ..., n
suponiendo que se han realizado n pruebas.
Ejemplo
k = 6, al lanzar una moneda 10 veces y obtener 6 caras.
Variable aleatoria normal
Una variable aleatoria continua, X, sigue una distribucin normal de media y desviacin tpica , y se
designa por N(, ), si se cumplen las siguientes condiciones:
1. La variable puede tomar cualquier valor: (-, + )
2. La funcin de densidad, es la expresin en trminos de ecuacin matemtica de la curva de Gauss.

Variable estadstica bidimensional


Una variable bidimensional es una variable en la que cada individuo est definido por un par de
caracteres, (X, Y).
Estos dos caracteres son a su vez variables estadsticas en las que s existe relacin entre ellas, una de las
dos variables es la variable independiente y la otra variable dependiente.

Coeficiente de correlacin lineal


En una distribucin bidimensional puede ocurrir que las dos variables guarden algn tipo de relacin entre si.
Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista
relacin entre ambas variables: mientras ms alto sea el alumno, mayor ser su peso.
El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables.
Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal (es decir, si
representramos en un grfico los pares de valores de las dos variables la nube de puntos se aproximara a
una recta).

No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos
casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables, por lo que
convendra utilizar otro tipo de coeficiente ms apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de
valores en un grfico y ver que forma describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Es decir:
Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se
multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares
de valores y este resultado se divide por el tamao de la muestra.
Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raz
cuadrada.
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin
es tanto ms fuerte cuanto ms se aproxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La
correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin
(parablica, exponencial, etc.)

De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere decir obligatoriamente
que existe una relacin de causa-efecto entre las dos variables, ya que este resultado podra haberse debido
al puro azar.
Ejemplo: vamos a calcular el coeficiente de correlacin de la siguiente serie de datos de altura y peso de los
alumnos de una clase:

Alumn
o

Estatur
a

Pes
o

Alumn
o

Estatur
a

Pes
o

Alumn
o

Estatur
a

Peso

Alumno
1

1,25

32

Alumno
11

1,25

33

Alumno
21

1,25

33

Alumno
2

1,28

33

Alumno
12

1,28

35

Alumno
22

1,28

34

Alumno
3

1,27

34

Alumno
13

1,27

34

Alumno
23

1,27

34

Alumno
4

1,21

30

Alumno
14

1,21

30

Alumno
24

1,21

31

Alumno
5

1,22

32

Alumno
15

1,22

33

Alumno
25

1,22

32

Alumno
6

1,29

35

Alumno
16

1,29

34

Alumno
26

1,29

34

Alumno
7

1,30

34

Alumno
17

1,30

35

Alumno
27

1,30

34

Alumno
8

1,24

32

Alumno
18

1,24

32

Alumno
28

1,24

31

Alumno
9

1,27

32

Alumno
19

1,27

33

Alumno
29

1,27

35

Alumno
10

1,29

35

Alumno
20

1,29

33

Alumno
30

1,29

34

Aplicamos la frmula:
(1/30) * (0,826)
r =-----------------------------------------------------------

(((1/30)*(0,02568)) * ((1/30)*(51,366)))^(1/2)

Luego,
r = 0,719
Por lo tanto, la correlacin existente entre estas dos variables es elevada (0,7) y de signo positivo.

Representamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en el eje
horizontal o eje de abscisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de
puntos sigue una tendencia lineal:

Regresin lineal

El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre las dos
variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la recta que mejor
se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente frmula:

y = a + bx

Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x"
(variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b":
El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale
0, y es el punto donde la recta cruza el eje vertical.
El parmetro "b" determina la pendiente de la recta, su grado de inclinacin.
La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se
ajusta a esta nube de puntos.
El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".


El parmetro "a" viene determinado por:

a = ym - (b * xm)

Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos
calculado.
Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de altura y peso de los alumnos
de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable
dependiente "y" (podamos hacerlo tambin al contrario):

Alumn
o

Estatur
a

Pes
o

Alumn
o

Estatur
a

Pes
o

Alumn
o

Estatur
a

Peso

Alumno
1

1,25

32

Alumno
11

1,25

33

Alumno
21

1,25

33

Alumno
2

1,28

33

Alumno
12

1,28

35

Alumno
22

1,28

34

Alumno
3

1,27

34

Alumno
13

1,27

34

Alumno
23

1,27

34

Alumno
4

1,21

30

Alumno
14

1,21

30

Alumno
24

1,21

31

Alumno
5

1,22

32

Alumno
15

1,22

33

Alumno
25

1,22

32

Alumno
6

1,29

35

Alumno
16

1,29

34

Alumno
26

1,29

34

Alumno
7

1,30

34

Alumno
17

1,30

35

Alumno
27

1,30

34

Alumno
8

1,24

32

Alumno
18

1,24

32

Alumno
28

1,24

31

Alumno
9

1,27

32

Alumno
19

1,27

33

Alumno
29

1,27

35

Alumno
10

1,29

35

Alumno
20

1,29

33

Alumno
30

1,29

34

El parmetro "b" viene determinado por:

(1/30) * 1,034
b=

---------------------------------------(1/30) * 0,00856

Y el parmetro "a" por:

= 40,265

a = 33,1 - (40,265 * 1,262) = -17,714

Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:

y = -17,714 + (40,265 * x)

Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente
(estatura):

Estatura

Peso

1,20

30,6

1,21

31,0

1,22

31,4

1,23

31,8

1,24

32,2

1,25

32,6

1,26

33,0

1,27

33,4

1,28

33,8

1,29

34,2
34,6

1,30

Coeficiente de correlacin de Karl Pearson


Dado dos variables, la correlacin permite hacer estimaciones del valor de una de ellas conociendo el valor de
la otra variable.

Los coeficientes de correlacin son medidas que indican la situacin relativa de los mismos sucesos respecto
a las dos variables, es decir, son la expresin numrica que nos indica el grado de relacin existente entre las
2 variables y en qu medida se relacionan. Son nmeros que varan entre los lmites +1 y -1. Su magnitud
indica el grado de asociacin entre las variables; el valor r = 0 indica que no existe relacin entre las
variables; los valores ( 1 son indicadores de una correlacin perfecta positiva (al crecer o decrecer X, crece o
decrece Y) o negativa (Al crecer o decrecer X, decrece o crece Y).

Para interpretar el coeficiente de correlacin utilizamos la siguiente escala:


Valor

Significado

-1

Correlacin negativa grande y perfecta

-0,9 a -0,99

Correlacin negativa muy alta

-0,7 a -0,89

Correlacin negativa alta

-0,4 a -0,69

Correlacin negativa moderada

-0,2 a -0,39

Correlacin negativa baja

-0,01 a -0,19

Correlacin negativa muy baja

Correlacin nula

0,01 a 0,19

Correlacin positiva muy baja

0,2 a 0,39

Correlacin positiva baja

0,4 a 0,69

Correlacin positiva moderada

0,7 a 0,89

Correlacin positiva alta

0,9 a 0,99

Correlacin positiva muy alta

Correlacin positiva grande y perfecta

a) Para datos no agrupados se calcula aplicando la siguiente ecuacin:

Ejemplo ilustrativo:
Con los datos sobre las temperaturas en dos das diferentes en una ciudad, determinar el tipo de correlacin
que existe entre ellas mediante el coeficiente de PEARSON.
X

18

17

15

16

14

12

15

16

14

16

18

SX
=180

13

15

14

13

10

13

12

13

10

SY=
138

Solucin:
Se calcula la media aritmtica

Se llena la siguiente tabla:

Se aplica la frmula:

Existe una correlacin moderada

REGRESIN Y CORRELACIN LINEAL

Coeficiente de Determinacin

La bondad de la prediccin depende de la relacin entre las variables. Si dos variables no covaran, no
podremos hacer predicciones vlidas, y si la intensidad de la covariacin es moderada, las predicciones no
sern demasiado buenas. En consecuencia, hay que disponer de alguna medida de la capacidad de la
ecuacin de Regresin para obtener predicciones buenas (en el sentido de que sean lo menos errneas
posible).
Esta medida es el Coeficiente de Determinacin, que es el cuadrado del coeficiente de correlacin de
Pearson, y da la proporcin de variacin de la variable Y que es explicada por la variable X (variable
predictora o explicativa). Si la proporcin es igual a 0, significa que la variable predictora no tiene NULA
capacidad predictiva de la variable a predecir (Y). Cuanto mayor sea la proporcin, mejor ser la prediccin.
Si llegara a ser igual a 1 la variable predictora explicara TODA la variacin de Y, y las predicciones NO
tendran error.
Error estndar de la estimacin
El error estndar nos permite deducir la confiabilidad de la ecuacin de regresin que hemos desarrollado.
Este error se simboliza Se y es similar a la desviacin estndar en cuanto a que ambas son medidas de
dispersin.
El error estndar de la estimacin mide la variabilidad, o dispersin de los valores observados alrededor de la
lnea de regresin y su formula es la siguiente

= media de los valores de la variable dependiente

Y = valores de la variable dependiente

n = numero de puntos de datos

Mtodo de atajo para calcular el error estndar de la estimacin


Dado que utilizar la ecuacin anterior requiere una serie de clculos tediosos, se ha diseado una ecuacin
que puede eliminar unos de estos pasos, la ecuacin es la siguiente:

X = valores de la variable independiente

Y = valores de la variable dependiente

a = interseccin en Y

b = pendiente de la ecuacin de la estimacin

n = numero de puntos de datos

Interpretacin del error estndar de la estimacin


Como se aplicaba en la desviacin estndar, mientras ms grande sea el error estndar de estimacin, mayor
ser la dispersin de los puntos alrededor de la lnea de regresin. De manera que inversa, si Se = 0,
esperemos que la ecuacin de estimacin sea un estimador perfecto de la variable dependiente. En este caso
todos lo puntos deben caer en la lnea de regresin y no habra puntos dispersos.

Usaremos el error estndar como una herramienta de igual forma que la desviacin estndar. Esto
suponiendo que los puntos observados estn distribuidos normalmente alrededor de la lnea de regresin,
podemos encontrar un 68% de los puntos en + 1 Se, 95.5% en + 2 Se y 99.7% de los puntos en + 3 Se. Otra
cosa que debemos observar es que el error estndar de la estimacin se mide a lo largo del eje Y, y no
perpendicularmente de la lnea de regresin.

Como se ha expuesto en el tema anterior, cuando se estudian dos caractersticas simultneamente


sobre una muestra, se puede considerar que una de ellas influye sobre la otra de alguna manera. El objetivo
principal de la regresin es descubrir el modo en que se relacionan.

Por ejemplo, en una tabla de pesos y alturas de 10 personas

Altura

175 180 162 157 180 173 171 168 165 165

Peso

80

82

57

63

78

65

66

67

62

58

se puede suponer que la variable Altura influye sobre la variable Peso en el sentido de que pesos grandes
vienen explicados por valores grandes de altura (en general).

De las dos variables a estudiar, que vamos a denotar con X e Y, vamos a llamar a la X VARIABLE
INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le llamaremos VARIABLE DEPENDIENTE o EXPLICADA.

En la mayora de los casos la relacin entre las variables es mutua, y es difcil saber qu variable
influye sobre la otra. En el ejemplo anterior, a una persona que mide menos le supondremos menor altura y a
una persona de poca altura le supondremos un peso ms bajo. Es decir, se puede admitir que cada variable
influye sobre la otra de forma natural y por igual. Un ejemplo ms claro donde distinguir entre variable
explicativa y explicada es aquel donde se anota, de cada alumno de una clase, su tiempo de estudio (en
horas) y su nota de examen. En este caso un pequeo tiempo de estudio tender a obtener una nota ms
baja, y una nota buena nos indicar que tal vez el alumno ha estudiado mucho. Sin embargo, a la hora de
determinar qu variable explica a la otra, est claro que el tiempo de estudio explica la nota de examen y
no al contrario, pues el alumno primero estudia un tiempo que puede decidir libremente, y luego obtiene una
nota que ya no decide arbitrariamente. Por tanto,

X = Tiempo de estudio

(variable explicativa o independiente)

Y = Nota de examen

(variable explicada o dependiente)

El problema de encontrar una relacin funcional entre dos variables es muy complejo, ya que existen infinidad
de funciones de formas distintas. El caso ms sencillo de relacin entre dos variables es la relacin LINEAL,
es decir que

Y=a+bX

(es la ecuacin de una recta) donde a y b son nmeros, que es el caso al que nos vamos a limitar.

Cualquier ejemplo de distribucin bidimensional nos muestra que la relacin entre variables NO es
EXACTA (basta con que un dato de las X tenga dos datos distintos de Y asociados, como en el ejemplo de las
Alturas y Pesos, que a 180 cm. de altura le corresponda un individuo de 82 kg. y otro de 78 kg.).

6.2. Recta de regresin

Un dibujo de la nube de puntos o diagrama de dispersin de la distribucin nos puede indicar si es


razonable pensar en que puede haber una buena correlacin lineal entre las dos variables.

En los diagramas de arriba se puede observar cmo en el de la izquierda, una lnea recta inclinada
puede aproximarse a casi todos los puntos, mientras que en el otro, cualquier recta deja a muchos puntos
alejados de ella. As pues, el hacer un anlisis de regresin lineal slo estara justificado en el ejemplo de la
izquierda.

Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por todos los puntos, y
seguir siendo recta. De todas las rectas posibles, la RECTA DE REGRESIN DE Y SOBRE X es aquella que
minimiza un cierto error, considerando a X como variable explicativa o independiente y a Y como la explicada
o dependiente.

Sea
y=a+bx
una recta arbitraria. Para cada dato de X, es decir, para cada xi de la tabla
tenemos emparejado un dato de Y llamada yi, pero tambin tenemos el valor de sustituir la xi en la ecuacin
de la recta, al que llamaremos y*i.

yi
xi
a + b xi = y*i

Cuando se toma el dato xi, el error que vamos a considerar es el que se comete al elegir y*i en lugar del
verdadero yi .Se denota con ei y vale

ei = yi - y*i

Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la recta que minimice la
suma de los cuadrados de todos esos errores, que es la misma que la que minimiza la varianza de los
errores.

Usando tcnicas de derivacin se llega a que, de todas las rectas y = a + b x, con a y b nmeros
arbitrarios, aquella que minimiza el error elegido es aquella que cumple

ay

s xy
s x2

s xy
s x2

As pues, sustituyendo en y = a + b x, la ecuacin de la recta de regresin de Y sobre X es

s xy s xy
y y 2 x 2 x
sx

sx

y recolocando los trminos se puede escribir de la forma

yy

s xy
s x2

x x

Si se hubiese tomado Y como variable independiente o explicativa, y X como dependiente o


explicada, la recta de regresin que se necesita es la que minimiza errores de la X. Se llama RECTA DE
REGRESIN DE X SOBRE Y y se calcula fcilmente permutando los puestos de x e y, obtenindose

xx

s xy
s y2

y y

NOTA: La recta de regresin de X sobre Y no se calcula a partir de la recta de regresin de Y sobre X, y luego
despejando la x.

s xy

s xy

s x2

s y2

La pendiente de la recta de regresin de Y sobre X es


y la de X sobre Y es
. Dado que las varianzas
son positivas por definicin, el signo de las pendientes ser el mismo que el de la covarianza, y as, las rectas
sern ambas crecientes o decrecientes, dependiendo de si la covarianza es positiva o negativa,
respectivamente (ver tema anterior, apartado 5.6).

6.3. Calidad del ajuste. Coeficiente de determinacin

Una nube de puntos que se agrupa en torno a una recta imaginaria nos justifica el estudio de la
regresin lineal entre las variables. Normalmente, la variable explicativa no explica (valga la redundancia) al
100% los resultados que se observan en la variable explicada.

El nico caso en el que una variable explica al 100% a la otra variable es aquel donde los puntos de
la nube formen una recta. En ese caso, cada valor de X nos da el valor exacto de Y. Pero ese no es el caso
general. Vamos a cuantificar la calidad de la explicacin de Y por X mediante el COEFICIENTE DE
DETERMINACIN.

Los datos de ambas variables tienen una varianza. No nos vamos a interesar por la varianza de la X
(independiente), pero s por la de Y, por estar influenciada por la otra variable. La varianza de Y est
generada, de una parte, por los datos de X (es decir, por la varianza), y de otra parte por causas
desconocidas (a no ser que los datos formen una lnea recta).

El coeficiente de determinacin va a ser el % de varianza de Y que se puede explicar por X, y se le


suele llamar CALIDAD DEL AJUSTE, porque valora lo cerca que est la nube de puntos de la recta de
regresin (o dicho de otro modo, lo ajustada que est la nube de puntos a la recta de regresin).

Como yi = y*i + ei, desarrollando la expresin de la varianza de Y se puede llegar a que:

s y2

2
s xy

s2
x

s e2

var .no exp lic.

var . exp l .porX

y por tanto, el % de varianza de Y explicada por X es:

2
s xy

s x2
s y2

100

2
s xy

s x2 s y2

100

que resulta ser


, es decir, el coeficiente de correlacin lineal r definido en el captulo anterior,
elevado al cuadrado y multiplicado por 100. Es por ello que al coeficiente de determinacin se le llama R2, es
decir

R2

2
s xy

s x2 s y2

100

Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad del ajuste es
bastante alta, aunque no sabemos si la recta de regresin es creciente o decreciente. Otro ejemplo: si
conocemos el coeficiente de correlacin lineal, r = - 0.77, entre dos variables X e Y, ya sabemos que la recta
de regresin es decreciente (por el signo negativo de r), y calculando R2 = r2 100 = 59.29% tenemos una
calidad de ajuste media (no es muy pobre, pero tampoco se puede calificar de buena).

6.4. Predicciones. Usos y abusos

El primer objetivo de la regresin era poner de manifiesto una relacin existente entre dos variables
estadsticas. Una vez se constata, por ejemplo, que hay una relacin lineal entre dos variables y se calcula la
recta de regresin apropiada, sta se puede usar para obtener valores de la variable explicada, a partir de
valores de la variable explicativa.

Por ejemplo, si se comprueba una buena correlacin lineal entre las variables X = horas de estudio
semanal e Y = nota del examen, con una recta de regresin (de Y sobre X) igual a

y = 0.9 + 0.6 x

se puede plantear la siguiente pregunta:

Qu nota puede obtener (segn los datos) un alumno que estudia 10 horas semanales?

Y la respuesta es tan sencilla como calcular y, sustituyendo en la ecuacin de la recta x = 10, resultando y =
6.9. El coeficiente de correlacin (o el de determinacin) lineal es el dato que, si es grande (prximo a 1 1
si es la r, o prximo a 100% si es R2), nos indicar que la prediccin obtenida es FIABLE, lo cual es lgico
pues R2 indicaba la calidad del ajuste de la nube de puntos a la recta. As pues, la FIABILIDAD de una
prediccin obtenida mediante la recta de regresin se puede medir con el coeficiente de determinacin R2.

En el momento de hacer predicciones hay que tener ciertas precauciones, pues es posible que se obtengan
resultados absurdos. Segn la recta de regresin anterior, un alumno que estudie 20 horas por semana (x =
20) tendra un resultado de 12.9 puntos en su examen, lo cual no tiene sentido si se evala sobre 10. La
limitacin de la prediccin estriba en que slo se puede realizar para valores de X que estn situados entre los
valores de X de la tabla de datos inicial.

6.5. Ejemplo

Vamos a realizar un estudio completo del ejemplo que se describe al comienzo del tema. La tabla de
datos es
Altura

175 180 162 157 180 173 171 168 165 165

Peso

80

82

57

63

78

65

66

67

62

58

Aunque en este caso tenemos dos variables muy relacionadas, y no est claramente definido cul de
ellas influye sobre la otra, decidimos estudiar cmo la altura de los individuos influye sobre su peso corporal.
Entonces tomamos X=Altura como variable explicativa e Y=Peso como variable explicada.

Comenzamos con la nube de puntos, para que nos informe si vale la pena iniciar el estudio de la regresin
lineal o no hay motivos para ello.

Nube de puntos
82

Pesos (kg.)

77
72
67
62
57
150

155

160

165

170

175

180

Alturas (cm.)

Se observa que los puntos siguen una tendencia, aunque uno de ellos, el (157,63), se aleja de dicha
tendencia. A este dato se le llama dato atpico. En muestras numerosas un dato atpico no afecta demasiado
al resultado, e incluso en ocasiones se elimina de la tabla, aunque no lo haremos en este caso. As pues, el
dibujo revela cierta tendencia de los puntos a agruparse en torno a una recta imaginaria. El coeficiente de
determinacin, que es el ndice numrico que evaluar esa tendencia nos constatar que hay una buena
relacin lineal.

Pasamos al clculo de los estadsticos necesarios

x 169'6
y 67'8

s xy

s x 7'2139
s y 8'7567

175 80 180 82 162 57


169'6 67'8 52'32
10

Ahora se puede calcular el coeficiente de correlacin lineal rxy y el de determinacin lineal R2

rxy

52'32
0'8282
7'2139 8'7567

R 2 (0'8282) 2 100 68'59%


y

que nos indica que la variable independiente Altura explica el 6859% de la varianza de los pesos. Este
mismo coeficiente de determinacin se toma como ndice de fiabilidad a la hora de hacer predicciones de la
variable Peso a partir de datos de la variable Altura.

Por ejemplo, segn la tabla de datos, qu peso corporal le debera corresponder a una persona de
178 cm. de estatura? La respuesta viene de la recta de regresin de Peso sobre Altura. La calculamos con
los datos que ya tenemos,

y 67'8

52'32
x 169'6
52'04

quedando

y 102'71 1'005x

As, una persona de altura 178 cm. (correspondiente por tanto a x=178) tiene, en virtud de la recta de
regresin, un peso (y) que se obtiene sustituyendo el valor de x, y vale y=76177 kg. Se toma como fiabilidad
de la prediccin el ndice R2 calculado con anterioridad. Es decir, se dice que la prediccin tiene una fiabilidad
del 6859%.

You might also like