You are on page 1of 10

GUA DE APOYO AL APRENDIZAJE N4

ESTADSTICA BIVARIADA
INTRODUCCIN
En el campo de la estadstica hay muchos problemas que requieren un anlisis combinado
de dos variables. En administracin, en educacin y en muchas otras materias, a menudo es
necesario contestar preguntas como las siguientes: Estn relacionadas estas dos
variables? En caso afirmativo, de qu manera? Existe una correlacin entre las variables?
Las relaciones bajo anlisis no son de causa efecto, sino de las de tipo matemtico que
permiten predecir el comportamiento de una variable con base en el conocimiento que se
tiene sobre la otra. Considere los siguientes ejemplos:
A medida que una persona crece, por lo general aumenta de peso. Alguien podra
preguntar:Existe alguna relacin entre la estatura y el peso?
Los mdicos que se dedican a la investigacin prueban frmacos nuevos (y obsoletos
tambin) al prescribir dosis diferentes y observar las respuestas de sus pacientes. Una
pregunta que podra plantearse es: La dosis del medicamento prescrito determina la
cantidad de tiempo de recuperacin que necesita el paciente?
La orientadora vocacional de una universidad desea predecir el xito acadmico que
tendrn en la universidad los egresados de su escuela. En casos como ste, el valor
predicho (nota promedio de las calificaciones en la universidad) depende de muchos
rasgos de los estudios: 1 cun aceptable fue su desempeo en la universidad, 2 su
inteligencia y habilidades, 3 su deseo por tener xito en la universidad, etc.
Para contestar las preguntas anteriores, se requiere del anlisis de datos bivariados o de
dos variables, es decir, .dada cierta poblacin y dos variables asociadas a esa poblacin, se
requiere estudiar las posibles relaciones que existen entre ellas.
Ejemplo: La siguiente informacin representa una tabla de doble entrada, con variables;

X = Edad.
Y = Sueldo (en miles de $).
SUELDO (en miles de $)

EDAD
100 200

200 300

300 400

400 500

ni

MCi

20 30

12

29

25

30 40

10

23

35

40 50

45

nj

20

23

N = 60

MC j

150

250

350

450

PROFESOR: RONNY GODOY GLVEZ

Observacin: Las frecuencias para cada una de las variables en forma independiente n y
i
n j , se llaman Frecuencias Marginales.
Las frecuencias marginales, as como las marcas de clase (para variables continuas), se
puede escribir de la siguiente manera:

Frecuencia M arg inal de la var iable x : ni = f x


Marca de Clase de la var iable x : MCi = MC x
Frecuencia M arg inal de la var iable y : n j = f y
Marca de Clase de la var iable y : MC j = MC y

Interpretacin de la tabla de doble entrada.


Interprete: n , n , n , n y N .
11

23

n11 = 6 personas con edad entre 20 y 30 aos cuyo sueldo est entre $100.000 y $200.000.
n23 = 4 personas con edad entre 30 y 40 aos cuyo sueldo est entre $300.000 y $400.000.
n 1 = 8 personas cuyo sueldo est entre $100.000 y $200.000.
n3 = 8 personas con edad entre 40 y 50 aos.
N = 60 personas (la tabla de doble entrada tiene una poblacin de 60 personas).

PROMEDIOS DE LAS VARIABLES.

X=

MC n
i

X=

25 29 + 35 23 + 45 8 1.890
=
= 31,5
60
60

Interpretacin: la edad promedio de las personas es de 31,5 aos.

Y=

MC n
j

Y=

150 8 + 250 20 + 350 9 + 450 23 19.700


=
= 328,333
60
60

Interpretacin: el sueldo promedio de las personas es de $328.333.

PROFESOR: RONNY GODOY GLVEZ

PROMEDIOS CONDICIONALES.
.

Es el promedio de una de las variables, slo para aquellos elementos de la poblacin


que cumplan cierta condicin para la otra variable. Podemos estar interesados en determinar
el promedio de una de las variables, slo para aquellos elementos de la poblacin que
cumplen cierta condicin para la otra variable.
Consideremos el ejemplo anterior, para calcular los siguientes promedios condicionales:
a) La edad promedio de las personas que tienen un sueldo igual o mayor a $200.000.

ni

MC n
i i

25

23

575

35

21

735

45

360

TOTAL

52

1.670

MC

X c=

1.670
= 32,1
52

Interpretacin: la edad promedio de las personas que tienen un sueldo igual o mayor a
$200.000 es de 32,1 aos.
b) El sueldo promedio de las personas que tienen entre 30 y 40 aos.
j

nj

MC n
j j

150

300

250

1.750

350

1.400

450

10

4.500

TOTAL

23

7.950

MC

Yc=

7.950
= 345,652
23

Interpretacin: las personas que tienen entre 30 y 40 aos de edad tienen un sueldo
promedio de $345.652.
PROFESOR: RONNY GODOY GLVEZ

c)

El sueldo promedio de las personas que tienen menos de 40 aos.


j

nj

MC n
j j

150

1.200

250

19

4.750

350

2.450

450

18

8.100

TOTAL

52

16.500

MC

Yc=

16.500
= 317,308
52

Interpretacin: las personas que tienen menos de 40 aos de edad tienen un sueldo
promedio de $317.308.
PROBLEMA PROPUESTO
La siguiente tabla muestra las utilidades (en millones de $) y el nmero de trabajadores de un
grupo de empresas de la regin metropolitana.
Consideremos para el problema:

X = Utilidades (en millones de $).


Y = N de trabajadores.
UTILIDADES
(en millones de $)

N DE TRABAJADORES
0 100

100 200

200 300

06

10

6 12

10

12 18

18 24

12

a) Determine el nmero de empresas estudiadas.


b) Cul es promedio de trabajadores del grupo de empresas?
c)

Cul es la utilidad promedio de las empresas?

d) Cul es el promedio de trabajadores de las empresas con utilidades menores de


$12.000.000?
e) Cul es la utilidad promedio de las empresas que tienen ms de 100 trabajadores?
PROFESOR: RONNY GODOY GLVEZ

Soluciones:
a) 51 empresas.
b) El promedio de trabajadores es de aprox. 156 trabajadores.
c)

La utilidad promedio es de aprox. $11.941.118.

d) El nmero de trabajadores promedio que tienen las empresas con utilidades menores
de $12.000.000 es de aprox. 131 trabajadores.
e) Las empresas que tienen ms de 100 trabajadores tienen utilidades promedio de
aprox. $13.833.333.

MEDIDAS DE CORRELACIN
La Correlacin es una tcnica estadstica usada para determinar si existe una relacin
entre dos o ms variables. Algunas medidas de Correlacin que estudiaremos, son:
1 Covarianza ( S

xy

La covarianza entre dos variables es una medida estadstica para valorar la relacin
entre estas variables.
Frmula:

xy

= XY X Y ; Donde XY =

MC MC n
i

ij

Observaciones:

La covarianza pertenece a los nmeros reales.


Si S xy > 0

La relacin entre la variable x e y es DIRECTA, es decir, si una de

las variables aumenta la otra tambin o si una de ellas disminuye la otra tambin.

Si S xy < 0

La relacin entre la variable x e y es INVERSA, es decir, si una de

las variables aumenta la otra disminuye o si una de ellas disminuye la otra


aumenta.

Si S xy = 0

No existe relacin entre la variable x e y.

PROFESOR: RONNY GODOY GLVEZ

Ejemplo: Una empresa desea estudiar la relacin entre la edad de sus trabajadores y los
das no trabajados.
Consideremos para el problema:

X = Edad.
Y = N de das no trabajados.
N DAS NO TRABAJADORES

EDAD

06

6 12

12 18

ni

MCi

20 25

0/ 0

4 / 810

1 / 337,5

22,5

25 30

12 / 990

6 / 1.485

0/ 0

18

27,5

30 40

3 / 315

4 / 1.260

6 / 3.150

13

35

40 50

1 / 135

2 / 810

8 / 5.400

11

45

nj

16

16

15

N = 47

MC j

15

a) Cul es la edad promedio de trabajadores con menos de 12 das no trabajados?


b) Calcule e interprete la covarianza ( S
c)

).
xy
Qu es ms variable, la edad o los das no trabajados?

SOLUCIN:
a) Cul es la edad promedio de trabajadores con menos de 12 das no trabajados?

ni

MC n
i i

22,5

90

27,5

18

495

35

245

45

135

TOTAL

32

965

MC

X c=

965
= 30,156
32

Interpretacin: la edad promedio de los trabajadores con menos de 12 das trabajados


es de aprox. 30 aos.
PROFESOR: RONNY GODOY GLVEZ

b) Calcule e interprete la covarianza ( S

X=

Y=

MC n
i

).

X=

22,5 5 + 27,5 18 + 35 13 + 45 11 1.557,5


=
= 33,138
47
47

Y=

3 16 + 9 16 + 15 15 417
=
= 8,872
47
47

N
MC n
j

N
MC MC n
i

XY =

xy

ij

XY =

Por lo tanto la covarianza, es:

xy

14.692,5
= 315,606
47

= XY X Y

xy

xy

= 315,606 33,138 8,872


= 21,6 > 0

Interpretacin: la relacin entre la edad y los das no trabajados de los trabajadores de


la empresa es directa, es decir, a mayor edad, mayor nmero de das no
trabajados.
c)

Qu es ms variable, la edad o los das no trabajados?


i

ni

MC n
i i

MCi2 ni

22,5

112,5

2.531,25

27,5

18

495

13.612,5

35

13

455

15.925

45

11

495

22.275

TOTAL

47

1.557,5

54.343,75

MC

S =

MC 2 n
i

MC n
i

S = S 2 = 58,103 = 7,622
x

54.343,75 1.557,5

47
47

= 58,103

S
7,622
CV ( X ) = x 100% =
100% = 23%
X
33,138
7

nj

MC n
j j

MC 2j n j

16

48

144

16

144

1.296

15

15

225

3.375

TOTAL

47

417

4.815

MC

MC

S2 =
y

S = S
y

MC n
j

4.815 417

47
47

CV (Y ) =

= 23,728 = 4,871

= 23,728

4,871
y
100% =
100% = 54,9%
Y
8,872

Interpretacin: es ms variable el nmero de das no trabajados que la edad de los


trabajadores, debido a que tiene un mayor coeficiente de variacin.

2 Coeficiente de Correlacin ( r )
xy
En una distribucin bidimensional (bivariada) puede ocurrir que las dos variables tengan
algn tipo de relacin entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos
de una clase es muy posible que exista relacin entre ambas variables: mientras ms alto
sea el alumno, mayor ser su peso.
El Coeficiente de Correlacin mide el grado de intensidad de esta posible relacin entre
las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las
variables es lineal (es decir, si representamos en un grfico los pares de valores de las dos
variables la nube de puntos se aproximara a una recta).
No obstante, puede que exista una relacin que no sea lineal, sino exponencial,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad
de la relacin de las variables, por lo que convendra utilizar otro tipo de coeficiente ms
apropiado.
Frmula:

rxy =

xy

S S
x

Observaciones:

El coeficiente de correlacin pertenece al intervalo: 1 rxy 1.


8

Si rXY 1

La relacin entre la variable x e y es LINEAL CON PENDIENTE

POSITIVA, es decir, la nube de puntos puede aproximarse por una lnea recta con
pendiente positiva (una recta creciente). Por ejemplo, altura y peso: los alumnos
ms altos suelen pesar ms.

Si rXY 1

La relacin entre la variable x e y es LINEAL CON PENDIENTE

Si rXY 0

No existe relacin lineal entre la variable x e y. Aunque podra

NEGATIVA, es decir, la nube de puntos puede aproximarse por una lnea recta
con pendiente negativa (una recta decreciente). Por ejemplo, peso y velocidad:
los alumnos ms gordos suelen correr menos.

existir otro tipo de correlacin (parablica, exponencial, etc.).

Las grficas de los casos mencionados anteriormente se vern en clases.


Ejemplo: La siguiente tabla muestra el nmero de trabajadores y las utilidades (en millones
de $) de un grupo de 56 empresas.
Consideremos para el problema:

X = N de trabajadores
Y = Utilidades (en millones de $)
N DE
TRABAJADORES

UTILIDADES
(en millones de $)
14

48

8 12

ni

MCi

0 100

12 / 1.500

6 / 1.800

0/ 0

18

50

100 200

6 / 2.250

3 / 2.700

1 / 1.500

10

150

200 300

4 / 2.500

5 / 7.500

3 / 7.500

12

250

300 400

0/ 0

6 / 12.600

10 / 35.000

16

350

nj

22

20

14

N = 56

MC j

2,5

10

Calcule e interprete el coeficiente de correlacin ( r ).


xy

SOLUCIN:

X=

Y=

MC n
i

X=

50 18 + 150 10 + 250 12 + 350 16 11.000


=
= 196,428
56
56

Y=

2,5 22 + 6 20 + 10 14 315
=
= 5,625
56
56

N
MC n
j

N
MC MC n
i

XY =

ij

XY =

Por lo tanto la covarianza, es:

xy

74.850
= 1.336,607
56

= XY X Y

xy

= 1.336,607 196,428 5,625


= 231,6995

xy
(la covarianza indica que existe relacin directa entre el n de trabajadores y las utilidades de
las empresas, es decir, a mayor n de trabajadores, mayor utilidades)

MC 2 n
i

S2 =
x

MC n
i

2.980.000 11.000

56
56

= 14.630,102

S = S 2 = 14.630,102 = 120,955
x

MC

S2 =
y

MC n
j

2.257,5 315

56
56

= 8,672

S = S 2 = 8,672 = 2,945
y

Finalmente el coeficiente de correlacin, es:

rxy =

xy

S S
x

rxy =

231,6995
= 0,65
120,955 2,945

Interpretacin: el coeficiente de correlacin nos indica que existe relacin lineal entre el
n de trabajadores y las utilidades, con pendiente positiva (la proyeccin
es regular, como veremos en la siguiente gua que explica el modelo de
regresin lineal).
10

You might also like