Professional Documents
Culture Documents
ESTADSTICA BIVARIADA
INTRODUCCIN
En el campo de la estadstica hay muchos problemas que requieren un anlisis combinado
de dos variables. En administracin, en educacin y en muchas otras materias, a menudo es
necesario contestar preguntas como las siguientes: Estn relacionadas estas dos
variables? En caso afirmativo, de qu manera? Existe una correlacin entre las variables?
Las relaciones bajo anlisis no son de causa efecto, sino de las de tipo matemtico que
permiten predecir el comportamiento de una variable con base en el conocimiento que se
tiene sobre la otra. Considere los siguientes ejemplos:
A medida que una persona crece, por lo general aumenta de peso. Alguien podra
preguntar:Existe alguna relacin entre la estatura y el peso?
Los mdicos que se dedican a la investigacin prueban frmacos nuevos (y obsoletos
tambin) al prescribir dosis diferentes y observar las respuestas de sus pacientes. Una
pregunta que podra plantearse es: La dosis del medicamento prescrito determina la
cantidad de tiempo de recuperacin que necesita el paciente?
La orientadora vocacional de una universidad desea predecir el xito acadmico que
tendrn en la universidad los egresados de su escuela. En casos como ste, el valor
predicho (nota promedio de las calificaciones en la universidad) depende de muchos
rasgos de los estudios: 1 cun aceptable fue su desempeo en la universidad, 2 su
inteligencia y habilidades, 3 su deseo por tener xito en la universidad, etc.
Para contestar las preguntas anteriores, se requiere del anlisis de datos bivariados o de
dos variables, es decir, .dada cierta poblacin y dos variables asociadas a esa poblacin, se
requiere estudiar las posibles relaciones que existen entre ellas.
Ejemplo: La siguiente informacin representa una tabla de doble entrada, con variables;
X = Edad.
Y = Sueldo (en miles de $).
SUELDO (en miles de $)
EDAD
100 200
200 300
300 400
400 500
ni
MCi
20 30
12
29
25
30 40
10
23
35
40 50
45
nj
20
23
N = 60
MC j
150
250
350
450
Observacin: Las frecuencias para cada una de las variables en forma independiente n y
i
n j , se llaman Frecuencias Marginales.
Las frecuencias marginales, as como las marcas de clase (para variables continuas), se
puede escribir de la siguiente manera:
23
n11 = 6 personas con edad entre 20 y 30 aos cuyo sueldo est entre $100.000 y $200.000.
n23 = 4 personas con edad entre 30 y 40 aos cuyo sueldo est entre $300.000 y $400.000.
n 1 = 8 personas cuyo sueldo est entre $100.000 y $200.000.
n3 = 8 personas con edad entre 40 y 50 aos.
N = 60 personas (la tabla de doble entrada tiene una poblacin de 60 personas).
X=
MC n
i
X=
25 29 + 35 23 + 45 8 1.890
=
= 31,5
60
60
Y=
MC n
j
Y=
PROMEDIOS CONDICIONALES.
.
ni
MC n
i i
25
23
575
35
21
735
45
360
TOTAL
52
1.670
MC
X c=
1.670
= 32,1
52
Interpretacin: la edad promedio de las personas que tienen un sueldo igual o mayor a
$200.000 es de 32,1 aos.
b) El sueldo promedio de las personas que tienen entre 30 y 40 aos.
j
nj
MC n
j j
150
300
250
1.750
350
1.400
450
10
4.500
TOTAL
23
7.950
MC
Yc=
7.950
= 345,652
23
Interpretacin: las personas que tienen entre 30 y 40 aos de edad tienen un sueldo
promedio de $345.652.
PROFESOR: RONNY GODOY GLVEZ
c)
nj
MC n
j j
150
1.200
250
19
4.750
350
2.450
450
18
8.100
TOTAL
52
16.500
MC
Yc=
16.500
= 317,308
52
Interpretacin: las personas que tienen menos de 40 aos de edad tienen un sueldo
promedio de $317.308.
PROBLEMA PROPUESTO
La siguiente tabla muestra las utilidades (en millones de $) y el nmero de trabajadores de un
grupo de empresas de la regin metropolitana.
Consideremos para el problema:
N DE TRABAJADORES
0 100
100 200
200 300
06
10
6 12
10
12 18
18 24
12
Soluciones:
a) 51 empresas.
b) El promedio de trabajadores es de aprox. 156 trabajadores.
c)
d) El nmero de trabajadores promedio que tienen las empresas con utilidades menores
de $12.000.000 es de aprox. 131 trabajadores.
e) Las empresas que tienen ms de 100 trabajadores tienen utilidades promedio de
aprox. $13.833.333.
MEDIDAS DE CORRELACIN
La Correlacin es una tcnica estadstica usada para determinar si existe una relacin
entre dos o ms variables. Algunas medidas de Correlacin que estudiaremos, son:
1 Covarianza ( S
xy
La covarianza entre dos variables es una medida estadstica para valorar la relacin
entre estas variables.
Frmula:
xy
= XY X Y ; Donde XY =
MC MC n
i
ij
Observaciones:
las variables aumenta la otra tambin o si una de ellas disminuye la otra tambin.
Si S xy < 0
Si S xy = 0
Ejemplo: Una empresa desea estudiar la relacin entre la edad de sus trabajadores y los
das no trabajados.
Consideremos para el problema:
X = Edad.
Y = N de das no trabajados.
N DAS NO TRABAJADORES
EDAD
06
6 12
12 18
ni
MCi
20 25
0/ 0
4 / 810
1 / 337,5
22,5
25 30
12 / 990
6 / 1.485
0/ 0
18
27,5
30 40
3 / 315
4 / 1.260
6 / 3.150
13
35
40 50
1 / 135
2 / 810
8 / 5.400
11
45
nj
16
16
15
N = 47
MC j
15
).
xy
Qu es ms variable, la edad o los das no trabajados?
SOLUCIN:
a) Cul es la edad promedio de trabajadores con menos de 12 das no trabajados?
ni
MC n
i i
22,5
90
27,5
18
495
35
245
45
135
TOTAL
32
965
MC
X c=
965
= 30,156
32
X=
Y=
MC n
i
).
X=
Y=
3 16 + 9 16 + 15 15 417
=
= 8,872
47
47
N
MC n
j
N
MC MC n
i
XY =
xy
ij
XY =
xy
14.692,5
= 315,606
47
= XY X Y
xy
xy
ni
MC n
i i
MCi2 ni
22,5
112,5
2.531,25
27,5
18
495
13.612,5
35
13
455
15.925
45
11
495
22.275
TOTAL
47
1.557,5
54.343,75
MC
S =
MC 2 n
i
MC n
i
S = S 2 = 58,103 = 7,622
x
54.343,75 1.557,5
47
47
= 58,103
S
7,622
CV ( X ) = x 100% =
100% = 23%
X
33,138
7
nj
MC n
j j
MC 2j n j
16
48
144
16
144
1.296
15
15
225
3.375
TOTAL
47
417
4.815
MC
MC
S2 =
y
S = S
y
MC n
j
4.815 417
47
47
CV (Y ) =
= 23,728 = 4,871
= 23,728
4,871
y
100% =
100% = 54,9%
Y
8,872
2 Coeficiente de Correlacin ( r )
xy
En una distribucin bidimensional (bivariada) puede ocurrir que las dos variables tengan
algn tipo de relacin entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos
de una clase es muy posible que exista relacin entre ambas variables: mientras ms alto
sea el alumno, mayor ser su peso.
El Coeficiente de Correlacin mide el grado de intensidad de esta posible relacin entre
las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las
variables es lineal (es decir, si representamos en un grfico los pares de valores de las dos
variables la nube de puntos se aproximara a una recta).
No obstante, puede que exista una relacin que no sea lineal, sino exponencial,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad
de la relacin de las variables, por lo que convendra utilizar otro tipo de coeficiente ms
apropiado.
Frmula:
rxy =
xy
S S
x
Observaciones:
Si rXY 1
POSITIVA, es decir, la nube de puntos puede aproximarse por una lnea recta con
pendiente positiva (una recta creciente). Por ejemplo, altura y peso: los alumnos
ms altos suelen pesar ms.
Si rXY 1
Si rXY 0
NEGATIVA, es decir, la nube de puntos puede aproximarse por una lnea recta
con pendiente negativa (una recta decreciente). Por ejemplo, peso y velocidad:
los alumnos ms gordos suelen correr menos.
X = N de trabajadores
Y = Utilidades (en millones de $)
N DE
TRABAJADORES
UTILIDADES
(en millones de $)
14
48
8 12
ni
MCi
0 100
12 / 1.500
6 / 1.800
0/ 0
18
50
100 200
6 / 2.250
3 / 2.700
1 / 1.500
10
150
200 300
4 / 2.500
5 / 7.500
3 / 7.500
12
250
300 400
0/ 0
6 / 12.600
10 / 35.000
16
350
nj
22
20
14
N = 56
MC j
2,5
10
SOLUCIN:
X=
Y=
MC n
i
X=
Y=
2,5 22 + 6 20 + 10 14 315
=
= 5,625
56
56
N
MC n
j
N
MC MC n
i
XY =
ij
XY =
xy
74.850
= 1.336,607
56
= XY X Y
xy
xy
(la covarianza indica que existe relacin directa entre el n de trabajadores y las utilidades de
las empresas, es decir, a mayor n de trabajadores, mayor utilidades)
MC 2 n
i
S2 =
x
MC n
i
2.980.000 11.000
56
56
= 14.630,102
S = S 2 = 14.630,102 = 120,955
x
MC
S2 =
y
MC n
j
2.257,5 315
56
56
= 8,672
S = S 2 = 8,672 = 2,945
y
rxy =
xy
S S
x
rxy =
231,6995
= 0,65
120,955 2,945
Interpretacin: el coeficiente de correlacin nos indica que existe relacin lineal entre el
n de trabajadores y las utilidades, con pendiente positiva (la proyeccin
es regular, como veremos en la siguiente gua que explica el modelo de
regresin lineal).
10