You are on page 1of 68

ELEMENTOS DE

ESTADSTICA
DESCRIPTIVA
Profr. Benito Santiago Guerra PRESENTA:
Aplicaciones de la estadstica
La Estadstica es una ciencia
que facilita la solucin de
problemas en los cuales
necesitamos conocer
caractersticas sobre el
comportamiento de algn suceso
o evento.
Nos permite inferir el
comportamiento de sucesos
iguales o similares sin necesidad
de que estos ocurran.
Da la posibilidad de tomar
decisiones acertadas en tiempo
y forma, as como realizar
proyecciones del
comportamiento del suceso.

Slo se realizan clculos y
anlisis con los datos obtenidos
de una muestra de la poblacin
y no con toda la poblacin.

Actualmente el INEGI es el encargado de
concentrar y publicar la informacin
estadstica del estado y del pas.
Conceptos bsicos
Estadstica:
Es la ciencia que se encarga de recolectar,
organizar, resumir y analizar datos para despus
obtener conclusiones y tomar decisiones .
Se divide en:
Estadstica Descriptiva y Estadstica Inferencial.

Estadstica descriptiva:
Se encarga de la
recoleccin, organizacin,
presentacin y anlisis de
los datos de una
poblacin.
Estadstica inferencial:
Se encarga de analizar la informacin
presentada por la estadstica descriptiva
mediante tcnicas que nos ayuden a
conocer, con determinado grado de
confianza, a la poblacin. formulando
hiptesis y finalmente permite tomar
decisiones.
Poblacin:
Conjunto definido de TODOS los INDIVIDUOS o
elementos, de donde se observa cierta caracterstica.


Al nmero de integrantes de la poblacin se llama
tamao de la poblacin y se representa con la letra N.
Las poblaciones pueden ser finitas o infinitas.



Muestra:
Subconjunto o elemento de una poblacin, que intenta
reflejar las caractersticas de la poblacin lo mejor
posible.
Variable:
Caracterstica o propiedad de los individuos que se
desea estudiar y se puede medir o calificar


Tipos de datos para anlisis
Datos Cuantitativos
(nmeros):
Valores obtenidos al medir
peso, estatura, temperatura,
nmero de hijos.


Datos Cualitativos
(categoras):
Se obtienen al calificar la
caracterstica en cuestin
como el sexo, estado civil,
grado mximo de estudios.


Recopilacin de datos:
Encuesta
Experimentos
Documentos
Muestreo poblacional (aleatorio simple, sistemtico,
estratificados o conglomerados)
Ordenar datos
Hay dos mtodos comunes:
Listado en orden ascendente
Mtodo de tallo y hojas

)

Ejemplo. Listado en orden ascendente
El proceso consiste en ordenarlos de menor a
mayor
Peso de 25 estudiantes (en kg)
42 40 48 51 49
56 44 43 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
Peso de 25 estudiantes (en kg)
40 42 43 44 44
45 48 49 50 50
51 51 52 52 55
55 56 56 57
58
59 62 63 63
66
Mtodo de tallo y hojas
Si los nmeros de los datos estn
formados por dos dgitos, se hace una
columna con el primer dgito (decenas) y
a la derecha de cada uno de ellos se
escribe, en fila, slo el segundo dgito
(unidades) de cada uno de los datos que
tengan el mismo primer dgito.
Datos sin ordenar:



Datos ordenados:
4
5
6
4
5
6
0,2,3,4,4,5,8,9
0,0,1,1,2,2,5,5,6,6,7,8,9
2,3,3,6
Peso de 25 estudiantes (en kg)
42 40 48 51 49
56 44 43 55 52
52 62 44 50 59
63 50 56 55 45
57 66 63 51 58
2,0,8,9,4,3,4,5
1,6,5,2,2,0,9,0,6,5,7,1,8
2,3,6,3
Doble tallo
Una variante de este mtodo es en lugar de
dividir en un grupo las decenas, se divide en
dos grupos. El primero abarcando los dgitos
del 0 al 4 y el segundo del 5 al 9.

El ejemplo anterior
queda:
4 0,2,3,4,4
4 5,8,9
5 0,0,1,1,2,2,
5 5,5,6,6,7,8,9
6 2,3,3
6 6
Tabla de Frecuencia de Datos
Una vez que se tenga ordenados los datos, se
acomodan en la Tabla de distribucin de frecuencias o
tabla de frecuencias.
La tabla es bsicamente una tabla de valores x-y, dnde
x representa el dato y y representa la frecuencia.
La frecuencia es el nmero de veces que aparece cada
dato.
Hay dos clases de tablas de frecuencias:
Para datos NO agrupados.
Para datos agrupados.
rosa azul blanco azul rosa
gris blanco caf negro blanco
rosa azul caf blanco blanco
gris azul blanco rosa gris
gris blanco caf negro verde
Color Frecuenci
a
Azul
Blanco
Caf
Gris
Negro
Rosa
Verde
I I I I
I I I I I
I
I I I
I I I I
I I
I I I I
I
Ejemplo (no agrupadas)
Tabla de frecuencias de los pesos en kg de 25
alumnos.
Peso de 25 estudiantes (en kg)
40 42 43 44 44
45 48 49 50 50
51 51 52 52 55
55 56 56 57
58
59 62 63 63
66
xi f
40
42
43
44
45
48
49
50
51
xi f
52
55
56
57
58
59
62
63
66
Total
1
1
1
2
1
1
1
2
2
2
2
2
1
1
1
1
2
1
25
Frecuencia relativa y
acumulada
Por lo regular, se agregan dos columnas: la de
la frecuencia relativa fr y la de la frecuencia
acumulada fa.
La frecuencia relativa se obtiene mediante el
cociente de la frecuencia y el nmero total de
datos, esto es fr = f/n.
La frecuencia acumulada se obtiene sumando
las frecuencias anteriores a las frecuencias de
un dato dado.
Ejemplo
xi f fr fa
40 1
42 1
43 1
44 2
45 1
48 1
49 1
50 2
51 2
xi f fr fa
52 2
55 2
56 2
57 1
58 1
59 1
62 1
63 2
66 1
Tota
l
25
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.04
0.08
0.08
0.08
0.08
0.08
0.08
0.08
1/25
2/25
1
2
3
5
6
7
8
10
12
14
16
18
19
20
21
22
24
25
1
Siempre
es el
nmero
total
Siempre es 1
Intervalo de clase
En ocasiones es conveniente acomodar
los datos en pequeos grupos de igual
tamao, llamados intervalos de clase.
El punto medio o marca de clase xi, se
obtiene con:


El tamao del intervalo se obtiene
mediante la diferencia de los lmites
superior e inferior.
Marca de clase
=
Lmite inferior + lmite
superior
2
Ejemplo
Intervalo de clase Punto medio xi
38 42 40
43 47 45
48 52 50
53 57 55
58 62 60
63 67 65
Lmite inferior Lmite superior
Lm inf + Lim sup

2
Lmite verdadero del intervalo
(ajuste)
Frontera de clase o lmite verdadero del
intervalo:
Intervalo de clase Punto medio xi
37.5 42.5 40
42.5 47.5 45
47.5 52.5 50
52.5 57.5 55
57.5 62.5 60
62.5 67.5 65
40 2.5
40 + 2.5
Tabla de intervalos con
lmites verdaderos
Usando smbolos de
desigualdad





Usando parntesis
y corchetes





Intervalo de
clase
Punto
medio xi
37.5 x < 42.5 40
42.5 x < 47.5 45
47.5 x < 52.5 50
52.5 x < 57.5 55
57.5 x < 62.5 60
62.5 x < 67.5 65
Intervalo de
clase
Punto
medio xi
[37.5 , 42.5) 40
[42.5 , 47.5) 45
[47.5 , 52.5) 50
[52.5 , 57.5) 55
[57.5 , 62.5) 60
[62.5 , 67.5) 65
Est incluido No est incluido
Est incluido
No est incluido
El tamao del intervalo es de
5
Si por alguna razn no es fcil decidir el ancho
del intervalo y el nmero de ellos, se pueden
utilizar las siguientes frmulas:
K = 1 + 3.3 log (n)
Donde K = nmero aproximado de clases
n = nmero de datos.
Amplitud de los intervalos = Rango / K
Donde Rango = diferencia entre el dato
mayor y el dato
menor.
Ejemplo
Para el ejemplo de los datos de los pesos de
25 alumnos, el valor de K:



Y la amplitud de los intervalos sera:
K = 1 + 3.3 log (n) = 1 + 3.3 log (25) = 5.6.
Por lo tanto se requieren aproximadamente 6
intervalos.
Amplitud = Rango / K = (66 40) / 5.6 = 4.64.
Aproximadamente 5 unidades es la amplitud
de los intervalos.
Tabla de distribucin de
frecuencias para datos
agrupados
Se elabora con los intervalos de clase, sus
puntos medios y las frecuencias
correspondientes para cada uno de los
intervalos. xi f
40 1
42 1
43 1
44 2
45 1
48 1
49 1
50 2
51 2
52 2
55 2
56 2
57 1
58 1
59 1
62 1
63 2
66 1
Total 25
D
a
t
o
s

s
i
n

a
g
r
u
p
a
r

Intervalo
de clase
Punto
medio xi
f
38 42 40
43 47 45
48 52 50
53 57 55
58 62 60
63 - 67 65
Total
Datos agrupados
2
4
8
5
3
3
25
Se agregan las columnas de frecuencia
relativa fr y frecuencia acumulada fa:
Intervalo
de clase
Punto
medio xi
f fr Fa
38 42 40 2
43 47 45 4
48 52 50 8
53 57 55 5
58 62 60 3
63- 68 65 3
Total 25
0.08
0.16
0.32
0.20
0.12
0.12
1
2
6
14
19
22
25
2/25
4/25
8/25
Por ltimo se agregan las columnas:
Frecuencia porcentual, f% %f, se
obtiene multiplicando la frecuencia relativa fr
x 100.
Frecuencia relativa acumulada fra, se
obtiene sumando las frecuencias relativas
anteriores a un dato dado.
Frecuencia porcentual acumulada, f%a,
se obtiene sumando las frecuencias
porcentuales acumuladas a un dato dado.
Tablas de frecuencias absoluta,
relativa y acumulada
Intervalo
de clase
Punto
medio xi
f fr f% fa fra f%a
38 42 40 2 0.08 2
43 47 45 4 0.16 6
48 52 50 8 0.32 14
53 57 55 5 0.20 19
58 62 60 3 0.12 22
63- 68 65 3 0.12 25
Total 25 1
8
16
32
20
12
12
100
0.08
0.24
0.56
0.76
0.88
1
8
24
56
76
88
100
0.08 x
100
2/25
0.08 x
100
Grfica de Datos
Existen dos tipos de grficas mas
usuales:
Polgono de Frecuencias
Histograma

Otros grficos:
Grfica de barras
Pictograma
Grfico Circular o de pastel.
Polgono de Frecuencias
Es la representacin mediante un grfico
de lnea. En l se muestra la distribucin
de frecuencias y est formado por
segmentos de lnea que unen los puntos
correspondientes a la frecuencia de cada
una de las clases.

El eje x representa el dato xi
y el eje y las frecuencias.
Ejemplo
Intervalo de
clase
Punto medio
xi
f
38 42 40 2
43 47 45 4
48 52 50 8
53 57 55 5
58 62 60 3
63 - 68 65 3
Total 25
0
1
2
3
4
5
6
7
8
9
35 40 45 50 55 60 65 70
f

xi
Polgono de Frecuencias
Presion (kpa) Frecuencia
98 2
99.5 2
100 1
101 3
104 2
POLIGONO DE FRECUENCIA
0
0.5
1
1.5
2
2.5
3
3.5
97 98 99 100 101 102 103 104 105
Frecuencia
El eje y puede ser sustituido por las
frecuencias relativas o porcentuales.
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
35 40 45 50 55 60 65 70
fr
xi
Polgono de Frecuencia Relativa
% f
xi
Polgono de Frecuencia Porcentual
0
5
10
15
20
25
30
35
35 40 45 50 55 60 65
Histograma
Es la representacin grfica de
los datos mediante una sucesin
de rectngulos.
Est formado por rectngulos cuya
anchura representa a cada uno de los
intervalos y la altura corresponde a la
frecuencia.
En el eje x estarn los lmites
verdaderos, los puntos medios y en el eje
y las frecuencias.

0.95 2.95 4.95
0
2
4
6
8
10
12
14
0
1
2
3
4
5
6
7
8
9
35 40 45 50 55 60 65
f

xi
Histograma
Intervalo de
clase
Punto medio
xi
f
38 42 40 2
43 47 45 4
48 52 50 8
53 57 55 5
58 62 60 3
63 - 68 65 3
Total 25
Ejemplo (histograma)
Tambin podemos usar la frecuencia relativa y
la frecuencia porcentual.
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
35 40 45 50 55 60 65
Histograma con frecuencias relativas
fr
xi
0
10
20
30
40
35 40 45 50 55 60 65
Histograma con frecuencias
porcentuales
% f
xi
Presion (kpa) Frecuencia
98 2
99.5 2
100 1
101 3
104 2
HISTOGRAMA DE FRECUENCIA
0
0.5
1
1.5
2
2.5
3
98 99.5 100 101 104
histograma de frecuencia individual
histograma de frecuencia
individual
Pirmide Poblacional
Una variante en el histograma es colocar
en el eje x de tal manera que las
columnas quedarn en forma horizontal,
es muy comn en datos poblacionales.
Ojiva
Es la representacin grfica de las frecuencias
acumuladas mediante un grfico de lnea. Se muestra la
distribucin de frecuencias acumuladas de los datos.
En el eje x estarn los puntos medios y en el eje y
las frecuencias acumuladas.
Interval
o de
clase
Punto
medio
xi
f fr fa
38 42 40 2 0.08 2
43 47 45 4 0.16 6
48 52 50 8 0.32 14
53 57 55 5 0.20 19
58 62 60 3 0.12 22
63 - 68 65 3 0.12 25
Total 25 1
0
2
6
14
19
22
25
0
5
10
15
20
25
30
35 40 45 50 55 60 65
fa
xi
Ojiva
0
0.08
0.24
0.56
0.76
0.88
0
0.2
0.4
0.6
0.8
1
35 40 45 50 55 60
fra
xi
Ojiva con frecuencia
relativa acumulada
Tiempo Temperatura
8.00 18
8.50 18.5
9.00 19
9.30 22
10.00 23
10.30 23
11.00 25
12.00 26
13.00 26
14.00 27
15.00 27
OJIVAS
0
5
10
15
20
25
30
6.00 8.00 10.00 12.00 14.00 16.00 18.00
T
e
m
p
e
r
a
t
u
r
a
Tiempo
Cronologia
Grfico Circular
Tambin es llamado grfico de pastel.

Slo se representan datos de frecuencias
relativas o frecuencias porcentuales.

Se debe dividir el rea del crculo de manera
proporcional a las frecuencias.
13%
17%
57%
13%
PERRO
PAJARO
HAMSTER
GATO
Ejemplo 1 (datos cuantitativos)
Intervalo
de clase
Punto
medio xi
f fr (fr ) (360)
38 42 40 2 0.08
43 47 45 4 0.16
48 52 50 8 0.32
53 57 55 5 0.20
58 62 60 3 0.12
63- 68 65 3 0.12
Total 25 1
28.8
0.08 x
360
0.16 x
360
57.6
115.2
72
43.2
43.2
360
40
8%
45
16%
50
32%
55
20%
60
12%
65
12%
Grfico Circular
Ejemplo 2 (datos cuantitativos)
Color Frecuenci
a
Conteo
Azul 4
Blanco 7
Caf 3
Gris 4
Negro 2
Rosa 4
Verde 1
I I I I
I I I I I
I
I I I
I I I I
I I
I I I I
I
16%
28%
12%
16%
8%
16%
4%
Color de Playera
Azul Blanco Caf Gris
Negro Rosa Verde
Otros Grficos
La grfica de barras se traza similar al
Histograma, slo que las barras se
dibujan separadas unas de otras.
La escala en el eje x es para mostrar
categoras o intervalos de nmeros NO
consecutivos.
0
10
20
30
40
50
60
PERRO PAJARO HAMSTER GATO
F
r
e
c
u
e
n
c
i
a

a
b
s
o
l
u
t
a
Grficos de barras (
cualitativos)
Carrera Alumnos
Medicina 8
Mecnica 11
Civil 8
Agronoma 3
Fsico - Matemticas 3
Leyes 6
Contadura 11
8
11
8
3 3
6
11
Eleccin de Carrera
Pictograma
Similar al de barras, slo que se sustituyen
por figuras, generalmente relacionadas con la
variable estudiada.
47
TIPOS DE VARIABLES
Variables Cuantitativas
Variable: corresponde a la caracterstica de la Unidad de Anlisis
Intervalo
DISCRETA
Variables Cualitativas
CONTINUA
Toma valores enteros
Ejemplos: Nmero de Hijos, Nmero de
empleados de una empresa, Nmero de
asignaturas aprobadas en un semestre, etc.
Toma cualquier valor dentro de un intervalo
Ejemplos: Peso; Estatura; Temperatura, etc.
Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
ORDINAL NOMINAL
Caracterstica o cualidad
cuyas categoras no tienen
un orden preestablecido.
Ejemplos: Sexo, Deporte
Favorito, etc.
Caracterstica o cualidad cuyas
categoras tienen un orden
preestablecido.
Ejemplos: Calificacin (S, N, A);
Grado de Inters por un tema, etc.
VARIABLES ESTADSTICOS
48
OBSERVACIONES
* El Tipo de Grfico seleccionado va a depender de la variable en estudio.
* El Grfico debe contener un Ttulo General y la identificacin de cada eje
(variable en estudio y frecuencia).
* En ocasiones resulta ms ilustrativo un grfico que una tabla de frecuencia.
* Al igual que las tablas, los grficos deben ser auto-explicativos.
Variables Cuantitativas
variable = x
i individuo el en variable la de valor =
i
x
n i ,..., 1 =
nc c c c
n
i
= + + =

=

1

= =
= + + =
n
i
i n
n
i
i
x c cx cx cx
1
1
1

b x a b ax b ax b ax
n
i
i n
n
i
i
+ = + + + + = +

= = 1
1
1
) ( ) ( ) (
2 2
1
1
2
n
n
i
i
x x x + + =

=

2
1
2
1
) ( ) (
n
n
i
i
x x x + + =

=

) ( ) ( ) (
1 1
1
n n
n
i
i i
y x y x y x + + + + = +

=

) ( ) ( ) (
1 1
1
n n
n
i
i i
y x y x y x + + =

=

variable = y
i individuo el en variable la de valor =
i
y
constantes : , , c b a
NOTACIN
49
MEDIDAS DE TENDENCIA CENTRAL
-Media Aritmtica (Promedio)
-Mediana
-Moda
n
x
x
n
i
i

=
=
1
Media Aritmtica o Promedio
Mediana
) ( E
M
k
x =
2
M
) 1 ( ) (
E
+
+
=
k k
x x
x
1
x
2
x


n
x


Datos Cuantitativos
x
) 1 (
x
) 2 (
x


) (n
x


Datos Cuantitativos ordenados de menor a mayor
Si n es par
Si n es impar
centro del dato
) (
=
k
x
repite" se ms que dato el " M
o
=
Moda Datos
Cualitativos y Cuantitativos
DESCRIPTIVA
50
Percentiles, Deciles o Cuartiles
-Percentil (ejemplo: 25, 50, 75)
-Decil (ejemplo: 4, 5, 8)
-Cuartil (ejemplo: 1, 2, 3)
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que rene al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posicin 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posicin 34.
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n datos
estn ordenados de Menor a Mayor
Estadstica
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que rene al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posicin 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posicin 22.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que rene al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posicin 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posicin 64.
51
MEDIDAS DE DISPERSIN
-Rango
-Varianza
-Desviacin Estndar
Rango
Varianza
x
1
x
2
x


n
x


Datos Cuantitativos
Coeficiente de Variacin
Comparacin entre Variables
Se refiere al comportamiento de las variables cuantitativas en un
grupo. Por ejemplo: Si se tiene un conjunto de personas a las que se
les mide Estatura, Peso, Edad: Entre estas variables cul presenta
mayor variacin?
) min( ) max(
i i
x x R =
Desviacin Tpica o Estndar
2
1
2 1 1
2 2
1
2
2
1
) (
1
) (
x x
n n
x
n
x
n
x x
s
n
i
i
n
i
n
i
i i
n
i
i
=

=


=
= = =
2
s s =
x
s
cv =
Estadstica
52
Estadstica
Otras medidas o Coeficientes
-Asimetra (sesgo)
-Kurtosis o Apuntamiento
Adems de la posicin y la dispersin de los datos, otra medida de inters en una distribucin de frecuencias
es la simetra y el apuntamiento o kurtosis.
Coeficiente de
Asimetra
3
1
3
) (
s n
x x
CA
n
i
i

=

=
Si CA=0 si la distribucin es simtrica alrededor de la media.
Si CA<0 si la distribucin es asimtrica a la izquierda
Si CA>0 si la distribucin es asimtrica a la derecha
Coeficiente de
Apuntamiento
4
1
4
) (
s n
x x
CAp
n
i
i

=

=
- Si CAp=0 la distribucin se dice normal (similar
a la distribucin normal de Gauss) y recibe el
nombre de mesocrtica.
- Si CAp>0, la distribucin es ms puntiaguda que
la anterior y se llama leptocrtica, (mayor
concentracin de los datos en torno a la media).
- Si CAp<0 la distribucin es ms plana y se
llama platicrtica.
Mesocrtica (CAp=0)
Leptocrtica (CAp>0 )
Platicrtica (CAp<0)
3
1
3
) (
s n
f i x x
CA
n
i
i

=

=
4
1
4
) (
s n
f i x x
CAp
n
i
i

=

=
No agrupados
agrupados
No agrupados
agrupados
53
Estadstica (anlisis en SPSS)
Otras medidas o Coeficientes
-Asimetra
-Kurtosis o Apuntamiento
Ejemplos Histogramas con distinta asimetra y apuntamiento
V2
7,0 6,0 5,0 4,0 3,0 2,0 1,0
14
12
10
8
6
4
2
0
Desv. tp. = 1,67
Media = 3,9
N = 30,00
V4
2,0 1,0 0,0 -1,0
30
20
10
0
Desv. tp. = ,64
Media = 0,0
N = 30,00
V5
9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0
6
5
4
3
2
1
0
Desv. tp. = 2,42
Media = 5,2
N = 28,00
54
Estadstica
Otras medidas o Coeficientes
-Asimetra
-Kurtosis o Apuntamiento
Ejemplos
Media 3,9
Mediana 4
Moda 4
Desviacin estndar 1,67
Varianza de la muestra 2,78
kurtosis -0,43
Coeficiente de asimetra -0,02
Rango 6
Mnimo 1
Mximo 7
Cuenta 30
V1
9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0
16
14
12
10
8
6
4
2
0
Desv. tp. = 1,77
Media = 5,4
N = 66,00
1 4 4
1 4 4
1 4 5
2 4 5
2 4 6
2 4 6
2 4 6
3 4 6
3 4 7
4 4 7
Datos
Histograma
Medidas descriptivas
55
Estadstica
Media, Desviacin tpica, Coeficientes de Asimetra y Apuntamiento para
datos Agrupados (tabla de frecuencias)
Intervalo
Centro
de clase Amplitud F f FAA fra
I
1
c
1
a
1

I
2
c
2
a
2

.
.
I
k
c
k
a
k
n 1
Total n 1

f
1

f
2

f
k

n
1

n
2

n
k

Tabla de frecuencia (para variable cuantitativa)

1) La Media para datos agrupados es igual a la
suma de los productos de las marcas de clase
por sus frecuencias relativas, de la forma:

=
= =
k
j
j j c c
f c x Media
1
Sea c
j
la marca de clase (o centro de clase) y f
j
la
frecuencia relativa de la clase j, donde j=1, 2,, k.
2) La Desviacin tpica para datos
agrupados esta dada por:

=
=
k
j
j c j c
f x c s
1
2
) (
3) El Coeficiente de Asimetra para datos
agrupados esta dado por:
3
1
3
) (
c
k
j
j c j
c
s
f x c
CA

=

=
4) El Coeficiente de apuntamiento para
datos agrupados esta dada por:
4
1
4
) (
c
k
j
j c j
c
s
f x c
CAp

=

=
56
MEDIDAS DE ASOCIACIN LINEAL
- Covarianza
- Correlacin
x
1
x
2
x


n
x


Datos
Cuantitativos
Covarianza:
Recordemos que: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersin
(Varianza y Desviacin Estndar) para una Variable
Cuantitativa (x).
Es una medida de Variabilidad Conjunta entre dos variables (x
1
, x
2
) o bien (x , y)
x
y
) 1 (
x
) (
y
1
) 2 (
x
) (
y
2

) (n
x
) n (
y
Si Cov(x,y) es positiva: la asociacin entre x e y es directamente proporcional, es
decir que cuando x aumenta y tambin aumenta; y viceversa.
Si Cov(x,y) es negativa: la asociacin entre x e y es inversamente proporcional,
es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociacin entre x e y.

=
=
n
i
i i
) y y )( x x (
n
) y , x cov(
1
1
Estadstica (linealidad de datos y proyecciones)
57
MEDIDAS DE ASOCIACIN LINEAL
- Covarianza
- Correlacin
Datos
Cuantitativos
Coeficiente de Correlacin de Pearson (r): Mide el grado de Asociacin Lineal entre
dos variables Cuantitativas
Se refiere al grado de asociacin entre dos variables (x
1
, x
2
) o bien (x , y)
x
y
) 1 (
x
) (
y
1
) 2 (
x
) (
y
2

) (n
x
) n (
y
Si r es positivo: la asociacin entre x e y es directamente proporcional, es decir que
cuando x aumenta y tambin aumenta; y viceversa. Si r=1: la asociacin lineal es
perfecta.
Si r es negativo: la asociacin entre x e y es inversamente proporcional, es decir
que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociacin lineal es
perfecta.
Si r es cero: no existe asociacin entre x e y.
Correlacin:
1 1 s s r
y x
s s
) y , x cov(
r =
y x
n
i
i i
s s ) n (
y x n y x
r
1
1

=

=
Estadstica
58
r=1 r=-1
EJEMPLO : Representacin grfica de las variables x e y
Estadstica
r= 0 r 0 1 -1
59
Objetivo 2
Estudiar si los valores de una variable
pueden ser utilizados para predecir el
valor de la otra (pronostico o
estimacin)
REGRESION LINEAL SIMPLE
Datos Cuantitativos
Determinar si existe relacin
entre las variables x e y:
Coeficiente de Correlacin
Objetivo 1
Determinar si dos variables estn
asociadas y en qu sentido se da la
asociacin.
Estudiar la dependencia de una
variable respecto de la otra:
Modelo de Regresin
Trminos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relacin Lineal (modelo lineal)
Parmetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)
x
y
) 1 (
x
) (
y
1
) 2 (
x
) (
y
2

) (n
x
) n (
y
Estadstica
60
REGRESION LINEAL SIMPLE
Datos Cuantitativos
Notacin
Variable Respuesta: y dependiente
Variable Explicativa: x independiente
Modelo de Regresin Lineal Simple: y
i
=o+|x
i
+e
i

Intercepto: o = a
Pendiente: | = b
Error: e
x
y
) 1 (
x
) (
y
1
) 2 (
x
) (
y
2

) (n
x
) n (
y
Modelo Estimado
(recta de regresin)
bx a y + =
x b y a =
2
1 1
2
1 1 1
|
.
|

\
|

=


= =
= = =
n
i
i
n
i
n
i
i
n
i
i
n
i
x x n
y x xy n
b
Mtodo de Estimacin: Mnimos Cuadrados
i i i
y y e =
Residuos o Errores
Estadstica
61
REGRESION LINEAL SIMPLE
DATOS
MODELO DE REGRESIN LINEAL SIMPLE
y
i
=o+|x
i
+e
i

x
y
) 1 (
x
) (
y
1
) 2 (
x
) (
y
2

) (n
x
) n (
y
MODELO ESTIMADO
bx a y + =
x b y a =
2
1 1
2
1 1 1
|
.
|

\
|

=


= =
= = =
n
i
i
n
i
n
i
i
n
i
i
n
i
x x n
y x xy n
b
ESTIMADORES
i i i
y y e =
ERRORES
Estadstica
62
REGRESION LINEAL SIMPLE
EJEMPLO: Aplicacin del Modelo de Regresin Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 nios, y estamos
interesados en determinar si existe algn tipo de relacin entre la talla del nio y su edad.
nio edad (meses) talla (cm)
i x
i
y
i
1 3 55
2 6 68
3 5 64
4 5 66
5 3 62
6 4 65
7 9 74
8 8 75
9 9 73
10 7 69
11 6 73
12 5 68
13 8 73
14 6 71

y=talla / x=edad / n=14

956
14
1
=

= i
i
y 3 , 68 = y
6 , 5 =
y
s

84
14
1
=

= i
i
x

6 = x

2 =
x
s

07 , 9 ) , cov( = y x

88 , 0 =
xy
r

5863
14
1
=

= i
i i
y x

556
14
1
2
=

= i
i
x


Estadstica
63
REGRESION LINEAL SIMPLE
EJEMPLO: Aplicacin del Modelo de Regresin Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 nios, y estamos
interesados en determinar si existe algn tipo de relacin entre la talla del nio y su edad.
Modelo Estimado
bx a y + =


44 , 2 = b 64 , 53 = a

x y 44 , 2 64 , 53 + =


Interpretacin de los resultados
- Existe asociacin o dependencia entre la Talla del nio y la edad (r=0,88); a
medida que la edad aumenta la talla aumenta.
- Desde los resultados del modelo de regresin lineal simple, se tiene que la talla
media de un nio es de 53,64 cm. Cuando la edad del nio (meses) aumenta en
una unidad la talla se incrementa en 2,44 cm.
Estadstica
64
REGRESION LINEAL SIMPLE
EJEMPLO: Aplicacin del Modelo de Regresin Lineal Simple
Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 nios, y estamos
interesados en determinar si existe algn tipo de relacin entre la talla del nio y su edad.
De acuerdo al coeficiente de
determinacin, el modelo ajustado
a los datos es adecuado (R
2

cercano a 1)
Bondad de Ajuste del Modelo
R
2
= 0,77

nio edad (meses) talla (cm) Talla estimada error
i x
i
y
i
i
y
i
e
1 3 55 61,0 -6,0
2 6 68 68,3 -0,3
3 5 64 65,8 -1,8
4 5 66 65,8 0,2
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 -1,6
8 8 75 73,2 1,8
9 9 73 75,6 -2,6
10 7 69 70,7 -1,7
11 6 73 68,3 4,7
12 5 68 65,8 2,2
13 8 73 73,2 -0,2
14 6 71 68,3 2,7

86 , 402 ) (
14
1
2
=

= i
i i
y y
7 , 92 ) (
14
1
2
14
1
2

= =
= =
i
i
i
i i
e y y

Estadstica
PROGRAMA: SUPERCEP
PROGRAMA: SUPERCEP
Datos reales da regresion lineal
x y (xi-) (yi-) (xi-)*(yi-) (xi-)2 (yi-)2 x y
3.6 11.28 -1.77 -4.87 8.63 3.14 23.67 3.6 12.42
5.2 14.74 -0.17 -1.41 0.24 0.03 1.97 5.2 17.52
5.3 18.46 -0.07 2.31 -0.17 0.01 5.36 5.3 17.84
7.3 20.01 1.93 3.86 7.45 3.71 14.94 7.3 24.20
5 12.43 -0.37 -3.72 1.39 0.14 13.80 5 16.88
5.2 15.37 -0.17 -0.78 0.13 0.03 0.60 5.2 17.52
3 9.59 -2.37 -6.56 15.56 5.63 42.97 3 10.51
3.1 11.26 -2.27 -4.89 11.11 5.17 23.87 3.1 10.83
3.2 8.05 -2.17 -8.10 17.59 4.72 65.53 3.2 11.15
7.5 27.91 2.13 11.76 25.02 4.52 138.41 7.5 24.84
8.3 24.62 2.93 8.47 24.80 8.57 71.82 8.3 27.39
6.1 18.8 0.73 2.65 1.93 0.53 7.05 6.1 20.38
4.9 13.87 -0.47 -2.28 1.08 0.22 5.18 4.9 16.56
5.8 12.11 0.43 -4.04 -1.72 0.18 16.28 5.8 19.43
7.1 23.68 1.73 7.53 13.01 2.98 56.77 7.1 23.57
126.04 39.59 488.22 9 29.62
5.4 16.15 9.6 31.53
Ajuste por mnimos cuadrados
Pendiente m= (xi-)*(yi-) c=-m
(xi-)2 y= 3.183 x -0.962
c= -0.962 R2= Correlacin de lineal
m= 3.1838 R2= 1, significa ajuste perfecto
x=comisiones pagadas por vendedores de autos en un mes (%) R2= cero= sin ajuste
y=ganacias netas por ventas, en el mismo mes (millones de pesos)
y = 3.1838x - 0.9621
R = 0.8219
0
5
10
15
20
25
30
0 2 4 6 8 10
y
y
Lineal (y)
y = 3.1838x + 0.9621
R = 1
0.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
0 2 4 6 8 10 12
y
y
Lineal (y)
PROGRAMA: EXCEL
LOS ANLISIS DE DATOS
ESTADISTICOS :
SE PUEDE APOYAR EN
HOJAS DE CALCULO EXCEL,
SPSS Y SUPERCEP
ING. BENITO SANTIAGO GUERRA
GRACIAS

You might also like