You are on page 1of 135

Conceptos bsicos de

Estadstica
Unidades de Aprendizaje

Unidad I : Estadstica descriptiva

Unidad II : Estadstica bivariada y regresin

Unidad III: Probabilidades y variables aleatorias


Aprendizajes Esperados

Identifica poblacin o muestra de un


estudio.

Identifica y clasifica una variable de


estudio.
Qu es Estadstica?

Conjunto de tcnicas y herramientas matemti-


cas que permiten recolectar, organizar, resumir,
analizar, describir e interpretar informacin cua-
litativa o cuantitativa de un grupo de observa-
ciones para apoyar procesos de toma de deci-
siones.
Tipos de Estadstica

Estadstica Descriptiva:

Este tipo de estadstica se ocupa de la


recopilacin y visualizacin de los datos
recolectados, para su posterior anlisis.
Tipos de Estadstica

Estadstica Inferencial

Es una parte de la Estadstica que comprende


los mtodos y procedimientos para deducir
propiedades (hacer inferencias) de una pobla-
cin, a partir de una pequea parte de la mis-
ma (muestra).
Poblacin

La constituye un conjunto de elementos,


personas o medidas, que tienen entre s
alguna caracterstica comn, que permita
obtener un objeto u objetivo de estudio.
1. Los estudiantes de una determinada
carrera del DuocUC
2. Los habitantes de un pas
3. Conjunto de piezas defectuosas y no
defectuosas que produce una fbrica
en un da determinado.
Muestra

La constituye un subconjunto de la pobla-


cin. Por ejemplo:
1. 30 de los estudiantes de una deter-
minada carrera del DuocUc.
2. 2500 habitantes de un pas.
3. 1200 piezas seleccionadas para un con-
trol de calidad en un da determinado.
Estadstico o Estadgrafo

Es la medida de una caracterstica relativa a


una muestra que permite obtener
conclusiones respecto del comportamiento de
ciertos parmetros.

Moda
Media
Mediana
Varianza
Desviacin estndar
Variable

Caracterstica o propiedad que toma cualquier


valor (cualitativo o cuantitativo)

La altura de un conjunto de personas.

El sueldo semanal de los trabajadores


de cierta empresa.

El sexo de hijos de un grupo de


personas.
Tipos de Variable

Variables Cuantitativas:

Son las variables que se expresan mediante


cantidades numricas. Estas pueden ser:

1. Discretas: Es la variable que presenta


separaciones o interrupciones en la escala de
valores que puede tomar. Por ejemplo:

Nmero de hijos en una familia.


Cantidad de automviles usados vendidos
en un fin de semana.
Tipos de Variable

2. Continuas: Es la variable que puede


adquirir cualquier valor dentro de un intervalo
especificado de valores.

Estatura de los estudiantes de un tercer ao


medio en centmetros.
Peso de una caja de naranjas en kilos.
Tiempo de espera en una caja de
supermercado.
Tipos de Variable

Variables Cualitativas:

Sus valoren corresponden a conceptos, atri-


butos, o cualidades. Ests se pueden clasifi-
car en:

1. Nominales. Permiten clasificar o distin-


guir entre categoras. Nombran, pero no mi-
den la variable. Por ejemplo:

Nacionalidad.
Estado civil.
Tipos de Variable

2. Ordinales. Permiten establecer relacio-


nes de orden entre los datos de la variable:
mayor, menor o igual.

Nivel socioeconmico (alto, medio, bajo).

Rendimiento acadmico (excelente,


regular, deficiente).

Etc.
En resumen
En resumen

Variables

Cuantitativas Cualitativas

Discretas Continuas Nominales Ordinales


Ejercicio:

En los siguientes casos identifique la Poblacin, la Variable en


cuestin y determine su clasificacin:

a) En la empresa Alfa se desea estudiar el nmero de horas


no trabajados por sus empleados.
b) En una fbrica se desea medir el tiempo que cada
trabajador demora en armar cierto producto.
c) En una empresa de seguros se desea estudiar el monto
de las primas contratadas por los clientes.
d) En la Municipalidad de Santiago se estudia las marcas de
automviles que tienen su patente en dicha
Municipalidad.
e) En un instituto Profesional se estudia las carreras que los
alumnos siguen.
f) En una cooperativa se desea estudiar el nivel de
educacin que tienen sus socios.
Tablas de distribucin
de Frecuencia
Aprendizajes Esperados

Construye una tabla de distribucin


de frecuencias.

Interpreta elementos de una tabla de


frecuencia.
UNIDAD DE APRENDIZAJE N1:

ESTADISTICA
DESCRIPTIVA
Carga mxima (ton) Mc f F h (%) H (%)

9,2 - 9,8 9,5 8 8 8 8


9,8 - 10,4 10,1 12 20 12 20
10,4 - 11,0 10,7 18 38 18 38
11,0 - 11,6 11,3 20 58 20 58
11,6 - 12,2 11,9 30 88 30 88
12,2 - 13,0 12,6 12 100 12 100
Totales 100 100
TABLA DE FRECUENCIA

Cmo presentara usted los siguientes datos,


correspondendientes a los montos de ventas
(en miles de pesos) de una tienda en sus
primeras 200 transacciones existosas con
tarjetas de pago electrnica (dbito o crdito)
usando la clave denominada PinPass?
TABLA DE FRECUENCIA
33,67 54,00 53,00 134,00 178,00 39,33 61,33 186,00 35,00 62,00
55,50 155,00 47,00 71,50 72,00 60,67 119,00 152,00 110,00 58,00
134,00 61,00 53,67 135,00 54,00 83,00 86,50 156,00 59,50 164,00
55,50 64,50 93,00 146,00 64,33 163,00 131,00 41,33 35,67 66,67
188,00 60,00 58,67 155,00 68,00 89,50 39,00 66,67 199,00 44,00
92,00 170,00 135,00 192,00 61,00 82,00 66,00 61,33 55,50 176,00
40,33 187,00 42,00 91,50 53,50 57,67 33,33 173,00 188,00 58,00
60,50 116,00 53,33 66,67 135,00 45,33 142,00 178,00 90,00 151,00
97,00 55,67 80,00 56,67 105,00 161,00 189,00 53,67 75,00 65,50
89,00 42,00 174,00 52,67 123,00 45,00 58,00 84,50 44,33 51,33
37,33 199,00 33,67 112,00 171,00 120,00 98,50 54,67 59,33 65,00
103,00 59,00 64,33 142,00 128,00 73,00 55,50 61,00 35,00 144,00
38,00 76,50 142,00 61,33 76,00 91,00 193,00 91,50 92,00 118,00
116,00 146,00 61,00 129,00 56,50 117,00 51,00 61,00 71,50 160,00
70,50 34,33 65,00 163,00 90,50 66,67 169,00 41,67 40,67 133,00
64,00 79,00 61,67 125,00 34,67 122,00 167,00 103,00 84,50 53,33
69,00 63,50 111,00 51,00 35,33 61,00 67,50 65,50 40,00 66,67
84,00 42,67 188,00 35,33 57,00 64,67 169,00 67,50 34,67 63,00
97,50 165,00 99,50 55,00 143,00 82,00 177,00 66,50 34,33 88,50
64,00 186,00 149,00 205,80 125,00 90,50 145,00 50,00 64,67 34,33
TABLA DE FRECUENCIA
TABLA DE FRECUENCIA

Para calcular el nmero de intervalos se utiliza la


frmula:

N de intervalos=1+3,3log(n)

Donde n es el total de datos.


TABLA DE FRECUENCIA

Frecuencia absoluta:

Este tipo de frecuencia la denotaremos por fi y


representa el nmero de elementos que
pertenecen a la clase (Intervalo) i-sima .

Frecuencia absoluta acumulada:

Se denota por Fi y corresponde a la suma de la


frecuencia absoluta de la i-sima clase
(Intervalo) y todas las anteriores.
TABLA DE FRECUENCIA
Frecuencia relativa:

Se denota por hi y corresponde al cociente entre


la frecuencia absoluta de la i-sima clase (Inter-
valo) y n. Tambin es posible expresarla en for-
ma porcentual multiplicando este cociente por
100.

Frecuencia relativa acumulada:

Se denota por Hi y corresponde a la suma de la


frecuencia relativa de la i-sima clase (Inter-
valo) y todas las anteriores.
TABLA DE FRECUENCIA

Ejercicio:
Grficos
Y
Tablas de Frecuencia
Aprendizajes Esperados

Interpreta grficos de distribuciones de


datos.
UNIDAD DE APRENDIZAJE N1:

ESTADISTICA
DESCRIPTIVACarga mxima (ton)

9,2 - 9,8
Mc

9,5 8
f F

8
h (%)

8
H (%)

8
9,8 - 10,4 10,1 12 20 12 20
10,4 - 11,0 10,7 18 38 18 38
11,0 - 11,6 11,3 20 58 20 58
11,6 - 12,2 11,9 30 88 30 88
12,2 - 13,0 12,6 12 100 12 100
Totales 100 100
TABLA DE FRECUENCIA
TABLA DE FRECUENCIA

fi : Frecuencia absoluta

Fi : Frecuencia absoluta acumulada

hi : Frecuencia relativa

Hi: Frecuencia relativa acumulada

Mci : Marca de clase


Grfico circular o de torta
Tiempo de espera (min) obs.
6-8 10 Tiempo de espera en minutos en ser atendido
8 - 10 16 en una casa comercial
10 - 12 8
14 - 16
12 - 14 12 8.00%

14 - 16 4 6-8
20.00%
12 - 14
24.00% 6-8
8 - 10
10 - 12
10 - 12 8 - 10
12 - 14
Sirve para representar 16.00% 32.00%
14 - 16
frecuencia relativa (h).

Se aplica para cualquier


tipo de variable.
Histograma

Tiempo de espera (min) obs.


6-8 10
8 - 10 16
10 - 12 8 Tiempo de espera en minutos en ser atendido
en una casa comercial
12 - 14 12
16
14 - 16 4
16
10
14 12 6-8
- Sirve para representar 12 8 - 10

frecuencias en 10 8 10 - 12
8
variables continuas.
12 - 14
6 14 - 16
4
4

- Se aplica a frecuencias 2
0
absolutas y relativas. 6-8
8 - 10
10 - 12
12 - 14
14 - 16
Ojiva ascendente
Sueldos mensuales
(miles de $)
100 200 25 25
200 300 36 61
Sueldos empleados empresa Alfa (MM$)
300 - 400 63 124
200
400 - 500 47 171 180
500 - 600 12 183 160
140

Frecuencia
120
- Sirve para representar 100
slo frecuencias 80

acumuladas. 60
40
20
- Se aplica a variables 0

ordinales y cuantitativas.
100-200 200-300 300-400 400-500 500-600
Sueldos (MM$)
Polgono de Frecuencias

Sueldos mensuales - Sirve para representar el compor-


(miles de $) tamiento de las frecuencias absolu-
100 200 25 25 tas.
200 300 36 61
300 - 400 63 124 Sueldos empleados empresa Alfa (MM$)
400 - 500 47 171 70
500 - 600 12 183 60

50

Frecuencia
40

30

20
- Se aplica a variables con- 10
tinuas. 0
0-100 100-200 200-300 300-400 400-500 500-600 600-700

Sueldos (MM$)
Ejercicio de Grficos y Tablas

Ej. El histograma siguiente resume grficamente informacin de


un estudio realizado por la empresa de alimentos Adolfn,
concerniente al consumo mensual de bebidas isotnicas en
litros, de mujeres sobre los 25 aos que practican algn tipo de
actividad fsica regular:
Se pide:
a) Identifique la poblacin en estudio, la variable y de qu tipo
es.

b) Construya una tabla de frecuencias.

c) Interprete f2, h4, F3 y H5.


Ejercicio de Grficos y Tablas
Ej. El siguiente Histograma presenta el nmero de pasajeros de
50 vuelos de una empresa area.

Pasajeros por vuelo

20 18
18
16
14 12
12
10 8
8 7
6
4 3
2
2
0
50-60 60-70 70-80 80-90 90-100 100-110
Se pide:
a) Identifique la poblacin en estudio, la variable y de qu tipo
es.

b) Construya una tabla de frecuencias.

c) Interprete f3, h5, F2 y H4 .


Grficos y Tablas de
Frecuencia
en Excel
Aprendizajes Esperados

Construye una tabla de distribucin de


frecuencias con herramientas de anlisis
de datos en Excel.

Dibuja un histograma con herramientas


de anlisis de datos en Excel .
TABLA DE FRECUENCIA

Cmo presentara los siguientes datos que corresponden


a los montos de ventas (en miles de pesos) de una tienda
en sus primeras 200 transacciones exitosas con tarjetas
de pago electrnica -Dbito o Crdito-, usando la clave
denominada PinPass?
Imagine la siguiente situacin al respecto:
33,67 54,00 53,00 134,00 178,00 39,33 61,33 186,00 35,00 62,00
55,50 155,00 47,00 71,50 72,00 60,67 119,00 152,00 110,00 58,00
134,00 61,00 53,67 135,00 54,00 83,00 86,50 156,00 59,50 164,00
55,50 64,50 93,00 146,00 64,33 163,00 131,00 41,33 35,67 66,67
188,00 60,00 58,67 155,00 68,00 89,50 39,00 66,67 199,00 44,00
92,00 170,00 135,00 192,00 61,00 82,00 66,00 61,33 55,50 176,00
40,33 187,00 42,00 91,50 53,50 57,67 33,33 173,00 188,00 58,00
60,50 116,00 53,33 66,67 135,00 45,33 142,00 178,00 90,00 151,00
97,00 55,67 80,00 56,67 105,00 161,00 189,00 53,67 75,00 65,50
89,00 42,00 174,00 52,67 123,00 45,00 58,00 84,50 44,33 51,33
37,33 199,00 33,67 112,00 171,00 120,00 98,50 54,67 59,33 65,00
103,00 59,00 64,33 142,00 128,00 73,00 55,50 61,00 35,00 144,00
38,00 76,50 142,00 61,33 76,00 91,00 193,00 91,50 92,00 118,00
116,00 146,00 61,00 129,00 56,50 117,00 51,00 61,00 71,50 160,00
70,50 34,33 65,00 163,00 90,50 66,67 169,00 41,67 40,67 133,00
64,00 79,00 61,67 125,00 34,67 122,00 167,00 103,00 84,50 53,33
69,00 63,50 111,00 51,00 35,33 61,00 67,50 65,50 40,00 66,67
84,00 42,67 188,00 35,33 57,00 64,67 169,00 67,50 34,67 63,00
97,50 165,00 99,50 55,00 143,00 82,00 177,00 66,50 34,33 88,50
64,00 186,00 149,00 205,80 125,00 90,50 145,00 50,00 64,67 34,33
Regla de Sturges:

Calculamos el tamao de la muestra:

Calculamos el valor mximo de la muestra:

Calculamos el valor mnimo de la muestra:


Regla de Sturges:

Calculamos el nmero de intervalos:

Calculamos el rango de valores de la muestra:

Calculamos la amplitud de cada intervalo:


Regla de Sturges:
Construimos la tabla de frecuencias:

Lmite Inferior Lmite Superior


33,33 52,50
52,50 71,67
71,67 90,84
90,84 110,01
110,01 129,18
129,18 148,35
148,35 167,52
167,52 186,69
186,69 205,86

Usaremos para esto la aplicacin Anlisis de Datos.


Esto se hace una sola vez en Excel:
Usamos la opcin Anlisis de Datos:
Medidas de Tendencia
Central
Aprendizajes Esperados

Calcula medidas de tendencia central,


utilizando funciones de Excel.

Interpreta medidas de tendencia central.


MEDIA

La media (o promedio) es la suma de todos los


datos, dividida por la cantidad total de datos.

Su smbolo es:

X
MEDIA LISTA DE DATOS

Se puede resumir en la siguiente frmula:


k

x i
x i 1

Ejemplo:
n

Calcule, utilizando su calculadora en modo


estadstico, la media de las siguientes notas e
interprete su valor.

5,5 ; 4,8 ; 6,2 ; 7,0 ; 6,7


MEDIANA

Es el dato central, el 50% de los datos es mayor


(menor) que el. Divide a los datos en dos partes
iguales (de acuerdo al n de datos)

Nota: es importante que los datos estn ordenados.


MEDIANA LISTA DE DATOS
MEDIANA LISTA DE DATOS

En este caso es el promedio de los dos


datos, es decir 8
MODA

Es el dato que tiene una mayor frecuencia, es


decir, es el dato que ms se repite en una
muestra.
MODA LISTA DE DATOS

Sea la lista de datos dada por:

Podemos decir que, en este caso, la moda es 510


Ejercicio de Medidas de Tendencia Central
Se realiza un estudio para determinar el tiempo (en minutos) de duracin que tienen las
llamadas efectuadas por los clientes del carrier 111 hacia el extranjero. Para ello se tom
una muestra aleatoria de 180 llamadas que utilizaron este carrier, obtenindose los
siguientes datos. Calcule e interprete las medidas de tendencia central.

21 18 23 24 25 44 37 24 28 14 36 45 39 22 17 21 35 33 18 16

37 38 44 25 13 39 26 42 41 13 15 14 45 24 42 20 16 41 36 12

29 21 18 25 20 35 45 25 19 14 16 17 16 19 21 23 14 29 38 31

15 43 18 19 18 45 43 43 37 34 50 36 35 39 23 33 15 37 16 23

27 15 30 26 20 24 39 34 45 30 43 43 28 21 17 20 31 36 17 43

44 16 35 33 22 32 24 33 27 24 17 29 43 38 21 28 14 44 41 34

23 38 12 30 27 23 23 26 32 16 43 27 12 23 26 24 30 24 42 13

45 35 12 26 21 44 12 13 48 34 19 37 26 42 34 38 38 40 28 32

24 23 27 25 38 36 37 45 34 40 34 39 26 39 22 26 31 44 37 15
Utilizando funciones de Excel:

Calculamos la media de la muestra, con la frmula:

= PROMEDIO (celda inicial : celda final)

Calculamos la moda de la muestra, con la frmula:

= MODA (celda inicial : celda final)

Calculamos la mediana de la muestra, con la frmula:

= MEDIANA (celda inicial : celda final)


Frmula Valor Interpretacin

En promedio el tiempo de las llamadas


al extranjero que utilizan el carrier
Media PROMEDIO(A1:T9) 28,82
111, es de aproximadamente 28,8
minutos.

El tiempo de las llamadas al extranjero


Moda MODA(A1:T9) 23 que utilizan el carrier 111, que ms se
repite de 23 minutos.

El 50% de las llamadas al extranjero


Mediana MEDIANA(A1:T9) 27,5 que utilizan el carrier 111, tienen una
duracin de a lo ms 27,5 minutos.
EN RESUMEN

MEDIDAS DE TENDENCIA CENTRAL

- MEDIA
- MODA
- MEDIANA
Medidas de Posicin
Aprendizajes Esperados

Interpreta medidas de posicin.

Calcula medidas de posicin, utilizando


funciones de Excel.
Medidas de Posicin No central

Dentro de estos otros parmetros importantes,


encontramos los llamados Cuantiles. Son
aquellos que dividen los datos de la distribucin
en funcin de otras cantidades. Entre ellos,
destacaremos a:

Los Cuartiles
Los Quintiles
Los Deciles y
Los Percentiles.
CUANTILES

Los percentiles son valores que dividen a la


muestra ordenada en forma ascendente (o
descendente) en 100 partes iguales.

Un percentil de orden k, denotado por Pk , es


aquel valor de la variable que deja atrs al k% de
los datos.

As mismo definimos a los Cuartiles, los Quintiles


y los Deciles, en donde particionaremos la
muestra en 4, 5 y 10 respectivamente.
CUANTILES
Y podemos hacer distintas asociaciones, por
ejemplo, decir que:

Q1 corresponde al percentil 25
Me corresponde al percentil 50
Q3 corresponde al percentil 75

Desde este mismo enfoque, podremos hablar de


Rango intercuartil, pensando en la diferencia
entre dos cuartiles consecutivos.

Por ejemplo: Q3- Q1


Ejercicio de Medidas de posicin
Usted es asesor estadstico de una importante institucin de educacin superior. En estos
momentos se encuentra analizando los rendimientos acadmicos de los estudiantes en la
asignatura de Estadstica. Para tal efecto, se consider una muestra aleatoria de 200
alumnos con la nota de presentacin a examen del primer semestre del 2010, jornada
Vespertina. Con esta informacin, se pide:

a) Calcular e interpretar el percentil 75.

b) Calcular e interpretar el cuartil 1.

c) La institucin de educacin superior, con el fin de ayudar a sus estudiantes, crear


cursos de reforzamiento para todos los alumnos cuya nota de presentacin a examen,
estn en el 15% ms bajo. Cul es rango de notas, para que los alumnos sean
beneficiado con esta medida?

d) Qu porcentaje de los alumnos tienen una nota de presentacin a examen entre 5,2
y 6,5?

e) Qu porcentaje de los alumnos tienen nota de presentacin a examen sobre 4,0 ?


Ejercicio de Medidas de posicin

4,5 4,2 4,6 4,1 4,8 5,0 3,8 6,0 5,5 5,9 5,0 6,6 4,9 5,0 4,4 4,5 4,8 4,9 4,8 4,5

5,4 5,9 5,4 5,0 4,6 5,2 4,0 4,6 4,6 4,9 4,0 5,2 4,2 3,7 5,5 5,0 5,0 5,0 5,1 4,2

5,8 4,5 4,9 4,8 4,4 5,1 5,2 5,5 5,7 6,6 3,9 5,2 4,7 4,5 4,7 5,0 5,4 5,1 5,3 4,6

4,5 5,2 3,4 3,5 4,0 4,6 5,1 5,5 4,5 4,5 4,3 3,6 6,0 3,9 5,0 4,6 4,4 5,1 4,7 3,5

6,0 4,3 5,4 4,7 4,9 4,1 4,9 4,7 4,9 6,0 6,4 4,8 4,6 5,6 5,3 4,3 3,9 5,5 3,9 4,9

4,5 3,2 5,8 5,0 4,8 5,4 6,5 5,2 5,3 4,1 4,8 5,1 4,4 4,9 4,0 4,3 4,0 4,9 4,9 5,4

4,9 5,3 5,2 6,7 3,6 5,1 5,1 5,1 5,3 5,4 4,7 4,8 4,7 5,2 3,8 4,4 5,6 5,0 4,7 4,8

6,4 4,2 5,1 6,2 4,4 5,1 6,3 4,5 4,0 5,4 4,4 4,8 5,1 4,5 5,5 6,1 4,7 4,4 5,1 5,4

5,1 5,2 6,6 4,0 4,0 4,7 5,4 4,6 4,6 4,7 5,0 5,4 4,2 4,2 5,6 4,5 6,0 5,2 4,7 4,8

5,7 5,7 4,3 5,5 4,8 4,6 4,3 4,6 4,8 5,2 5,9 6,0 5,4 6,0 3,7 4,2 3,5 4,8 4,6 3,2
Utilizando funciones de Excel:

Calculamos percentil de la muestra, con la frmula:

= PERCENTIL (celda inicial : celda final ; porcentaje)

Calculamos el porcentaje de la muestra, con la frmula:

= RANGO.PERCENTIL (celda inicial : celda final ; dato)


Frmula Valor Interpretacin

El 75% de los alumnos tienen a lo ms


a) PERCENTIL(B2:U11;75%) 5,3 un 5,3 de nota de presentacin a
examen.

El 25% de los alumnos tienen a lo ms


b) PERCENTIL(B2:U11;25%) 4,5 un 4,5 de nota de presentacin a
examen.

La nota mxima para obtener el


c) PERCENTIL(B2:U11;15%) 4,2
beneficio debe ser 4,2.

RANGO.PERCENTIL(B2:U11;6,5) El 29,1% de los alumnos tienen entre


d) - 29,1% 5,2 y 6,5 de nota de presentacin a
RANGO.PERCENTIL(B2:U11;5,2) examen.

El 92% de los alumnos tienen sobre un


e) 1-RANGO.PERCENTIL(B2:U11;4) 92%
4,0 de nota de presentacin a examen.
Medidas de
Dispersin
Aprendizajes Esperados

Calcula medidas de dispersin.

Interpreta medidas de dispersin.


Estadstica Descriptiva

Indicadores Estadsticos

Posicin o Dispersin
localizacin

Tendencia central Tendencia no


central

Rango
Media Varianza
Moda Percentil Desviacin tpica
Mediana Coeficiente de variacin
Medidas de dispersin

Las medidas de tendencia central no reflejan la variabilidad o


dispersin del grupo de datos.

Ejemplo: edades de dos grupos.

Grupo 1 Grupo 2
19-20-20-19-22 28-32-30-4-6
Media: 20 Media: 20

Cmo medir la dispersin?


Medidas de dispersin

1. Rango: xmax xmin X: variable cuantitativa


(Rango: Dato mayor Dato menor)

Rango Intercuartil: Q3 Q1

Inconveniente: solo dependen de dos valores.


Medidas de dispersin

2. Varianza
Varianza: Representa el promedio de las desviaciones (distancias) con
respecto a la media elevadas al cuadrado.

Inconveniente: tiene las unidades de X, pero elevado a 2.


Nota:
Varianza poblacional: 2

xi x
2

X X
2 2

Varianza muestral: S 2

x i x
2

n 1
Medidas de dispersin

3. Desviacin Estndar:
Desviacin estndar: es la raz cuadrada de la varianza. Distinguiremos
entre:
x x
2

Desviacin estndar Poblacional: 2 X 2 X


2
i

n

x
2
x
Desviacin estndar Muestral: S S 2
i

n 1

Inconveniente: no sirve para comparar grupos de distinta variable.


Medidas de dispersin

Una propiedad importante de la desviacin estndar en datos que


se distribuyen en forma normal.
Medidas de dispersin

S
Coeficiente de Variacin: CV
X X
Coeficiente de Variacin: es la desviacin estndar dividida por el
promedio. Generalmente se expresa en porcentaje

Observaciones:
1. Si se multiplica por 100 queda la dispersin en porcentaje.

2. Permite comparar grupos de datos de distintas variables.


Medidas de dispersin

CV
- +

Datos Datos
ms homogneos ms dispersos
Medidas de dispersin

Homogneo: Igual, indiferenciado, uniforme, semejante, similar,


idntico, analgico.

Heterogneo: Diverso, variado, dispar, hbrido, mezcla-do, distinto,


mltiple.
Medidas de dispersin

Ejemplo: Edades y sueldos de 5 personas.

Edades (aos) Sueldos (M$)


30-28-29-35-26 540-620-580-640-510
CV = 11,4% CV = 9,3%

Conclusin: los sueldos son ms homogneos que las edades de


estas cinco personas.
EJERCICIO:
Medidas de Distribucin:
Coeficiente de Asimetra y
Coeficiente de Curtosis
Aprendizajes Esperados

Interpreta medidas de distribucin o forma.


Coeficiente de asimetra de Fisher
(g1 = 0): Se acepta que la distribucin es
Simtrica, es decir, existe aproximadamente la
misma cantidad de valores a los dos lados de la
media. Este valor es difcil de conseguir por lo
que se tiende a tomar los valores que son
cercanos ya sean positivos o negativos ( 0.5).

(g1 > 0): La curva es asimtricamente positiva


por lo que los valores se tienden a reunir ms
en la parte izquierda que en la derecha de la
media.

(g1 < 0): La curva es asimtricamente


negativa por lo que los valores se tienden a
reunir ms en la parte derecha de la media.
Coeficiente de asimetra de Fisher

Interpretacin
Esta medida nos permite identificar si los datos se distribuyen de
forma simtrica alrededor del punto central (Media aritmtica).

Se dice que la asimetra es positiva cuando la mayora de los


datos se encuentran por encima del valor de la media aritmtica, la
curva es Simtrica cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se conoce como
asimetra negativa cuando la mayor cantidad de datos se aglomeran
en los valores menores que la media.
EN RESUMEN
Medidas de distribucin

Coeficiente de Asimetra de Fisher (sesgo):


Muestra cmo se distribuyen los datos con respecto a la media.

g1 < 0 g1 = 0 g1 > 0

( 0,5)
Coeficiente de Curtosis (Apuntamiento)
(g2 = 0) la distribucin es Mesocrtica: Al
igual que en la asimetra es bastante
difcil encontrar un coeficiente de
Curtosis de cero (0), por lo que se suelen
aceptar los valores cercanos ( 0.5
aprox.).

(g2 > 0) la distribucin es Leptocrtica.

(g2 < 0) la distribucin es Platicrtica.


Coeficiente de Curtosis (Apuntamiento)

Interpretacin

Esta medida determina el grado de concentracin que presentan


los valores en la regin central de la distribucin. Por medio del
Coeficiente de Curtosis, podemos identificar si existe una gran
concentracin de valores (Leptocrtica), una concentracin normal
(Mesocrtica) una baja concentracin (Platicrtica).
EN RESUMEN
Medidas de distribucin

Coeficiente de Curtosis (apuntamiento):


Muestra la concentracin de los datos alrededor de la media.

g2 > 0 g2 = 0 g2 < 0

( 0,5)
Distribucin de
Frecuencias
Bidimensionales
Aprendizajes Esperados

Identifica las variables de estudio.

Describe la relacin entre las variables de


estudio.

Calcula e Interpreta medidas condicionadas


y tendencia central.
TABLAS BIDIMENSIONALES

Una tabla de frecuencias bidimensional tambin es llamada


tabla de frecuencias bivariada y lo que es hace es resumir
la distribucin de frecuencias de dos variables de manera
simultnea.
TABLAS BIDIMENSIONALES
TABLAS BIDIMENSIONALES
En donde

nij : es la frecuencia conjunta del valor de la clase xi y


del valor de la clase yj .
ni : es la frecuencia marginal de la clase xi
nj : es la frecuencia marginal de la clase yj
n : es el tamao de la muestra.

Adems se cumple que:


EJEMPLO 1:

Se obtuvo la siguiente informacin acerca del nmero de


aos de estudio Y y la edad X, de un grupo de personas de
una localidad del sur de Chile:
EJEMPLO 1

Se quiere calcular el promedio de edad de las personas que


estudiaron 14 aos.
EJEMPLO 1
Se transforma en un problema de una sola variable.
EJEMPLO 2:
Se desea estudiar el promedio de Aos de estudio, pero
slo de aquellas personas menores de 26 aos
EJEMPLO 2
Nuevamente se transforma en un problema de una sola
variable.
EJERCICIO 1:
EJERCICIO 2:
Modelos de Regresin
I Parte
Se ha preguntado alguna vez, si existe
algn tipo de relacin entre su peso corporal
y su edad?
Qu vamos a estudiar?

Las diferentes formas de describir la relacin (si es que existe)


entre dos variables, cada vez que estemos trabajando con
variables numricas.

Por ejemplo:

Estudiar si hay relacin entre la altura y el peso de una


persona.
Modelos de Regresin

Un modelo de regresin es a una funcin Matemtica f que


intenta modelar probabilsticamente una Variable Respuesta en
estudio, en relacin a uno o ms predictores de inters.

El anlisis de regresin sirve para predecir una medida Y


en funcin de otra medida X (o varias).

En tal caso, diremos que:

Y = Variable dependiente.
X = Variable independiente, explicativa o predictora.

Y se escribe Y = f(X) (Se lee: Y est en funcin de X)


Tipos de Modelos

Existen numerosos tipos de modelos de regresin, sin


embargo, siempre debe ser el comportamiento de las variables lo
que nos indique la conveniencia de utilizar uno u otro para realizar
estimaciones o intentar predecir algn valor a partir de dicho
modelo.

Entre los modelos de regresin ms conocidos,


encontraremos:

- Modelo de regresin Lineal.


- Modelo de regresin Exponencial.
- Modelo de regresin Logartmica.
etc.
Cmo elegir un buen modelo
de regresin?
Diagrama de Dispersin
Una representacin grfica til para describir el
comportamiento conjunto de dos variables es el diagrama de
dispersin o nube de puntos, donde cada caso aparece
representado como un punto en el plano definido por las
variables X e Y.
Variable dependiente

Variable independiente
o predictora.
Pero ojo, que un diagrama o grfico de dispersin nos
aportar informacin slo en la medida que conozcamos
y seamos capaces de distinguir entre los distintas
curvas de tales funciones.

Por esta razn, es importante conocer y distinguir entre


las grficas de algunas funciones recurrentes en esta
materia:

Grfico de una Grfico de una


funcin Lineal funcin Logartmica
Grfico de una
Funcin Exponencial
Covarianza de dos variables X e Y
La covarianza entre dos variables, Sxy, nos indica si la posible
relacin entre dos variables es directa o inversa. Diremos que:

Hay una relacin Directa o positiva: Sxy >0


(es decir, a grandes valores de x corresponden
grandes valores de y).
Hay una relacin Inversa o negativa: Sxy <0
(es decir, a grandes valores de x corresponden
pequeos valores de y).

IMPORTANTE: El signo de la covarianza nos dice si el aspecto


de la nube de puntos es creciente o decreciente, pero no nos da
informacin con respecto al grado de relacin entre las variables.
Relacin directa e inversa
80
110
Fuerte relacin 70 Cierta relacin
90 directa. 60 inversa
50
70 40
30
50 20
10
30
0
140 150 160 170 180 190 200
140 150 160 170 180 190 200

Esto se llama relacin directa o Esto es relacin inversa o


creciente. decreciente.
330

280 Incorrelacin
230

180

130

80

30
140 150 160 170 180 190 200

Incorrelacin.
Modelo de Regresin
Lineal
Modelo de Regresin Lineal

En el modelo de regresin lineal simple, dadas dos variables Y


(dependiente) y X (independiente, explicativa, predictora),
buscamos encontrar una funcin de X, que es muy simple (lineal),
que nos permita aproximar Y mediante

Y = a + bX
Donde
a : (ordenada en el origen, coeficiente de posicin, constante.)
b : (pendiente de la recta)

Y e Y rara vez coincidirn por muy bueno que sea el modelo de


regresin. A la cantidad
e = Y-Y se le denomina residuo o error residual.
Modelo de regresin lineal

Ejemplo:
Observamos dos variables en varios
individuos de una muestra.
Altura Peso
En cada fila tenemos los datos de un en cm. en Kg.
individuo 162 61
154 60
Cada columna representa los valores que 180 78
toma una variable sobre los mismos. 158 62
171 66
Las individuos no se muestran en ningn 169 60
orden particular.
166 54
176 84
Construimos un diagrama de dispersin
para intentar reconocer a partir del mismo si 163 68
hay relacin entre las variables, de qu tipo,
y si es posible predecir el valor de una de
ellas en funcin de la otra.
Modelo de regresin lineal

Diagrama de dispersin
Modelo de regresin lineal

Algo importante, antes de seguir.

Coeficiente de correlacin lineal


de Pearson
S
xy
Rxy
S S
x y

Para qu sirve el Rxy?

El coeficiente de correlacin lineal de Pearson de dos


variables, Rxy, es el que nos indica si los puntos tienen una
tendencia a disponerse alineadamente, es decir, si existe una
tendiente relacin lineal entre las variables (excluyendo
rectas horizontales y verticales).
Adems:

Tiene el mismo signo que Sxy , por tanto, de su signo


podremos deducir el que la posible relacin sea directa o
inversa.

Rxy es til para determinar si hay relacin lineal entre dos


variables, pero no servir para otro tipo de relaciones
(cuadrtica, logartmica,...)
Modelo de regresin lineal

Propiedades de Rxy
- Es adimensional (No posee unidades de medida)
- Slo toma valores en [-1,1]
- Las variables son incorrelacionadas r=0
- Relacin lineal perfecta entre dos variables r=+1 o r=-1
- Cuanto ms cerca est r de +1 o -1 mejor ser el grado
de relacin lineal.

Relacin
inversa Relacin
perfecta directa
Variables
casi
incorrelacionadas
perfecta

-1 0 1
En Excel podremos modelar nuestra situacin y obtener el
siguiente Modelo de Regresin lineal Simple:

Peso = 0,8007 * (Altura en cm) - 67,468

Tales valores se pueden


obtener fcilmente
utilizando la herramienta
Excel
En el cual

0,8007 significa que por cada centmetro de altura, el peso


sufre una variacin positiva de 0,8007 kilos.
A modo de ejercicio

Si una persona mide 170 cm, podramos segn el modelo, estimar


que esta debera pesar:

Peso = 0,8007 * 170 - 67,468 = 68,65 (kilos)

As mismo, una persona que mide 185 cm, segn nuestro modelo,
se estima que debera pesar:

Peso = 0,8007 * 185 - 67,468 = 80,66 (kilos)


Interpretacin de
Coeficientes de Regresin
Lineal
Aprendizajes Esperados

Interpreta el coeficiente de correlacin


lineal y el coeficiente de determinacin.

Interpreta el coeficiente de posicin y la


pendiente de un modelo de regresin
lineal.

Construye un modelo de regresin lineal


con Excel.
REGRESIN LINEAL
Ejemplo:

El Director de un Camping ha observado durante la tem-


porada de verano, la temperatura media y los litros de
agua que los clientes han comprado en el supermercado del
Camping en cada semana .
T Lts Agua
22 1000
31 1950
Donde el modelo de regresin es:
30 1800
28 1750
y = - 721,3+ 87,35x
25 1600
26 1550
30 2000
20 1050
18 900
REGRESIN LINEAL

Qu significa que r sea 0,97?

Significa que existe una alta correlacin lineal, con


pendiente positiva.

Qu significa que a sea -721,3?


En este caso no tiene sentido la interpretacin de a.
Por qu?
REGRESIN LINEAL

Qu significa que b sea 87,35?

Significa que por cada grado de temperatura promedio


semanal aumenta en 87,35 litros el consumo de agua.

Qu significa r2 sea 0,94?


Significa la variable independiente influye en un 94% en
la variable dependiente.
EJERCICIO:

Una agencia de publicidad estudia el aumento de las ventas


dado un aumento en los gastos de publicidad.

% Aumento % Aumento
Publicidad Ventas
1 2
11 14
9 11
8 9
6 4
7 9
10 11

Construya el modelo de regresin lineal e interprete los 4


indicadores vistos anteriormente.

You might also like