You are on page 1of 92

Conceptos Bsicos

Estadstica
y Probabilidades

1
Definiciones
Estadstica y Probabilidades

2
Qu es Estadstica?

La estadstica se ocupa de los mtodos y


procedimientos para recoger, clasificar,
resumir,hallar regularidades y analizar los
datos disponibles, as como de realizar
inferencias a partir de ellos con el fin de
ayudar a la toma de decisiones y la
formulacin de predicciones. A. M. Montiel

3
Clasificacin
Estadstica Descriptiva: describe, analiza
y representa un grupo de datos utilizando
mtodos numricos y grficos que resumen y
presentan la informacin contenida en ellos.
EJEMPLO 1: Un estudio encontr que el 49% de las personas en una
muestra conoce el nombre del primer libro de la Biblia. El estadstico
49 describe el nmero por 100 personas que di la respuesta correcta.
EJEMPLO 2: De acuerdo a un Reporte sobre el Conusmidor, el 9% de los
nuevos propietarios de lavadoras Whirlpool reportaron problemas en
sus mquinas durante 1999. El estadstico 9 describe el nmero de
problemas reportados por cada 100 mquinas vendidas.

4
Clasificacin
Estadstica Inferencial: a partir de datos
muestrales, efecta estimaciones, decisiones,
predicciones y otras generalizaciones sobre
un conjunto mayor de datos (poblacin).
Una poblacin es un conjunto de todos los
posibles individuos, objetos o mediciones de
inters
Una muestra es un subconjunto, o parte, de
la poblacin de inters.
Clasificacin
EJEMPLO 1: Los canales de TV constantemente
monitorean la popularidad de sus programas
contratando empresas para muestrear las
preferencias de los televidentes.
EJEMPLO 2: El departamento de contabilidad de
una empresas selecciona una muestra aleatoria de
100 facturas y verifica la exactitud de cada una.
EJEMPLO 3: Los catadores de vinos seleccionan
muestras de vino para tomar una decisin con
respecto a la calidad del aejamiento para su
posterior venta.
Tipos de Variables
Variable Cualitativa o atributo: si la
caracterstica o variable que se
estudia no es numrica.
EJEMPLOS: Gnero, religin a la que
se pertenece, tipo de automvil que
se posee, lugar de nacimiento, color
de ojos.
Tipos de Variables

Variable Cuantitativa: si la variable


puede ser expresada numricamente.
EJEMPLO: Estado de una cuenta
corriente de cheques, minutos de
permanencia en clase, nmero de
nios en una familia.
Tipos de Variables
Las variables Cuantitativas pueden ser
clasificadas como discretas o continuas.
Variables Discretas: slo pueden asumir
ciertos valores, y suele haber huecos
entre los valores.
EJEMPLO: el nmero de camas en una casa
(1,2,3,..., etc...), el nmero de automviles
por hora que llegan a la salida de una
autopista, el nmero de estudiantes de
Estadstica de una clase.
Tipos de Variables
Variables Continuas: pueden asumir
cualquier valor dentro de un rango
especfico.
EJEMPLO: La presin de aire en una llanta,
el peso de un embarque de grano, la
cantidad de cereal en una caja, el tiempo
de vuelo entre Asuncin-Ciudad del Este.
Tipos de Variables
Datos

Cualitativos o atributos Cuantitativo o numrico


(tipo de coche que se tiene)
(color de bolgrafo)

Discreto Continuos
(nmero de nios) (tiempo para un examen)
(nmero de piezas en una casa (presin del aire en una llanta)
1-12

Niveles de Medicin
Datos de nivel nominal: Las
observaciones o datos slo pueden ser
clasificadas en categoras o contar. No
hay un orden particular para las
distintas clases.
EJEMPLOS: el color de los ojos, la
religin a la que se pertenece, el gnero.
1-13

Niveles de Medicin
(Datos de nivel nominal)
Mutuamente excluyentes: un individuo,
objeto o medicin pertenece nicamente a
una categora.
EJEMPLO : el color de los ojos.
Exhaustivas: cada individuo, objeto o
medicin debe pertencer a una de las
categoras.
EJEMPLO : religin a la que se pertenece.
1-14

Niveles de Medicin
Datos de nivel nominal: en este caso
tienen las siguientes propiedades
1-) las categoras son mutuamente
excluyentes y exhaustivas. Un objeto
pertenece a una y slo a una categora.
2-) las categoras no tienen un orden
lgico.
1-14

Niveles de Medicin
Datos de nivel ordinal: se refiere a datos que
pueden ser ordenados de alguna forma, pero las
diferencias entre los valores asignados a los
datos no puede ser determinado o no puede ser
considerado.
EJEMPLO : en una evaluacin al profesor se
puede calificar su manera de ensear de la
siguiente manera: Excelente con 5, Muy Bueno
con 4, Bueno con 3, Aceptable con 2 e
Insuficiente con 1
1-14

Niveles de Medicin
Datos de nivel ordinal: en este caso tienen
las siguientes propiedades:
1-) las categoras de datos son mutuamente
excluyentes y exhaustivas. Un objeto
pertenece a una y slo a una categora
2-) las categoras de datos estn clasificadas u
ordenadas de acuerdo con la caracterstica
especial que poseen
1-15

Niveles de Medicin
Datos de nivel de intervalo: tiene todas
las caractersticas del nivel ordinal, pero
adems, la diferencia entre dos valores es
de un tamao constante. El cero es slo
otro punto en la escala. No representa la
ausencia de la condicin.
EJEMPLO : Temperatura en la escala Celsius
1-15

Niveles de Medicin
Datos de nivel de intervalo: en este caso tienen las
siguientes propiedades:
1-) las categoras de datos son mutuamente
excluyentes y exhaustivas.
2-) las categoras de datos estn ordenadas de
acuerdo con la cantidad de la caracterstica que
poseen
3-) Diferencias iguales en la caracterstica estn
representadas por diferencias iguales en los
nmeros asignados a las categoras
1-16

Niveles de Medicin
Datos de nivel de razn: es el nivel de
midicin ms alto. El nivel de razn tiene
todas las caractersticas del nivel de
intervalo,pero, adems, el punto cero tiene
significado y la relacin entre dos nmeros
tiene sentido.
EJEMPLOS: salarios, unidades de produccin,
peso y altura.
1-16

Niveles de Medicin
Datos de nivel de razn: en este caso tienen las
siguientes propiedades:
1-) Las categoras de datos son mutuamente excluyentes y
exhaustivas
2-) Las categoras de datos estn ordenadas de acuerdo
con la cantidad de las caracterticas que poseen.
3-) Diferencias iguales en la caracterstica estn
representadas por diferencias iguales en los nmeros
asignados a las categoras.
4-) El punto cero refleja la ausencia de esa caracterstica
2-2

Distribucin de
Frecuencia
Distribucin de frecuencia: Es un
agrupamiento de datos en categoras
mutuamente excluyentes dando el
nmero de observaciones de cada
categora.
2-3

Construccin de una
Distribucin de Frecuencias
En qu momento se construye?

pregunta a recoleccin de datos organizacin de datos preentacin de datos elaborar una


ser respondida (raw data) (graph) conclusin

distribucin de frecuencia
Construccin de una
Distribucin de Frecuencias
Cmo se construye?
1-) Decida cuntas clases quiere.

2-) Determine el intervalo o la amplitud


de la clase

23
Construccin de una
Distribucin de Frecuencias
Cmo se construye?
3-) Fije los lmites de cada intervalo de
clase
Una distribucin de frecuencia tiene clases del
mismo tamao, el intervalo de clase es obtenido
restando el lmite inferior de una clase del lmite
inferior de la clase siguiente.
4-) Cuente el nmero de datos en cada
clase, es decir, la frecuencia de clase
24
2-4

Distribucin de
Frecuencia

Marca de clase (punto medio): Un


punto que divide una clase en dos
partes iguales. Este es el promedio
entre el lmite superior y el lmite
inferior de la clase.
2-4

Distribucin de
Frecuencia

r = Nmero de Clase
n = Nmero de Datos
log = Logaritmo
r = 1 + 3,3 log (n)
Rango de Intervalo (W)
W = Mximo Mnimo
r
2-5

EJEMPLO 1
Dr. Tillman es el decano de una facultad de
administracin de negocios y desea determinar la
cantidad de horas que los estudiantes estudian. Para
ello selecciona una muestra aleatoria de 30
estudiantes y determina el nmero de horas que
cada estudiante estudia a la semana: 15.0, 23.7,
19.7, 15.4, 18.3, 23.0, 14.2, 20.8, 13.5, 20.7, 17.4,
18.6, 12.9, 20.3, 13.7, 21.4, 18.3, 29.8, 17.1, 18.9,
10.3, 26.1, 15.7, 14.0, 17.8, 33.8, 23.2, 12.9, 27.1,
16.6.
Organice los datos como una distribucin de
frecuencias.
Representacin grfica de
2-10

una distribucin de
frecuencias
Las tres formas grficas usadas
comnmente son histogramas,
polgonos de frecuencia, y la la
distribucin de frecuencia
acumulativa (ojiva).
2-10

Representacin grfica de
una distribucin de
frecuencias
Histograma: Grfica en la que las
clases se indican en el eje horizontal
y las frecuencias de clase en el eje
vertical. Las frecuencias de clase se
representan por la altura de las
barras y las barras se trazan
adyacentes una a la otra.
2-12

Histograma de horas
destinadas al estudio
14
12
Frecuencia

10
8
6
4
2
0
10 15 20 25 30 35
Horas destinadas al estudio
2-11

Representacin grfica
de una distribucin de
frecuencias

Un Polgono de frecuencias consiste


de segmentos de lnea que conectan
los puntos fomados por la
interseccin del punto medio de
clase y la frecuencia de clase.
2-13

Polgono de frecuencia de
horas destinadas al
estudio
14
12
10
Frecuencia

8
6
4
2
0
10 15 20 25 30 35
Horas destinadas al estudio
2-11

Representacin grfica
de una distribucin de
frecuencias

Una Distribucin de frecuencia


acumulada (ojiva) es usada para
determinar que cantidad o que
proporcin de los datos estn por
encima o por debajo de un cierto
valor.
2-14

Distribucin de frecuencia
acumulada menos que de
horas destinadas al estudio
35
30
25
Frecuencia 20
acumulada 15
10
5
0
10 15 20 25 30 35
Horas destinadas al estudio
Medidas
de posicin
y dispersin

35
Parmetros y
estadsticos

Parmetro: es una caracterstica


mensurable de la poblacin
Estadstico: una caracterstica
mensurable de la muestra.

36
Medidas de posicin
central

Media aritmtica, Mediana y Moda


para Datos no Agrupados

37
3-3

Media Aritmtica Poblacional

Media poblacional :es la suma de todos los


valores de la poblacin dividida entre el
nmero de valores en la poblacin:
X / N
Donde es la media poblacional.
N es el nmero de individuos en la poblacin.
X representa cualquier valor particular.
es la letra mayscula sigma e indica la operacin de
adicin..
3-4

EJEMPLO
La familia Gonzlez posee cuatro vehculos.
Cada uno de ellos alcanzan las siguientes
velocidades en kms por hora: 160; 120; 110;
y 150.
Encuentre la media en kms por hora
La media es:
(160 + 120 + 110 + 150)/4 = 135 kms por hora
3-5

Media Aritmtica Muestral


La media muestral: es la suma de
todos los valores en la muestra
dividida entre el nmero de valores
en la muestra:

X X / n
Donde X es la media muestral
n es el nmero de observaciones en la muestra
3-6

EJEMPLO
Una muestra de cinco ejecutivos que reciben
los siguientes montos de bonificacin a fin de
ao: $14,000, $15,000, $17,000, $16,000, y
$15,000. Encuentre la bonificacin media de
estos cinco ejecutivos.
Estos valores representan una mustra de 5
elementos, la media muestral es (14,000 +
15,000 +17,000 + 16,000 +15,000)/5 =
$15,400.
3-7

Propiedades de la
media aritmtica
Todo conjunto de datos, de intervalo o de razn, tiene
una media. La media es nica.
Para calcular la media se toman todos los valores.
La media es afectada por valores inusualmente grandes o
pequeos.
Es una medida til para comparar dos o ms poblaciones.
La media aritmtica es la nica medida de tendencia
central en la que la suma de las desviaciones de cada uno
de los valores con respecto a la media es siempre cero.
3-8

EJEMPLO

Considere el conjunto de valores: 3, 8,


y 4. La media es 5. Ilustrando la
quinta propiedad, (3-5) + (8-5) + (4-5)
= -2 +3 -1 = 0. En otras palabras,

(X X) 0
3-11

La Mediana
Mediana: La observacin central de los valores
una vez que stos han sido ordenados desde el
ms pequeo hasta el ms grande o desde el
ms grande hasta el ms pequeo. Existe el
mismo nmero de valores por encima de la
mediana como por debajo de ella.

Nota: Para un nmero par de obseraciones, la mediana ser la


media aritmtica de los dos nmeros centrales.
3-12

EJEMPLO
Calcule la mediana de los siguientes datos:
La edad de una muestra de estudiantes de
universidad es: 21, 25, 19, 20, y 22. Arreglando los
datos de manera ascendente: 19, 20, 21, 22, 25.
Entonces la mediana es 21.

La estatura de cuatro jugadores de basketball, en


pulgadas, es 76, 73, 80, y 75. Arreglando de
manera ascendente las estaturas: 73, 75, 76, 80.
Entonces la mediana es 75.5
3-13

Propiedades de la
Mediana
La mediana es nica; como la media, hay slo una
mediana para cada conjunto de datos.
No es afectada por valores extremadamente pequeos
o grandes y por esto es una valiosa medida de
tendencia central cuando se tienen estos valores.
Se puede calcular para datos de nivel ordinal, de
intervalo y de razn.
Se puede calcular para distribuciones de frecuencia
con una clase abierta, siempre que la mediana no se
encuentre en la clase abierta.
3-14

La Moda
La moda: es el valor de las
observaciones que aparece con ms
frecuencia.

EJEMPLO: Las notas de los exmenes de 10


estudiantes son: 81, 93, 84, 75, 68, 87, 81,
75, 81, 87. Dado que la nota 81 es la de
mayor ocurrencia, la moda de las notas es 81.
Medidas de posicin
central
Media Aritmtica, Mediana y Moda
para Datos Agrupados

48
3-19

La Media de Datos
Agrupados
La media de una muestra de datos
organizado en una distribucin de
frecuencia es calculada por la
siguiente frmula:
Xf Xf
X
f n
3-20

EJEMPLO

De una muestra de 10 salas de cines


en una gran ciudad se registra el
nmero total de peculas mostradas la
semana pasada. Calcule la media de
pelculas mostradas.

Xf Xf
X
f n
3-21

EJEMPLO (continuacin)
Pelculas frecuencia Marca de (f)(x)
mostradas f clase
X
1-2 1 1.5 1.5
3-4 2 3.5 7.0
5-6 3 5.5 16.5
7-8 1 7.5 7.5
9-10 3 9.5 28.5
Total 10 61
Xf Xf
X = 61/10 = 6.1 pelculas
f n
3-22

La Mediana de Datos
Agrupados
La mediana de una muestra de datos
organizados en una distribucin de frecuencia
es calculada mediante la siguiente frmula:
Mediana = L + [(n/2 - CF)/f] ( i )
Donde:
L es el lmite inferior de la clase que contiene la mediana,
CF es la frecuencia acumulada que preceda a la clase que contiene
la mediana,
f es la frecuencia de la clase que contiene la mediana,
i es el intervalo de la clase que contiene la mediana.
3-23

Encontrando la clase que


contiene a la Mediana
Para determinar la clase que contiene la mediana
para datos agrupados:
Construir la distribucin de frecuencia acumulada.
Divide el nmero total de datos por 2.
Determine que clase contiene este valor. Por
ejemplo, si n=50, 50/2 = 25, entonces determine
cual clase contendr el valor 25 la clase que
contiene la mediana.
3-24

EJEMPLO

Pelculas Frecuencia Frecuencia


mostradas Acumulada
1-2 1 1
3-4 2 3
5-6 3 6
7-8 1 7
9-10 3 10

La clase que contiene la mediana


es 5-6, donde esta contiene el
quinto valor (n/2 =5)
3-25

EJEMPLO (continuacin)

Mediana = L + [(n/2 - CF)/f] ( i )

De la tabla, L=5, n=10, f=3, i=2, CF=3.

Entonces:
Mediana= 5 + [((10/2) - 4)/3](2)= 6.33
3-26

La Moda en Datos
Agrupados
La moda para datos agrupados es
aproximado por el punto medio de la clase
(marca de clase) de la clase que posea la
mayor frecuencia.
Las modas en el ejemplos anteriores son 5.5
y 9.5. Cuando dos valores son los que
aparecen el mayor nmero de veces, la
distribucin es llamada bimodal.
3-27

Distribucin Simtrica

Asimetra cero moda = mediana = media


3-28

Distribucin
Positivamente Sesgada
Asimetra positiva: Media y Mediana estn a la
derecha de la Moda.

Moda<Mediana<Media
3-29

Distribucin
Negativamente Sesgada
Asimetra negativa: Media y Mediana
estn a la izquierda de la Moda.

Media<Mediana<Moda
Curtosis o
Apuntalamiento
Leptocrtica

Mesocrtica Platicrtica
Medidas de Dispersin

Por qu se estudia la dispersin?

61
Medidas de Dispersin

Rango, Desviacin Media,


Varianza y Desviacin Estndar
para Datos No Agrupados

62
3-31

Rango de
Datos No Agrupados
Rango: es la diferencia entre el valor ms
alto y el ms bajo del conjunto de datos
RANGO = Valor ms alto Valor ms bajo
EJEMPLO 11: Una muestra de cinco
graduados en contabilidad revela los
siguientes salarios iniciales: $22,000,
$28,000, $31,000, $23,000, $24,000. El
rango es $31,000 - $22,000 = $9,000.
3-32

Desviacin Media

Desviacin Media: mide la cantidad


media en la que los valores de la
poblacin o de la muestra, varan de la
media.

XX
DM
n
3-33

EJEMPLO
El peso de una muestra de cajas conteniendo
libros para una librera son (en kilos) 103, 97,
101, 106, 103.
X = 510/5 = 102 kilos
DM = (X- X ) / n= (1+5+1+4+1)/5 = 12/5 = 2.4

Tpicamente, los pesos de las cajas difieren en 2.4


kilos del peso medio de las cajas de 102 kilos.
Ventajas y Desventajas
de la Desviacin Media
Ventajas:
Es su clculo se usan todos los
valores.
Es fcil de comprender.
Desventajas:
El uso de valores absolutos.

66
3-34

Varianza Poblacional
La varianza poblacional para datos
no agrupados es la media aritmtica
de las desviaciones de la media
elevadas al cuadrado.

( X ) 2

2
N
3-35

EJEMPLO
Las edades de los miembros de una
familia son 2, 18, 34, y 42 aos. Cul
es la varianza poblacional?
X / N 96 / 4 24
( X ) / N
2 2

2 24 2
... (42 24)2 944
236aos
2
4 4
3-36

Varianza Poblacional
(continuacin)

Una frmula alternativa de la


varianza poblacional es :

X X
2 2

2

N N
3-37

Desviacin Estndar
Poblacional
La desviacin estndar poblacional( )
es la raz cuadrada de la varianza
poblacional.
En el EJEMPLO, la desviacin estndar
poblacional es 15.36 aos (la raz
cuadrada de 236).
3-38

Varianza muestral
La varianza poblacional subestima la
verdadera varianza de una muestra

( X X ) 2
FormulaConceptual= s 2
n 1
(X ) 2
X 2
FormulaComputacional = s 2 n
n 1
3-39

EJEMPLO

Una muestra de cinco salarios por


hora de varios trabajos de campo son
: $7, $5, $11, $8, $6. Encuentre la
varianza
X = 37/5 = 7.40
2
s = 21.2/(5-1) = 5.3 $
2
3-40

Desviacin Estndar
Muestral
La deviacin estndar muestral es la
raz cuadrada de la varianza muestral.
En el EJEMPLO anterior, la desviacin
estndar muestral = 2.30 $
Medidas de Dispersin
Rango, Desviacin Media,
Varianza y Desviacin Estndar
para Datos Agrupados

74
Rango para datos
agrupados

Rango: es la diferencia entre el mayor


y el menor de los valores. Se resta el
lmite inferior de la primera clase del
lmite superior de la ltima clase

75
3-41

Varianza Muestral para


datos agrupados
La frmula de la varianza muestral para
datos agrupados que es un estimador de
la varianza poblacional es:
(fX ) 2
fX
2

s
2 n
n 1
donde f es la frecuencia de clase y X es el punto medio de la clase.
3-41

Varianza Muestral para


datos agrupados
La frmula de la varianza muestral
para datos agrupados que es un
estimador de la varianza poblacional
es: (fX ) 2
fX 2
s2 n
n 1
donde f es la frecuencia de clase y X es el punto medio de
la clase.
3-41

Desviacin Estndar Muestral


para datos agrupados
La Desviacin Estndar muestral para
datos agrupados, que es un estimador
de la desviacin estndar poblacional,
es la raz cuadrada de la varianza:
(fX ) 2
fX 2
s n
n 1
3-41

Interpretacin y uso de la
desviacin estndar
Se usa por lo general para comparar
la dispersin de dos o ms conjuntos
de observaciones alrededor de la
media y determinar la confiabilidad
de la medida de posicin central.
Ejemplo: si dos grupos de empleados tienen una media de
ingresos similar pero las desviaciones son $7,51 y $10,47.
Cual de las medias ser ms confiable.
3-42

Interpretacin y usos de
la desviacin estndar
Teorema de Chebyshev: En cualquier
conjunto de observaciones (muestra o
poblacin), la proporcin de los valores que
queda dentro de k desviaciones estndar de
la media es por lo menos 1 - 1/k2 , donde k
es una constante mayor a 1. El teorema es
aplicable independientemente de la forma de
la distribucin.
3-42

Interpretacin y usos de
la desviacin estndar
Ejemplo del Teorema de Chebyshev
La contibucin media quincenal de los empleados de
una empresa al plan de participacin en las ganancias
fue $51.54 y la desviacin estndar de $7.51. Qu
por ciento de las contribuciones, por lo menos, estn
comprendidas entre ms 3.5 desviaciones estndar y
menos 3.5 desviaciones estndar
1 1
1 2 1 2
0.92
k (3.5)
3-43

Interpretacin y usos de
la desviacin estndar
Regla Emprica o Regla Normal: en
una distribucin simtrica, en forma
de campana, aproximadamente 68%
de las observaciones estarn entre 1
de la media; cerca del 95% entre 2
de la media; y prcticamente 99,7%
estarn entre 3 de la media
Interpretacin y usos de
la desviacin estndar
Curva en forma de campanamostrandola relacin entre y .

3 2 1 1 2 3
Interpretacin y usos de
la desviacin estndar
Ejmplo: si X = 100 y s=10. Cuntas
observaciones estn 3 de la media?
100 + 3(10) = 70
100 3(10) = 130
El 99,7% de los datos se hallan
concentrados entre los valores 70 y 130.

84
Interpretacin y usos de
la desviacin estndar
Es posible comparar la desviacin
estndar de una distribucin de ingresos
anuales y la desviacin estndar de una
distribucin de ausentimos del mismo
grupo de empleados?

Imposible!!!

85
3-45

Dispersin Relativa
El coeficiente de variacin es el ratio
de la desviacin estndar de la media
aritmtica, expresada como
porcentaje:
s
CV (100)
X
3-45

Dispersin Relativa

El coeficiente de variacin es til cuando:


1-) los datos estn en unidades diferentes
(dlares y das de ausentismo)
2-) los datos estn en las mismas unidades,
pero las medias son muy distintas (ingresos
de ejecutivos y empleados no calificados)
3-46

Otras medidas de
dispersin:Cuartiles, deciles
y percentiles
Cuartiles: dividen a un conjunto de
observaciones en cuatro partes
iguales
Deciles: dividen a un conjunto de
observaciones en diez partes iguales
Percentiles: dividen a un conjunto de
observaciones en cien partes iguales
3-46

Localizacin de un
Percentil

p
Lp (n 1)
100
3-49

Rango Intercuartil
El Rango Intercuartil es la distancia
enter el tercer cuartil Q3 y el primer
cuartil Q1.
Rango Intercuartil = tercer cuartil
primer cuartil = Q3 - Q1
3-50

Desviacin Intercuartil
La desviacin intercuartil es la
distancia media entre el tercer
cuartil, Q3, y el primer cuartil, Q1.
QD = [Q3 - Q1]/2
3-51

EJEMPLO
Si el tercer cuartil = 24 y el primer
cuartil = 10, cul es el rango
intercuartil y la desviacin
intercuartil?
El rango intercuartil es 24 - 10 = 14;
La desviacin intercuartil es 14/2 = 7.

You might also like