Professional Documents
Culture Documents
FUNDAMENTOS DE ESTADSTICA
PROFESORES : CSAR AUGUSTO SERNA M. LEONARDO FABIO SNCHEZ C. Magister en Estadstica Universidad Nacional cesarserna29@gmail.com,lsanchezc2@gmail.com 2012
FUNDAMENTOS DE ESTADSTICA
1. 2. 3. 4. Estadstica Descriptiva Fundamentos de Probabilidad Distribuciones de Probabilidad y Variables Aleatorias Nmeros ndice
CMO LO VEREMOS?
Clase Magistral
CMO LO EVALUAMOS?
DNDE CONSULTAMOS?
LEVIN / RUBIN /BALDERAS / DEL VALLE / GOMEZ. Estadstica para Administracin y Economa. Pearson. LIND DOUGLAS / MARCHAL WILLIAMS/ WATHEN SAMUEL. Estadstica Aplicada a los negocios y la economa. Edicin 13a. Editorial Mc. Graw Hill. 2008. ANDERSON / SWEENEY / WILLIAMS. Estadstica para Administracin y Economa. Cengage Learning. MENDENHALL /BEAVER/BEAVER. Introduccin a la Probabilidad y Estadstica
UNIDAD 1
ESTADSTICA DESCRIPTIVA
1. 2. 3. 4. Introduccin Distribuciones de frecuencia y graficas Medidas Numricas Descripcin de datos bivariados
ESTADSTICA?
La estadstica es la ciencia destinada al estudio de los fenmenos aleatorios, la misma est ligada con los mtodos cientficos en la toma, recopilacin, organizacin, presentacin y anlisis de datos; tanto para la deduccin de conclusiones como para la toma de decisiones razonables de acuerdo con tales anlisis.
CLASIFICACIN
Estadstica Descriptiva: cuando se describe, analiza y representa un grupo de datos utilizando mtodos numricos y grficos que resumen y presentan la informacin contenida en ellos. Estadstica Inferencial: cuando apoyndose en el clculo de probabilidades y a partir de datos mustrales, efecta estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos.
PARAMETRO MUESTRA
ESTIMADOR
DEFINICIONES
Poblacin: es el conjunto de todas las observaciones o de los elementos de inters en un determinado estudio que cumplen ciertas propiedades comunes. Este conjunto puede ser un nmero finito de datos o una coleccin grande (virtualmente infinita) de datos. Parmetro: es cualquier medida descriptiva de una poblacin, por ejemplo, la media poblacional.
DEFINICIONES
Muestra: es un subconjunto de la poblacin, seleccionado adecuadamente para que contenga las caractersticas relevantes de la poblacin en la misma proporcin. Estimador: Medida descriptiva de la muestra que se utiliza para estimar al respectivo parmetro poblacional.
DEFINICIONES
Variable: Caracterstica de la poblacin que se analiza en el estudio estadstico. Datos: son los hechos, medidas o nmeros que han sido recopilados como resultados de observaciones; se deben reunir, analizar y resumir para su presentacin e interpretacin. Pueden ser cuantitativos o cualitativos. Individuos o elementos: seres u objetos que contienen la informacin que se desea estudiar.
EJEMPLOS
Clasificar cada una de las siguientes variables: a. b. c. d. e. f. g. Distancia diaria recorrida por cada estudiante para ir de su casa a la universidad. Tiempo que requiere un estudiante para responder a un examen. Llamadas que llegan a una central telefnica en un da. Preferencia por cierta marca de refresco. Color del cabello de las estudiantes que toman el curso de fundamentos de estadstica. Cantidad de computadores en la casa. Calificacin de un profesor de finanzas.
EJEMPLOS
Establecer cules de estos datos son discretos y cules continuos: a. Temperatura de una ciudad. b. Ingresos anuales de los profesores de educacin media. c. Longitudes de 100 tornillos producidos en una empresa. d. Nmero de carreras anotadas.
DISTRIBUCIONES DE FRECUENCIA
Es un resumen tabular de un conjunto de datos que muestra la cantidad de elementos en cada una de las diferentes clases que la conforman. FRECUENCIAS: Absoluta Relativa Absoluta acumulada Relativa acumulada
DISTRIBUCIONES DE FRECUENCIA
3.
5.
Ejemplo
Valor mnimo = 0.5 Valor mximo = 18.5 Rango = 18 Numero de clase k = 6 Amplitud A = 3
6. 7. 8.
Calcular la marca de clase Hallar las frecuencias absolutas por conteo. Completar la tabla.
Qu interpretacin tiene f3? Qu interpretacin tiene h4? Qu interpretacin tiene F2? Qu interpretacin tiene H4?
POLGONOS DE FRECUENCIAS
DESPLAZAMIENTO DE ANFIBIOS Universidad
18
16 14
12 Fercuencia
10 8
4 2
OJIVA ASCENDENTE
DESPLAZAMIENTO DE ANFIBIOS Universidad
70
60
50
Fercuencia
40
30
20
10
EJERCICIO DE CLASE
POR PAREJAS
Realice la tabla de distribucin de frecuencias e histograma para los datos que se presentan, siguiendo los pasos mencionados. 10 minutos
OTRAS REPRESENTACIONES GRAFICAS Histogramas Polgonos de Frecuencias Ojivas Diagrama de tallo y hojas Diagrama de lneas
AGRUPADOS
EJEMPLOS
Un hotel obtiene sus ingresos bruto de la renta de sus instalaciones y desea describirlos grficamente. Realice un diagrama de lneas.
Da 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Ingresos $1.452 1.361 1.426 1.470 1.456 1.430 1.354 1.442 1.394 1.459 1.399 1.458 1.537 1.425 1.445
DIAGRAMA DE LNEAS
INGRESOS
FUNDAMENTOS DE ESTADSTICA
PROFESORES : CSAR AUGUSTO SERNA M. LEONARDO FABIO SNCHEZ C. Magister en Estadstica Universidad Nacional cesarserna29@gmail.com, lsanchezc2@gmail.com 2012
MEDIA ARITMTICA
VENTAJAS Fcil de calcular Buenas propiedades como estimador DESVENTAJA Sensible a valores extremos (Outlier)
MEDIANA
Es el valor que particional la muestra en dos. Es decir que por debajo de la mediana esta exactamente el 50% de los datos e igual proporcin por encima de ella.
CLCULO
Ordene de menor a mayor la muestra 1. La mediana se determina de acuerdo con: a. Si el numero de datos (n) es impar
MODA
Corresponde al valor mas frecuente en la muestra.
Clculo
Identificar el valor que ms se repite en la distribucin de frecuencias individual.
Desventajas
Es poco informativa respecto a los datos en general Puede haber varias
Distribucin simtrica
EJEMPLO
Medidas de Tendencia Central Media Mediana
No. Indicador econmico Cambio Porcentual
1 Productividad (total) 2 Inversin (No Residencial) 3 Importaciones 4 Consumo 5 Ingreso real disponible
1,4 2,1 2,3 2,7 2,9 2,9 3,6 4,5 4,7 5,2
Moda
Media Geomtrica=
Nota: esta estadstica slo est definida para una muestra de datos en la cual todos los valores son no negativos y mayores que 0.
donde
1. 2. 3.
Calcular media, mediana y moda (si existe) Existe algn dato atpico (Outlier)? Si existe elimnelo y halle de nuevo las medidas de centralizacin. Hay indicios de sesgo? Cual?
EJEMPLO
V=1
V=3
V=6
MEDIDAS DE DISPERSIN
Rango Desvos
MEDIDAS DE DISPERSIN
Varianza: Es la media de los desvos al cuadrado.
Desviacin Estndar
MEDIDAS DE DISPERSIN
Coeficiente de Variacin
Es una medida de variabilidad relativa a la media de los datos. Es un valor adimensional que se emplea para comparar la variabilidad de muestras (o poblaciones) diferentes.
Sbi (medida de dispersin) una estimacin basada en una suma ponderada de cuadrados alrededor de la mediana muestral:
EJEMPLO
Cambio Porcentual 4,5% 4,7 2,3 2,9 2,7 2,9 3,6 2,1 1,4 5,2
A continuacin se listan diversos indicadores del crecimiento econmico a largo plazo en Estados Unidos. Las proyecciones se extienden hasta el ao 2008.
Indicador econmico Inflacin Exportaciones Importaciones Ingreso real disponible Consumo PNB real Inversin (Residencial) Inversin (No Residencial) Productividad (total) Productividad (Fabricacin)
MEDIDAS DE FORMA
CUARTILES DECILES PERCENTILES SESGO CURTOSIS
Grfico de Caja y Bigotes
12
16
20
DESPLAZAMIENTOS
MEDIDAS DE FORMA
Sesgo: Su forma de clculo original es:
3( X Me) Sesgo= S
Pero como aproximadamente se cumple que Media Moda = 3 (Media-Mediana), se usa la siguiente forma de clculo prctico del sesgo:
( X Moda ) Sesgo = S
MEDIDAS DE FORMA
Curtosis: La curtosis es una medida que indica o mide lo plano o puntiaguda que es una curva de distribucin. Cuando esta es cero, curtosis = 0, significa que se trata de una curva Normal. Si es positiva, quiere decir que la curva o distribucin o polgono es ms puntiaguda o levantada que la curva normal (curva leptocrtica). Si es negativa quiere decir que es ms plana (curva mesocrtica).
Curtosis =
i =1
( xi x)4 n 4 S 3
EJERCICIO DE CLASE
Estudiante Luis Alberto Juan Pedro Robero Mara Raquel Luisa Rosa Diana 1. 2. Variable Nota = xi Valor de xi X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 Calcular las medidas de dispersin Indicar la forma de los datos 62 68 92 88 55 79 89 92 67 69
Una tabla de doble entrada o tabla cruzada es la mejor manera de resumir dos variables cualitativas al tiempo. As por ejemplo el cruce de la Categora de un grupo de profesores y el tipo de universidad.
Categoradel Tipode Profesor Universidad T.C. Aso. Aso. T.C. Cat. Cat. Cat. T.C. T.C. T.C. Aso. Aso. T.C. T.C. Aso. Aso. Aso. Aso. Pblica Privada Privada Privada Privada Privada Pblica Pblica Privada Privada Privada Privada Privada Pblica Pblica Pblica Pblica Privada
Tabla Cruzada de Categora del Profesor vs. Tipo de Universidad Tipo de Universidad Privada Pblica
% del N de % del N de la capa la capa Recuento Recuento Aso. Categora del Profesor Cat. T.C. 5 2 4 27.8% 11.1% 22.2% 3 1 3 16.7% 5.6% 16.7%
frecuencia
Cuando ambas variables a representar en un grfico bidimensional (o plano cartesiano) son cuantitativos, se debe recurrir a un Diagrama de Dispersin. Cada par de coordenadas (x , y) representan los valor que toman las dos variables cuantitativas cuando son medidas a un solo individuo, es decir, cada punto de este diagrama es cada individuo.
Qu tipo de patrn observa? Hay una tendencia ascendente o descendente que siga un patrn lineal?El patrn NO es lineal? Qu tan fuerte es el patrn? Todos los puntos siguen el mismo patrn, o la relacin es apenas visible? Hay alguna observacin atpica?
Una vez observado que en anlisis bidimensional existe una cierta dependencia entre las dos caractersticas o variables que la forman, se puede precisar el grado de dicha dependencia. Para cuantificar el grado de dicha correlacin se usa el Coeficiente de Correlacin.
VARIABLES CUANTITATIVAS
Ejemplo
Una compaa de seguros de automvil arroj la siguiente informacin relacionada con la edad de un conductor y el nmero de accidentes registrados el ao pasado. Disee un diagrama de dispersin para los datos.
EDAD ACCIDENTES 16 4 24 2 18 5 17 4 23 0 27 1 32 1 22 3
DIAGRAMA DE DISPERSIN
RECTA DE REGRESIN
y = 1.0909x 121.9
UNIDAD 2
SPSS
SPSS es un sistema global para el anlisis estadstico de datos. SPSS puede adquirir datos de casi cualquier tipo de archivo y utilizarlos para generar informes tabulares, grficos y diagramas de distribuciones y tendencias, estadsticos descriptivos y anlisis estadsticos complejos.
SPSS
SPSS
Celda de informacin
Status bar/boxes
SPSS
SPSS
SPSS
SPSS
En pocas palabras, los datos nominales son datos cualitativos que no indican ningn orden, por ejemplo gnero, regin o raza. Los datos ordinales son datos que implican un orden, pero ningn sentido de magnitud, como nivel de estudios (primario, secundario y terciario). El nivel secundario no es el doble que el primario, pero significa ms estudios. Los datos basados en un intervalo o en una razn son datos continuos que se miden con una escala constante. Por ejemplo, la diferencia entre 10 y 20 es la misma que entre 80 y 90. En el caso de los datos basados en una razn existe un cero absoluto, mientras que en el de los datos basados en un intervalo no existe. El cero absoluto hace posible calcular las razones. Por ejemplo, en cuestin de ingresos, el nivel de medicin se basa en una razn: 20 libras es la mitad de 40 libras. En el caso de la temperatura en C, el nivel de medicin se basa en un intervalo. Una temperatura de 20C no es la mitad de calor que otra de 40C. El dinero tiene un cero absoluto mientras que 0C no es la inexistencia de temperatura, sino simplemente un punto de la escala marcado con 0. Los valores por defecto son aqu muy tiles. El SPSS hace uso de estas denominaciones en algunos procedimientos de trazado de grficos y de rboles de respuesta. La decisin en cuanto a las tcnicas estadsticas apropiadas queda a eleccin del investigador.
Csar A. Serna, Leonardo Snchez
SPSS
SPSS
Segmentacin de Archivos:
Segmentar archivo divide el archivo de datos en distintos grupos para el anlisis basndose en los valores de una o ms variables de agrupacin. Si selecciona varias variables de agrupacin, los casos se agruparn por variable dentro de las categoras de la variable anterior de la lista Grupos. Al activar esta funcin, todo anlisis que desee ejecutar ser desagregado por grupos. Datos Segmentar Archivo
SPSS
SPSS
Estando en la ventana de Seleccionar Casos se debe seleccionar Muestras Aleatorias de Casos. En esta segunda venta de Muestras Aleatorias Se debe indicar el tamao de la muestra que se desea seleccionar o aproximadamente la muestra que se desea seleccionar.
SPSS
Analizar:
La opcin Analizar es la ms importante del software SPSS pues en ella se encuentran todas las posibles tcnicas Univariadas, Bivariadas y Multivaridas de anlisis estadstico. En ella encontramos: La mayora de estas tcnicas que se vern a profundidad en cursos posteriores al presente curso.
SPSS
Tablas :
Una herramienta muy til de SPSS es la opcin de tablas, la cual esta incluida en la pestaa Analizar. En muchas ocasiones en deseable mostrar informes de variables cuantitativas desagregadas por otra(s) variables cualitativas. Por ejemplo la variable edad desagregada por genero, y esta a su vez debe ser desagregada por nivel socioeconmico, etc. A este procedimiento le conoce como tablas anidadas. Adems no solamente se puede resumir una sola variable cuantitativa, de hecho, se pueden resumir tantas variables cuantitativas como desee. Analizar Tablas Tablas Personalizadas
Csar A. Serna, Leonardo Snchez
SPSS
SPSS
Qu tal un ejemplo?
`v{t Ztv|tA
Csar A. Serna, Leonardo Snchez