Estadística Descriptiva

Estadstica Descriptiva
PRESENTACIN
En el marco del Programa Integral de Capacitacin, Formacin e Investigacin (PICFI), se desarroll en el INEGI el proyecto de capacitacin en Estadstica apoyada con instructores internos, con el propsito de brindar los elementos tericoprcticos necesarios para el uso y aprovechamiento de las diversas herramientas y metodologa estadsticas, que coadyuven a un mayor rendimiento y una mejor calidad en las labores cotidianas de los trabajadores. Para que este fin pueda ser alcanzado, es necesario que haya una produccin de material didctico de apoyo a los eventos de capacitacin; la cual es por un lado creativa y por otro reproductiva. La produccin creativa implica todo un proceso que abarca desde la definicin de objetivos de aprendizaje hasta la edicin final del documento que constituir el manual para el curso. En tanto que la reproductiva se refiere a la multiplicacin del manual original para cada uno de los participantes. Evidentemente, el principal esfuerzo se centra en la elaboracin de nuevos manuales de instruccin, ya que as estamos en posibilidades de brindar la capacitacin y formacin necesaria, a fin de que el personal que conforma el instituto, pueda afrontar los retos de productividad que se plantean en el corto y mediano plazo. Con cada nuevo material, se fortalece el programa institucional y se fomenta una nueva cultura: la cultura de una nueva formacin profesional, cuyo eje principal descansa en la participacin activa y responsable del individuo en su propio proceso de enseanzaaprendizaje. En este entorno, presentamos al lector el manual de Estadstica descriptiva como parte de este esfuerzo por alcanzar la misin del PICFI, esperando contribuir positivamente en las tareas sustantivas que desarrolla el INEGI.
ESTADSTICA DESCRIPTIVA
Objetivo: manejar las herramientas bsicas (graficas y numricas) de estadstica descriptiva, entender sus limitaciones e identificar la temtica general que tocan distintas disciplinas de la estadstica como lo son: muestreo, inferencia y regresin. Dirigido a: todo el personal que requiera actualizarse en las distintas disciplinas relacionadas con su actividad. Requisitos: acreditar satisfactoriamente lgebra bsica. Contenido: 1. Introduccin Objetivos de la estadstica Concepto de poblacin y muestra Tipos bsicos de datos 2. Descripcin de datos por tablas y graficas Diagrama de barras Diagrama de puntos Tablas de frecuencia Histogramas 3. Medidas numricas Medidas de localizacin y dispersin Medidas de sesgo Otras medidas 4. Descripcin de datos divariados Diagramas de dispersin Tablas de contingencia Coeficiente de correlacin Duracin: 20 horas
Bibliografa: Ttulo: Estadstica para Administracin y Economa Autor: Mendenhall Reinmuth Editorial: Grupo Editorial Iberoamrica Ttulo: Probabilidad y Estadstica Aplicaciones y Mtodos Autor: G.C. Canavos Editorial: Mc. Graw Hill, 1987 Ttulo: Statistics Third Edition Autor: David S. Moore Editorial: W.H. Freeman and Company
1. INTRODUCCIN
Para mucha gente, estadstica significa descripciones numricas. Esto puede verificarse fcilmente al escuchar, un domingo cualquiera, a un comentarista de televisin narrar un juego de ftbol. Sin embargo, en trminos ms precisos, la estadstica es el estudio de los fenmenos aleatorios. En este sentido la ciencia de la estadstica tiene, virtualmente, un alcance ilimitado de aplicaciones en un espectro tan amplio de disciplinas que van desde las ciencias y la ingeniera hasta las leyes y la medicina. El aspecto ms importante de la estadstica es la obtencin de conclusiones basadas en los datos experimentales. Este proceso se conoce como inferencia estadstica. Si una conclusin dada pertenece a un indicador econmico importante o a una posible concentracin peligrosa de cierto contaminante, o bien, si se pretende establecer una relacin entre la incidencia de cncer pulmonar y el fumar, es muy comn que la conclusin est basada en la inferencia estadstica.
OBJETIVOS DE LA ESTADSTICA
El objetivo de la estadstica y lo que son las partes de un problema estadstico se dan a continuacin. El objetivo de la estadstica es el de hacer inferencias (predecir, decidir) sobre algunas caractersticas de una poblacin1 con base en la informacin contenida en una muestra2. Cmo lograr este objetivo? Se ver que todo problema estadstico consta de cinco partes. La solucin de cada una de estas partes permite el logro del objetivo. La primera y ms importante de las partes de un problema es una especificacin clara de la pregunta a contestar y de la poblacin sobre la cual dicha pregunta se hace.
Definicin: Una poblacin es el conjunto de todas las mediciones de inters al muestrista. 1 Definicin: Una muestra es una coleccin de mediciones seleccionadas de la poblacin de inters.
La segunda parte concierne al problema estadstico referente a la obtencin de la muestra. Esta parte se conoce como diseo del experimento o procedimiento de muestreo y es importante porque la informacin cuesta tiempo y dinero. No es poco comn que un estudio para una empresa cueste 50 000 o 500 000 dlares y en muchos casos, el costo de ciertos experimentos puede ser de millones. Qu es lo que estos estudios proveen? Los resultados son nmeros; en una palabra, informacin. El incluir demasiadas observaciones en la muestra es costoso y en muchos casos intil, y por el otro lado el incluir muy pocas puede ser insatisfactorio. Adems, la forma en que la muestra sea seleccionada afecta la cantidad de informacin contenida en cada observacin. Un buen diseo de muestreo puede reducir, en ocasiones, el costo del levantamiento de la muestra a un dcimo o un centsimo del costo utilizando otro diseo. La tercera parte de un problema estadstico consiste en el anlisis de la informacin muestral. Independientemente de la cantidad de informacin contenida en la muestra, se tiene que utilizar aqu el mtodo estadstico apropiado para extraer la informacin de los datos. La cuarta parte de un problema estadstico corresponde a inferir acerca de la poblacin haciendo uso de la informacin muestral. Como se ver, se pueden utilizar muchos procedimientos para hacer una estimacin, decidir sobre alguna caracterstica de la poblacin o predecir el valor de algn miembro de la misma. Por ejemplo, puede haber 10 mtodos distintos para predecir las ventas de una empresa, de las cuales uno puede ser ms preciso. Por lo tanto, se quiere en esta parte utilizar el mejor procedimiento de inferencia para estimar, decidir o predecir con base en la informacin muestral. La ltima parte de un problema estadstico se identifica con lo que posiblemente es la mayor contribucin de la estadstica al anlisis de toma de decisiones. En esta parte se contesta a la pregunta Qu tan buena es la inferencia? Con propsitos de ilustracin, suponga que se conduce un estudio estadstico y como resultado se estima que el producto de la compaa obtendr un 34% adicional de mercado para el prximo ao. No satisfechos con la informacin cabe preguntarse Qu tan precisa es la estimacin? De qu valor puede ser
una estimacin sin una medida de confiabilidad? Ser la estimacin precisa dentro de un 1%, 5% 20%? Ser lo suficientemente confiable como para basar en ella planes de produccin? Como se ver ms adelante, los procedimientos de estimacin, toma de decisiones y prediccin permiten calcular una medida de la bondad de cada inferencia. En consecuencia, en una situacin prctica, toda inferencia debe ir acompaada por una medida que diga que tanta fe se le puede tener.
Partes de un problema estadstico

1. Una definicin clara de la poblacin de inters. 2. El diseo del experimento o procedimiento de muestreo. 3. Recopilacin y anlisis de los datos. 4. Identificacin del procedimiento para hacer inferencias sobre la poblacin con base en la informacin muestral. 5. Obtencin de una medida de la bondad (confiabilidad) de la inferencia. El enfoque precedente para la inferencia estadstica descansa nicamente en la evidencia muestral. Este es denominado teora del muestreo o enfoque clsico de la inferencia estadstica y para la mayor parte de sta, ser el que se tome en este curso.
CONCEPTO DE POBLACIN Y MUESTRA

Para comprender la naturaleza de la inferencia estadstica, es necesario entender las nociones de poblacin y muestra. La poblacin es la coleccin de toda la posible informacin que caracteriza a un fenmeno. En estadstica, poblacin es un concepto mucho ms general del que tiene la acepcin comn de esta palabra. En este sentido, una poblacin es cualquier coleccin ya sea de un nmero finito de mediciones o una coleccin grande, virtualmente infinita, de datos acerca de algo de inters. Por otro lado, la muestra es un subconjunto representativo seleccionado de una poblacin. La palabra representativo es la clave de esta idea. Una buena muestra es aquella que refleja las caractersticas esenciales de la poblacin de la cual se obtuvo. En estadstica, el objetivo de las tcnicas de muestreo conduce a una muestra aleatoria. Las observaciones de la muestra aleatoria se usan para calcular
ciertas caractersticas de la muestra denominadas estadsticas. Las estadsticas se usan como base para hacer inferencias acerca de ciertas caractersticas de la poblacin, que reciben el nombre de parmetros. As, muchas veces se analiza la informacin que contiene una muestra aleatoria con el propsito principal de hacer inferencias sobre la naturaleza de la poblacin de la cual se obtuvo la muestra. En estadstica la inferencia es inductiva porque se proyecta de lo especfico (muestra) hacia lo general (poblacin). En un procedimiento de esta naturaleza siempre existe la posibilidad de error. Nunca podr tenerse el 100% de seguridad sobre una proposicin que se basa en la inferencia estadstica. Sin embargo, lo que hace que la estadstica sea una ciencia (separndola del arte de adivinar la fortuna) es que unida a cualquier proposicin, existe una medida de la confiabilidad de sta. En estadstica la confiabilidad se mide en trminos de probabilidad. En otras palabras, para cada inferencia estadstica se identifica la probabilidad de que la inferencia sea correcta.
TIPOS BSICOS DE DATOS
En el estudio de la estadstica interesa, bsicamente, la presentacin e interpretacin de resultados aleatorios que se dan en un estudio planeado o en una investigacin cientfica. De aqu que los estadsticos frecuentemente manejen ya sea datos experimentales, que representan conteos o mediciones, o tal vez datos categricos que puedan clasificarse de acuerdo con algn criterio. Cualquier registro de informacin, sea ste numrico o categrico, se denominar observacin.
EJERCICIOS
En cualquier experimento que incluya anlisis de datos, es importante tener una imagen clara de la composicin tanto de la muestra como de la poblacin. A menudo los conceptos se confunden o se definen vagamente por lo que los resultados experimentales resultan de difcil interpretacin. En ocasiones los errores llevan a conclusiones absurdas o simplemente sin sentido. Para aclarar las nociones de muestra y poblacin se consideran tres actividades a realizar ya sea individualmente o por grupos de estudiantes. 1. Visite la biblioteca de su centro de trabajo y seleccione una revista de investigacin apropiada para su mbito. Despus de seleccionar una revista, escoja un artculo en el que se hable de una encuesta por muestreo, sin necesidad de que aparezcan en l los datos. Establezca el objetivo de la encuesta e identifique el procedimiento utilizado en el levantamiento de los datos. Defina e identifique las unidades experimentales, la muestra y la poblacin. Recuerde el objetivo de la estadstica y explique cmo la inferencia sobre la poblacin pudo ayudar a contestar las preguntas postuladas en la investigacin.
10
2. Las encuestas de opinin aparecen con frecuencia en la prensa. Encuentre una de esas encuestas y discuta el objetivo de ella y el procedimiento empleado para obtener los datos mustrales, la muestra y la poblacin. Explique cmo los resultados encontrados pueden representar una inferencia sobre la poblacin. En la vecindad de perodos de elecciones presidenciales, continuamente se realizan encuestas para sondear la predileccin del pblico por los distintos candidatos. Qu problemas especiales enfrentan los encuestadores en la seleccin de sus unidades experimentales, problemas que no enfrentan en otro tipo de encuestas de opinin? Debe preocuparse el encuestador por slo aquellas personas que pueden votar? Si es as, Cmo puede identificar a las personas con derecho a voto? 3. Seleccione una interseccin de calles con trfico intenso y disee un experimento para medir el trfico diario. Defina la poblacin e incluya en su estudio los vehculos que desee. Defina las unidades experimentales y la muestra y encuentre un procedimiento para la seleccin de los datos mustrales. Qu problemas encuentra para disear el experimento, definir las unidades, muestra y poblacin? De qu forma el objetivo de su estudio le ayuda para ir aclarando las nociones de unidades, muestra y poblacin?
11
2. DESCRIPCIN DE DATOS POR TABLAS Y GRFICAS
Recuerde que el objetivo de la estadstica moderna es hacer inferencias acerca de un conjunto de datos, usualmente grande, llamado poblacin, con base en la informacin contenida en una muestra. Para formular las inferencias es necesario poder describir un conjunto de datos ya sea ste la poblacin o una muestra. Un buen nmero de textos tratan de los mtodos de la estadstica descriptiva, es decir, los mtodos usados para describir conjuntos de datos numricos. Estos mtodos pueden ser clasificados en dos tipos: mtodos grficos y mtodos numricos. Aqu la discusin se restringe a unos cuantos mtodos, tanto grficos como numricos, que son tiles no solamente para propsitos descriptivos sino tambin para hacer inferencias.
DIAGRAMA DE BARRAS
Cuando se tienen datos que fueron colectados en distintos perodos de tiempo o distintas reas geogrficas es conveniente usar tablas o diagramas de diversos tipos para su presentacin. Se cuenta con auxiliares como los diagramas de barras, las grficas de lneas o los diagramas circulares que sirven como un resumen visual de los datos. Hay muchos otros mtodos grficos que usa el estadstico en los negocios y en la economa pero la discusin se limita a los ya mencionados.
1974 Total de Empleados Profesionales Hombres Mujeres No Profesionales Hombres Mujeres 100 40 37 3 60 50 10 1975 115 44 40 4 71 58 13 1976 110 42 39 3 68 56 12 1977 150 58 48 10 92 69 23
Tabla 1. Anlisis de los empleados en un despacho de asesora
12
La tabla 1 muestra, como ejemplo de una tabla estadstica, el desglose por nivel acadmico y sexo de los empleados en un despacho de asesores para los aos de 1974 a 1977. Las clasificaciones por cada uno de los cuatro aos son las mismas, lo cual permite hacer comparaciones entre los distintos aos. Las entradas de la tabla dan el nmero total de empleados, desglosado en profesionales y no profesionales por cada ao. Note que la suma de profesionales y no profesionales da el nmero total de empleados para un ao dado. La tabla tambin desglosa a profesionales y no profesionales en nmero de hombres y mujeres. Algunas veces se usan porcentajes como entradas de las tablas estadsticas. Cuando sea ste el caso, las tablas deben ser examinadas cuidadosamente puesto que las comparaciones entre entradas correspondientes a distintas muestras pueden verse distorsionadas si el nmero de observaciones vara de muestra a muestra. Por ejemplo, dos entradas en un mismo rengln de la tabla pueden tener 50% ambas, pero la primera entrada puede representar 100 de 200 y la segunda puede representar 1 de 2. El 50% de la primera entrada basado en un total de 200 observaciones es, en este caso, ms representativo que el segundo, basado en un total de 2. Por lo tanto, ambos porcentajes deben compararse con cuidado. En la grfica 1 se ejemplifica como se puede usar un diagrama de barras para exhibir grficamente algunos de los datos de los empleados en la tabla 1. Por lo general los diagramas de barras no se subdividen tan finamente como las tablas puesto que particiones adicionales hacen confusa la apariencia de la grfica, lo que desvirta el objetivo de producir una grfica que sea de lectura sencilla y permita un anlisis rpido de datos. Es posible construir distintos diagramas de barras que exhiban la misma informacin. En el ejemplo de la grfica 1 es posible usar 3 barras para cada ao, una barra exhibiendo el nmero de hombres, otra el nmero de mujeres y la tercera el nmero total de empleados. El tipo de diagrama usado no es importante, en tanto describa la informacin en forma clara y fcil de interpretar.
13
200
Nmero de Empleados
150
100
hombres mujeres
50
0 1974 1975 Aos

Grfica 1. Diagrama de barras
1976
1977
Los diagramas de barras sirven principalmente para representar el total de una cierta cantidad para cada ao o para cada categora presentada. DIAGRAMA DE PUNTOS Basta ilustrar con un ejemplo, considrense las observaciones mustrales 5, 7, 1, 2, 4. Estas observaciones se muestran en el diagrama de puntos que se presenta en la grfica 2.
Grfica 2. Diagrama de puntos
14
TABLA DE FRECUENCIAS
Una descripcin informativa de cualquier conjunto de datos est dada por la frecuencia de repeticin u arreglo distribucional de las observaciones en el conjunto. Para apreciar lo necesario de un resumen de datos, considere el ejemplo del Servicio de Hacienda Interno (SHI) que se encarga de recibir y procesar millones de declaraciones de ingresos durante todo el ao. Es dudoso que el SHI pueda descubrir los patrones ocultos de ingresos e impuestos examinando simplemente la informacin contenida en las declaraciones. Similarmente, el Departamento del Censo no podra avanzar mucho al analizar los datos del censo, si stos no pudiesen visualizarse. Para identificar los patrones en un conjunto de datos es necesario agrupar las observaciones en un nmero relativamente pequeo de clases que no se superpongan entre s, de tal manera que no exista ninguna ambigedad con respecto a la clase a que pertenece una observacin en particular. El nmero de observaciones en una clase recibe el nombre de frecuencia de clase, mientras que el cociente de una frecuencia de clase con respecto al nmero combinado de observaciones en todas las clases se conoce como la frecuencia relativa de esa clase. Las fronteras de la clase se denominan lmites, y el promedio aritmtico entre los lmites superior e inferior recibe el nombre de punto medio de la clase.
Nmero de unidades vendidas (clase) 89 - 89 90 - 99 100 - 109 110 - 119 120 - 129 130 - 139 140 - 149 150 - 159 160 - 169 Total Frecuencia de la clase 7 20 5 11 11 12 6 23 5 100 Frecuencia relativa 7/100 = 0.07 20/100 = 0.20 5/100 = 0.05 11/100 = 0.11 11/100 = 0.11 12/100 = 0.12 6/100 = 0.06 23/100 = 0.23 5/100 = 0.05 1.00
Tabla 2. Frecuencias para el nmero de unidades vendidas de cierto producto
15
HISTOGRAMAS
Al graficarse las frecuencias relativas de las clases contra sus respectivos intervalos en forma de rectngulos, se produce lo que comnmente se conoce como histograma de frecuencia relativa o distribucin de frecuencia relativa. Esta ltima es la que puede hacer evidentes los patrones existentes en un conjunto de datos. Como ilustracin, los datos de la tabla 2 representan las frecuencias de unidades vendidas por da de un determinado producto por una compaa. El histograma de frecuencia relativa se construye graficando en el eje vertical la frecuencia relativa y en el eje horizontal las fronteras inferiores de cada clase, como se ilustra en la grfica 3.
0,25 0,2
Frecuencia relativa
Este 0,15 Oeste Norte Columnas 4 0,1 Columnas 5 Columnas 6 0,05 Columnas 7 Columnas 8 Columnas 9 0 Nmero de unidades vendidas
Grfica 3. Histograma de frecuencia relativa para el no. de unidades vendidas.
El nmero de clases que se emplea para clasificar los datos en un conjunto depende del total de observaciones de ste. Si el nmero de observaciones es relativamente pequeo, el nmero de clase a emplear ser cercano a cinco, pero generalmente nunca menor que este valor. Si existe una cantidad sustancial de datos, el nmero de clases debe encontrarse entre ocho y doce y generalmente no existirn ms de 15 clases. Un nmero muy pequeo de clases puede ocultar la distribucin real del conjunto de datos, mientras que un nmero muy grande puede dejar sin observaciones a algunas de las clases, limitando de esta forma su uso. A manera de ilustracin, si se reducen las nueve clases a slo tres, en el ejemplo anterior, como se indica en la tabla 3, el histograma de frecuencia relativa resultante (grfica 4) es muy diferente al mostrado en la grfica 3.
16
Nmero de unidades vendidas (clase) 80 - 109 110 - 139 140 - 169 Total
Frecuencia de la clase 32 34 34 100
Frecuencia relativa 32/100 = 0.32 34/100 = 0.34 34/100 = 0.34 1.00
Tabla 3. Frecuencia para el nmero de unidades vendidas de cierto producto
0,1
Frecuencia relativa 0,2 0,3
0,4
Nmero de unidades vendidas
Grfica 4. Histograma modificado para el nmero de unidades vendidas.
Una buena prctica es la creacin de clases que tengan una longitud igual. Esto puede lograrse tomando la diferencia entre los dos valores extremos del conjunto de datos y dividindola entre el nmero de clases; el resultado ser aproximadamente la longitud del intervalo para cada clase. Sin embargo, existen casos donde esta regla no puede o no debe aplicarse. Por ejemplo, si se tuviera a la mano la lista de impuestos del SHI pagados por la poblacin en un ao, estas cantidades pueden encontrarse en un intervalo de $0 a $1 000 000. An a pesar de que se eligiesen 20 clases para la distribucin de frecuencia relativa, con intervalos de igual longitud, cada clase tendra una cobertura de $50 000. Lo anterior dara origen a una situacin en la que casi todas las observaciones caeran en la primera clase. Para casos como ste es preferible seleccionar una escala ms pequea en el extremo inicial que la utilizada para el extremo superior. Esta eleccin aclarar el patrn de la distribucin.
17
EJERCICIOS.
1. De acuerdo con la revista Informes al consumidor en su nmero de febrero de 1980, las cuotas anuales de 40 compaas para un seguro de $25 000 para hombre de 35 aos de edad son las siguientes:
$ 82 92 99 105
85 93 99 105
86 94 100 106
87 95 100 107
87 95 101 107
89 95 101 107
89 95 103 109
90 95 103 110
91 97 103 110
91 98 104 111
Establecer un esquema de agrupamiento para este conjunto de datos y determinar las frecuencias relativas. El Departamento de Agricultura de Estados Unidos inform que, en 1976, los ingresos netos por cosecha para los 50 estados de la nacin, fueron los siguientes:
$ 13 647 8 681 11 771 4 963 10 207 8 043 4 626 5 119 2 892
5 952 63 855 10 630 5 332 9 378 4 543 7 627 8 972 4 845 8 621 5 405
39 362 6 644 2 304 5 992 11 177 8 992 6 480 10 452 2 290 2 789
9 692 4 438 6 859 7 000 12 292 23 811 6 824 9 922 4 973 30
27 611 19 106 8 141 12 543 6 695 7 657 9 554 7 683 3 904 241
Establecer un esquema de agrupamiento para este conjunto de datos y determinar las frecuencias relativas. 2. Los datos en la tabla representan los gastos de consumo personal por tipo de bienes en los Estados Unidos, para algunos aos entre 1929 y 1969 (en miles de millones de dlares):
18
TIPO DE BIENES bienes perdurables bienes perecederos Servicios
AO 1929 9.2 37.7 30.3
1949 24.6 94.6 54.6
1959 44.3 146.6 120.3
1969 90.0 245.8 241.6
a. Elabore una grfica de barras que represente estos datos. b. Use la grfica para discutir los cambios en el tiempo de los gastos en los 3 tipos de bienes en el perodo de 1929 a1969.
19
3. MEDIDAS NUMRICAS
En la seccin anterior se plantearon las tcnicas grficas para descubrir los patrones de distribucin ocultos en un conjunto de datos. En esta seccin se definen algunas medidas numricas que se emplean comnmente para describir conjuntos de datos. Si el conjunto es una muestra aleatoria de una poblacin y la ltima meta es hacer inferencia estadstica, estas medidas sern utilizadas como bases para las inferencias.
Medidas de localizacin
Existen dos medidas de inters para cualquier conjunto de datos: la localizacin de su centro y su variabilidad. La tendencia central de un conjunto de datos es la disposicin de stos para agruparse ya sea alrededor del centro o de ciertos valores numricos. La variabilidad de un conjunto de datos es la dispersin de las observaciones en el conjunto. Existen principalmente tres medidas de tendencia central: la media, la mediana y la moda. DEFINICIN 3.1 La media de las observaciones x1, x2, xn, es el promedio aritmtico de stas y se denota por
X =
X
i =1
La media es una medida apropiada de tendencia central para muchos conjuntos de datos. Sin embargo, dado que cualquier observacin en el conjunto se emplea para su clculo, el valor de la media puede afectarse de manera desproporcionada por la existencia de algunos valores extremos (aislados).
Definicin 3.2
La mediana de un conjunto de observaciones es el valor para el cual, cuando todas las observaciones se ordenan de manera creciente (ascendente), la mitad de stas es menor que este valor y la otra mitad mayor. Si el nmero de observaciones en el conjunto es impar, la mediana es el valor de la observacin que se encuentra a la mitad del conjunto ordenado. Si el nmero es par se considera
20
la mediana como el promedio aritmtico de los valores de las dos observaciones que se encuentren a la mitad del conjunto ordenado. Alternativamente, la mediana puede determinarse a partir de la distribucin acumulativa, es decir, la mediana es el percentil cincuenta. Puesto que la mediana es un valor que se basa en la secuencia ordenada de las observaciones en un conjunto de datos, es necesario saber que la existencia de algunos valores extremos no afectar su valor. Por lo tanto, si un conjunto contiene unos cuantos valores extremos y un agregado muy alto de observaciones, la mediana puede ser una medida de tendencia central mucho ms deseable que la media. Generalmente los conjuntos de datos que describen informacin acerca de ingresos caen en esta categora.
Definicin 3.3
La moda de un conjunto de observaciones es el valor de la observacin que ocurre con mayor frecuencia en el conjunto. La moda muestra hacia qu valor tienden los datos a agruparse. En conjuntos relativamente pequeos, puede que no exista un par de observaciones cuyo valor sea el mismo. En esta situacin no es clara la definicin de moda. Tambin puede suceder que la frecuencia ms alta se encuentre compartida por dos o ms observaciones. En estos casos, la moda tiene la utilidad limitada como medida de tendencia central. Si se ha determinado una distribucin de frecuencia relativa, la clase con la frecuencia ms alta recibir el nombre de clase modal, con lo que se define a la moda como el punto medio de esa clase. En este caso la clase modal sirve como punto de concentracin en el conjunto de datos. La inferencia estadstica resulta en general ms simple cuando se usa la media. Puesto que es la inferencia el tema principal y debido a que la media es ms usada para este propsito, de aqu en adelante concentraremos la atencin en la media como medida de tendencia central.
21
Ejercicios
1. Los siguientes datos representan el nmero de interrupciones por da de trabajo debidas a fallas mecnicas en una planta procesadora de alimentos: 2, 3, 0, 5, 4, 3, 1, 3, 5, 2 Calcule la media, la mediana y encuentre el nmero modal de interrupciones diarias. (Respuesta: Media = 2.8, mediana = 3, moda = 3) 2. Diga usted que medidas de tendencia central seran ms tiles en cada uno de los siguientes casos. a. El gerente de produccin de una fbrica de envases de vidrio quiere saber cul es el tamao de envase que debe fabricar en mayor cantidad. El tiene a la mano un buen nmero de datos de los tamaos de envase ordenados por los clientes. b. El gerente de ventas de una compaa que produce mobiliario de lujo desea seleccionar regiones para establecer salas de exhibicin. En qu medida del ingreso familiar por regin estar ms interesado, en la media o en la mediana? c. Un analista de la bolsa de valores est interesado en describir el cambio diario en el precio en el mercado de una accin de cierta compaa. Rara vez el precio cambia ms de un punto, pero hay ocasiones en que el precio cambia hasta cuatro puntos. Qu medida debe usar el analista para describir el cambio de precio de la accin en cuestin, la media, la mediana o la moda de los cambios de precio en el mercado? (Respuesta: a. Moda b. Mediana c. Media)
Medidas de dispersin
Una medida de tendencia central proporciona informacin acerca de un conjunto de datos pero no proporciona ninguna idea de la variabilidad de las observaciones en dicho conjunto. Por ejemplo, considere los dos siguientes conjuntos de datos, cada uno de los cuales consiste de cuatro observaciones: 0, 25, 75, 100; 48, 49, 51, 52. En ambos casos, media = mediana = 50. Estos dos conjuntos son muy diferentes entre s, sin embargo las observaciones en el primero se encuentran mucho ms dispersas que en el segundo. Una de las medidas ms tiles de dispersin o variacin es la varianza.
22
Definicin 3.4
La varianza de las observaciones x1, x2, xn es, en esencia, el promedio del cuadrado de las distancias entre cada observacin y la media del conjunto de observaciones. La varianza se denota por
s = ( xi x )
i =1
( n 1)
La varianza es una medida razonablemente buena de la variabilidad debido a que si muchas de las diferencias son grandes (o pequeas) entonces el valor de la varianza s2 ser grande (o pequeo). El valor de la varianza puede sufrir un cambio muy desproporcionado, an ms que la media, por la existencia de algunos valores extremos en el conjunto.
Definicin 3.5
La raz cuadrada positiva de la varianza recibe el nombre de desviacin estndar y se denota por
n 2 s = ( xi x ) i =1
( n 1)
La varianza y la desviacin estndar no son medidas de variabilidad distintas, debido a que la ltima no puede determinarse a menos que se conozca la primera. A menudo se prefiere la desviacin estndar en relacin con la varianza, porque se expresa en las mismas unidades fsicas de las observaciones.
23
Medidas de sesgo
Para ilustrar una distribucin de muestreo, permtannos hacer un experimento. Tengo una caja que contiene un nmero grande de bolas, idnticas excepto por el color. Estas bolas son la poblacin. La proporcin de bolas negras en la caja es p = 0.20 y este nmero es un parmetro describiendo esta poblacin de bolas. Suponemos que disponemos de una pala con 25 celdas y que cuando la introducimos en la caja, extraemos una muestra de 25 bolas. Si las bolas en la caja estn bien mezcladas, esta es una muestra aleatoria simple de tamao 25. Nos preguntamos sobre una muestra simple aleatoria de tamao 25 de una poblacin que contiene 20% de bolas negras, lo siguiente: Cuntas bolas negras esperamos que aparezcan en la muestra? Si toma varias muestras simples aleatorias, Espera encontrar una muestra con 25 bolas negras? Una sin bolas negras? Una con 15 bolas negras? Razonablemente esperara que alrededor del 20% de las bolas fuesen negras, esto es, aproximadamente 5 bolas negras de entre las 25 bolas en la muestra. Pero no siempre obtendremos exactamente 5 bolas negras. Si obtenemos, por decir, 4 bolas negras, entonces la estadstica p^ = 4 / 25 = 0.16. Es, sin embargo, una buena aproximacin del parmetro p = 0.20. Pero si sacamos una muestra con 15 bolas negras, entonces p^ = 15 / 25 = 0.60. Es una estimacin mala de p. Qu tan frecuentemente obtendremos tan pobres estimaciones de una muestra simple aleatoria? Realizamos este experimento 200 veces y registramos el nmero de bolas negras en cada muestra. (Fuimos cuidadosos de regresar la muestra a la poblacin y agitar la poblacin despus de cada repeticin). Los resultados se muestran en la tabla y grfica siguientes. Ninguna de las 200 muestras tuvo ms de 9 bolas negras.
24
Nmero de bolas negras en la muestra Proporcin muestral p^ Nmero de muestras con este resultado Proporcin de muestras con este resultado
0 0 3
1 0.04 8
2 0.08 12
3 0.12 34
4 0.16 40
5 0.20 47
6 0.24 24
7 0.28 20
8 0.32 9
9 0.36 3
0.015 0.040 0.060 0.170 0.200 0.235 0.120 0.100 0.045 0.015
Tabla 4. Resultados de 200 muestras aleatorias simples de tamao 25 cuando p = 0.20
50 45 0 1 2 3 4 5 6 7 8 9
Nmero de muestras
40 35 30 25 20 15 10 5 0
Bolas negras en la muestra

Grfica 5. Resultados de 200 muestras simples aleatorias de tamao 25 cuando p = 0.20
La proporcin muestral p^ desde luego que vara de muestra a muestra: recorri de 0 (ninguna bola negra) hasta 0.36 (9 bolas negras) cuando las 200 muestras fueron examinadas. Pero estimaciones tan malas como p^ = 0 o p^ = 0.36 (recuerde que el verdadero p es 0.20 para esta poblacin) no ocurren frecuentemente. De las 200 muestras, 56% tuvieron 4, 5 o 6 bolas negras (p^ de 0.16, 0.20 o 0.24) y 83% tuvieron 3, 4, 5, 6 o 7 bolas negras (p^ entre 0.12 y 0.38). Errores en el muestreo En nuestro experimento, conocemos p. Si p fuera desconocido, los mismos hechos deberan mantenerse. No podemos garantizar que la estadstica muestral p^ est cercano al desconocido p (por la variacin del muestreo), pero podemos estar seguros que as es (porque la mayora de las veces las muestras aleatorias simples dan valores de p^ cercanos a p). As, los resultados de una muestra aleatoria simple no solo son
25
imparciales sino que tienden a ser reiterativos de muestra a muestra. Finalmente, debemos abundar que el hecho de la falta de repeticiones en un mtodo muestral (la muestra resulta extraviarse en el corral) es un problema tan serio como el favoritismo. Puesto que una muestra es seleccionada con el propsito de obtener informacin de una poblacin, por error en una muestra obtenemos una incorrecta estimacin del parmetro de una poblacin para una estadstica muestral. Dos tipos bsicos de errores son asociados con cualquier mtodo de recoleccin muestral de datos. El sesgo consiste en divergencias repetidas de la estadstica muestral (en la misma direccin) del parmetro poblacional. La escasez de precisin significa que en repetidas muestras los valores de la estadstica muestral estn diseminados o esparcidos; los resultados del muestreo no se pueden repetir. Un malentendido frecuente es confundir, en un mtodo muestral, el sesgo con una fuerte tendencia de la poblacin misma, especialmente si esa tendencia es una reflexin de prejuicio o sesgo en el sentido ordinario de esa palabra. Si, por ejemplo, 93% de una poblacin de directores corporativos de personal se opone en una accin firme al Programa de Empleo del Gobierno Federal, esto no es sesgo en el sentido estadstico. Es solamente un hecho sobre esta poblacin. La distribucin muestral de una estadstica describe a ambos, su sesgo y su precisin. Por ejemplo, la precisin de p^ como un estimador de p puede ser expresado tal como 56% de las muestras simples aleatorias de tamao 25 tienen un valor de p^ con 0.04 del valor real de p. La forma de la distribucin de valores mostrada en la tabla 4 es tpica de una muestra simple aleatoria. Estas distribuciones pueden ser estudiadas matemticamente evitndonos el trabajo de experimentacin. Podras adivinar tales estudios (y experimentos tambin) que muestran que el incremento del tamao de la muestra aumenta la precisin de la estadstica muestral. Si en nuestro experimento hemos usado muestras de tamao 100, el 74% de esas muestras debera tener proporciones mustrales p^ con 0.04 de p. Si, como Newsday, tomamos muestras de tamao 1 373, poco menos que 2 en 10 000 fallaran al tener p^ con 0.04 de la realidad sobre la poblacin. Slo agregaremos un dato ms para darle el tiro de gracia al
26
escepticismo del reportero periodstico sobre muestras 1 en 40 000: La precisin de una estadstica muestral no depende en que si el tamao de la poblacin es mucho ms grande que el tamao de la muestra. En otras palabras, el patrn de resultados de repetidamente sumergir la pala en una enorme caja conteniendo bolas no depende en si la caja contiene 1 000 bolas (como en el experimento) o 1 000 000 de bolas. La precisin depende en cuantas bolas extrae la pala de la caja (el tamao de la muestra) y, en menor grado, en la proporcin p de bolas negras en la poblacin. Estas son noticias nuevas para Newsday. Su muestra de tamao 1 373 tiene gran precisin porque el tamao de la muestra es grande. Que slo 1 en 40 000 de la poblacin fueron seleccionados es irrelevante. Los conocimientos hasta aqu adquiridos son el fundamento para un acuerdo sobre los usos del muestreo. En resumen, estos hechos son como sigue: 1. No obstante la dispersin muestral de las estadsticas de una muestra simple aleatoria, los valores de esas estadsticas tiene una distribucin conocida (esto es, un patrn conocido) cuando se repiten las muestras. 2. La precisin de una estadstica de una muestra simple aleatoria depende del tamao de la muestra y puede ser tan alta como se desee con slo tomar una muestra bastante grande.
Ejercicios
Establezca si los valores dados son parmetro o estadstica. 1. El Bur de Estadsticas Laborales anuncia que el mes prximo pasado entrevist a todos los miembros de la fuerza laboral en una muestra de 55 800 familias, de los cuales 6.5% estaban desempleados. Un lote de balines tiene un dimetro promedio de 2.503 centmetros. Esto es con las especificaciones para aceptacin del lote por parte del comprador. Pero el procedimiento muestral de aceptacin inspecciona 100 balines del lote con un dimetro promedio de 2.515 centmetros. Esto est fuera de los lmites especificados,
2.
27
as que el lote es equivocadamente rechazado. 3. Una compaa que vende telfonos en Los ngeles usa un dispositivo que marca aleatoriamente nmeros telefnicos residenciales en dicha ciudad. De los primeros 100 nmeros marcados, 47 son nmeros no registrados. Esto no es sorpresa, porque 52% del total de telfonos residenciales son no registrados.
4.
El registro de votantes muestra que 68% del total de votantes en Marion County, Indiana estn registrados como Republicanos. Para comprobarlo, se utiliza un dispositivo digital aleatorio de marcacin, se usa el dispositivo para llamar a 150 telfonos residenciales seleccionados aleatoriamente. De los votantes registrados contactados, 73% se registraron Republicanos. Justo antes de una eleccin presidencial, una firma de encuestas de opinin pblica aumenta el tamao de su muestra semanal de la usual de 1 500 personas a 4 000 personas. Optar por una muestra aleatoria ms grande, hace el sesgo de los resultados de la encuesta menores? Se mejora la precisin de la muestra?
5.
28
4 DESCRIPCIN DE DATOS BIVARIADOS
Diagramas de dispersin
Para efectos de ilustracin se introduce el tema considerando el problema de predecir las ventas mensuales y de una compaa en la cual sus productos no experimentan una variacin estacionaria en sus ventas. Como la variable predictora x se utiliza la cantidad gastada en publicidad por la compaa en el mes bajo estudio. Es de inters ver si en efecto hay una relacin entre lo gastado en publicidad y lo vendido y adems, si se puede predecir lo que se vender, y, como una funcin de lo que se est dispuesto a gastar en publicidad, x. La evidencia que se presenta en la tabla 5 es una lista de gastos publicitarios y volmenes de ventas de 10 meses que fueron seleccionados al azar de los archivos. Se supondr que los gastos publicitarios y ventas de estos 10 meses constituyen una muestra de mediciones de las operaciones pasadas y presentes de la compaa.
MES 1 2 3 4 5 GASTOS PUBLICITARIOS x (X $10 000) 1.2 0.8 1.0 1.3 0.7 VOLUMEN DE VENTAS y (X $10 000) 101 92 110 120 90
29
6 7 8 9 10 0.8 1.0 0.6 0.9 1.1 82 93 75 91 105
Tabla 5. Gastos publicitarios y volmenes de venta de una compaa durante 10 meses elegidos al azar
Lo primero que se hace para analizar los datos de la tabla 5 es el graficar los datos como puntos en una grfica, representando el volumen mensual de ventas y en el eje vertical y los gastos publicitarios correspondientes x en el eje horizontal.
Volumen de Ventas
130 120 110 100 90 80 70 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 Gasto Publicitario
Grfica 6. Diagrama de dispersin de los datos de la tabla 5
La grfica 6 es referida como diagrama de dispersin. Se observa en ella que aparentemente y crece cuando x crece. (Podra haber ocurrido un tal diagrama por casualidad si x y y no estuvieren relacionadas?) Un mtodo para obtener una ecuacin de prediccin que relacione a y con x consiste en poner una regla de dibujo sobre la grfica y moverla hasta que d la apariencia de que pasa a travs de los puntos. La lnea recta que resulta se considera el mejor ajuste a los datos. Se puede utilizar de ah en adelante, la grfica de la recta para predecir el volumen de ventas y en funcin de los gastos publicitarios x que se presupuesten para ese mes. Estimacin por mnimos cuadrados para el modelo lineal simple. En la estimacin por mnimos cuadrados para el modelo lineal simple slo se tiene una variable de prediccin, y se supone
30
una ecuacin de regresin lineal. Por ejemplo, los estudiantes universitarios que aprenden ms rpido tienen mejores calificaciones promedio (CP) y por lo tanto, mejores oportunidades de obtener buenos empleos despus de graduarse. Supngase que los datos que se encuentran en la tabla A representan las calificaciones promedio de 15 egresados y sus correspondientes salarios iniciales.
CP 2.95 3.20 3.40 3.60 3.20 Salario inicial 18.5 20.0 21.1 22.4 21.2 CP 2.85 3.10 2.85 3.05 2.70 Salario inicial 15.0 18.0 18.8 15.7 14.4 CP 2.75 3.10 3.15 2.95 2.75 Salario inicial 15.5 17.2 19.0 17.2 16.8
Tabla A. Datos de la muestra para un modelo lineal simple (miles de dlares)
Para este ejemplo, la variable respuesta es el salario inicial y la variable de prediccin potencial es la calificacin promedio. Estas ltimas se seleccionaron de tal manera que reflejen un amplio intervalo. Se desea determinar una ecuacin de regresin para el salario inicial promedio como una funcin de la calificacin promedio. Dado que se ha propuesto slo una variable de prediccin, graficar los datos puede ser til en la seleccin inicial de un modelo de regresin. La grfica de los salarios iniciales contra las calificaciones promedio se muestra en la grfica A. A pesar que esta grfica muestra una gran dispersin3, se observa una tendencia lineal. De acuerdo con lo anterior se supondr un modelo de la forma Yi = 0 + 1xi + i i = 1, 2, 3, . . . , n, X Donde Y, es la i-sima observacin de la variable respuesta, la cual corresponde al i-simo valor xi de la variable de prediccin, i es el error aleatorio no observable asociado con Y, y 0 y 1 son los parmetros desconocidos que representan la interseccin y la pendiente, respectivamente. La expresin X se conoce como modelo lineal simple, debido a que es lineal en los parmetros y se tiene slo una variable de prediccin. Cada observacin Y, es una variable aleatoria que es la suma de dos componentes; el trmino no aleatorio 0 + 1xi, y la componente aleatoria i. Si i fuera un valor igual a cero, la observacin Y, se encontrara precisamente sobre la lnea de regresin 0 + 1xi. Por lo tanto, i es la distancia vertical de la observacin a la lnea de regresin. Dado que se supone
3
Por esta razn, este tipo de grfica se conoce como grfica de dispersin.
31
E(i) = 0, Var(i) = 2 i = 1, 2, . . . , n, y Cov(i, j) = 0 i j; entonces E(Yi) = E(0 + 1x + i) = 0 + 1x, Cov(Yi, Yj) = 2 i j, y Var(Yi) = Var(0 + 1xi + i) = Var(i) = 2. El ltimo resultado surge del hecho de que la varianza de una variable aleatoria no vara con respecto a la localizacin; en este caso, el corrimiento en localizacin est proporcionado por el trmino no aleatorio 0 + 1xi. Por lo tanto, en trminos reales. lo que se supone es que para cada calificacin promedio x existe una distribucin de probabilidad para los salarios iniciales cuya media es una funcin lineal de x y cuya varianza es la misma para toda x. El modelo proporcionado por X debe considerarse slo como una seleccin inicial para la forma funcional de la curva de regresin. Con base en anlisis ms apropiados, puede ser necesario hacer ajustes y stos a su vez pueden dar como resultado una ecuacin final de prediccin diferente de la del modelo inicial. Para obtener los estimadores de mnimos cuadrados de 0 y 1, se generalizar un conjunto de datos consistente en n pares (x1, y1), (x2, y2), . . . , (xn, yn), donde los valores de y son las observaciones de la variable aleatoria respuesta. El mtodo de mnimos cuadrados considera la desviacin de la observacin Yi de su valor medio y determina los valores de 0 y 1 que minimizan la suma de los cuadrados de estas desviaciones. La i-sima desviacin o error es i = Yi - (0 + 1xi), Y y la suma de los cuadrados de los errores es Z
i = (Yi - 0 - 1xi)2
2 i =1 i =1
32
Los estimadores de mnimos cuadrados de 0 y 1 se obtienen mediante la diferenciacin de Z con respecto a 0 y 1 y despus al igualar cada derivada parcial con cero, es decir i2 = -2 (Yi - B0 - B1xi) = 0, 0 y i2 = -2 xi(Yi - B0 - B1xi) = 0, 1 Donde B0 y B1 son los estimadores de mnimos cuadrados de 0 y 1, respectivamente. Al simplificar y distribuir las sumas en estas ecuaciones, se tiene Yi = nB0 + B1 xi y xiYi = B0 xi + B1 xi2. [ Las dos ecuaciones dadas por [ se conocen como ecuaciones normales. Dadas las realizaciones y1, y2, . . . , yn, las ecuaciones pueden resolverse para los estimados de mnimos cuadrados b0 y b1. Si se dividen ambos miembros de la primera ecuacin entre n, se obtiene ( yi)/n = b0 + b1 ( xi)/n ; entonces el estimador de mnimos cuadrados de 0 es _ _ b0 = ( yi)/n - b1( xi)/n = y - b1x. \ Al sustituir b0 en la segunda ecuacin de [ se obtiene xiYi = [( yi)/n - b1( xi)/n] xi + B1 xi2, la que, despus de resolver para b1, se reduce a _ _ _ b1 = [ (xi - x)(yi - y)]/[ (xi - x)2] ] Los valores dados por \ y ] son aquellos que minimizan la suma de los cuadrados de los errores. Dados los estimadores de mnimos cuadrados de B0 y B1 para la interseccin y la pendiente, respectivamente, la recta de regresin estimada para el modelo X es Yî = B0 + B1xi ^ donde Yî es el estimador para la media de la observacin Yi, la cual corresponde al valor xi de la variable de prediccin.
33
Ntese que si se sustituye \ por B0 en ^ se obtiene una forma alternativa para la recta de regresin estimada, la cual se encuentra dada por _ _ _ Yî = (y - b1x) + B1xi = Y + B1(xi - x). _ Con base en Y, la diferencia entre la realizacin yi y el valor estimado yî es un estimador del correspondiente error. Este estimador se conoce como el i-simo residual y se denota por ei = yi - yî . ` De nuevo, ntese que los residuos no son estimados en el sentido clsico de la estimacin de parmetros (fijos), sino que son estimadores de los valores de las variables aleatorias no observables i, los cuales se obtienen de la recta de regresin estimada. Los residuos e1, e2, . . . , en son muy importantes debido a que proporcionan una abundante informacin sobre lo que puede faltar del modelo de regresin estimado. En este momento se ilustrarn los pesos de clculo para obtener la recta de regresin estimada para el modelo lineal simple empleando para ello los datos de los salarios. El propsito de esto radica en familiarizar al estudiante nicamente con el procedimiento de clculo. En la tabla B, se incluyen los clculos bsicos necesarios para obtener los estimadores de mnimos cuadrados de la interseccin y la pendiente.
34
Totales
CP xi 2.95 3.20 3.40 3.60 3.20 2.85 3.10 2.85 3.05 2.70 2.75 3.10 3.15 2.95 2.75 45.6
Salario yi 18.5 20.0 21.1 22.4 21.2 15.0 18.0 18.8 15.7 14.4 15.5 17.2 19.0 17.2 16.8 270.8
x iy i 54.575 64.000 71.740 80.640 67.840 42.750 55.800 53.580 47.885 38.880 42.625 53.320 59.850 50.740 46.200 830.425
x i2 8.7025 10.2400 11.5600 12.9600 10.2400 8.1225 9.6100 8.1225 9.3025 7.2900 7.5625 9.6100 9.9225 8.7025 7.5625 139.5100
Tabla B. Clculos bsicos para obtener los estimadores de mnimos cuadrados b0 y b1 (con base en los datos de salarios dados en la tabla A)
Mediante el empleo de \ y ]el estimador de mnimos cuadrados para la pendiente es b1 = [830.425 - (45.6)(270.8)/15]/[139.51 - (45.6)2/15] = 8.12, y el correspondiente estimado de mnimos cuadrados para la interseccin es b0 = 270.8/15 - (8.12)(45.6/15) = - 6.63. De acuerdo con lo anterior, la ecuacin estimada de regresin es ^yi = - 6.63 + 8.12 xi. a Al intentar interpretar esta ecuacin se tiene que los valores ^yi son los estimadores para las medias de las distribuciones de probabilidad de los salarios iniciales correspondientes a las calificaciones promedio xi. Tener una interseccin negativa resulta fastidioso, ya que, por ejemplo, si x = 0.5, ^y = - 2.57, lo cual es absurdo. Pero las calificaciones promedio en este conjunto de datos varan de 2.70 a 3.60, por lo tanto, cualquiera que sea la validez que tiene la ecuacin estimada de regresin al predecir los salarios iniciales promedio se mantiene, para todos aquellos valores de x que se encuentren entre 2.70 y 3.60. En la prctica, muchas veces se desea predecir la respuesta ms all del intervalo de valores de x para los cuales se obtuvo la ecuacin estimada de regresin. Si un valor de x se encuentra muy cercano a este intervalo, la prediccin tendr
35
cierta validez. De esta forma, sta debe verse con mucho cuidado, ya que la ecuacin de regresin estimada puede no ser apropiada para un intervalo de valores ms amplio de la variable de prediccin. La interpretacin del valor estimado de la pendiente es directa. El incremento estimado en el salario inicial promedio para cada aumento igual a una unidad de la calificacin promedio es de 8 120 dlares.
EJERCICIOS
1. Suponga que le son dados cinco puntos cuyas coordenadas son las de la tabla.
x y -3 6 -1 4 1 3 1 1 2 1
a. Encuentre la recta de mnimos cuadrados para los datos. b. Como una verificacin de sus clculos en el inciso a, grafique los puntos y la recta de mnimos cuadrados. 2. Por presupuesto flexible, se entiende la relacin entre ingresos y costos. Suponga que un ejecutivo de una empresa quiere establecer un presupuesto flexible para estimar sus costos para un cierto rango de produccin. Los costos y predicciones pasadas se encuentran en la tabla.
Producci n (X $10 000) Costos fijos (X $1 000) 3 4 5 6 7 8 9
12
10.5
13
12
13
13.3
16.5
a. Encuentre la recta de mnimos cuadrados que le permita estimar costos a partir de la produccin. b. Como verificacin de sus clculos, grafique los 7 puntos y la recta de mnimos cuadrados.
36
TABLAS DE CONTINGENCIA
Muchas veces surge la necesidad de determinar si existe alguna relacin entre dos rasgos diferentes en los que una poblacin ha sido clasificada y en donde cada rasgo se encuentra subdividido en cierto nmero de categoras. Por ejemplo, Existe una relacin entre el fumar cigarrillos y la predisposicin a desarrollar cncer pulmonar?, o tambin Existe una relacin entre la filiacin poltica y la opinin con respecto a incrementar el presupuesto armamentista? En ambos ejemplos, se ha clasificado a la poblacin en dos caractersticas y en donde se supone que cada una de stas tiene por lo menos dos categoras exhaustivas y mutuamente excluyentes. En el primer ejemplo las dos caractersticas son, si se es fumador, y si se desarrolla cncer pulmonar. Las caractersticas para estas dos caractersticas podran ser si se es fumador crnico, moderado o no fumador, para la primera, y el si se desarrolla o no cncer pulmonar para la segunda. Cuando una muestra aleatoria que se obtiene de una poblacin se clasifica de esta manera, el resultado recibe el nombre de tabla de contingencia con dos criterios de clasificacin. Esta tabla se forma por las frecuencias relativas que se observaron para las dos clasificaciones y sus correspondientes categoras. El anlisis de una tabla de este tipo supone que las dos clasificaciones son independientes. Esto es, bajo la hiptesis nula de independencia se desea saber si existe una diferencia suficiente entre las frecuencias que se observan y las correspondientes frecuencias que se esperan, tal que la hiptesis nula se rechace. Ejemplo 1. Una compaa evala una propuesta para fusionarse con una corporacin. El consejo de directores desea muestrear la opinin de los accionistas para determinar si sta es independiente del nmero de acciones que cada uno posee. Una muestra aleatoria de 250 accionistas proporciona la informacin que se muestra en la tabla 7. Con base en esta informacin, existe alguna razn para dudar de que la opinin con respecto a la propuesta es independiente del nmero de acciones que posee el accionista? sese = 0.10. La hiptesis nula se establece de la siguiente forma
37
H0 : pij = pi pj,
Nmero de acciones Menos de 200 200 1 000 Ms de 1 000 Totales
i = 1, 2, 3; j = 1, 2, 3.
Opinin En contra 29 42 59 130
A favor 38 30 32 100
Indecisos 9 7 4 20
Totales 76 79 95 250
Tabla 7. datos mustrales para el ejemplo de los accionistas
En sta, pij es la probabilidad de que un accionista seleccionado al azar se encuentre en la categora (i, j); pi es la probabilidad marginal de que el nmero de acciones que posee un accionista seleccionado al azar se encuentre el la categora i; y pj es la probabilidad marginal de que un accionista seleccionado al azar tenga una opinin j. Por la expresin
[Nij - (ninj)/n]2 / [(ninj)/n]

Y
i =1 j =1
(que para valores grandes de n es, en forma aproximada, una variable aleatoria jicuadrada con (r - 1)(c - 1) grados de libertad) la frecuencia esperada de la celda (i, j) es el producto del total del i-simo rengln por el total de la j-sima columna dividido por el tamao de la muestra n = 250. Por ejemplo, el nmero esperado de accionistas que estn a favor de la propuesta y que poseen ms de 1 000 acciones, es (95)(100)/250 = 38. Al continuar este proceso, se determinan las frecuencias esperadas para cada combinacin. En cada celda de la tabla 8, la primera lnea representa la frecuencia observada, la segunda la frecuencia esperada y la tercera la contribucin de cada celda al valor de la estadstica, de acuerdo con la expresin Y. De esta manera, el valor de la estadstica es 2 = (38 - 30.4)2/30.4 + (29 - 39.52)2/39.52 + . . . + (4 7.6)2/7.6 = 10.80 Dado que r = c = 3, el nmero de grados de libertad es 4. Para = 0.1, el valor crtico es 20.9, 4 = 7.78. De esta forma, el valor que se observa de la estadstica de prueba se encuentra dentro de la regin crtica, y la hiptesis nula debe rechazarse
38
De acuerdo con lo anterior, existe una razn para creer que la opinin con respecto a la propuesta y el nmero de acciones que cada accionista posee, no son independientes.
Nmero de acciones Menos de 200 A favor 38 30.40 1.90 30 31.60 0.08 32 38 0.95 En contra 29 39.52 2.80 42 41.08 0.02 59 49.40 1.87 Indecisos 9 6.08 1.40 7 6.32 0.07 4 7.60 1.71 Totales 76 76 6.10 79 79 0.17 95 95 4.53 250 250 10.80
200 1 000
Ms de 1 000
Totales
100 130 20 100 130 20 2.93 4.69 3.18 Tabla 8. Frecuencias esperadas y observadas para el ejemplo 1
Ejemplo 2. En una fbrica de muebles se desean clasificar defectos encontrados en los muebles segn el tipo de defecto y segn el turno de trabajo en el cual se fabric el mueble. Es claro que lo que se busca es estudiar la posible dependencia entre las dos clasificaciones. Varan las proporciones de defectuosos segn tipo de defecto de turno a turno? Un total de n = 309 defectos fueron registrados y clasificados segn el tipo A, B, C D y al mismo tiempo, el mueble al cual se le encontraba el defecto, era identificado segn el turno en el que haba sido producido, el primero, segundo o tercer turno. Estas observaciones se presentan en la tabla 9 (conocida como una tabla de contingencia). Dentese por pA a la probabilidad incondicional de observar un defecto del tipo A. Similarmente, denote por pB, pC y pD a las probabilidades de observar los otros tipos de defectos. Las probabilidades anteriores, que referiremos como probabilidades de columnas de la tabla 9 satisfacen pA + pB + pC + pD = 1 De manera anloga sean pi (i = 1, 2 3) las probabilidades de filas de que un defecto se haya producido en el turno i, i = 1, 2 3, en donde p1 + p2 + p3 = 1 Si las dos clasificaciones son independientes entre s, la probabilidad de una celda ser igual al producto de su respectiva probabilidad de fila y su respectiva probabilidad de
39
columna, de acuerdo a la ley multiplicativa de la probabilidad. Por ejemplo, la probabilidad que un defecto en particular ocurra en el primer turno y que sea del tipo A es p1pA. Observe que los valores de las probabilidades de las celdas no estn totalmente especificados en este problema. La hiptesis nula especifica solamente que cada probabilidad de celda debe ser igual al producto de la probabilidad de su fila por la probabilidad de su columna, y por ello implica la independencia de las dos clasificaciones. La hiptesis alternativa es que la igualdad mencionada no es cierta para al menos una de las celdas.
Turno 1 2 3 Totales A 15 26 33 74 Tipo de defecto B 21 31 17 69 C 45 34 49 128 D 13 5 20 38 Totales 94 96 119 309
Tabla 9. Tabla de contingencia en la que se clasifican defectos de muebles segn tipo de defecto y turno de operacin
En el anlisis de los datos obtenidos de la tabla de contingencia se tienen que estimar las probabilidades de filas y las probabilidades de columnas para poder estimar las frecuencias esperadas de las celdas. Se puede mostrar que el estimador de la probabilidad de una columna es igual al total observado en esa columna dividido por n, que en este caso es n = 309. Si se denota el total para la columna j por nj, se tiene p^C = n3/n = 128/309 pÂ = n1/n = 74/309 p^B = n2/n = 69/309 p^D = n4/n = 38/309 De manera similar, las probabilidades de renglones p1, p2 y p3 se pueden estimar usando los totales de renglones n1, n2, n3. p^1 = n1/n = 94/309 p^2 = n2/n = 96/309 p^3 = n3/n = 119/309
40
Si se denota la frecuencia observada para la celda situada en el rengln i y la columna j por nij, entonces el valor que se ha estimado para el valor esperado de nij es (nij) = ni nj / n Observase que el estimador de la frecuencia esperada para la celda i, j de una tabla de contingencia es igual al producto de sus totales respectivos de fila y columna divididos por la frecuencia total. Las estimaciones de las frecuencias esperadas de cada celda del ejemplo 2 aparecen en la segunda lnea de las celdas de la tabla 10. Se pueden ahora usar las frecuencias esperadas y las observadas de la tabla 10
Turno 1 A 15 22.51 2.51 26 22.99 0.40 33 3 28.50 0.71 74 74 3.62 B 21 20.99 0.00 31 21.44 4.26 17 26.57 3.44 69 69 7.70 Tipo de defecto C 45 38.94 0.94 34 39.77 0.84 49 49.29 0.00 128 128 1.78 D 13 11.56 0.18 5 11.81 3.92 20 14.63 1.97 38 38 6.07 Totales 94 94 3.63 96 96 9.42 119 119 6.12 309 309 19.17
Totales
Tabla 10. Frecuencias esperadas y observadas para el ejemplo 2
para calcular el valor de la estadstica 2, de acuerdo con la expresin Y. De esta manera, el valor de la estadstica es 2 = (15 - 22.51)2/22.51 + (26 - 22.99)2/22.99 + . . . + (20 14.63)2/14.63 = 19.18 El nico problema que queda para resolver es el de la determinacin de los grados de libertad apropiados. Se dan como una receta y se presenta alguna justificacin. Los grados
41
de libertad asociados a una tabla de contingencia de r filas y c columnas son siempre (r - 1)(c - 1). Para el ejemplo de los muebles, se compara 2 con el valor crtico de una 2 con (r 1)(c - 1) = (3 - 1)(4 - 1) = 6 grados de libertad. Los grados de libertad asociados con la estadstica 2 son el nmero de celdas (en este caso k = rc) menos un grado de libertad por cada restriccin lineal independiente que deban satisfacer las frecuencias de las celdas. El nmero de celdas para los datos de la tabla 10 es k = 12. De este nmero hay que restar un grado de libertad ya que la suma de todas las frecuencias de las celdas debe ser n; esto es, n11 + n12 + . . . + n34 = 309 Adems de lo anterior, se utilizaron las frecuencias de las celdas para estimar 3 de las 4 probabilidades de columna. Observe que el estimador para la probabilidad de la cuarta columna se obtiene de los otros tres estimadores ya que si se conoce pÂ, p^B y p^C, p^D se deduce de ellos pues pÂ + p^B + p^C + p^D = 1 o sea que se pierden (c - 1) = 3 grados de libertad por haber estimado las probabilidades de columna. Finalmente, se utilizaron las frecuencias de las celdas para estimar (r - 1) = 2 probabilidades de fila y por ello se pierden (r 1) = 2 grados de libertad adicionales. El total de grados de libertad que quedan es g. l. = 12 - 1 - 3 - 2 = 6 En general, se observa que el nmero de grados de libertad asociados a cualquier tabla de contingencia r c es g.l. = rc - 1 - (c - 1) - (r - 1) = (r - 1)(c - 1) De lo anterior que, si se usa = 0.05, se rechaza la hiptesis nula de que las dos clasificaciones son independientes si el valor calculado de 2 excede a 12, 592 . Como el valor calculado 2 = 19.18, excede al valor crtico de 2, se rechaza la hiptesis nula. Los datos presentan suficiente evidencia de que la proporcin de defectos de los distintos tipos vara segn turno. Un estudio sobre las distintas operaciones en la produccin posiblemente revelara la causa.
42
Ejemplo 3. El incluir en las etiquetas de los productos alimenticios el precio unitario del producto tiene por objeto el facilitar a los compradores la eleccin. Sin embargo, Isakson y Maurizi4 en estudios sobre el comportamiento de los consumidores en los Estados Unidos, han encontrado que aquellos de nivel socioeconmico bajo no estn usando la ventaja que representa el tener exhibido en la etiqueta el precio unitario. En un estudio posterior, y a manera de corroboracin de los resultados reportados, un economista observ el proceso de seleccin de n = 1 000 compradores en tres supermercados. Los supermercados se encontraban ubicados en tres reas distintas de una ciudad, y correspondan a clases socioeconmicas de nivel bajo, medio y alto respectivamente. Se haban puesto paquetes de productos de la misma marca pero con precios unitarios distintos. Los datos sobre los n = 1 000 compradores, clasificados de acuerdo a su clase socioeconmica y al hecho de haber comprado con base en los precios unitarios o no, se muestran en la tabla 11.
Clase socioeconmica Alta 201 4 205
Us precios unitarios No us precios unitarios Totales
Baja 249 26 275
Media 494 26 520
Totales 944 56 1 000
Tabla 11. Datos para el ejemplo 3.
Muestran estos datos evidencia que respalde los reportes de Isakson y Maurizi? El problema es ver si los datos proporcionan evidencia suficiente que indique una dependencia entre la clasificacin de los compradores por clase socioeconmica y la clasificacin dada por el uso que hacen de la informacin contenida en los precios unitarios. Se analiza la informacin con una tabla de contingencia.
H.R. Isakson y A.R. Maurizi, The Consumer Economics of Unit Pricing, Journal of Marketing (1973).
43
Las frecuencias esperadas de cada celda se estiman calculando los totales de fila y columna. (nij) = ni nj / n Se tiene (n11) = n1 n1 / n = (944)(275)/1000 = 259.6 (n12) = n1 n2 / n = (944)(520)/1000 = 490.9 (n13) = n1 n3 / n = (944)(205)/1000 = 193.5 (n21) = n2 n1 / n = (56)(275)/1000 = 15.4 (n22) = n2 n2 / n = (56)(520)/1000 = 29.1 (n23) = n2 n3 / n = (56)(205)/1000 = 11.5 y as sucesivamente. Estos valores aparecen en la tabla 12
Baja 249 259.6 0.43 26 15.4 7.30 275 275 7.73 Media 494 490.9 0.02 26 29.1 0.33 520 520 0.35 Clase socioeconmica Alta 201 193.5 0.30 4 11.5 4.89 205 205 5.19 Totales 944 944 0.75 56 56 12.52 1000 1000 13.27
Us precios unitarios
No us precios unitarios
Totales
Tabla 12. Frecuencias esperadas y observadas para el ejemplo 3
El valor de la estadstica de prueba 2 se calcula y se compara con el valor crtico de la 2 con (r - 1)(c - 1) = (1)(2) = 2 grados de libertad. Para = 0.05, se rechaza la hiptesis nula si 2 > 5.991. Sustituyendo los valores en la frmula para 2 se obtiene 2 = (249 - 259.6)2/259.6 + (494 - 490.9)2/490.9 + . . . + (4 11.5)2/11.5 = 13.26 Observe que 2 cae en la regin de rechazo por lo que se rechaza la hiptesis de independencia entre ambas clasificaciones. Una comparacin posterior entre los porcentajes de los compradores de cada clase socioeconmica que hacen uso de los precios unitarios sugiere que en efecto, los de las clases ms bajas son los que no estn haciendo uso de la ventaja que proporcionan los precios unitarios, respaldando as los reportes de Isakson y Maurizi.
44
Ejercicios.
1. Cree usted que existan compaas cuyas acciones no estn siendo consideradas sistemticamente en algunos fondos de inversin debido a razones de tipo poltico, social o moral? Algunos investigadores observan que la reaccin a la anterior pregunta vara enormemente segn los agentes de distintos fondos en los cuales se hace la pregunta.5 Para estudiar el problema se entrevistaron agentes de los cuatro principales fondos de inversin y se les pregunto si estaban o no de acuerdo con seleccionar las acciones que forman el fondo, atendiendo a razones de tipo poltico, social o moral. El nmero de agentes para cada una de las 8 posibles categoras se muestra en la tabla.
A 7 23 B 6 31 Fondo de inversin C 11 30 D 13 41
De acuerdo en razones extra-econmicas No de acuerdo en razones extraeconmicas Totales
30
37
41
54
Presentan estos datos evidencia suficiente de que la proporcin de agentes en favor de incorporar razones de tipo no econmico en la seleccin, vara de fondo a fondo? Use = 0.10. 2. Con base en los registros de una tienda de modas, el 50% de los vestidos adquiridos por sta para la temporada se vendern a precio de menudeo, el 25% a un 20% menos del precio de menudeo, 15% se vendern despus de una reduccin en su precio del 40% y los restantes con una disminucin en su precio del 60%. Para esta temporada, se adquirieron 300 vestidos y su venta fue en la siguiente forma:
Precio de venta 140 20% de 90 40% de 30 60% de 40
B.G. Malkiel y R.E. Quandt, Moral Issues in Investment Policy, Harvard Business Review, marzo-abril de 1971.
45
Existe alguna razn para creer que la disminucin en ventas fue diferente en esta temporada con respecto a las anteriores? sese = 0.05. Cul es el valor de p? 3. Muchas compaas aseguradoras estn revisando su poltica de cobrar primas reducidas para los seguros de automviles pequeos ya que la proporcin de accidentes fatales a bordo de un automvil pequeo es mayor que a bordo de un automvil grande. Para investigar este problema, se hizo un anlisis de datos de accidentes para determinar la distribucin de los accidentes en los que al menos un pasajero result gravemente herido o falleci. Los datos de 346 accidentes se muestran en la tabla.
Tamao de automvil Pequeo Compacto 67 26 128 63
Accidentes con heridos fatales o graves Accidentes sin heridos fatales o graves
Grande 16 46
Indican estos datos que la frecuencia de accidentes con heridos fatales o graves depende del tamao del automvil? Use = 0.05. 4. En un hospital, el nmero de nacimientos observados para cada mes de cierto ao, fueron los siguientes:
Ene 95 Feb 105 Mar 95 Abr 105 May 90 Jun 95 Jul 105 Ago 110 Sep 105 Oct 100 Nov 95 Dic 100
Si = 0.01, existe alguna razn para creer que el nmero de nacimientos no se encuentra distribuido en forma uniforme durante todos los meses del ao? Cul es el valor de p?
COEFICIENTE DE CORRELACIN
Con frecuencia se requiere de un indicador o medida de la fuerza con la que dos variables y y x se encuentran linealmente relacionadas, de modo que el indicador no dependa de las escalas en las que cada una de las variables y y x se hayan medido. Un tal indicador o medida se conoce como medida de la correlacin lineal entre y y x.
46
La medida de correlacin lineal comnmente usada en la estadstica es el llamado coeficiente de correlacin de Pearson entre y y x. Esta cantidad, denotada por el smbolo r, se calcula como se indica en el cuadro. Coeficiente de correlacin de Pearson r = SCxy / (SCx SCy) En donde _ n n n SCx = (xi - x) = xi - ( xi ) / n
i=1 i=1 i=1
y _ _ n n n n SCxy = (xi - x)(yi - y) = xiyi - (xi)(yi) / n

i=1 i=1 i=1 i=1
Ejemplo 1 . Calcule el coeficiente de correlacin para los datos de gastos publicitarios y volmenes de venta de la tabla 5. Solucin. El coeficiente de correlacin para los datos de la tabla 5 se obtiene utilizando la frmula de r y las cantidades SCxy = 23.34 SCx = 0.444 SCy = 1600.9 que ya haban sido calculadas. De ah, r = SCxy / (SCxSCy) = 23.34 / [(0.444)(1600.9)] 0.88 Un estudio sobre el coeficiente de correlacin r proporciona resultados interesantes y entre ellos, la razn por la cual se escoge como medida de correlacin lineal. Primero se observa que los denominadores son siempre positivos por ser esencialmente sumas de cuadrados. Tambin, se observa que el numerador es el mismo. As que r = 0 implica la ausencia de correlacin lineal entre y y x. Un valor de r positivo implica que la pendiente de la recta es positiva (la recta crece a la derecha); un valor de r negativo indica que la recta decrece a la derecha (pendiente negativa).
47
EJERCICIOS
1. Existe relacin entre el consumo de energa de un pas y su producto interno bruto (PIB)? Uno estara dispuesto a suponer que un pas con mayor ingreso per cpita requerira de mayor consumo de energa. Para examinar este problema se seleccionaron al azar 12 pases y se han obtenido para ellos el consumo per cpita (en libras) y el producto interno bruto per cpita (en dlares). Los resultados se presentan en la tabla.
48
Valores crticos de la ji-cuadrada
g. de libertad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 2 0.995 0.0000393 0.0100251 0.0717212 0.2069900 0.411740 0.675727 0.989265 1.344419 1.734926 2.15585 2.60321 3.07382 3.56503 4.07468 4.60094 5.14224 5.69724 6.26481 6.84398 7.43386 8.03366 8.64272 9.26042 9.88623 10.5197 11.1603 11.8076 12.4613 13.1211 13.7867 20.7065 27.9907 35.5346 43.2752 51.1720 59.1963 67.3276 2 0.990 0.0001571 0.0201007 0.1148320 0.2971100 0.554300 0.872085 1.239043 1.646482 2.087912 2.55821 3.05347 3.57056 4.10691 4.66043 5.22935 5.81221 6.40776 7.01491 7.63273 8.26040 8.89720 9.54249 10.19567 10.8564 11.5240 12.1981 12.8786 13.5648 14.2565 14.9535 22.1643 29.7067 37.4848 45.4418 53.5400 61.7541 70.0648 2 0.975 0.0009821 0.0506356 0.2157950 0.4844190 0.831211 1.237347 1.689870 2.179730 2.700390 3.24697 3.81575 4.40379 5.00874 5.62872 6.26214 6.90766 7.56418 8.23075 8.90655 9.59083 10.28293 10.9823 11.6885 12.4011 13.1197 13.8439 14.5733 15.3079 16.0471 16.7908 24.4331 32.3574 40.4817 48.7576 57.1532 65.6466 74.2219 2 0.950 0.0039321 0.1025870 0.3518460 0.7107210 1.145476 1.635390 2.167350 2.732640 3.325110 3.94030 4.57481 5.22603 5.89186 6.57063 7.26094 7.96164 8.67176 9.39046 10.1170 10.8508 11.5913 12.3380 13.0905 13.8484 14.6114 15.3791 16.1513 16.9279 17.7083 18.4926 26.5093 34.7642 43.1879 51.7393 60.3915 69.1260 77.9295 2 0.900 0.0157908 0.2107200 0.5843750 1.0636230 1.610310 2.204130 2.833110 3.489540 4.16816 4.86518 5.57779 6.30380 7.04150 7.78953 8.54675 9.31223 10.0852 10.8649 11.6509 12.4426 13.2396 14.0415 14.8479 15.6587 16.4734 17.2919 18.1138 18.9392 19.7677 20.5992 29.0505 37.6886 46.4589 55.3290 64.2778 73.2912 82.3581
49
2 0.100 2.70554 4.60517 6.25139 7.77944 9.23635 10.6446 12.0170 13.3616 14.6837 15.9871 17.2750 18.5494 19.8119 21.0642 22.3072 23.5418 24.7690 25.9894 27.2036 28.4120 29.6151 30.8133 32.0069 33.1963 34.3816 35.5631 36.7412 37.9159 39.0875 40.2560 51.8050 63.1671 74.3970 85.5271 96.5782 107.565 118.498 2 0.050 3.84146 5.99147 7.814473 9.48773 11.0705 12.5916 14.0671 15.5073 16.9190 18.3070 19.6751 21.0261 22.3621 23.6848 24.9958 26.2962 27.5871 28.8693 30.1435 31.4104 32.6705 33.9244 35.1725 36.4151 37.6525 38.8852 40.1133 41.3372 42.5569 43.7729 55.7585 67.5048 79.0819 90.5312 101.879 113.145 124.342 2 0.025 5.02389 7.37776 9.34840 11.1433 12.8325 14.4494 16.0128 17.5346 19.0228 20.4831 21.9200 23.3367 24.7356 26.1190 27.4884 28.8454 30.1910 31.5264 32.8523 34.1696 35.4789 36.7807 38.0757 39.3641 40.6465 41.9232 43.1944 44.4607 45.7222 46.9792 59.3417 71.4202 83.2976 95.0231 106.629 118.136 129.561 2 0.010 6.63490 9.21034 11.3449 13.2767 15.0863 16.8119 18.4753 20.0902 21.6660 23.2093 24.7250 26.2170 27.6883 29.1413 30.5779 31.9999 33.4087 34.8053 36.1908 37.5662 38.9321 40.2894 41.6384 42.9798 44.3141 45.6417 46.9630 48.2782 49.5879 50.8922 63.6907 76.1539 88.3794 100.425 112.329 124.116 135.807 2 0.005 7.87944 10.5966 12.8381 14.8602 16.7496 18.5476 20.2777 21.9550 23.5893 25.1882 26.7569 28.2995 29.8194 31.3193 32.8013 34.2672 35.7185 37.1564 38.5822 39.9968 41.4010 42.7956 44.1813 45.5585 46.9278 48.2899 49.6449 50.9933 52.3356 53.6720 66.7659 79.4900 91.9517 104.215 116.321 128.299 140.169 g. de libertad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
Concluye 2 Tomada de Tables of the Percentage Points of the -Distribution, Biometrika, Vol. 32
50
reas de la curva normal6
z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 .00 .0000 .0398 .0793 .1179 .1554 .1915 .2257 .2580 .2881 .3159 .3413 .3643 .3849 .4032 .4192 .4332 .4452 .4554 .4641 .4713 .4772 .4821 .4861 .4893 .4918 .4938 .4953 .4965 .4974 .4981 .4987 .01 .0040 .0438 .0832 .1217 .1591 .1950 .2291 .2611 .2910 .3186 .3438 .3665 .3869 .4049 .4207 .4345 .4463 .4564 .4649 .4719 .4778 .4826 .4864 .4896 .4920 .4940 .4955 .4966 .4975 .4982 .4987 .02 .0080 .0478 .0871 .1255 .1628 .1985 .2324 .2642 .2939 .3212 .3461 .3686 .3888 .4066 .4222 .4357 .4474 .4573 .4656 .4726 .4783 .4830 .4868 .4898 .4922 .4941 .4956 .4967 .4976 .4982 .4987 .03 .0120 .0517 .0910 .1293 .1664 .2019 .2357 .2673 .2967 .3238 .3485 .3708 .3907 .4082 .4236 .4370 .4484 .4582 .4664 .4732 .4788 .4834 .4871 .4901 .4925 .4943 .4957 .4968 .4977 .4983 .4988 .04 .0160 .0557 .0948 .1331 .1700 .2054 .2389 .2704 .2995 .3264 .3508 .3729 .3925 .4099 .4251 .4382 .4495 .4591 .4671 .4738 .4793 .4838 .4875 .4904 .4927 .4945 .4959 .4969 .4977 .4984 .4988 .05 .0199 .0596 .0987 .1368 .1736 .2088 .2422 .2734 .3023 .3289 .3531 .3749 .3944 .4115 .4265 .4394 .4505 .4599 .4678 .4744 .4798 .4842 .4878 .4906 .4929 .4946 .4960 .4970 .4978 .4984 .4989 .06 .0239 .0636 .1026 .1406 .1772 .2123 .2454 .2764 .3051 .3315 .3554 .3770 .3962 .4131 .4279 .4406 .4515 .4608 .4686 .4750 .4803 .4846 .4881 .4909 .4931 .4948 .4961 .4971 .4979 .4985 .4989 .07 .0279 .0675 .1064 .1443 .1808 .2157 .2486 .2794 .3078 .3340 .3577 .3790 .3980 .4147 .4292 .4418 .4525 .4616 .4693 .4756 .4808 .4850 .4884 .4911 .4932 .4949 .4962 .4972 .4979 .4985 .4989 .08 .0319 .0714 .1103 .1480 .1844 .2190 .2517 .2823 .3106 .3365 .3599 .3810 .3997 .4162 .4306 .4429 .4535 .4625 .4699 .4761 .4812 .4854 .4887 .4913 .4934 .4951 .4963 .4973 .4980 .4986 .4990 .09 .0359 .0753 .1141 .1517 .1879 .2224 .2549 .2852 .3133 .3389 .3621 .3930 .4015 .4177 .4319 .4441 .4545 .4633 .4706 .4767 .4817 .4857 .4890 .4916 .4936 .4952 .4964 .4974 .4981 .4986 .4990
Versin extractada de la tabla 1 de Statistical Tables and Formulas, por A. Hald (New York: John Wiley & Sons, Inc., 1952).
51

Estadística Descriptiva

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadística Descriptiva

Uploaded by

Copyright:

Available Formats

Estadstica Descriptiva

Partes de un problema estadstico

CONCEPTO DE POBLACIN Y MUESTRA

Tabla 1. Anlisis de los empleados en un despacho de asesora

0 1974 1975 Aos

Grfica 2. Diagrama de puntos

Tabla 2. Frecuencias para el nmero de unidades vendidas de cierto producto

Grfica 3. Histograma de frecuencia relativa para el no. de unidades vendidas.

Frecuencia de la clase 32 34 34 100

Frecuencia relativa 32/100 = 0.32 34/100 = 0.34 34/100 = 0.34 1.00

Tabla 3. Frecuencia para el nmero de unidades vendidas de cierto producto

Frecuencia relativa 0,2 0,3

Nmero de unidades vendidas

Grfica 4. Histograma modificado para el nmero de unidades vendidas.

$ 13 647 8 681 11 771 4 963 10 207 8 043 4 626 5 119 2 892

9 692 4 438 6 859 7 000 12 292 23 811 6 824 9 922 4 973 30

TIPO DE BIENES bienes perdurables bienes perecederos Servicios

AO 1929 9.2 37.7 30.3

1949 24.6 94.6 54.6

1959 44.3 146.6 120.3

1969 90.0 245.8 241.6

Tabla 4. Resultados de 200 muestras aleatorias simples de tamao 25 cuando p = 0.20

Bolas negras en la muestra

Grfica 6. Diagrama de dispersin de los datos de la tabla 5

Tabla A. Datos de la muestra para un modelo lineal simple (miles de dlares)

Tabla 7. datos mustrales para el ejemplo de los accionistas

[Nij - (ninj)/n]2 / [(ninj)/n]

Tabla 10. Frecuencias esperadas y observadas para el ejemplo 2

Us precios unitarios No us precios unitarios Totales

Baja 249 26 275

Media 494 26 520

Totales 944 56 1 000

Tabla 11. Datos para el ejemplo 3.

Tabla 12. Frecuencias esperadas y observadas para el ejemplo 3

De acuerdo en razones extra-econmicas No de acuerdo en razones extraeconmicas Totales

y _ _ n n n n SCxy = (xi - x)(yi - y) = xiyi - (xi)(yi) / n

You might also like