You are on page 1of 43

U.M.S.N.

H
FACULTAD DE ENFERMERIA

GUIA PRACTICA

ESTADISTICA Y PROBABILIDAD

ELABORO: M.P. YANITZIA ALVAREZ REYES

UNIDAD 1

Estadstica: La estadstica es comnmente considerada como una coleccin de hechos numricos expresados en trminos de una relacin sumisa, y que han sido recopilado a partir de otros datos numricos. Murria R. Spiegel, (1991) dice: "La estadstica estudia los mtodos cientficos para recoger, organizar, resumir y analizar datos, as como para sacar conclusiones vlidas y tomar decisiones razonables basadas en tal anlisis.

"La estadstica es la ciencia que trata de la recoleccin, clasificacin y presentacin de los hechos sujetos a una apreciacin numrica como base a la explicacin, descripcin y comparacin de los fenmenos". (Yale y Kendal, 1954). Poblacin: "Una poblacin es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una poblacin es un conjunto de elementos que presentan una caracterstica comn". Cadenas (1974). Ejemplo: Los miembros del Colegio de Ingenieros del Estado. El tamao que tiene una poblacin es un factor de suma importancia en el proceso de investigacin estadstica, y este tamao vienen dado por el nmero de elementos que constituyen la poblacin, segn el nmero de elementos la poblacin puede ser finita o infinita. Cuando el nmero de elementos que integra la poblacin es muy grande, se puede considerar a esta como una poblacin infinita, por ejemplo; el conjunto de todos los nmeros positivos. Una poblacin finita es aquella que est formada por un limitado nmero de elementos, por ejemplo; el nmero de estudiante de la Universidad. Cuando la poblacin es muy grande, es obvio que la observacin de todos los elementos se dificulte en cuanto al trabajo, tiempo y costos necesario para hacerlo. Para solucionar este inconveniente se utiliza una muestra estadstica. Es a menudo imposible o poco prctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado poblacin o universo, se examina una pequea parte del grupo llamada muestra. Muestra: "Se llama muestra a una parte de la poblacin a estudiar que sirve para representarla". Murria R. Spiegel (1991). "Una muestra debe ser definida en base de la poblacin determinada, y las conclusiones que se obtengan de dicha muestra solo podrn referirse a la poblacin en referencia", Cadenas (1974). Ejemplo; El estudio realizado a 50 miembros del Colegio de Ingenieros del Estado. El estudio de muestras es ms sencillo que el estudio de la poblacin completa; cuesta menos y lleva menos tiempo. Por ltimo se aprobado que el examen de una poblacin entera todava permite la aceptacin de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Una muestra representativa contiene las caractersticas relevantes de la poblacin en las mismas proporciones que estn incluidas en tal poblacin. Los expertos en estadstica recogen datos de una muestra. Utilizan esta informacin para hacer referencias sobre la poblacin que est representada por la muestra. En consecuencia muestra y poblacin son conceptos relativos. Una poblacin es un todo y una muestra es una fraccin o segmento de ese todo. Muestreo:

Esto no es ms que el procedimiento empleado para obtener una o ms muestras de una poblacin; el muestreo es una tcnica que sirve para obtener una o ms muestras de poblacin. Este se realiza una vez que se ha establecido un marco muestral representativo de la poblacin, se procede a la seleccin de los elementos de la muestra aunque hay muchos diseos de la muestra. Al tomar varias muestras de una poblacin, las estadsticas que calculamos para cada muestra no necesariamente seran iguales, y lo ms probable es que variaran de una muestra a otra. Ejemplo; Consideremos como una poblacin a los estudiantes de educacin de la Universidad, determinando por lo menos dos caracteres ser estudiados en dicha poblacin;

Religin de los estudiantes Sexo.

Tipos de muestreo Existen dos mtodos para seleccionar muestras de poblaciones; el muestreo no aleatorio o de juicio y el muestreo aleatorio o de probabilidad. En este ltimo todos los elementos de la poblacin tienen la oportunidad de ser escogidos en la muestra. Una muestra seleccionada por muestreo de juicio se basa en la experiencia de alguien con la poblacin. Algunas veces una muestra de juicio se usa como gua o muestra tentativa para decidir como tomar una muestra aleatoria ms adelante. Las muestras de juicio evitan el anlisis estadstico necesarios para hacer muestras de probabilidad. Variables y Atributos: Las variables, tambin suelen ser llamados caracteres cuantitativos, son aquellos que pueden ser expresados mediante nmeros. Son caracteres susceptibles de medicin. Como por ejemplo, la estatura, el peso, el salario, la edad, etc. Segn, Murray R. Spiegel, (1992) "una variable es un smbolo, tal como X, Y, Hx, que puede tomar un valor cualquiera de un conjunto determinado de ellos, llamado dominio de la variable. Si la variable puede tomar solamente un valor, se llama constante." Todos los elementos de la poblacin poseen los mismos tipos de caracteres, pero como estos en general no suelen representarse con la misma intensidad, es obvio que las variables toman distintos valores. Por lo tanto estos distintos nmeros o medidas que toman los caracteres son los "valores de la variable". Todos ellos juntos constituyen una variable. Los atributos tambin llamados caracteres cualitativos, son aquellos que no son susceptibles de medicin, es decir que no se pueden expresar mediante un nmero. IUTIN (1997). "Reciben el nombre de variables cualitativas o atributos, aquellas caractersticas que pueden presentarse en individuos que constituyen un conjunto. La forma de expresar los atributos es mediante palabras, por ejemplo; profesin, estado civil, sexo, nacionalidad, etc. Puede notar que los atributos no se presentan en la misma forma en todos los elementos. Estas distintas formas en que se presentan los atributos reciben el nombre de "modalidades". Ejemplo;

El estado civil de cada uno de los estudiantes del curso de estadsticas I, no se presenta en la misma modalidad en todos Censo: Se entiende por censo aquella numeracin que se efecta a todos y cada uno de los caracteres componentes de una poblacin. Para Levin & Rubin (1996) "Algunas veces es posible y prctico examinar a cada persona o elemento de la poblacin que deseamos describir. A esto lo llamamos una numeracin completa o censo. Utilizamos el muestre cuando no es posible contar o medir todos los elementos de la poblacin. Si es posible listar (o enumerar) y observar cada elemento de la poblacin, los censos se utilizan rara vez porque a menudo su compilacin es bastante difcil, consume mucho tiempo por lo que resulta demasiado costoso. Encuesta: Se entiende por encuesta las observaciones realizadas por muestreo, es decir son observaciones parciales. El diseo de encuestas es exclusivo de las ciencias sociales y parte de la premisa de que si queremos conocer algo sobre el comportamiento de las personas, lo mejor, ms directo y simple es preguntrselo directamente a ellas. (Cadenas, 1974). Segn Antonio Napolitano "La encuesta, es un mtodo mediante el cual se quiere averiguar. Se efecta a travs de cuestionarios verbales o escritos que son aplicados a un gran nmero de personas". Estadstica Descriptiva: Tienen por objeto fundamental describir y analizar las caractersticas de un conjunto de datos, obtenindose de esa manera conclusiones sobre las caractersticas de dicho conjunto y sobre las relaciones existentes con otras poblaciones, a fin de compararlas. No obstante puede no solo referirse a la observacin de todos los elementos de una poblacin (observacin exhaustiva) sino tambin a la descripcin de los elementos de una muestra (observacin parcial). En relacin a la estadstica descriptiva, Ernesto Rivas Gonzles dice; "Para el estudio de estas muestras, la estadstica descriptiva nos provee de todos sus medidas; medidas que cuando quieran ser aplicadas al universo total, no tendrn la misma exactitud que tienen para la muestra, es decir al estimarse para el universo vendr dada con cierto margen de error; esto significa que el valor de la medida calculada para la muestra, en el oscilar dentro de cierto lmite de confianza, que casi siempre es de un 95 a 99% de los casos. Estadstica Inductiva: Est fundamentada en los resultados obtenidos del anlisis de una muestra de poblacin, con el fin de inducir o inferir el comportamiento o caracterstica de la poblacin, de donde procede, por lo que recibe tambin el nombre de Inferencia estadstica. Segn Berenson y Levine; Estadstica Inferencial son procedimientos estadsticos que sirven para deducir o inferir algo acerca de un conjunto de datos numricos (poblacin), seleccionando un grupo menor de ellos (muestra).

El objetivo de la inferencia en investigacin cientfica y tecnolgica radica en conocer clases numerosas de objetos, personas o eventos a partir de otras relativamente pequeas compuestas por los mismos elementos. En relacin a la estadstica descriptiva y la inferencial, Levin & Rubin (1996) citan los siguientes ejemplos para ayudar a entender la diferencia entre las dos. Supngase que un profesor calcula la calificacin promedio de un grupo de historia. Como la estadstica describe el desempeo del grupo pero no hace ninguna generalizacin acerca de los diferentes grupos, podemos decir que el profesor est utilizando estadstica descriptiva. Graficas, tablas y diagramas que muestran los datos de manera que sea ms fcil su entendimiento son ejemplos de estadstica descriptiva. Supngase ahora que el profesor de historia decide utilizar el promedio de calificaciones obtenidos por uno de sus grupos para estimar la calificacin promedio de las diez unidades del mismo curso de historia. El proceso de estimacin de tal promedio sera un problema concerniente a la estadstica inferencial. Los estadsticos se refieren a esta rama como inferencia estadstica, esta implica generalizaciones y afirmaciones con respecto a la probabilidad de su validez Las variables y su medicin: Una variable es un smbolo, tal como X, Y, H, x B, que pueden tomar un conjunto prefijado de valores, llamado dominio de esa variable. Para Murray R. Spiegel (1991) "una variable que puede tomar cualquier valor entre dos valores dados se dice que es una variable continua en caso contrario diremos que la variable es discreta". Las variables, tambin llamadas caracteres cuantitativos, son aquellas cuyas variaciones son susceptibles de ser medidas cuantitativamente, es decir, que pueden expresar numricamente la magnitud de dichas variaciones. Por intuicin y por experiencia sabemos que pueden distinguirse dos tipos de variables; las continuas y las discretas Las variables continuas se caracterizan por el hecho de que para todo para de valores siempre se puede encontrar en valor intermedio, (el peso, la estatura, el tiempo empleado para realizar un trabajo, etc.) Una variable es continua, cuando puede tomar infinitos valores intermedios dentro de dos valores consecutivos. Por ejemplo, la estatura, el peso, la temperatura. Las variables discretas sern aquellas que pueden tomar solo un nmero limitado de valores separados y no continuos; son aquellas que solo toman un determinado nmeros de valores, porque entre dos valores consecutivos no pueden tomar ningn otro; por ejemplo el nmero de estudiantes de una clase es una variable discreta ya que solo tomar los valores 1, 2, 3, 4... ntese que no encontramos valor como 1,5 estudiantes Usos del Muestreo. El Muestreo es utilizado en diversos campos: 1- Poltica: Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinin pblica y el apoyo en las elecciones. 2- Educacin: Las muestras de las calificaciones de los exmenes de estudiantes se usan para determinar la eficiencia de una tcnica o programa de enseanza.

3- Industria: La muestras de los productos de una lnea de ensamble sirve para controlar la calidad. 4- Medicina: Las muestras de medidas de azcar en la sangre de pacientes diabticos prueban la eficacia de una tcnica o de un frmaco nuevo. 5- Agricultura: Las muestras del maz cosechado en una parcela proyectan en la produccin los efectos de un fertilizante nuevo. 6- Gobierno: Una muestra de opiniones de los votantes se usara para determinar los criterios del pblico sobre cuestiones relacionadas con el bienestar y la seguridad nacional.

MUESTREO Partiendo de la importancia que tiene para cualquier profesional e investigador conocer varios conceptos importantes de la estadstica para poder desarrollar exitosamente una investigacin de cualquier ndole, en el presente trabajo nos proponemos dar tratamiento a algunos elementos de la estadstica matemtica de la forma mas elemental posible para que pueda ser asimilada por cualquier profesional sin tener en cuenta su especialidad ya sea de las ciencias sociales como de las ciencias exactas.

Poblacin. No es ms que aquel conjunto de individuos o elementos que le podemos observar, medir una caracterstica o atributo. Ejemplos de poblacin:

El conjunto formado por todos los estudiantes universitarios en Cuba. El conjunto de todos los estudiantes de una Universidad. El conjunto de personas fumadoras de una regin.

Son caractersticas medibles u observables de cada elemento por ejemplo, su estatura, su peso, edad, sexo, etc. Supongamos que nos interesa conocer el peso promedio de la poblacin formada por los estudiantes de una universidad. Si la universidad tiene 5376 alumnos, bastara pesar cada estudiante, sumar los 5376 pesajes y dividirlo por 5376. Pero este proceso puede presenta dificultades dentro de las que podemos mencionar:

localizar y pesar con precisin cada estudiante: escribir todos los datos sin equivocaciones en una lista: efectuar los clculos.

Las dificultades son mayores si en nmero de elementos de la poblacin es infinito, si los elementos se destruyen, si sufren daos al ser medidos o estn muy dispersos, si el costo para realizar el trabajo es muy costoso. Una solucin a este problema consiste en medir solo una parte de la poblacin que llamaremos muestra y tomar el peso medio en la muestra como una aproximacin del verdadero valor del peso medio de la poblacin.

El tamao de la poblacin es la cantidad de elementos de esta y el tamao de la muestra es la cantidad de elementos de la muestra. Las poblaciones pueden ser finitas e infinitas. Los datos obtenidos de una poblacin pueden contener toda la informacin que se desee de ella. De lo que se trata es de extraerle esa informacin a la muestra, es decir a los datos muestrales sacarle toda la informacin de la poblacin. La muestra debe obtener toda la informacin deseada para tener la posibilidad de extraerla, esto slo se puede lograr con una buena seleccin de la muestra y un trabajo muy cuidadosos y de alta calidad en la recogida de los datos. Es bueno sealar que en un momento una poblacin puede ser muestra en una investigacin y una muestra puede ser poblacin, esto esta dado por el objetivo del investigacin, por ejemplo en el caso de determinar la estatura media de los estudiantes universitarios en Cuba una muestra poda ser escoger algunas universidades del pas y realizar el trabajo, si por el contrario se quiere saber la estatura promedio de los estudiantes de una universidad en especifico en Cuba, entonces el conjunto formado por todos los estudiantes de esta universidad sera la poblacin y la muestra estara dada por los grupos, carreras o aos seleccionado para realzar el experimento. Parmetro : Son las medidas o datos que se obtienen sobre la distribucin de probabilidades de la poblacin, tales como la media, la varianza, la proporcin, etc. Estadstico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimacin de los parmetros. Error Muestral, de estimacin o standard. Es la diferencia entre un estadstico y su parmetro correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la poblacin, nos da una nocin clara de hasta dnde y con qu probabilidad una estimacin basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigacin nos indicar hasta qu medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varan muestra a muestra). Vara segn se calcule al principio o al final. Un estadstico ser ms preciso en cuanto y tanto su error es ms pequeo. Podramos decir que es la desviacin de la distribucin muestral de un estadstico y su fiabilidad. Nivel de Confianza. Probabilidad de que la estimacin efectuada se ajuste a la realidad. Cualquier informacin que queremos recoger est distribuida segn una ley de probabilidad (Gauss o Student), as llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadstico capte el verdadero valor del parmetro. Varianza Poblacional. Cuando una poblacin es ms homognea la varianza es menor y el nmero de entrevistas necesarias para construir un modelo reducido del universo, o de la poblacin, ser ms pequeo. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos. Inferencia estadstica. Trata el problema de la extraccin de la informacin sobre la poblacin contenida en las muestras. Para que los resultados obtenidos de los datos muestrales se puedan extender a la poblacin, la muestra debe ser representativa de la poblacin en lo que se refiere a

la caracterstica en estudio, o sea, la distribucin de la caracterstica en la muestra debe ser aproximadamente igual a la distribucin de la caracterstica en la poblacin. La representatividad en estadstica se logra con el tipo de muestreo adecuado que siempre incluye la aleatoriedad en la seleccin de los elementos de la poblacin que formaran la muestra. No obstante, tales mtodos solo nos garantizan una representatividad muy probable pero no completamente segura. Despus de estos preliminares imprescindibles es posible pasa a tratar algunas de las formas que desde el punto de vista cientfico se puede extraer una muestra. Al realizar un muestreo en una poblacin podemos hablar de muestreos probabilsticos y no probabilsticos, en nuestro caso nos referiremos a los muestreos probabilsticos y dentro del mismo estudiaremos el muestreo aleatorio simple (MAS), como mtodo bsico en la estadstica, el muestreo estratificado y el muestreo por racimos. Muestreo aleatorio simple: Es aquel en que cada elemento de la poblacin tiene la misma probabilidad de ser seleccionado para integrar la muestra. Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple. En la prctica no nos interesa el individuo o elemento de la poblacin seleccionado en general, sino solo una caracterstica que mediremos u observaremos en l y cuyo valor ser el valor de una variable aleatoria que en cada individuo o elemento de la poblacin puede tomar un valor que ser un elemento de cierto conjunto de valores. De modo que una muestra simple aleatoria se puede interpretar como

un conjunto de valores de variables aleatorias independientes, cada una de las cuales tiene la misma distribucin que es llamada distribucin poblacional. Existen dos formas de extraer una muestra de una poblacin: con reposicin y sin reposicin. Muestreo con reemplazo: Es aquel en que un elemento puede ser seleccionado ms de una vez en la muestra para ello se extrae un elemento de la poblacin se observa y se devuelve a la poblacin, por lo que de esta forma se pueden hacer infinitas extracciones de la poblacin aun siendo esta finita. Muestreo sin reemplazo: No se devuelve los elementos extrados a la poblacin hasta que no se hallan extrados todos los elementos de la poblacin que conforman la muestra. Cuando se hace una muestra probabilstica debemos tener en cuenta principalmente dos aspectos:

El mtodo de seleccin. El tamao de la muestra

1.- Mtodo de seleccin: Un procedimiento de extraer una muestra aleatoria de una poblacin finita es el de enumerar todos los elementos que conforman la poblacin, escribir esos nmeros en bolas o papelitos echarlos en un bombo o bolsa mezclarlos bien removindolos y sacar uno a uno tantos como lo indique el tamao de la muestra. En este caso los elementos de la muestra lo constituirn los elementos de la poblacin cuyos nmero coincidan con los extrados de la bolsa o bombo.

a.Otro procedimiento para obtener una muestra de una poblacin ya sea el muestreo con replazo o sin reemplazo es mediante la utilizacin de la tabla de nmeros aleatorios. 2.- El tamao de la muestra: Al realizar un muestreo probabilstica nos debemos preguntar Cul es el nmero mnimo de unidades de anlisis ( personas, organizaciones, capitulo de telenovelas, etc), que se necesitan para conformar una muestra ( que me asegure un error estndar menor que 0.01 ( fijado por el muestrista o investigador), dado que la poblacin es aproximadamente de tantos elementos. En el tamao de una muestra de una poblacin tenemos que tener presente adems si es conocida o no la varianza poblacional. Para determinar el tamao de muestra necesario para estimar permisible formula: prefijado y conocida la varianza poblacional ( con un error mximo ) podemos utilizar la

que se obtiene de reconocer que

es el error estndar o error mximo prefijado y

est dado por la expresin para el nivel de confianza y constituye una medida de la precisin de la estimacin, por lo que podemos inferir adems que . Ejemplo 1.2 Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en una industria. Se conoce que el peso de un saco que se llena con este instrumento es una variable aleatoria con distribucin normal. Si se supone que la desviacin tpica del peso es de 0,5 kg. Determine el tamao de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95 de que el estimado y el parmetro se diferencien modularmente en menos de 0,1 kg. Solucin:

10

Evidentemente un tamao de muestra no puede ser fraccionario por lo que se debe aproximar por exceso. El tamao de muestra sera de 97. Si la varianza de la poblacin es desconocida, que es lo que mas frecuente se ve en la prctica el tratamiento ser diferente, no es posible encontrar una frmula cuando la varianza poblacional es desconocida por lo que para ello aconsejamos utilizar el siguiente procedimientoPrimeramente, se toma una pequea muestra, que se le llama muestra piloto, con ella se estima la varianza poblacional ( ) y con este valor se evala en la formula (1),

sustituyendo ( ) por su estimacin ( ). El valor de obtenido ser aproximadamente el valor necesario, nuevamente con ese valor de se extrae una muestra de este tamao de la poblacin se le determina la varianza a esa muestra, como una segunda estimacin de ( ) y se aplica de nuevo la formula (1), tomando la muestra con el obtenido como muestra piloto para la siguiente iteracin, se llegar a cumplir con las restricciones prefijadas. Se puede plantear esta afirmacin ya que la de tiende a estabilizarse a medida que aumenta alrededor de la por lo que llegar el momento en que se encuentre el tamao de muestra conveniente, sin embargo, en la prctica es mucho ms sencillo pues, a lo sumo con tres iteraciones se obtiene el tamao de muestra deseado, este procedimiento para obtener el tamao de muestra deseado se puede realizar utilizando en Microsoft Excel en la opcin anlisis de datos las opciones estadstica descriptiva para ir hallando la varianza de cada una de las muestras y la opcin muestra para ir determinado las muestras pilotos. Para obtener el tamao de la muestra utilizando este mtodo recomendamos la utilizacin de un paquete de computo como por ejemplo el Microsoft Excel, aplicando las opciones muestra y estadstica descriptiva. Para determinar el tamao de la muestra cuando los datos son cualitativos es decir para el anlisis de fenmenos sociales o cuando se utilizan escalas nominales para verificar la ausencia o presencia del fenmeno a estudiar, se recomienda la utilizacin de la siguiente formula:

(2)

siendo

sabiendo que: es la varianza de la poblacin respecto a determinadas variables. es la varianza de la muestra, la cual podr determinarse en trminos de probabilidad como es error estandar que est dado por la diferencia entre ( media poblacional y la media muestral. ) la

11

es el error estandar al cuadrado, que nos servir para determinar , por lo que Ejemplo 1.3 De una poblacin de 1 176 adolescentes de una ciudad X se desea conocer la aceptacin por los programas humorsticos televisivos y para ello se desea tomar una muestra por lo que se necesita saber la cantidad de adolescentes que deben entrevistar para tener una informacin adecuada con error estandar menor de 0.015 al 90 % de confiabilidad. Solucin: = 1 176 = 0,015 = es la varianza poblacional.

por lo que

Es decir para realizar la investigacin se necesita una muestra de al menos 298 adolescentes. Muestreo Estratificado: El pasado ejemplo corresponde a una muestra probabilstica simple. Determinamos en este caso que el tamao de muestra sera n =298 adolescentes muestreados. Pero supongamos que la situacin se complica y que esta n la tendremos que estratificar a fin de que los elementos muestrales o unidad de anlisis posean un determinado atributo. En nuestro ejemplo este tributo es los diferentes canales de televisin. Es decir, cuando no basta que cada uno de los elementos muestrales tengan la misma probabilidad de ser escogidos, sino que adems es necesario estratificar la muestra en relacin a estratos o categoras que se presentan en la poblacin y que aparte son relevantes para los objetivos del estudio, se disea una muestra probabilstica estratificada. Lo que aqu se hace es dividir a la poblacin en subpoblaciones o estratos y se selecciona la muestra para cada estrato. La estratificacin aumenta la precisin de la muestra e implica el uso deliberado de diferentes tamaos de muestra para cada estrato, " a fin de lograr reducir la varianza de cada unidad muestral " (Kish, 1965 ), en su libro de muestreo que en un nmero determinado de elementos

12

muestrales n = la varianza de la media muestral puede reducirse al mnimo si el tamao de la muestra para cada estrato es proporcional a la desviacin estndar dentro del estrato. Esto es,

(3 )

En donde poblacin,

es la fraccin del estrato,

el tamao de la muestra,

el tamao de la ,y es una

es la desviacin estndar de cada elemento del estrato

proporcin constante que nos dar como resultado una

ptima para cada estrato.

Siguiendo nuestro ejemplo de los adolescentes tenemos que la poblacin es de 1176 adolescentes y que el tamao de la muestra es = 298. la fraccin para cada estrato fh ser :

(4)

De manera que el total de la subpoblacin se multiplicar por esta fraccin constante a fin de obtener el tamao de muestra para el estrato. Sustituyendo tenemos que: (5)

MUESTRA PROBABILSTICA ESRTRATIFICADA DE LA ACEPTACIN DE ADOLESCENTES POR LOS PROGRAMAS HUMORSTICOS TELEVISIVOS DE LA CIUDAD X. Estratos Repartos de la ciudad X Total poblacin* Muestra (fh) = 0.2534 Nh (fh) = nh

13

1 2 3 4 5 6 7 8 9 10

53 109 215 87 98 110 81 221 151 51

13

55 22 25 28 20 56 38 13

= 1176

Por ejemplo : = 53 directores de empresas extractivas corresponde a la poblacin total de este giro. = 0.2534 es la fraccin constante. = 13 es el nmero redondeado de directores de empresa del giro Estractivo que tendrn que entrevistarse.

MUESTREO PROBABILSTICO POR RACIMOS: En algunos casos en donde el investigador se ve limitado por recursos financieros, por tiempo, por distancias geogrficas o por una combinacin de estos y otros obstculos, se recurre a otra modalidad de muestreo llamado por racimos. En este tipo de muestreo se reducen costos, tiempo y energa al considerar que muchas veces nuestras unidades de anlisis se encuentran encapsuladas o encerradas en determinados lugares fsicos o geogrficos que denominamos racimos. Para dar algunos ejemplos tenemos la tabla 8.3., en donde en la primera columna se encuentran unidades de anlisis que frecuentemente vamos a estudiar en ciencias

14

sociales. En la segunda columna, sugerimos posibles racimos en donde se encuentran dichos elementos. EJEMPLOS DE RACIMOS Unidad de Anlisis Adolescentes Obreros Amas de casa Nios Posibles Racimos Preparatorias Industrias Mercados Colegios

Personajes de televisin Programas de televisin El muestrear por racimos implica diferencias entre la unidad de anlisis y la unidad muestral. La unidad de anlisis - como lo indicamos al principio de este captulo se refiere a quines van a ser medidos, o sea , el sujeto o sujetos a quienes en ltima instancia vamos a aplicar el instrumento de medicin . la unidad muestral en este tipo de muestra se refiere al racimo a travs del cual se logra el acceso a la unidad de anlisis. El muestreo por racimos supone una seleccin en dos etapas, ambas con procedimientos probabilsticos. En la primera, se seleccionan los racimos, siguiendo los ya reseados pasos de una muestra probabilstica simple o estratificada. En la segunda, y dentro de estos racimos se seleccionan a los sujetos u objetos que van a ser medidos. Para ello se hace una seleccin que asegure que todos los elementos del racimo tienen la misma probabilidad de ser elegidos. A continuacin daremos un ejemplo que comprenda varios de los procedimientos descritos hasta ahora y que ilustra la manera como frecuentemente se hace una muestra probabilstica en varias etapas. EJEMPLO Cmo hacer una muestra probabilstica estratificada y por racimos? Problema de investigacin: Una estacin de radio local necesita saber con precisin a fin de planear sus estrategias cmo usan la radio los adultos de una ciudad de 2 500 000 habitantes. Es decir, qu tanto radio escuchan, a qu horas, qu contenidos prefieren y sus opiniones con respecto a los programas noticiosos. Procedimientos: Se disear un cuestionario que indague estas reas sobre uso del radio. Los cuestionarios se aplicarn por entrevistadores a una muestra de sujetos adultos. Poblacin: Todos aquellos sujetos hombres o mujeres de ms de 21 aos de edad, y que vivan en una casa o departamento propio o rentado de la ciudad X. Diseo por conglomerado: los directivos de la estacin de radio desconocen el nmero total de sujetos con las caractersticas arriba sealadas. Sin embargo, nos piden que diseemos una muestra que abarque a todos los sujetos adultos de la ciudad, adultos por edad cronolgica y por ser jefes de familia , es decir, excluye a los adultos dependientes. Se recurre entonces a la estrategia de seleccionar conglomerados y se considera el uso de un mapa actualizado de la ciudad y que demuestra que en dicha

15

ciudad hay 5 000 cuadras. Las cuadras se utilizan como conglomerados, es decir, como unidades muestrales a partir de las cuales obtendremos en ltima instancia a nuestros sujetos adultos. Lo primero entonces es determinar Cuntas cuadras necesitaremos muestrear, de una poblacin de una poblacin total de 5 000 cuadras, si queremos que nuestro error estndar sea no mayor de 0.15 y con una probabilidad de ocurrencia del 50 % ?.

Tenemos entonces que

para una muestra probabilstica simple.

Necesitaremos una muestra de 909 cuadras de ciudad X para estimar los valores de la poblacin con una probabilidad de error menor a 0.1 . Sabemos que la poblacin N = 5 000 cuadras de la ciudad, est dividida por previos estudios de acuerdo a 4 estratos socioeconmicos , que categorizar las 5 000 cuadras segn el ingreso mensual promedio de sus habitantes de manera que se distribuyen como sigue : Estrato 1 2 3 4 Nmero de cuadras 270 1940 2000 790 T = 5 000

Estratificacin de la muestra:

16

Cmo distribuiremos los 909 elementos muestrales de , para optimizar nuestra muestra , de acuerdo a la distribucin de la poblacin en los 4 estratos socioeconmicos?. Estrato 1 2 3 4 No. de cuadras fh = 0.1818 270 1940 2000 790 N = 5000 (0.1818 ) (0.1818 ) (0.1818 ) (0.1818 ) 50 353 363 143 n = 909

Tenemos que en principio, de 5000 cuadras de la ciudad se seleccionarn 50 del estrato 1, 553 del estrato 2, 363 del estrato 3 y 143 del estrato 4. Esta comprende la seleccin de los conglomerados, los cuales se pueden numerar y elegir aleatoriamente hasta completar el nmero de cada estrato. En una ltima etapa se seleccionan a los sujetos dentro de cada conglomerado. Este procedimiento tambin se hace de manera aleatoria, hasta lograr un nmero de sujetos determinados en cada conglomerado.

Estrato

Nh cuadras

Nh

nmero de Total hogares hogares sujeto en cada estrato cuadra 20 20 20 20 1000 7060 7220 2860 11840

de por

1 2 3 4

270 1940 2000 790 N = 5000

50 353 363 143 n = 909

17

18

UNIDAD 2

REPRESENTACION TABULAR Y GRAFICA Distribucin de frecuencias

19

Distribucin de frecuencias es como se denomina en estadstica a la agrupacin de datos en categoras mutuamente excluyentes que indican el nmero de observaciones en cada categora. Esto significa una de las cosas ms importantes de la matemtica, su estadstica con la agrupacin de datos. La distribucin de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el nmero existente en cada clase. Elementos fundamentales para elaborar una distribucin de frecuencia: 1) RANGO. Es una medida de dispersion que se obtiene como la diferencia entre el nmero mayor y el nmero menor de los datos. R = N_max - N_min Ejemplo. Dados los nmeros: 5, 10, 12, 8, 13, 9, 15 R= 15- 5 2) AMPLITUD TOTAL. Simplemente se obtiene sumndole 1 al rango. AT = (R+1) 3) LAS CLASES. Estn formadas por dos extremos. el menor se llama limite inferior el mayor se llama limite superior. hay distintos tipos de clases. Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99) 4) EL NUMERO DE CLASES. Se determina a travez de la formula de stuger, la cual es valida cuando el No de observaciones sea menor o igual a 500. Formula. Nc= 1 + 3.33log ( N ) Donde: Nc es el nmero de clases. N es la cantidad de muestras tomadas. 5) VALOR DEL INTERVALO O AMPLITUD Se Obtiene por medio de la ecuacin de dicta: Vi = AT / Nc Donde: Vi es el valor de intervalo AT es la amplitud total Nc es el nmero de clase 1. La representacin de los datos: FRECUENCIAS. Cuando se rene gran cantidad de datos primarios es til distribuirlos en clases y categoras y determinar las frecuencias de las clases, o sea, el nmero de elementos que pertenecen a una clase. El ordenamiento tabular de los datos por clases conjuntamente con las frecuencias de clases se denomina distribucin de frecuencias El caso que se describe a continuacin, variables discretas se denomina distribucin por conteo de valores individuales. Supongamos que un determinado colectivo, representado por la variable estadstica Xi, que para mayor sencillez consideraremos como unidimensional; sean los datos de esta variable (representativo cada uno de

20

ellos de un suceso) X1, X2, , Xn (supuesto que sean n los valores de la variable considerada.) Definiremos como frecuencia de un dato el nmero de veces que este aparece en el colectivo; consecuentemente, si una variable estadstica toma r valores, cada uno de los cuales puede repetirse un cierto nmero de veces, podramos decir que el nmero de datos representado por la variable seran N, siendo N la suma de las respectivas frecuencias de cada dato (N=Xi). Este valor N ser denominado como frecuencia total, mientras que la frecuencia de cada dato recibir el nombre de frecuencia absoluta o simplemente frecuencia (fi). La frecuencia absoluta nos habla del nmero de veces que un dato aparece en un colectivo, ms ello no nos dice demasiado en orden al establecimiento de comparaciones sobre la importancia de este dato. Para obtener una idea de la importancia que un dato posee en el seno de un colectivo, puesto que no es suficiente concepto de frecuencia, se utiliza el concepto frecuencia relativa, que se definir como: el coeficiente entre la frecuencia absoluta del dato considerado y la frecuencia total (fr=fi/Xi). Para efectos prcticos, asumiremos las siguientes definiciones de frecuencias: frecuencias absolutas : es el nmero de veces que aparece en la muestra dicho valor de la variable y se representa por fi. frecuencias relativas: es el cociente entre la frecuencia absoluta y el tamao de la muestra. La denotaremos por fri frecuencias absoluta acumulada: para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadstica ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el clculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el nmero de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por fa, se puede acumular, en la tabla estadstica) en orden ascendente (fa) o descendente (fa). frecuencia relativa acumulada: al igual que en el caso anterior se calcula como el cociente entre la frecuencia absoluta acumulada dividido por el tamao de la muestra (N) y la denotaremos por fra. Tabla #1: Variables Discretas Valores de la variable Xi frecuencias absolutas (datos) X1 X2 fi f1 f2 frecuencias relativas fi/N f1/N f2/N

21

Xn Donde: N=fi y fi/N=1

fn

fn/N

Otro es el caso de las clases representadas en forma de intervalos, variables continuas, llamados intervalos de clases que poseen extremos llamados limite inferior y limite superior, Un intervalo se dice que es abierto o no cerrado, por un extremo si no contiene el lmite correspondiente. La longitud, tamao o amplitud de un intervalo de clases (C) es la diferencia entre los limites superior e inferior (C=lim sup lim inf). El Recorrido (R) es la diferencia entre el dato mayor y el menor del conjunto da datos en estudio (R=X n X1) En el caso de variables continuas ser necesario fijar intervalos de frecuencias para llegar a un resumen efectivo de la informacin original. A menudo es necesario representar una clase, o ms particularmente, un intervalo por un nico valor, este representar a todo el intervalo y se denominar marca de clases. Matemticamente el punto medio de cada intervalo corresponde a lo que denominamos marca de clase, se denotar por Xi, y constituir el valor representativo de cada intervalo. El nmero de observaciones que correspondan a cada intervalo se denominar frecuencias absolutas. Tabla #2: Variables Continuas Intervalos (C) X1-X2 X2-X3 Xn-1-Xn Donde Marcas de Clases Xi X1 X2 Xn Frecuencias Absolutas fi f1 f2 fn

N = fi = Nmero de observaciones C = X X" = Amplitud del intervalo

22

Por ltimo, en el caso de variables no mensurables, dicha tabla adoptar una forma como la siguiente: Tabla #3: Variable Ordinales Variable Frecuencias

Caracterstica A fA Caracterstica B fB

Caracterstica Z fZ 1. Reglas Generales para construir las distribuciones de frecuencias por intervalos 2. Efectuar el arreglo ordenado (Ascendente o Descendente) de la poblacin o muestra A = ( X1, X2, , Xn ) 3. Obtener la frecuencia absoluta mediante la tabulacin o conteo de los datos (homogenizar los datos) 4. Encontrar el rango o recorrido (R) de los datos: R = (valor mayor valor menor) = Xn X1

5. Encontrar el nmero de clases o intervalos de clases (K). El nmero de


clases debe ser tal que se evite el detalle innecesario, pero que no conduzca a la perdida de ms informacin de la que puede ser convenientemente ignorada. Para este clculo se utiliza la formula de Sturges K = 1 + 3.322(log. N) 5- Determinar la amplitud de la clase ( C ): R C = -------K Nota: el resultado siempre se aproxima al siguiente entero si excede al nmero entero obtenido, no importa el monto de la fraccin excedida al entero C = se lee "se aproxima a"

6. El dato menor (X1) ser el limite inferior de la primera clase. A l se le


suma C y se obtiene el limite superior de la primera clase que tambin ser el limite inferior de la segunda clase. Luego se suma nuevamente C y se obtiene el limite superior del segundo intervalo e inferior del tercero. Y

23

as sucesivamente hasta que el limite superior corresponda o supere ligeramente el valor mayor ( Xn ), la cantidad de clases obtenidas deber corresponder con el nmero K calculado mediante la formula de Sturges. 7. Una vez construidos los intervalos se calculan, mediante tabulacin de acuerdo a los limites inferiores y superiores de las clases, las frecuencias absolutas, relativas, porcentuales y acumuladas correspondientes. 8. Con los datos obtenidos se procede a construir la tabla de distribucin de frecuencia. Tabla de distribucin de frecuencias. Una de los primeros pasos que se realizan en cualquier estudio estadstico es la tabulacin de resultados, es decir, recoger la informacin de la muestra resumida en una tabla, que denominaremos distribucin de frecuencias, en la que cada valor de la variable se le asocian determinados nmeros que representan el nmero de veces que ha aparecido, su proporcin con respecto a otros valores de la variable, etc. Por tanto, llamaremos distribucin de frecuencias a un agrupamiento de datos en clases acompaada de sus frecuencias: frecuencias absolutas, frecuencias relativa o frecuencia porcentuales. En caso de que las variables estn al menos en escala ordinal aparecen opcionalmente las frecuencias acumuladas absolutas, y frecuencias acumuladas porcentuales. Las distribuciones de frecuencias varan en dependencia si corresponden a una variable discreta o a una variable continua. Ejemplo #1: Variable Continua: La tienda CABRERAS Y ASOCIADOS estaba interesada en efectuar un anlisis de sus cuentas por comprar. Uno de los factores que ms interesaba a la administracin de la tienda era el de los saldos de las cuentas de crdito. Se escogi al azar una muestra aleatoria de 30 cuentas y se anot el saldo de cada cuenta (en unidades monetarias) como sigue: 77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99 43.66 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97 32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68 Solucin: 1. Efectuar el arreglo ordenado de la poblacin o muestra: A= ( 7.42, 8.15, , , , 90.99, 93.91 ) donde: X1 = valor mnimo = 7.42 Xn= valor mximo = 93.91

2. Encontrar el rengo o recorrido de los datos: "R"


R = valor mayor valor menor = Xn X1 = 93.91 7.42 = 86.49

3. Encontrar en nmero de clases "K" , segn la frmula de Sturges:


K=1+3.322(log N) Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra: K = 1 + 3.322 (log 30)

24

= 1 + 3.322 (1.477) el log fue obtenido segn calculadora = 1+ 4.9069 = 5.9069 ~6 aproximado al siguiente entero

4. Determinar la amplitud de la clase: "C"

En estadstica, un histograma es una representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las marcas de clase, es decir, la mitad del intervalo en el que estn agrupados los datos. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores. Los histogramas son ms frecuentes en ciencias sociales, humanas y econmicas que en ciencias naturales y exactas. Y permite la comparacin de los resultados de un proceso.

DIAGRAMAS DE BARRAS SIMPLES

Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categora que re presenta.

DIAGRAMAS DE BARRAS COMPUESTA

Se usa para representar la informacin de una tabla de doble entrada o sea a partir de dos variables, las cuales se representan as; la altura de la barra representa la frecuencia simple de las modalidades o categoras de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.

DIAGRAMAS DE BARRAS AGRUPADAS

Se usa para representar la informacin de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.

POLGONO DE FRECUENCIAS

Es un grfico de lneas que se usa para presentar las frecuencias absolutas de los valores de una distribucin en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor.

OJIVA PORCENTUAL

Es un grfico acumulativos, el cual es muy til cuando se quiere representar el rango porcentual de cada valor en una distribucin de frecuencias.

25

En los graficos las barras se encuentran juntas y en la tabla los nmeros poseen en en primer miembro un corchete y en el segundo un parentesis por ejemplo: (10-20] Grficos de sectores: es un grfico que se basa en una proporcionalidad entre la frecuencia y el ngulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el ngulo central de 360. Para construir se aplica la siguiente formula: X = frecuencia relativa * 360/ frecuencia relativa Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la variable son pocos, la ventaja que tiene este diagrama es que es fcil de hacer y es entendible fcilmente, la desventaja que posee es que cuando los valores de la variable son muchos es casi imposible o mejor dicho no informa mucho este diagrama y no es productivo, proporciona principalmente informacin acerca de las frecuencias de los datos de una manera entendible y sencilla. EJ: Representar mediante un grfico de sectores la frecuencia con que aparece cada una de las cinco vocales en el presente prrafo: Vocal a e 20 i 4 o 6 u 3 46

Frecuencia 13

26

UNIDAD 3

MEDIDAS DE TENDENCIA CENTRAL Medidas de tendencia central: Media, Mediana, Moda Ahora nos ocuparemos exclusivamente de las variables cuantitativas, puesto que con los atributos no se pueden realizar operaciones aritmticas. Como hemos estudiado, las variables estadsticas cuantitativas se dividen o clasifican en discretas o continuas, por lo que necesitaremos precisar cmo se calculan dichas medidas en cada caso. Las medidas estadsticas pretenden "resumir" la informacin de la "muestra" para poder tener as un mejor conocimiento de la poblacin.

27

Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. (Ellas permiten analizar los datos en torno a un valor central). Entre stas estn la media aritmtica, la moda y la mediana. Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total. En palabras ms simples, corresponde a la suma de un conjunto de datos dividida por el nmero total de dichos datos. X= Ejemplo 1: En matemticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3 n = 6 (nmero total de datos ) X = 4+7+7+2+5+3 6 = 28 = 4,8 6 suma de todos los valores x1 + x2 + x3 + x4 + ...... = nmero total de datos n

La media aritmtica de las notas de esa asignatura es 4,8. Este nmero representa el promedio. Se debe recordar que la frecuencia absoluta indica cuntas veces se repite cada valor, por lo tanto, la tabla es una manera ms corta de anotar los datos (si la frecuencia absoluta es 10, significa que el valor a que corresponde se repite 10 veces). b) Moda (Mo) Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos, o sea, cual se repite ms. Ejemplo 1: Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de nias de un Jardn Infantil. 5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3 La edad que ms se repite es 3, por lo tanto, la Moda es 3 (Mo = 3) Ejemplo 2: 20, 12, 14, 23, 78, 56, 96 En este conjunto de datos no existe ningn valor que se repita, por lo tanto, este conjunto de valores no tiene moda. c) Mediana (Med)

28

Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual nmero de valores antes y despus de l en un conjunto de datos agrupados. Segn el nmero de valores que se tengan se pueden presentar dos casos: - Si el nmero de valores es impar, la Mediana corresponder al valor central de dicho conjunto de datos. - Si el nmero de valores es par, la Mediana corresponder al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2). Ejemplo 1: Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2 Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5 , 8, 9, 10 El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares. Ejemplo 2: El siguiente conjunto de datos est ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Med ser el promedio de los valores centrales. 21, 19, 18, 15, 13, 11 ,10, 9, 5, 3 Med Ejemplo 3: = 13 + 11 2 = 24 = 12 2

29

En el grfico de barras (que tiene un nmero par de columnas) los valores centrales son 72 y 77, por lo tanto, la Med = 72 + 77 2 = Med = 149 2 = 74,5

Qu son las medidas de variabilidad? La puntuacin media en una distribucin es importante en muchos contextos de investigacin. Pero tambin lo es otro conjunto de estadsticos que cuantifican que tan variables, o que tan dispersas, tienden a ser las puntuaciones. Las puntuaciones varan mucho, o tienden a tener valores muy similares. A veces, la variabilidad en las puntuaciones es la cuestin central en una investigacin. La variabilidad es un concepto cuantitativo, de modo que nada de esto se aplica a las distribuciones de datos cualitativos. Hay varias razones para analizar la variabilidad en una serie de datos. Primero, al aplicar una medida de variabilidad podemos evaluar la medida de tendencia central utilizada. Una medida de variabilidad pequea indica que los datos estn agrupados muy cerca, digamos, de la media. La media, por lo tanto es considerada bastante representativa de la serie de datos. Inversamente, una gran medida de variabilidad indica que la media no es muy representativa de los datos. Una segunda razn para estudiar la variabilidad de una serie de datos es para comparar como estn esparcidos los datos en dos o ms distribuciones. Por ejemplo, la calificacin promedio de dos estudiantes, A = {90, 80, 75, 75 } y B = {90, 55, 85, 90 }, es de 80. Basados en esto podramos pensar que sus calificaciones son idnticas. Pero si revisamos el detalle de sus calificaciones vemos que esta conclusin no es correcta. la desviacin estndar (s), y la varianza (s o "var"). Rango La forma ms sencilla de medir la variabilidad es el rango. Es la diferencia entre los ms altos y ms bajos valores en un conjunto de datos. En la forma de una ecuacin:

30

Rango = valor ms alto - valor ms bajo El rango tiene la ventaja de ser fcil de calcular y entender. Ejemplo: Las calificaciones de cinco estudiantes de estadstica son: 8, 8, 10, 6, y 8. Cul es el rango de las calificaciones? Rango = valor ms alto - valor ms bajo = 10 - 6 = 4 Rango para datos agrupados Para estimar el rango de una distribucin de frecuencia se resta el lmite inferior del intervalo de clase ms chico del lmite superior del intervalo de clase ms grande Ejemplo: Una muestra de las edades del pblico de un concierto se encuentra distribuida de la siguiente manera: Edades Nmero de personas 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 2 1 4 15 10 5 3

Rango = mayor limite superior - menor lmite inferior = 49 - 15 = 34 Desviacin media La desviacin media mide la cantidad promedio que varan los datos respecto a su media. La definicin es: Desviacin media es la media aritmtica de los valores absolutos de las desviaciones de los datos respecto a su media. La frmula de la desviacin media ( Dm ) es: | X - | Dm = n Ejemplo: Las calificaciones de cinco estudiantes de estadstica son: 8, 8, 10, 6, y 8. Cul es la desviacin media de las calificaciones? X 8 8 10 X0 0 +2 |X 0 0 2 |

31

6 8 | X n | 4 = 0.8 5

-2 0

2 0 =4

Dm =

Desviacin media para datos agrupados En el caso de que los datos se encuentren agrupados en una distribucin de frecuencia la frmula es : f | X - | Dm = n Ventajas y Desventajas de la desviacin media La desviacin media tiene dos ventajas. Utiliza para su cmputo todos los elementos de la serie de datos y es facil de entender. Sin embargo, es dificil trabajar con valores absolutos y por ello la desviacin media no es usada frecuentemente. La varianza y la desviacin estndar Concepto de varianza y desviacin estndar La varianza y la desviacin estndar sirven para cuantificar la variabilidad de una muestra midiendo su dispersin alrededor de la media. La definicin es la siguiente: Varianza. Es la media aritmtica de las desviaciones cuadradas de los datos respecto a la media. Desviacin estndar. Es la raz cuadrada de la varianza. Varianza y Desviacin Estndar para datos no agrupados Las frmulas de la varianza de una poblacin y de una muestra son ligeramente diferentes. Las frmulas son: x 2

(x)2 N S2=

x2 n-1

(x) n

N varianza de una poblacin

varianza de una muestra

Las desviaciones estndar de la poblacin y muestra se calculan simplemente sacando la raz cuadrada a la respectiva varianza. 2 desviacin estndar de una poblacin desviacin estndar de una muestra S= S 2

Ejemplo El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la lnea de produccin son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. Cul es la varianza y la desviacin estndar de las observaciones muestreadas? X X2 85.4 7293.16 85.3 7276.09 84.9 7208.01

32

85.4 84.0 x= 425.0 x2= x2 S2= n-1 (x)


2

7293.16 7056.00 36126.42

36126.42 5-1

(425)2 5 = 0.355

S =

= 0.5958 Varianza y Desviacin Estndar para datos agrupados Si los datos estn agrupados en una distribucin de frecuencia, la varianza y la desviacin estndar de la muestra se pueden aproximar sustituyendo Sfx por Sx y Sfx por Sx. Las frmulas quedaran de la siguiente manera: S 0.355 fx 2

(fx)2 N S2=

fx 2

(fx)2 n

N varianza de una poblacin desviacin estndar de una poblacin desviacin estndar de una muestra

n-1 varianza de una muestra 2

S = S2

Ejemplo: Calcular la varianza y la desviacin estndar de la siguiente distribucin de frecuencia del nmero de meses de duracin de una muestra de 40 bateras para coche. duracin de las bateras (meses) Nmero de bateras 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 2 1 4 15 10 5 3

Primeramente, calculamos la marca de clase, para despus calcular los productos fX y fx2 para proceder finalmente a calcular las sumatorias fX y fx2 y aplicar las frmulas. LI LS X F FX 34 22 108 FX2 588 484 2916 15 19 17 2 20 24 22 1 25 29 27 4

33

30 34 32 15 35 39 37 10 40 44 42 5 45 49 47 3 n =40 (fx)
2

480 370 210 141 fX 1365 =

15360 13690 8820 6627 fx2 = 48475

fx2 S2= n-1

48475 40 - 1

(1365)2 40 = 48.573

S =

= 48.57 = 6.969 3

Problemas Para cada uno de los siguientes problemas: (a) determine la varianza y la desviacin estndar agrupar los datos; (b) elabore la distribucin de frecuencia y calcule la desviacin media, varianza, desviacin estndar para datos agrupados. 1. Los resultados siguientes representan las calificaciones del examen final de un curso de estadstica elemental. 23 80 52 41 60 34 60 77 10 71 78 67 79 81 64 83 89 17 32 95 75 54 76 82 57 41 78 64 84 69 74 65 25 72 48 74 52 92 80 88 84 63 70 85 98 62 90 80 82 55 81 74 15 85 36 76 67 43 79 61

2. El gerente de una firma especializada en renta de condominios para vacacionistas, quiere saber como estn distribuidas los montos de las rentas mensuales de los departamentos de la firma. Seleccion una muestra de departamentos cuyas muestras son mostradas abajo. Rentas mensuales de los condominios 1170 1207 1581 1277 1305 1472 1077 1319 1537 1849 1500 1671

1332 1418 1949 1403 1744 1532 1219 896 1471 1826 1440 1399 1041 1379 821

1558 1118 1533 1510 1760 803

1309 1426 1288 1394 1545 1032 1289 695 1421 1329 1407 718

1457 1449 1455 2051 1677

34

1119 1352

1020 1400 1442 1593 1962 1263 1788 1501 1668 1340 1459 1823 1451 1138 1592 982 1981 1091

3. Los siguientes datos representan la duracin de la vida en meses de 30 bombas de combustible similares. 24 3 18 36 72 48 4 66 71 40 78 22 16 3 57 5 28 9 18 67 54 6 72 4 30 15 12 60 3 72

4. Los siguientes datos representan la duracin de la vida, en segundos, de 50 moscas sometidas a un nuevo atomizador en un experimento de laboratorio controlado. 17 12 16 13 7 20 14 18 7 10 10 6 8 18 5 9 9 13 7 14 23 13 3 10 15 13 6 32 4 10 12 7 9 27 9 19 10 7 19 6 18 13 10 16 7 24 7 11 8 15

5. Se aplic una encuesta donde se les pide indicar el nmero de amigos o parientes que visitan cuando menos una vez al mes. Los resultados son los siguientes: 3 2 5 4 9 4 5 4 6 14 4 3 2 2 4 3 1 5 3 5 3 5 4 7 3 3 2 6 2 3 4 3 2 3 4 5 1 3 6 4 3 6 8 0 3 2 5 2 4 3 5 4 0 2

6. Una compaa de cambio de aceite tiene varias sucursales en la zona metropolitana. El nmero de cambios de aceite en la sucursal de la calle Roble en los pasados 20 das son: 66 70 98 62 55 66 62 80 79 94 59 79 51 63 90 73 72 71 56 85

7. El gerente local un negocio de comida rpida esta interesado en el nmero de veces que un cliente compra en su tienda durante un periodo de dos semanas. Las respuestas de los 51 clientes fueron: 5 1 5 3 2 9 3 4 11 1 4 3 4 4 12 4 5 4 5 6 7 6 3 6 4 5 5 2 3 15 6 4 1 6 5 1 6 6 10 7 8 8 1 4 9 1 7 2 14 6 12

35

8. El presidente de una agencia de viajes, quiere informacin sobre las edades de la gente que toma cruceros por el Caribe. Una muestra de 40 clientes que tomaron un crucero el ao pasado revel estas edades: 77 36 62 60 18 26 43 45 63 50 52 66 84 34 53 83 38 44 63 71 54 41 62 63 50 58 62 58 59 58 65 61 54 53 61 71 56 51 52 60

9. Una cadena de tiendas de artculos deportivos al servicio de esquiadores principiantes, planea hacer un estudio de cuanto gasta un esquiador principiante en su primera compra de equipo. Una muestra de recibos de sus cajas registradoras revel esas compras iniciales. 140 235 162 87 82 212 126 128 265 171 216 126 168 149 195 175 90 156 127 127 114 162 161 149 172 118 135 126 230 139 172 121 142 149 220 118 86 132 229 172 125 105 129 126

10.- Se conduce un estudio de los efectos de fumar sobre los patrones de sueo. La medicin que se observa es el tiempo, en minutos, que toma quedar dormido. Se obtienen estos datos: 69 47 52 43 26 56 53 34 23 36 22 48 60 13 30 28 30 25 31 41 34 21 29 28 13 37 38

11. Un banco seleccion una muestra de 40 cuentas de cheques de estudiantes. Abajo aparecen sus saldos de fin de mes. 404 87 703 968 74 234 125 712 234 68 350 503 149 489 440 498 279 57 37 327 215 185 252 608 123 141 27 358 55 758 521 425 43 72 302 303 321 863 127 203

12.- Una compaa de luz seleccion una muestra de 20 clientes residenciales. Los siguientes datos son las cuentas que se les factur el mes pasado: 54 67 48 68 58 39 50 35 25 56 47 66 75 33 46 62 60 65 70 67

13.- Una muestra de suscriptores de una compaa telefnica revel los siguientes nmeros de llamadas recibidas en la ltima semana. 52 43 30 38 30 42 12 46 39 37

36

34

46

32

18

41

37

UNIDAD 4

PROBABILIDAD La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables. La teora de la probabilidad se usa extensamente en reas como la estadstica, la matemtica, la ciencia y la filosofa para sacar conclusiones sobre la probabilidad de sucesos potenciales y la mecnica subyacente de sistemas complejos. Muchos de los eventos que ocurren en la vida diaria no pueden ser predichos con exactitud desde antes por diversas razones, pues la mayora de los hechos estn influidos por factores externos. Adems, existen aquellos sucesos que estn directamente influidos por el azar, es decir, por procesos que no se est seguro de lo que va a ocurrir. Sin embargo, la probabilidad nos permite acercarnos a esos sucesos

38

y estudiarlos, ponderando las posibilidades de su ocurrencia y proporcionando mtodos para tales ponderaciones. 2. Anlisis combinatorio En ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situacin dada se convierte en algo difcil de lograr o, simplemente, tedioso. El anlisis combinatorio, o clculo combinatorio, permite enumerar tales casos o sucesos y as obtener la probabilidad de eventos ms complejos. En el caso de que existan ms de un suceso a observar, habra que contar el nmero de veces que pueden ocurrir todos los sucesos que se desean observar, para ello se utiliza el principio fundamental de conteo: Si un suceso se puede presentar de n1 formas, y otro se puede presentar de n2 formas, entonces el nmero de formas en que ambos sucesos pueden presentarse en ese orden es de n1n2. En otras palabras, basta multiplicar el nmero de formas en que se pueden presentar cada uno de los sucesos a observar. Este principio nos remite automticamente al factorial de un nmero natural, que se puede pensar como una funcin con dominio los nmeros naturales junto con el cero y codominio los nmeros naturales. El factorial de un nmero n, denotado n!, se define como:

Ahora, n es muy grande el proceso de clculo se vuelve tedioso y muy cargado, incluso para una computadora, por lo que se utiliza la aproximacin de Stirling a n!: donde e 2.71828..., que es la base de los logaritmos neperianos. En el anlisis combinatorio se definen las permutaciones, con o sin repeticin, y las combinaciones. 2.2 Permutaciones (u ordenaciones) con repeticin Las permutaciones son tambin conocidas como ordenaciones, y de hecho toman este nombre porque son ordenaciones de r objetos de n dados. En este curso las representaremos como ORnr nORr. Por ejemplo: Sea A={a,b,c,d}, cuntas "palabras" de dos letras se pueden obtener? Se pide formar permutaciones u ordenaciones de 2 letras, cuando el total de letras es 4. En este caso r=2 y n=4. Las "palabras" formadas son: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd. En total son 16. En general, si se toman r objetos de n, la cantidad de permutaciones u ordenaciones con repeticin obtenidas son: ORnr = nORr = n r 2.3 Permutaciones (u ordenaciones) sin repeticin

39

En este caso, a diferencia del anterior, se realizan ordenaciones de r objetos de n dados atendiendo a la situacin de cada objeto en la ordenacin. Su representacin ser Pnr nPr. Por ejemplo: Sea el mismo conjunto A={a,b,c,d}, cuntas ordenaciones sin repeticin se pueden obtener? Lo que resulta es: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc. Son 12 en total. En general, si se toman r objetos de un total de n, la cantidad de permutaciones Pnr = nPr = 2.4 Combinaciones Es una seleccin de r objetos de n dados sin atender a la ordenacin de los mismos. Es decir, es la obtencin de subcojuntos, de r elementos cada uno, a partir de un conjunto inicial de n elementos. La denotaremos con Cnr, nCr .

Por ejemplo: Si tomamos el mismo conjunto A={a,b,c,d}, cuntos subconjuntos de 2 elementos cada uno se pueden obtener? Hacindolos se obtienen: {a,b}, {a,c}, {a,d}, {b,c}, {b,d}, {c,d}. Son seis los subconjuntos. En general, si de n objetos dados se hacen combinaciones de r objetos cada una, el nmero de combinaciones obtenidas son:

Cnr = nCr = o, que es lo mismo,

Cnr = nCr =

3. Eventos Cuando se realiza un experimento, que es cualquier proceso que produce un resultado o una observacin, se van a obtener un conjunto de valores. A este conjunto de valores que puede tomar una variable se le denomina espacio muestral. Por ejemplo: Si se tiene un dado cualquiera, el espacio muestral (EM) es EM={1,2,3,4,5,6}. Si existen ms de una variable, el espacio muestral est formado por las combinaciones de valores de cada una de las variables. Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se denomina un evento, y si ste consta de un solo elemento entonces es un evento elemental.

40

Como se puede uno imaginar, existen eventos que siempre, no importa el nmero de experimentos o su situacin, ocurren, y en cambio existen otros que nunca ocurren. Los que siempre ocurren son los eventos seguros, y los que nunca son los eventos imposibles. Sin embargo, no todos los resultados son al azar, pues si un experimento es cualquier proceso entonces los resultados pueden tomar cualquier tipo de valor. Por esta razn, se define como experimento aleatorio al proceso en el que se pueden predecir con certeza la ocurrencia de sus eventos, con excepcin del seguro o del imposible. Hay que hacer la observacin que esta definicin habla en trminos generales y no especficamente sobre algn experimento en particular. A aqulla variable que est asociada a un experimento de este tipo se le denomina variable aleatoria. En cambio, a un experimento no aleatorio se le denomina experimento determinstico. Cuando hablamos de varios eventos dentro del mismo experimento se pueden dar varios casos. Si dos o ms eventos no pueden ocurrir simultneamente, se llaman eventos mutuamente excluyentes, es decir, que la interseccin de ambos eventos es vaca. Por otro lado, en ocasiones un evento o ms eventos dependen de otro evento previo, es decir, un evento A ocurre dado que ocurri un evento B. Si existe este tipo de relacin entre eventos se dice que son eventos dependientes o condicionados (el evento A depende del evento B, o el resultado del evento A est condicionado al resultado del evento B). Por otro lado, si no existe tal relacin entre eventos se dice que son eventos independientes. Los criterios de dependencia o de independencia se definirn ms adelante, en trminos de probabilidad condicional. Probabilidad de eventos Para calcular la probabilidad de eventos es necesario que stos se comporten de una maner ms o menos estable. Precisamente, se echa mano de la regularidad estadstica, que es la propiedad de los fenmenos aleatorios, y que consiste en que al aumentar el nmero de repeticiones de un experimento en condiciones prcticamente constantes, la frecuencia relativa de ocurrencia para cada evento tiende a un valor fijo. Sin embargo, al momento de definir la probabilidad de un evento podemos tomar en cuenta los siguientes criterios:

1. La probabilidad subjetiva de un evento se la asigna la persona que hace el


estudio, y depende del conocimiento que esta persona tenga sobre el tema. Precisamente por su carcter de subjetividad no se considera con validez cientfica, aunque en la vida diaria es de las ms comnes que se utilizan al no apoyarse ms que en el sentido comn y los conocimientos previos, y no en resultados estadsticos. 2. La probabilidad frecuencial de un evento es el valor fijo al que tienden las frecuencias relativas de ocurrencia del evento de acuerdo a la regularidad estadstica. Esta definicin sera la ms real, pero proporciona probabilidades aproximadas, es decir, proporciona estimaciones y no valores reales. Adems, los resultados son a posteriori, pues se necesita realizar el experimento para poder obtenerlo. (Para ver un ejemplo haz click aqu.)

41

3. La probabilidad clsica de un evento E, que denotaremos por P(E), se define


como el nmero de eventos elementales que componen al evento E, entre el nmero de eventos elementales que componen el espacio muestral:

Probabilidad condicional y diagramas de rbol Un eventos dependiente se define de la siguiente forma. Se dice que un evento A es dependiente de otro B si para que ocurra A es necesario que ocurra el evento B. Un instrumento til dentro de la probabilidad condicional son las representaciones que nos permiten analizar la problemtica de los eventos cuando estos ocurren uno despus del otro. Concretamente estamos hablando de los diagramas de rbol. Este est constituido de varias ramas, cada rama parte de un nodo que representa un evento aleatorio diferente. En el esquema que se presenta a continuacin se observa que la rama principal esta constituida de evento con diferentes posibilidades como son:

A1 , A2 ,A3 , , An

la siguiente rama consta de eventos distintos, por ejemplo,

B1 , B2 , B3 ,, Bn

que se realizan despus de ocurrir A1 , as de manera sucesiva

pueden ocurrir eventos despus de cualquiera de ellos. Otro ejemplo es el que se muestra, ocurren despus del evento

An

ocurriendo los eventos

C1 , C 2 , C 3 , , C n

Tambin observamos que cada evento forma un universo para cada evento por lo que cada rama, de acuerdo con el axioma de normalizabilidad, tendr que ser igual a uno.

42

43

You might also like