Professional Documents
Culture Documents
DEL CUSCO
ESCUELA DE POST-GRADO
CURSO:
ESTADISTICA APLICADA.
CUSCO PERU
2015.
CAPITULO I
INTRODUCCION
2
Muestra Inferencias
Poblacin
3
1.3 VARIABLES ESTADISTICAS
A las caractersticas objeto de estudio en la poblacin se les llama variables, ya
que pueden variar de un individuo a otro y se representara por una letra
mayscula: X, Y, Z,. . ., debemos distinguir los distintos tipos de variables que
hay, lo cual nos va a permitir utilizar las herramientas estadsticas apropiadas.
Tipos de variables.
Las variables estadsticas pueden ser de dos tipos:
Variables cualitativas o atributos: describen cualidades y no toman valores
numricos, estas a su vez pueden ser:
Nominales.- Las cualidades no presentan ningn orden.
Ejemplo.
Nombres y/o Razn Social de la empresa constructora.
4
Saldo de balance.
Una caracterstica esencial de este tipo de variables es que sus valores nunca
son observables con exactitud, sino que dependen (las observaciones) de la
precisin del instrumento de medida.
1.4 MEDICION
Se llama medicin al proceso de atribuir nmeros a las caractersticas.
Tenemos las siguientes escalas de medicin: nominales, ordinales,
cuantitativas de intervalo y cuantitativas de razn.
Escala Ordinal: Los nmeros adems de servir para distinguir reflejan un orden
existente sobre los valores de la variable.
Se obtiene clasificando objetos o arreglndolos en un orden con respecto a
alguna variable comn. La pregunta es simplemente, si el objeto tiene ms o
menos de esta variable que algn otro objeto.
Ejemplo:
El dato representado por 5 es superior al representado por 2 en excelente=5,
bueno =4, regular =3 y malo = 2. es cierto la relacin de orden 2<3<4<5.
Escala de Intervalo: Aqu los nmeros para clasificar los objetos representan
tambin incrementos iguales del atributo que se esta midiendo . Esto significa
que los nmeros pueden ser comparados. La diferencia en 1 y 2 es la misma
que entre 2 y 3, pero es solo la mitad de la diferencia entre 2 y 4, sin embargo,
5
la ubicacin del punto no es fija, puesto que 0 no denota la ausencia del
atributo.
Las temperaturas Fahrenheit y Centgrados son medidas que tiene diferentes
escalas de intervalo y diferentes puntos de 0.
6
Resumen de escalas de medicin
7
Pruebas estadsticas de acuerdo a la escala de medicin
8
Pruebas estadsticas inferenciales de acuerdo a la escala de medicin de la
variable en estudio.
Tipo de Escala de la Mtodo o Tcnica Estadstica
Descripcin variable o
asociacin
Variables Nominal -Prueba Z para una proporcin
individuales poblacional.
-Prueba de chi-cuadrado para varias
proporciones en una sola poblacin.
-Intervalos de confianza para
proporciones.
-Prueba de McNemar,
-Prueba de Mantel Haenzel
Variables Ordinales -Prueba de signos o binomial para la
individuales o media poblacional.
mas de una -Pruebas de wilcoxon para rangos.
variable Prueba de U Mann Whitney( dos o mas
poblaciones)
-Prueba de Kruskal Wallis.
-Prueba de Friedman.
Variables Intercalar o de -Prueba de t para una media poblacional.
individuales razn. -intervalos de confianza.
Mas de una Intercalar o de -Prueba de hipotes e intervalos de
variables razn confianza para diferencia de medias.
-Prueba de varianzas
9
pero que sean nuevos, respecto a la ciencia, es decir, respecto al
conjunto de conocimientos ya provisionalmente establecidos y
sistematizados por la humanidad, conocimientos nuevos que, como
aportes, se sumarn a la Ciencia.
Qu es investigar?
Es la forma ms adecuada de aproximarse al conocimiento de la verdad
mediante verdades parciales.
QU ES UN PROBLEMA?
De manera general se considera que hay un problema cuando lo que
debera ser, difiere de lo que es.
el debera ser, es el marco referencial, el patrn comparativo, el ideal, el
modelo, el paradigma.
Lo que es, representa la realidad, es la prctica.
10
1.5.1.3 Componentes del titulo de un problema de investigacin.
El titulo de un problema de investigacin debe tener los siguientes
componentes.
Unidades de observacin
Son aquella en las se ponen de manifiesto los hechos o situaciones
problemticas y constituyen, desde el punto de vista estadstico, la poblacin
o muestra a la que se refiere la investigacin. Son: Personas, grupos sociales,
seres, acontecimientos, instituciones, objetos, procesos.
Espacio
Esta referido al lugar en el que ocurre el hecho o situacin problemtica.
Puede ser geogrfico o administrativo. Dnde?
Tiempo
Est referido al momento en que ocurre el hecho o situacin problemtica.
Cundo?
11
1.5.2 NIVELES DE INVESTIGACIN.
El nivel o tipo de investigacin segn Victor Colque V., se clasifica en:
12
1.5.2.4 Investigacin Correlacional
Orientada a descubrir la covariacin o correspondencia entre los valores de
dos hechos o situaciones problemticas.
Ejemplo 9:
Correlacin entre hbitos de estudio y aprendizaje en los estudiantes de
la Universidad de Nacional San Antonio Abad del Cusco, 2008.
13
Considerando el tiempo, las independientes son ms antiguas que las
dependientes. Se encuentran en las siguientes investigaciones:
1. Explicativa
2. Relacional
3. Experimental (La variable dependiente en una investigacin
experimental se le conoce como respuesta)
Ejemplo 11:
En el problema influencia del uso de mapas mentales en el rendimiento
acadmico de los estudiantes de las I.E de la regin de Cusco, 2008.
Variable independiente: Rendimiento Acadmico
Variable dependiente: Uso de mapas mentales
Ejemplo 12:
En el estudio de formacin acadmica y rol de la experiencia en el
desempeo profesional, Quillabamba. 2008.
Variable independiente: formacin acadmica.
Variable Dependiente: Desempeo profesional
Variable Intermedia : Experiencia
14
Ejemplo 13:
En el problema: Niveles de desnutricin de los pobladores de las
provincias altas, 2008.
Variable interviniente : Nivel de desnutricin.
Ejemplo 14:
En el problema: Rasgos sociales y culturales de los trabajadores de la
ciudad de Cusco , 2008.
Ejemplo 15:
En el problema: Correlacin entre tipo de alimentacin y obesidad de los
ingenieros de la ciudad de Cusco, 2009.
Las variables interdependientes, son tipo de alimentacin y obesidad
15
Resumen del tipo de variables segn tipo de investigacin.
Observaciones:
1. Las variables segn su naturaleza se clasifican en cuantitativas y
cualitativas.
2. Las variables segn su relacin casual se clasifican en: independiente,
dependiente, interviniente.
En el rea de las ciencias de la salud, se tiene los siguientes tipos de
investigacin biomdica.
16
La investigacin documental. Consiste en el estudio de documentos
escritos sobre un objeto determinado, es decir son todos aquellos
documentos registrados en diferentes dispositivos fsicos a los que podemos
tener acceso en forma directa o indirecta para su consulta y se puede
clasificar en:
1.- Documental bibliogrfica 4.- Documental audiogrfica
2.- Documental hemerogrfica 5.- Documental videogrfica
3.- Documental escrita 6.- Documental iconogrfica
17
El Cuestionario. Es un eficaz auxiliar en la observacin cientfica que
contiene aspectos del fenmeno esenciales, las cuales son preguntas
formuladas por escrito y no es necesaria la presencia del investigador.
- Cuestionarios por correo
- Cuestionario administrado por el entrevistado
- Cuestionario administrado por el entrevistador
Escala De Comparacin:
Es una versin de la escala de categoras, califica a estas categoras como:
excelente, muy bueno, bueno, regular y deficiente, eliminando de esta
forma la comparacin implcita. El problema con tal escala es que el punto de
referencia es poco claro y diferentes entrevistados pueden usar diferentes
puntos de referencia o estndares.
Escala de Likert:
La escala de Likert requiere que un entrevistado indique un grado de acuerdo o
desacuerdo con respecto a una variedad de afirmaciones (reactivos)
relacionadas con el objeto de las actitudes.
18
Es un tipo de instrumento de medicin o de recoleccin de datos que
disponemos en la investigacin social.
19
PM--------------------I----------------------I----------------------I------------------PA
( ) Definitivamente s
( ) Probablemente s
( ) Indeciso
( ) Probablemente no
( ) Definitivamente no
Ejemplo 17: El jefe de personal se preocupa por el bienestar del recurso humano.
Categoras de Respuesta Frecuencia Porcentaje Asignacin de
puntajes
Totalmente de acuerdo (5) 2 4.4% 2(5)
De acuerdo (4) 4 9% 4(4)
Indeciso (3) 7 15.6% 7(3)
En desacuerdo (2) 9 20% 9(2)
Totalmente en desacuerdo (1) 23 51% 23(1)
n=45 100% Total=88
20
BAREMACIN DEL INSTRUMENTO, UTILIZANDO ESCALA DE LIKERT.
Para medir la variable de estudio se aplico una encuesta utilizando la escala de
likert, la misma que presenta en cada tems cinco alternativas, a partir de las cuales
los entrevistados pueden elegir, con la finalidad de sealar su nivel de acuerdo.
- Alternativa a (5)
- Alternativa b (4)
- Alternativa c (3)
- Alternativa d (2)
- Alternativa e (1)
PM--------------------I----------------------I----------------------I------------------PA
21
CONFIABILIDAD Y VALIDEZ.
Confiabilidad.
La fiabilidad de una medida analiza si sta se halla libre de errores aleatorios y, en
consecuencia, proporciona resultados estables y consistentes (Snchez y Sarabia,
1999:367).
Para valorar la fiabilidad (consistencia interna) de la escala se calcula el coeficiente
Alpha de Cronbach para el total de la muestra. El valor mnimo aconsejable es 0,7.
donde:
k: Nmero de preguntas.
22
de diferentes tipos de sujetos sobre el mismo concepto (Snchez y Sarabia,
1999:385).
INSTRUCCIONES:
El presente documento, tiene como objetivo el de recoger informacin til de
personas especializadas en el tema, acerca de la validez del instrumento de
recoleccin de datos.
Marque con una (X) en la escala que figura a la derecha de cada tem, segn la
opcin que le merezca el instrumento de investigacin.
23
HOJA DE PREGUNTAS PARA LA VALIDACION
10. Que aspectos habra que modificar, que aspectos tendran que incrementarse o que
aspectos habra que suprimirse?
24
EJERCICIOS PROPUESTOS.
25
CAPITULO II
ORGANIZACIN Y PRESENTACIN
26
La frecuencia absoluta de un valor Ci es el nmero de veces que dicho valor
aparece en la muestra. Se representa por fi y cumple
k
f
i 1
i f 1 f 2 ...... fk n
GRAFICAS.
Las representaciones grficas prcticamente estn orientadas de acuerdo con
las necesidades del investigador o estadstico, de todas formas se tienen
algunas normas de trabajo y representacin, que tienen por objeto facilitar la
27
lectura de los datos e informacin que se maneja estadsticamente. Las
principales representaciones son:
La calidad de un grfico estadstico consiste en comunicar ideas complejas con
precisin, claridad y eficiencia, de tal manera que:
Induzca a pensar en el contenido ms que en la apariencia
No distorsione la informacin proporcionada por los datos
Presente mucha informacin (nmeros) en poco espacio
Favorezca la comparacin de diferentes grupos de datos o de relaciones
entre los mismos (por ejemplo una secuencia temporal)
Diagrama de Pareto.
Se ordenan las categoras de mayor a menor importancia y se dibujan los
rectngulos correspondientes.
28
Diagrama de sectores Es el ms usual en variables cualitativas.
Se representan mediante crculos. A cada valor de la variable se le asocia
el sector circular proporcional a su frecuencia.
Para hallar el ngulo usamos la siguiente proporcin: al tener una
circunferencia 360, el cociente entre la frecuencia absoluta (o relativa) total y
la frecuencia absoluta (o relativa) que queramos representar ser igual al
cociente entre los 360 de la circunferencia y el ngulo a determinar, as :
n 360 1 360
fi hi
Donde es el ngulo a determinar.
Pictogramas.
Expresan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. La escala de los dibujos debe ser tal que el rea de
cada uno de ellos sea proporcional a la frecuencia de la modalidad que
representa.
DISCRETAS
Una vez obtenida una muestra de cualquier poblacin y observados los valores
que toma la variable en los individuos de la muestra, estos valores se suelen
ordenar. Si la variable es cuantitativa la ordenacin ser de menor a mayor.
Dada una variable X, consideramos una muestra de tamao n que toma k
valores distintos, x1, . . . , xk (x1 < x2 < . . . < xk).
La organizacin es en forma similar al caso cualitativo.
29
Categora Frecuencias Frecuencias Frecuencias frecuencias frecuencias
de la absolutas fi relativas hi Porcentuales absolutas relativas
variable pi acumuladas acumuladas
X Fi Hi
x1 f1 h1 p1 F1 H1
x2 f2 h2 pi F2 H2
.
xk fk hk pk Fk=n Hk=1
Total n 1.00 100.00
La grafica para representar esta informacin es Bastones.
Observaciones
Los datos iniciales se pueden representar utilizando los grficos.
Diagrama de cajas(box-plot)
Presentacin visual que describe al mismo tiempo varias caractersticas
importantes de un conjunto de datos, tales como el centro, la dispersin, el
alejamiento de la simetra, y la identificacin de valores extremos (puntos
atpicos), es decir, de valores que se alejan de una manera poco usual del
resto de los datos. Presenta los tres cuartiles, (y los valores mnimos y
mximos) alineados sobre una caja vertical u horizontalmente. El procedimiento
Para el diagrama de cajas y bigotes es:
1. Dibujar un segmento con extremos en los valores menor y mayor que
aparecen en la muestra paralelo a uno de los ejes .
2. Dibujamos una caja con extremos en el primer y tercer cuartil y marcamos
en ella la mediana.
3. Se hallan los lmites interiores (Q1 1.5 IQR y Q3 + 1.5 IQR) y los lmites
exteriores (Q1 3 IQR y Q3 + 3 IQR).
Donde Qi : Cuarteles que seran desarrollados ms adelante.
4. Se unen, con unos segmentos (bigotes), Q1 y Q3 con los valores adyacentes
de la muestra.
5. Por ltimo se indican los valores atpicos
30
Tallos y Hojas (stem & leaf)
Procedimiento semigrfico para el que se preparan los datos resumindolos en
dos o tres cifras (expresndolos en las unidades adecuadas). A continuacin se
disponen en una tabla de dos columnas del siguiente modo:
1. Si los datos son de dos dgitos, a la izquierda (en el tallo) aparece la cifra de
las decenas, a la derecha separada por una lnea aparecen las hojas y se
escriben ordenadas y todas seguidas.
2. Si hay tres dgitos el tallo est formado por los dos primeros. Las hojas son
las unidades.
31
LS : Limite superior.
Realizar la clasificacin y el conteo de datos en cada clase construida.
Intervalos Marcas Frecuencias Frecuencias Frecuencias Frecuencias frecuencias frecuencias
Ii de clase absolutas relativas relativas Porcentuale absolutas relativas
mi fi hi hi s acumuladas acumuladas
pi Fi Hi
I1 m1 f1 h1 h1 p1 F1 H1
I2 m2 f2 h2 h2 pi F2 H2
.
Ik mk fk hk hk pk Fk=n Hk=1
Total n 1.00 1.00 100.00
Polgono de frecuencias
El polgono se construye fcilmente si tenemos representado previamente el
histograma, ya que consiste en unir mediante lneas rectas los puntos del
histograma que corresponden a las marcas de clase. Para representar el
polgono de frecuencias en el primer y ltimo intervalo, suponemos que
adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia
nula, y se unen por una lnea recta los puntos del histograma que corresponden
a sus marcas de clase.
Curva de frecuencias.
Resulta de suavizar el polgono de frecuencias, en sus puntos angulosos.
Ojivas
32
EJERCICIOS RESUELTOS
1) Se realizo un estudio sobre la precipitacin media anual en una regin del pas,
para ello se recopilo informacin histrica de los ltimos 90 aos, obtenindose los
siguientes resultados:
12.2 16.4 17.8 18.4 19 19.5 20 20.9 23
13.1 16.8 17.8 18.4 19.1 19.5 20 20.9 23
14.3 16.9 17.8 18.4 19.1 19.7 20.2 21 23.2
15.5 17.1 17.8 18.4 19.2 19.7 20.3 21.1 23.3
15.5 17.2 18 18.5 19.2 19.7 20.3 21.4 23.5
15.6 17.3 18.1 18.5 19.3 19.7 20.5 21.6 23.5
15.9 17.4 18.2 18.5 19.3 19.7 20.6 21.7 24.1
16.1 17.6 18.3 18.5 19.4 19.8 20.6 22 24.2
16.2 17.8 18.3 18.8 19.4 19.9 20.8 22.4 24.8
16.2 17.8 18.3 19 19.5 19.9 20.8 22.7 26.2
Solucin.
a) Para construir una tabla de frecuencia se tiene los siguientes pasos.
Elegir el nmero de clases.
Usando la relacin de sturges se tiene:
k 1 3.3log(n) 1 3.3log(90) 7.44 7
Determinar la amplitud de los intervalos
R xmax xmin 26.2 12.2 14
33
LI - LS mi fi Fi hi= fi/n pi Hi
[12.2 14.2) 13.2 2 2 0.02 2.22 0.02
[14.2 16.2) 15.2 6 8 0.07 6.67 0.09
[16.2 18.2) 17.2 18 26 0.2 20 0.29
[18.2 20.2) 19.2 36 62 0.4 40 0.69
[20.2 22.2) 21.2 16 78 0.18 17.8 0.87
[22. 2 24.2) 23.2 9 87 0.1 10 0.97
[24.2 26.2) 25.2 3 90 0.03 3.33 1
TOTAL n=90 1 100
Histog rama
40
30
frecuencia
20
10
0
12 15 18 21 24 27
34
Solucin.
Tipo de capital. fi hi Pi
A 10 0.2703 27.03
C 4 0.1081 10.81
B 8 0.2162 21.62
D 15 0.4054 40.54
Total n=37 1 100
15
12
frecuencia
0
A B C D
Frecuencia Porcentaje
{[}
Calculo 45 22.4
{\}
Concept o 70 34.8 {]}
Otros 86 42.8 {^}
{_}
Total 201 100.0 {`}
35
50
40
30
Porcentaje
20
10
0
Calculo Concepto Otros
4.- El colegio de Ingenieros realizo un estudio sobre el conocimiento que tienen sus
afiliados sobre las normas de construccin. Los resultados se muestran a
continuacin.
Conocimiento
Frecuencia Porcentaje
Def iciente 26 63.4
Regular 8 19.5
Bueno 7 17.1
Total 41 100.0
60,0%
Porcentaje
40,0%
20,0%
0,0%
Deficiente Regular Bueno
Conocimiento
36
EJERCICIOS PROPUESTOS
37
4. Se tiene la informacin de los niveles de caudal medio de un rio para un periodo
de 50 meses.
110 110 126 112 117 113 135 107 122
113 98 122 105 103 119 100 117 113
124 118 132 108 115 120 107 123 109
117 111 112 101 112 111 119 103 100
108 120 99 102 129 115 121 130 134
118 106 128 94 114
a).- Cul es la amplitud total de la distribucin de los datos?
b).- Obtenga la distribucin de frecuencias absolutas y relativas.
c).- Obtenga la distribucin de frecuencias acumuladas, absolutas y relativas, con los
intervalos anteriores.
d).- Calcular la media y la varianza con los intervalos del apartado b y despus
calclense las mismas magnitudes sin ordenar los datos en una tabla
estadstica. Con qu mtodo se obtiene mayor precisin?
e).- Dibuje el polgono de frecuencias relativas.
f).- Dibuje el polgono de frecuencias relativas acumuladas.
38
CAPITULO III
39
Media Nos dan un centro de
Centralizacin Mediana la distribucin de
Moda frecuencias
Percentiles Son valores de la
Cuartiles distribucin que
Posicin dividen en partes
Deciles iguales
Varianza Las medidas de
Medidas Desviacin tpica dispersin cuantifican
descriptivas Coeficiente de variacin la separacin, la
Rango dispersin, la
Dispersin variabilidad de los
valores de la
distribucin respecto al
Recorrido Intercuartilico valor central
Coeficiente de Asimetra Comparan la forma
Forma Coeficiente de Apuntamiento que tiene la
o Curtosis representacin grfica
40
Media, ( x )
Media para datos sin agrupar:
Dado un conjunto de observaciones x1, . . . , xn, la media se representa
mediante x , se obtiene mediante:
n
x1 x 2 ..... xn
xi
x i 1
n n
Media para datos agrupados
Consideremos el caso en que tenemos una distribucin de frecuencia para
variables cuantitativas discretas, en este caso la media es:
Si los datos estn agrupados por intervalos, para hallar la media tomamos la
marca de las clases,
f 1m1 f 2m2 ..... fkmk k
x hi mi
n i 1
Mediana, (Me)
Se calcula para variables cuantitativas; es el valor de la serie de datos que se
sita justamente en el centro de la muestra una vez se ha ordenado sta,
corresponde a un 50% de valores son inferiores y otro 50% son superiores.
Me x n 1 , para n impar
2
41
x n x n
1
Me 2 2
, Si n es par.
2
Moda, (Mo)
Es el valor con mayor frecuencia. Si hay ms de una moda, la variable se dice
multimodal y puede calcularse para cualquier tipo de variable (Cuantitativas o
cualitativas).
Si los datos estn agrupados hablamos de clase modal y ser aquella para la
que la frecuencia absoluta sea mayor.
1 fi fi 1
Mo LI A LI A
1 2
i f f i 1 f i f
i 1
Donde:
1 fi fi 1
1 fi fi 1
42
Cmo elegir entre las medidas de tendencia central?- En general, la media
es la medida de tendencia central ms til y ms empleada. El uso de la media
es el ms apropiado cuando y la distribucin de los datos es unimodal y
aproximadamente simtrica. Cuando valores extremos distorsionan la
distribucin de los datos, el uso de la mediana es ms apropiado pues se ve
menos afectada, pero en la prctica esta medida de tendencia central no se
utiliza demasiado. Si se trata de una variable ordinal, o slo necesitas una
descripcin rpida y aproximada de la tendencia central, puedes utilizar la moda,
que tambin es til cuando la distribucin est distorsionada por valores
extremos o la distribucin es bimodal.
Clases de Distribuciones
Distribucin Simtrica se presenta si todas las observaciones estn
concentradas en un solo valor de la variable, en este caso la media, mediana y
moda coincidiran en el mismo.
x Me Mo
43
Distribucin asimtrica sesgada a la derecha.
En este caso la media, es mayor que la mediana y que la moda.
Mo Me x
i.n
4 Fk 1
Qi LI i A
f k
- Q1, primer cuartil, al menos el 25% de los datos son menores o iguales
que l y al menos el 75% de los datos son mayores o iguales que l.
- Q2, segundo cuartil, es la mediana, Q2 = Me.
- Q3, tercer cuartil, al menos el 75% de los datos son menores o iguales que
l y al menos el 25% de los datos son mayores o iguales que l.
Percentiles
Dividen la muestra ordenada en 100 partes iguales.
i.n
100 Fk 1
Pi LI i A
f k
44
El i-simo percentil, Pi ( 1 i 99 ) es un valor tal que al menos el i% de los
datos son menores o iguales que l y al menos el (100-i) % de los datos son
mayores o iguales que l.
Deciles
Dividen el conjunto de datos en 10 partes iguales y se denota con D i , i=1,9
i.n
10 Fk 1
Di LI i A
f
k
45
riesgo mayor parar los accionistas que las utilidades que permanecen
relativamente estables.
Varianza.
Slo tienen sentido para variables cuantitativas y se define:
n n
xi x x
2 2
i
S2 i 1
i 1
x 2 , Para datos no tabulados.
n n
n n
xi x fx
2 2
fi i i
S2 i 1
i 1
x 2 , Para datos tabulados de variable discreta
n n
n n
m x fm
2 2
i fi i i
S2 i 1
i 1
x 2 , Para datos tabulados por intervalos, para
n n
variables continuas.
s s2
La desviacin tpica poblacional suele denotarse por .
Observaciones sobre la desviacin tpica:
Nos permite determinar con mayor grado de precisin dnde se sitan los
valores de una distribucin de frecuencia en relacin con la media.
Las unidades de la desviacin tpica se expresan en las mismas unidades de
los datos.
Puede sufrir un cambio desproporcionado por la existencia de valores
extremos en el conjunto.
46
Variables tipificadas
Los distintos conjuntos de datos estn asociados por lo general a diferentes
medias, ya sea porque son de naturaleza diferente (escalas de medidas
diferentes). Con el propsito de reducir los datos a un mismo punto de
referencia y a una escala comn, se realiza entre ellos una transformacin
llamada tipificacin.
Se conoce por tipificacin de una variable x a efectuar el cambio de origen y
de escala de la variable.
xx
z para muestras
s
Frmulas:
z x - para poblacin
Esta nueva variable (z), carece de unidades de medida y permite comparar dos
o ms cantidades que en un principio no son comparables porque aluden a
conceptos diferentes. Tambin es aplicable a casos en que se quieran
comparar individuos semejantes de poblaciones diferentes. Por ejemplo, si
deseamos comparar el nivel acadmico de dos estudiantes de diferentes
universidades, nos indica cuntas desviaciones estndar est un valor por
arriba o por debajo de la media del conjunto de datos al cual pertenece.
Ejemplo:
Un Docente de la Universidad A obtuvo 84 puntos en protocolos de seguridad
en una construccin , en el que la nota media fue 76, y la desviacin tpica 10;
Otro Docente de la Universidad B obtuvo 90 puntos, siendo la media 82 y la
desviacin tpica 16. Cual de los Docentes presenta mejor nivel de
conocimientos de protocolos de construccin ?.
47
Sobresali ms el Docente de la Universidad A.
Recorrido o rango
Es la diferencia entre el mayor y menor valor de una muestra.
R x max x min
48
son muy diferentes en magnitud. Esto se ve facilitado por su carcter
adimensional, es decir, no depende de las unidades en que se mida la media
negativa.
Curtosis.
hace referencia al mayor o menor apuntamiento que tiene una distribucin de
frecuencias respecto a una distribucin Normal, por lo tanto slo se estudia en
comparacin con la campana de Gauss, se determina mediante:
P75 P25
K 0.5
P90 P10
49
EJERCICIOS RESUELTOS.
fi 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2
Calcule:
a) El salario medio de los trabajadores.
b) Su desviacin tpica.
c) Si el gerente de la empresa afirma que exactamente la mitad de los
trabajadores de la empresa tienen un salario superior al del trabajador Juan,
qu salario tiene Juan?
d) Determine el salario diario mnimo del 15% de trabajadores con mayores
salarios.
SOLUCION:
La variable de estudio es el cociente intelectual (X)
xi fi fixi fixi2 Fi Hi
70 4 280 19600 4 0.0083
74 9 666 49284 13 0.0271
78 16 1248 97344 29 0.0604
82 28 2296 188272 57 0.1188
86 45 3870 332820 102 0.2125
90 66 5940 534600 168 0.35
50
94 85 7990 751060 253 0.5271
98 72 7056 691488 325 0.6771
102 54 5508 561816 379 0.7896
106 38 4028 426968 417 0.8688
110 27 2970 326700 444 0.925
114 18 2052 233928 462 0.9625
118 11 1298 153164 473 0.9854
122 5 610 74420 478 0.9958
126 2 252 31752 480 1
1470 n=480 46064 4473216
a) Media
f 1x1 f 2 x2 ..... fkxk 46064
x 95.96
n 480
b) Varianza y desviacin.
n n
x x fx
2 2
i fi i i
4473216
95.96 110.88
2
S2 i 1
i 1
x2
n n 480
s 110.88 10.52
c) Mediana.
n=480 ( Par)
x n x n x 480 x 480
1
1 x 240 x 241 94 94
Me 2 2
2 2
94
2 2 2 2
d) Percentil 85
P85 106
51
Accin Utilidades en miles de dlares.
1 2 3 4 5 6 7
A 57 55 54 52 62 55 59
B 80 40 62 72 46 80 40
SOLUCION:
XA XB XA2 xB2
57 80 3249 6400
55 40 3025 1600
54 62 2916 3844
52 72 2704 5184
62 46 3844 2116
55 80 3025 6400
59 40 3481 1600
394 420 22244 27144
a) Estadsticos de A.
n
x1 x 2 ..... xn
xi
394
xA i 1 56.28
n n 7
MeA x n 1 , para n impar n=7
2
MeA x n 1 x 7 1 x 4 55
2 2
MoA 55
52
Estadsticos de B.
n
x1 x 2 ..... xn
xi
420
xB i 1 60
n n 7
MeB x n 1 , para n impar n=7
2
MeB x n 1 x 7 1 x 4 62
2 2
MoB1 40
MoB 2 80
b) Calcular la varianza
n n
xi x x
2 2
i
22244
S A2 i 1
i 1
xA2 (56.28)2 10.27
n n 7
S 10.27
CVA 0.057
| X A | 56.28
n n
xi x x
2 2
602 277.7
i
27144
S B2 i 1
i 1
xB2
n n 7
S 277.7
CVB 0.277
| XB | 60
53
80,00
70,00
Utilidad
60,00
50,00
40,00
A B
Accin
Retencin Nmero de
Econmica. trabajadores
[0, 1> 2
[1, 2> 2
[2, 3> 3
[3, 4> 6
[4, 5> 7
[5, 6> 1
[6, 7> 1
[7, 8> 1
[8, 9> 1
a) Halla la media, varianza, la desviacin tpica y coeficiente de variacin.
54
b) Mediana
c) Moda.
SOLUCION:
I fi mi mifi mi2fi Fi
[0, 1> 2 0.5 1 0.5 2
[1, 2> 2 1.5 3 4.5 4
[2, 3> 3 2.5 7.5 18.75 7
[3, 4> 6 3.5 21 73.5 13
[4, 5> 7 4.5 31.5 141.75 20
[5, 6> 1 5.5 5.5 30.25 21
[6, 7> 1 6.5 6.5 42.25 22
[7, 8> 1 7.5 7.5 56.25 23
[8, 9> 1 8.5 8.5 72.25 24
Total 24 40.5 92 440
fm i i
92
x 3.83
n 24
Varianza.
m 2
f
i i
440
S
2
x2 3.83 3.66
n 24
Desviacin.
s 3.66 1.91
Coeficiente de Variacin.
S 1.91
CV 0.498
| X | 3.83
Mediana
12 7
Me 3 *1 3.833
6
55
Moda
Mo Li 1 A
1 2
1 7 6 1
1 7 1 6
1
Mo 4 *1 4.14
1 6
SOLUCION:
Intervalo fi. Fi mi mifi mi2fi
0-5 10 10 2.5 25 62.5
5 -10 15 25 7.5 112.5 843.75
10-13 25 50 11.5 287.5 3306.25
13-18 8 58 15.5 124 1922
18-20 2 60 19 38 722
60 56 587 6856.5
56
a) Media y varianza
Media.
fm i i
587
x 9.78
n 60
Varianza.
m 2
f
9.782 18.63
i i
6856.5
S2 x2
n 60
Desviacin.
s 18.63 4.31
b) Mediana y moda
Mediana
n
2 F k 1
Me Li A
fK
n 60
Determinamos 30
2 2
n
2 F k 1 30 25
Me Li A 10 3 10.6
fK 25
Moda
Mo Li 1 A
1 2
1 25 15 10
1 25 8 17
10
Mo Li 1 A 10 3 11.11
1 2 10 17
57
Para obtener los cuarteles se tiene la relacin.
i.n
4 F k 1
Qi Li A
fK
Cuartil 1
1.n
4 F k 1 15 10
Q1 Li A 5 5 6.67
fK 15
El 25% de los contadores presentan nivel de conocimientos de auditoria
menores a 6.67
Cuartil 3
3.n
4 F k 1 45 25
Q3 Li A 10 3 12.4
fK 25
Percentil 90
90.n
100 F k 1 54 50
P90 Li A 13 5 15.5
f K 8
58
d) Coeficiente de Asimetra.
x M o 9.78 11.11
Ap -0.308
s 4.31
EJERCICIOS PROPUESTOS
22.3 18.2 24.8 23.5 19.8 27 25.9 29.2 24.1 24.3 21.7 23.4 23.3
28.3 23.4 20 26.1 15.2 20 22.8 32 25.6 20.8 23.2 26.9 22.8
22.1 21.2 23.4 18.1 23.4 23 23.6 25.4 22.2 17.8 28 28.8 22.1
20.1 20.8 23 28.2 23 30.4 25.1 24.8 19.9 18.2 25.1
a) Calcule la media, y el percentil 96.
b) Diga si las especificaciones requeridas son satisfactorias.
59
Deudas Empresas antiguas Empresas Nuevas
0-15 19 29
15-30 13 10
30-50 7 11
50-70 4 32
3. En una empresa donde los salarios tienen una media de 700 dlares y una
desviacin estndar de 150 dlares, el sindicato solicita un reajuste de 25%
ms un incentivo de 10 dlares. El Directorio acoge parcialmente la peticin
rebajando los salarios solicitados en un 10%.
60
Seccin A
Ingresos ($) Frecuencia
80-100) 30
100-120) 80
120-140) 40
140-160) 10
160-180) 4
180-200) 1
Seccin B
Ingresos ($) Frecuencia
60-90) 10
90-120) 20
120-150) 50
150-180) 20
180-210) 15
210-240) 10
240-270) 4
61
Precipitacin Precipitacin Precipitacin
Mxima Mxima Mxima
Ao en 24 hrs. Ao en 24 hrs. Ao en 24 hrs.
1948 34.3 1965 19.5 1982 50.2
1949 29.3 1966 10.5 1983 32.9
1950 6.2 1967 36.5 1984 14.8
1951 17.8 1968 15 1985 18.4
1952 11.2 1969 17.6 1986 48
1953 7 1970 16.8 1987 11.1
1954 8 1971 10.5 1988 30.8
1955 29.8 1972 55.5 1989 14
1956 8.3 1973 11.1 1990 17.1
1957 37 1974 15.3 1991 17.2
1958 22 1975 17.9 1992 73.8
1959 13.5 1976 37.3 1993 19
1960 18 1977 62 1994 17.3
1961 34.5 1978 29.5 1995 17.3
1962 31 1979 26.9 1996 7.3
1963 29 1980 16.7 1997 45.6
1964 8.6 1981 16.2
62
a) En qu constructora hay mayor dispersin relativa de suledos?
b) Un obrero que gana 140 mensuales. Dnde estara mejor remunerado con
respecto a sus compaeros?
c) Cul de las dos distribuciones es ms simtrica?
125 143 123 562 425 316 136 143 425 465 213
143 312 480 116 259 269 425 218 312 489 476
619 524 391 425 143 432 213
63
CAPITULO IV
DISTRIBUCIONES BIDIMENSIONALES
4.1 CUALITATIVA-CUALITATIVA.
Cuando las variables de estudio son cualitativas (categricas) o cuantitativas
discretas con poca modalidades, se suele presentar las observaciones de las
variables X e Y, mediante pares ordenados (xi, yi), esta forma de presentaciones
se denomina tablas de contingencia. Las tablas de contingencia son de doble
entrada organizada por filas y columnas y donde se presenta la distribucin de
frecuencias conjuntas de las dos variables.
Dada una variable bidimensional ( X, Y ), consideramos una muestra de tamao
n en la que X toma k valores distintos, x1, . . . , xk, e Y toma l valores distintos, y1,
. . , yl, obtenemos, por tanto, observaciones del tipo (xi, yj).
La frecuencia absoluta de un valor (xi, yj) es el nmero de veces que dicho valor
aparece en la muestra. Se representa por fij , se cumple
k l
f
i 1 j 1
ij n
64
La frecuencia relativa de un valor (xi, yj) es el cociente de la frecuencia absoluta
fij entre el tamao de la muestra n, se representa por hij
k l
fij
hij
n
, se cumple: h
i 1 j 1
ij 1
Distribuciones marginales
Nos indican el comportamiento aislado de cada una de las variables X e Y
que dan lugar a una variable bidimensional.
l
Frecuencia absoluta marginal de xi, fi. fi1 fi 2 fil fij
j 1
fi .
Frecuencia relativa marginal de xi, hi.
n
k
Frecuencia absoluta marginal de yj, f. j f1 j f 2 j f kj fij
i 1
f. j
Frecuencia relativa marginal de yj, h. j
n
Y y1 y2 ..... yl ni.
X
x1 f11 f12 ..... f1l f1.
x2 f21 f22 ..... f2l f2.
.. .. .. ..... .. ..
65
Ejemplos
Grupo de Producto
clientes I II III IV
Profesionales 30 35 55 40
Comerciantes 155 50 125 80
Obreros 130 30 105 50
Amas de 35 15 20 45
casa
Las ventas de los cuatro grupos son homogneas?
Solucin
Producto
Grupo de clientes I II III IV Total
Prof esionales Frecuencia 30 35 55 40 160
Porcentaje 18.8% 21.9% 34.4% 25.0% 100.0%
Comerciantes Frecuencia 155 50 125 80 410
Porcentaje 37.8% 12.2% 30.5% 19.5% 100.0%
Obreros Frecuencia 130 30 105 50 315
Porcentaje 41.3% 9.5% 33.3% 15.9% 100.0%
Ama de casa Frecuencia 35 15 20 45 115
Porcentaje 30.4% 13.0% 17.4% 39.1% 100.0%
Total Frecuencia 350 130 305 215 1000
Porcentaje 35.0% 13.0% 30.5% 21.5% 100.0%
66
160
140
120
100 I
80 II
III
60
IV
40
20
0
Profesionales Comerciantes Obreros Amas de casa
4.2 CUALITATIVA-CUANTITATIVA.
Supongamos que tenemos datos numricos para varias categoras, por
ejemplo en un experimento donde hacemos mediciones numricas en dos o
ms grupos. En estos casos, lo que se realiza es un estudio descriptivo de la
variable numrica en cada una de las muestras y se comparamos los
resultados.
Ejemplo
Una empresa dedica al rubro de ingeniera, decide analizar el rendimiento
econmico porcentual, obtenido en inversiones en 4 reas geogrficas. Para
ello selecciona muestras de sus ltimas inversiones, obteniendo los siguientes
resultados.
67
Son las tasas medias de rendimiento (%) en los ares A, B, C y D diferentes?
Solucin.
Nivel de
Rendimiento Mean Variance CoefVar Median
A 8.140 4.158 25.05 7.900
B 3.68 5.13 61.56 3.20
C 3.840 4.468 55.05 4.200
D 7.18 7.07 37.04 6.80
12
10
Tasas de rendimiento
A B C D
Nivel de rendimiento
4.3 CUANTITATIVA-CUANTITATIVA.
Anlisis de dos variables cuantitativas y establecimiento de una relacin entre
ellas. La forma mas sencilla de estudiar la posible asociacin entre estas
variables es el diagrama de dispersin (Nube de puntos). Si reconocemos una
tendencia, entonces el inters ahora ser el anlisis de regresin.
Media y varianza
La informacin de las dos variables X e Y se puede resumir usando la media y
la varianza como se muestra a continuacin:
Media de la variable X: x
fx i i
68
Media de la variable Y: y
fy i i
Varianza de la variable X: s 2
fx 2
i i
x
2
x
n
Varianza de la variable Y: s y2
fy i
2
i
y
2
La covarianza
Es una medida de la asociacin lineal existente entre dos variables. Resume la
informacin contenida en el diagrama de dispersin. Presenta la siguiente
expresin:
cov( x, y) sxy
fxy
i i i
x. y
n
Si la covarianza est muy prxima a cero, no existe relacin entre las variables
o si existe es marcadamente no lineal, si es positiva, hay asociacin lineal
positiva, y si es negativa, hay asociacin lineal negativa. Sin embargo, como la
covarianza depende de las unidades de medida de las variables, no nos
permite cuantificar el grado de asociacin lineal ni comparar la asociacin
existente entre distintos pares de variables. Para dar solucin a este problema
se obtiene el coeficiente de correlacin.
Correlacin
Estudia la relacin o dependencia que existe entre dos variables que
intervienen en una distribucin bidimensional.
69
Si 1< r < 0 se dice que las variables X e Y estn tambin en
dependencia aleatoria. La correlacin es negativa.
Si 0 < r < 1 la correlacin es positiva. Las variables X e Y estn tambin en
dependencia aleatoria.
Anlisis de Regresin
Regresin: conjunto de tcnicas que son usadas para establecer una relacin
entre una variable cuantitativa llamada variable dependiente y una o ms
variables independientes, llamadas predictoras. Estas tambin deberan ser
cuantitativas, sin embargo algunas de ellas podran ser cualitativas.
n n n
n xi yi xi yi
S xy
i 1
n
i 1
n
i 1
n xi2 ( xi ) 2
S xx
i 1 i 1
y x
70
A partir de la recta Y X podemos calcular los valores de y conocidos
los de x. La fiabilidad que podemos conceder a los clculos obtenidos viene
dada por el coeficiente de correlacin: si r es muy pequeo no tiene sentido
realizar ningn tipo de estimaciones.
Si r es prximo a 1 1, las estimaciones realizadas estarn cerca de los
valores reales.
Si r = 1 o r = -1, las estimaciones realizadas coincidirn con los valores reales.
Ejemplos;
1. Se realiza un estudio respecto de la influencia que presenta la intensidad de la
fuerza aplicada (X) al cable de acero, en el alargamiento (Y) que esta
presenta ,La informacin se muestra a continuacin.
X 14.8 15.2 14.4 15.2 13.2 14 14.4 12.4 14.8 14 14.4 14.8 13.2 16.4 12.4
Y 14 14.7 12 16 12.67 15.3 13.3 12.7 16 12.7 15.3 16 13.3 13.33 12
a) Trace un diagrama de dispersin.
b) Ajuste una recta de regresin.
c) Calcule la correlacin lineal e interprete dicho valor.
Solucin:
Scatterplot of Y vs X
16
15
14
Y
13
12
12 13 14 15 16 17
X
Resumen de calculos.
71
X Y X.Y X2 Y2
14.8 14 207.2 219.04 196
15.2 14.67 222.984 231.04 215.2089
14.4 12 172.8 207.36 144
15.2 16 243.2 231.04 256
13.2 12.67 167.244 174.24 160.5289
14 15.33 214.62 196 235.0089
14.4 13.33 191.952 207.36 177.6889
12.4 12.67 157.108 153.76 160.5289
14.8 16 236.8 219.04 256
14 12.67 177.38 196 160.5289
14.4 15.33 220.752 207.36 235.0089
14.8 16 236.8 219.04 256
13.2 13.33 175.956 174.24 177.6889
16.4 13.33 218.612 268.96 177.6889
12.4 12 148.8 153.76 144
213.6 209.33 2992.208 3058.24 2951.8801
x
x i
213.6
14.24 ;
N 15
y
y i
209.33
13.96 ;
N 15
s 2
x 2
i
x
2 3058.24
14.242 1.11
x
N 15
s 2
y 2
i
y
2 2951.88
13.962 1.91 ;
y
N 15
sxy
x y i i
x. y
2992.208
(14.24).(13.96) 0.69
N 15
Recta de regresin
n n n
n xi yi xi yi
S xy 0.69
i 1
n
i 1
n
i 1
0.62
S x2
n x ( xi ) 2 2 1.11
i
i 1 i 1
72
y x 13.96 0.62(14.24) 5.13
Y X 5.13 0.62 X
sxy 0.69
r 0.47
sx .s y 1.11. 1.91
73
Ejercicios propuestos.
OBREROS EMPLEADOS
Remuneraciones Frecuencias Remuneraciones Frecuencias
200 - 250 30 700 - 750 10
250 - 300 50 750 - 800 25
300 - 350 85 800 - 850 15
350 - 400 55 850 - 900 5
400 - 450 30 900 - 950 5
a) Se afirma que la remuneracin promedio de los empleados es mayor en
un 30% respecto a la remuneracin promedio de los empleados. Est
usted de acuerdo?
b) Cul es la remuneracin ms frecuente de los obreros y de los
empleados?
c) Entre qu valores se encuentra el 50% central de las remuneraciones
de los empleados?
d) Si los obreros han recibido en Mayo una remuneracin promedio de
391,2 dlares por efecto de un reajuste cul fue el aumento porcentual
de reajuste?
2. Un especialista trabaja como corredor de bolsa para una empresa. Sus registros
muestran que las tasas de rendimiento ( en porcentajes) de dos acciones para 8
meses seleccionados fueron de :
74
3. Se realizo pruebas de laboratorio para determinar el contenido de asfalto sobre la
elasticidad y la permeabilidad de concreto asfaltado de clasificacin abierta. Se
prepararon 4 especimenes de concreto con cada uno de los siguientes
contenidos de asfalto (porcentaje del peso total de la mezca): 3, 4, 5, 6, 7 y 8 . Se
determino la permeabilidad al agua de cada espcimen de concreto haciendo fluir
sobre el espcimen agua al que se le extrajo el aire y midiendo la perdida de
agua. Las mediciones de permeabilidad fueron:
4. Los siguientes datos provienen del numero de torsiones necesarias para romper
una barra ( Y) hecha con cierto tipo de aleacin y el porcentaje (X) del metal A.
X 5 5 10 10 15 15 20
Y 68 60 40 38 31 35 18
Ajustar el modelo de regresin.
5. Una gran compaa llev a cabo un estudio para ubicar las variables que
pudieran determinar el sueldo de un egresado universitario dos aos despus de
haberse graduado como Tcnico Superior Universitario en un rea de ingeniera.
Los datos recogidos se presentan en la siguiente tabla:
(La columna del sueldo es en cientos de miles de bolvares.)
75
7 27 M S A 7,25
8 25 F C B 6,80
9 23 M S B 6,75
10 24 M S B 6,80
11 26 F C M 6,75
12 29 F D M 7,00
13 25 M C A 7,15
14 31 F D A 7,50
15 26 M S B 6,20
16 24 F D M 7,40
17 26 F C B 6,70
18 28 F S M 6,95
19 25 M C B 6,95
20 29 M C M 7,10
a. Utilice la tcnica de estadstica descriptiva ms apropiada para analizar
cada variable individualmente. Interprete lo obtenido.
b. Realice diagramas de cajas que le ayuden a visualizar como influye
cada una de las variables en el sueldo que gana el individuo.
c. Como futuro Tcnico Superior en el rea Administrativa, cul seria
la(s) caractersticas que usted debera tomar en consideracin para
obtener el sueldo al que usted aspirara al egresar?
76
7. Suponga que usted tiene a su cargo el dinero de la regin, se le dan los
siguientes datos de antecedentes sobre el suministro de dinero y el producto
nacional bruto (ambos en millones de dlares):
Suministro de Producto Nacional
dinero Bruto
2 5
2.5 5.5
3.2 6
3.6 7
3.3 7.2
4 7.7
4.2 8.4
4.6 9
4.8 9.7
5 10
77
CAPITULO V
PROBABILIDADES
78
Espacio muestral.
Es el conjunto de todos los resultados posibles del experimento y se denota por
. A cada elemento de se denomina punto muestral w , es decir:
w / w es un punto muestral .
79
5.4 DEFINICIN AXIOMTICA DE PROBABILIDAD.
La probabilidad es una funcin que asigna a cada suceso A un nmero
real que varia entre 0 a 1.
P : y que verifica:
A p(A)
i) 0 p( A) 1 A
ii) p 1
v) p( ) 0
vi) Si A B , p( A) p( B)
vii) P( A \ B) P( A) P( A B) , A,B
p A1 A2 ... An p A1 p A2 ... p An
p(A B) =p( A) p( B )
A
80
Independencia.
Dos sucesos A, B se dicen independientes si:
p( A) p( A | B) , o bien p( B) p( B | A)
Es decir, se cumplir que:
p( A B) p( B). p( A)
A2 An
A1
81
Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que :
iii) p( Ai ) 0 , i 1,....n .
p( B) p( A1 ) p( B ) p( A2 ) p( B ) ....... p( An ) p( B )
A1 A2 An
Teorema de Bayes.
El procedimiento que se utiliza para encontrar probabilidades posteriores, a
partir de probabilidades previas, se llama regla Bayesiana. Las probabilidades
apriori o previas se conocen antes de obtener informacin alguna del
experimento en cuestin. Las probabilidades aposteriori se determinan
despus de conocer los resultados del experimento.
El teorema de Bayes consiste en un mtodo para encontrar la probabilidad de
una causa especfica cuando se observa un efecto particular. Esto es, si el
evento B ha ocurrido, Cul es la probabilidad de que fue generado por el
evento A1 (que es una causa posible ) o por el A2 (otra causa posible)?.
Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que p( Ai ) 0 ,
p( Ai B) p( Ai ) p( B | Ai )
p( Ai | B) n , i = 1, ...., n.
p( B) p ( A i ) p (
i 1
B | Ai )
p( Ai ) p( B | Ai)
p( Ai | B)
p( A1 ) p( B ) p( A2 ) p( B ) ....... p( An ) p( B )
A1 A2 An
82
Problemas Resueltos.
Solucin.
Denotemos con P, si el proyecto presenta una omisin tecnica y con N, si el
proyecto no presente ningn tipo de omisin .
a) PP
1 2 N3 , PP
1 2 P3 , PN 1 2 P3 , N1P2 P3 , N1P2 N3 , N1 N 2 P3 , N1 N 2 N3
1 2 N3 , PN
A PP 1 2 P3 , N1 P2 P3
1 2 N3 , PN
n( A) 3
p( A)
n() 8
c) Sea el evento B: Primer proyecto presenta omisin y el ltimo no presenta.
C PP 1 2 N3
1 2 N3 , PN
83
n(C ) 2
p(C )
n() 8
d) Sea el evento D: Por lo menos un proyecto presenta omisiones tecnicas.
D PP
1 2 N3 , PP
1 2 P3 , PN 1 2 P3 , N1P2 P3 , N1P2 N3 , N1 N 2 P3
1 2 N3 , PN
n( D ) 7
p ( D)
n() 8
99%
Incrementa
A
40%
2% No incrementa
98%
Estrategia 30% B Incrementa
3%
No incrementa
30%
C
97% Incrementa
84
Sean los eventos.
A: La filial de la empresa, aplica la estrategia A
B: La filial de la empresa , aplica la estrategia B
C: La filial de la empresa , aplica la estrategia C
D: No se presenta incrementos en la utilidad.
a) p( D) p( A) p( D ) p( B) p( D ) p(C ) p( D )
A B C
p( D) 0.4*(0.01) 0.3*(0.02) 0.3*(0.03) 0.019 1.9%
b) p(B D) =p( B) p( D )
B
p(B D) =0.3*(0.02) 0.006 0.6%
p(C D) p(C ) p( D | C )
c) p(C | D)
p ( D) p( A) p( D | A) p( B) p( D | B) p(C ) p( D | C )
0.3*(0.03)
p(C | D) 0.473 47.3%
0.4*(0.01) 0.3*(0.02) 0.3*(0.03)
85
Sean los eventos:
A: Empresa pertenece a la categora A.
B: Empresa pertenece a la categora B.
C: Empresa pertenece a la categora C.
D: Impuestos en mora. E: Impuestos al da.
n( D) 25
a) p( D) 0.5
n() 50
n( A) n( B) n( A B)
b) p( A B) p( A) p( B) p( A B)
n() n() n()
16 14 0 30
p( A B) 0.6
50 50 50 50
n(C ) n( D) n(C D)
c) p(C D) p(C ) p( D) p(C D)
n() n() n()
20 25 8 37
p(C D) 0.74
50 50 50 50
n( A D ) 9
d) p( A D) 0.18
n() 50
n( B E )
P( B E ) n ( ) n( B E ) 8
e) P( B | E )
P( E ) n( E ) n( E ) 25
n ( )
4) Se hizo una auditoria a las obras ejecutadas por tres municipios A, B, y C, para
tal efecto se analiza 3 obras ejecutadas por el municipio A, 2 cuentas del
municipio B y 5 obras ejecutadas por el municipio C. La probabilidad de que se
presenten irregularidades en el municipio A es de 1/3, que se presente en
municipio B es de 2/3 y que se presente en municipio C es de 1/7. Se analiza
una obra aleatoriamente y se encuentra que hay irregularidades. Cul es la
probabilidad de que se trate del municipio C?
Solucin
Sean los eventos
A: Obras ejecutadas por el Municipio A.
B: Obras ejecutadas por el Municipio A.
C: Obras ejecutadas por el Municipio A.
E: La obra ejecutada presenta irregularidades.
86
E
1/3
A D
3/10
2/3 E
2/10 B
D
1/7
5/10 E
C
p(C E ) p(C ) p( E | C )
p(C | E )
p( E ) p( A) p( E | A) p( B) p( E | B) p(C ) p( E | C )
3 1
*
10 3 21
p(C | E ) 32.8%
3 1 2 2 5 1 64
* * *
10 3 10 3 10 7
87
Problemas Propuestos.
88
ocasiones en que se usa la maquinaria A, siendo estos porcentajes del 15% en el
caso en que se aplica la maquinaria B y el 5% en el caso en que se usa la
maquinaria C.
a) En qu porcentaje de las ejecuciones del proceso no se producen atrasos?
b) Qu porcentaje de los atrasos de las ejecuciones del proceso son atribuibles
a la maquinaria B?
c) Elegida, al azar, una ejecucin Qu probabilidad hay que no tenga retraso
en su ejecucin y corresponda al uso de la maquinaria A o C?
5, Una fbrica produce tres productos, 1, 2 y 3, cada uno de ellos en calidad extra y
comercial. La probabilidad de producir una unidad de calidad extra en cada uno
de esos productos es: 0,75, 0,5 y 0,8, respectivamente. A su vez esos productos
se fabrican en las siguientes proporciones: 45%, 35% y 20%, respectivamente.
Con esa informacin responda a las siguientes cuestiones:
a) Si se selecciona al azar una unidad producida, cul es la probabilidad de que
sea de calidad comercial?
b) Si se selecciona al azar una unidad producida y es de calidad comercial, de
qu producto es ms probable que sea?
89
Las compuertas A,B y C funcionan correctamente con probabilidades 0.90,
0.80 y 0.65 respectivamente. Si la compuerta A funciona correctamente, la
probabilidad de que B funcione correctamente es de 0.66. Si las compuertas
A y B funcionan correctamente, la probabilidad de que C funcione
correctamente es de 0.83. Adems existe un probabilidad de 0.10 de que A
funcione correctamente y no funcione ni B ni C correctamente.
90
Estadstica aplicada Mgt. Cleto De La Torre Dueas
CAPITULO VI
Definicin.- Una variable aleatoria (v.a) X es cualquier funcin, que transforma cada
elemento del espacio muestral , en un numero real.
X :
X
PX x P X x P / X x , tal que P ( x) 1
xRx
X
Propiedades.
91
Estadstica aplicada Mgt. Cleto De La Torre Dueas
dF ( x)
Si X es una v.a continua , entonces F ' ( x) f ( x)
dx
lim x FX ( x) 0 y lim x FX ( x) 1
Definicin.
La esperanza o media de una variable aleatoria X, denotada por E ( X ) o X se
x.P X x , si X es discreta
xRx
EX
x. f ( x)dx, si X es continua
xRx
Propiedades.
El valor esperado de una constante es dicha constante
E a bX a bE X
V X X2 E X X E X E X E X E 2 X
2 2 2
Propiedades.
La raz cuadrada de la varianza se llama desviacin estndar.
X2 E X X2
2
V aX b a 2V ( X )
Desigualdad de Chebyshev.
Si X es una variable aleatoria, entonces para cualquier k se cumple
P X X k X 1
1
k2
92
Estadstica aplicada Mgt. Cleto De La Torre Dueas
Ejercicio resuelto.
1. Sea X la variable aleatoria definida como la suma de los valores que aparecen al
lanzar dos dados.
a) Determine la distribucin de probabilidad.
b) Calcule la probabilidad P(5<X<8)
c) La media y su varianza.
Solucin.
a)
Resultados en 1 2 3 4 5 6
los dos dados
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
E X 2 3 4 5 6 7 8 9 10 11 12
36 36 36 36 36 36 36 36 36 36 36
252
EX
36
Varianza.
X2 E X E 2 X
2
93
Estadstica aplicada Mgt. Cleto De La Torre Dueas
1 2 3 4 5 6 5 4 3 2 1
E X 2 22 32 42 52 62 72 82 92 102 112 122
36 36 36 36 36 36 36 36 36 36 36
EX2
1974
36
2
1974 252
X2 E X E 2 X
2
36 36
DISTRIBUCIONES IMPORTANTES.
Existen, como en el caso de la ltima variable ejemplificada, otras variables cuyas
funciones de probabilidad o densidad resultan ser modelos de mucha utilidad para
una serie de aplicaciones. Nosotros citaremos brevemente algunos de los modelos
de mayor importancia.
DISTRIBUCIONES DISCRETAS.
Un experimento de Bernoulli, es un experimento aleatorio con solo dos posibles
resultados: xito y Fracaso. Sea p = P (xito).
Distribucin Binomial.
La distribucin binomial aparece cuando se dan las condiciones siguientes:
-Tenemos un experimento aleatorio simple, con una situacin dicotmica, es
decir xito y Fracaso.
- Repetimos este experimento simple n veces de manera independiente.
C xn p x 1 p
n x
, si x 0,1,2,..., n
PX x
0 , en otro caso.
94
Estadstica aplicada Mgt. Cleto De La Torre Dueas
Crx11 1 p p r
x r
, si x r , r 1, r 2,...
PX x
0 , en otro caso.
r r 1 p
Valor esperado: X . Varianza: X2 .
p p2
Nota: Si r = 1, X se dice que es una variable aleatoria con distribucin
geomtrica de parmetro p, y se le denota por X G(p).
M M M N n
Valor esperado: X n . Varianza: X2 n 1 .
N N N N 1
Notas:
M
X B n, p .
N
Distribucin de Poisson.
La distribucin de Poisson aparece en situaciones en las que se cuenta el
nmero de apariciones de un determinado suceso o bien en un intervalo de
tiempo dado (como el nmero de partculas emitidas en un segundo por un
material radioactivo, o el nmero de pacientes que llegan a un servicio en un
95
Estadstica aplicada Mgt. Cleto De La Torre Dueas
DISTRIBUCIONES CONTINUAS.
1
, si x a, b
f X x b a
0 , en otro caso.
Valor esperado: X
ab
. Varianza: X2
b a 2 .
2 12
f X x
1
e 2
2
Valor esperado: X . Varianza: X2 2 .
EJERCICIOS RESUELTOS
Solucin
Consideremos los sucesos
A = El proyecto es rechazado , P (A) = 0.25
A = El proyecto no es rechazado, P ( A ) = 0.75
Se trata de una distribucin Binomial de parmetros B (10, 0.25 )
Sea X la variable aleatoria que representa el nmero de proyectos rechazados
por la oficina de evaluacin de proyectos
a) P(Exactamente 4 proyectos son rechazados) =
10
PX 4 (0.25) 4 (0.75)6 0.1460
4
b ) P (Ninguno proyecto presentado es rechazado) =
10
PX 0 (0.25)0 (0.75)10 0.0563
0
10
c) P(Todo los proyectos son rechazados) = PX 10 (0.25)10 (0.75)0 0
10
d) P(Por lo menos 8 proyectos son rechazados) =
PX 8 PX 8 PX 9 PX 10
10 10
(0.25)8 (0.75) 2 (0.25)9 (0.75) 0 0.005
8 9
97
Estadstica aplicada Mgt. Cleto De La Torre Dueas
10 10 10 10
(0.25)0 (0.75)10 (0.25)1 (0.75)9 (0.25) 2 (0.75)8 (0.25)3 (0.75)7 0.7759
0 1 2 3
f) Media y Varianza
np 10 (0.25) 2.5
2 np(1 p) 10(0.25)(0.75) 1.875
SOLUCION.
La probabilidad de que se sobrepase la norma en 4 ocasiones durante 6 eventos
es:
P X x Cxn p x 1 p
n x
Este valor es muy pequeo y por lo tanto muy improbable que esto haya
sucedido, por lo que de haberse llevado a cabo correctamente la medicin, el
punto de aforo esta recibiendo adems de la descarga de la presa, escurrimiento
directo o bien flujo base del subsuelo.
98
Estadstica aplicada Mgt. Cleto De La Torre Dueas
a) Sea inferior a 64
b) Sea mayor o igual a 57
c) Sea superior a 63
d) Este entre 57 a 65.
e) Sea inferior a 50
f) Este entre 64 a 70
g) Si se tiene 200 materiales , .Cuantos cabe esperar que presenten resistencias
mayores a 57 y menores de 64?
Solucin.
X: Resistencia
60 (Media poblacional)
6 (Desviacin)
X 64 64 60
a) P( X 64) P( ) P( Z ) P( Z 0.67)
6
(0.67)
0 z=0.67
X 57 57 60
b) P( X 57) P( ) P( Z ) P(Z 0.5) (0.5) 0.5
6
(0.5)
z= 0.5 0
0.19146+0.5=0.69146=69.146%
X 63 63 60
c) P( X 63) P( ) P( Z ) P(Z 0.5) 0.5 (0.5)
6
99
Estadstica aplicada Mgt. Cleto De La Torre Dueas
(0.5)
0 z=0.5
0.5 0.19146=0.30854=30.854%
57 X 65 57 60 65 60
d) P(57 X 65) P( ) P( Z )
6 6
X
P(0.50 0.83) (0.50) (0.83) 0.19146+0.29373=0.48519=48.519%
(0.5) (0.83)
z= 0.50 0 z=0.83
X 50 50 60
e) P( X 50) P( ) P( Z ) P(Z 0.167)
6
(0.167)
z= 0.167 0
X
P(0.67 1.67) (1.67) (0.67) 0.45254-0.24857=0.20397=20.397%
100
Estadstica aplicada Mgt. Cleto De La Torre Dueas
0 z=0.67 z=1.67
(0.67)
(1.67)
57 X 64 57 60 64 60
g) P(57 X 64) P( ) P( Z )
6 6
X
P(0.5 0.67) (0.5) (0.67) 0.19146+0.24857=0.44003=44.003%
Cabe esperar el 44.003% de los materiales, es decir 0.44003*200 88
x e
P X x
x!
1 e1
2
P X 2 0.184
2!
101
Estadstica aplicada Mgt. Cleto De La Torre Dueas
EJERCICIOS PROPUESTOS
2. Los salarios de los trabajadores de una empresa son en promedio $11,9 por hora
y la desviacin estndar de $0,4. Si los salarios tienen una distribucin normal.
Cul es la probabilidad de que un trabajador seleccionado al azar:
a) Reciba salarios entre $10,9 y $11,9?
b) Reciba salarios inferiores a $11?
c) Reciba salarios superiores a $12,95?
d) Cul debe ser el salario menor que gana un trabajador que se encuentra entre el
10% de los trabajadores que ms ganan?
e) Si la empresa va a aumentarle el salario al 15% de los trabajadores que menos
ganan. Cul ser el salario mximo que deber ganar un trabajador para ser
beneficiado con el aumento?
102
Estadstica aplicada Mgt. Cleto De La Torre Dueas
103
Estadstica aplicada Mgt. Cleto De La Torre Dueas
104
Estadstica aplicada Mgt. Cleto De La Torre Dueas
ANLISIS DE FRECUENCIA
Los sistemas hidrolgicos son afectados en ocasiones por eventos extremos, tales
como tormentas severas, crecidas y sequas. La magnitud de un evento extremo
est inversamente relacionada con su frecuencia de ocurrencia, es decir, eventos
muy severos ocurren con menor frecuencia, que eventos ms moderados.
El objetivo del anlisis de frecuencia de informacin hidrolgica es, relacionar la
magnitud de los eventos extremos con su frecuencia de ocurrencia, mediante el uso
de Funciones de Distribucin de Probabilidad.
Los requisitos que debe cumplir la informacin hidrolgica (eventos extremos) es
que:
105
Estadstica aplicada Mgt. Cleto De La Torre Dueas
106
Estadstica aplicada Mgt. Cleto De La Torre Dueas
DATOS A UTILIZAR
El estudio estadstico de crecidas puede orientarse de dos maneras:
si se desea conocer slo la posibilidad de que se alcance un cierto caudal en
un perodo de tiempo dado.
si interesa tambin la duracin de los caudales de crecidas que sobrepasen
uno determinado. Corresponde emplear una serie de duracin parcial.
107
Estadstica aplicada Mgt. Cleto De La Torre Dueas
ANALISIS DE FRECUENCIAS.
La magnitud Xt de un evento hidrolgico extremo puede representarse como la
media ms una desviacin
Donde
: Factor de frecuencia
ANALISIS DE FRECUENCIA
108
Estadstica aplicada Mgt. Cleto De La Torre Dueas
DISTRIBUCION NORMAL
La distribucin normal es una distribucin simtrica en forma de campana, tambin
conocida como Campana de Gauss. Aunque muchas veces no se ajusta a los datos
hidrolgicos tiene amplia aplicacin por ejemplo a los datos transformados que
siguen la distribucin normal.
109
Estadstica aplicada Mgt. Cleto De La Torre Dueas
Funcin de densidad:
Estimacin de parmetros:
1 n
x xi
n i 1
1
1 n 2
i
2
s ( x x )
n 1 i 1
Factor de frecuencia:
1. Si se trabaja con los X sin transformar el K se calcula como
xT
KT
1
Este factor es el mismo de la variable normal estndar KT F (1 Tr1 )
Limites de confianza:
X Tr t(1 ) Se
i)
ii)
iii)
111
Estadstica aplicada Mgt. Cleto De La Torre Dueas
0.0934
Entonces
v) Como
Funcin de densidad:
1 ( y y )
1 2 y2
f ( x) exp x0
x 2
y = ln x
112
Estadstica aplicada Mgt. Cleto De La Torre Dueas
Estimacin de parmetros:
1 n
y ln( xi )
n i 1
1
1 n 2
i
2
sy (ln( x ) y )
n 1 i 1
Factor de frecuencia:
Puede trabajarse en el campo original y en el campo transformado.
2. Campo transformado: Si se trabaja en el campo transformado se trabaja con la
media y la desviacin estndar de los logaritmos, as:
Ln(XTr) = xTr+KSy
de donde,
XTr = eln (xTr)
con K con variable normal estandarizada para el Tr dado, xy media de los logaritmos
y Sy es la desviacin estndar de los logaritmos.
3. Campo original: Si se trabaja con los X sin transformar el K se calcula como
1
ln(1 Cv 2 )
Exp KT * ( Ln(1 Cv 2 )) 2 1
2
Kt
Cv
s
K es la variable normal estandarizada para el Tr dado, Cv es el coeficiente de
x
variacin, x media de los datos originales y s desviacin estndar de los datos
originales.
Limites de confianza:
En el campo transformado.
Ln( X Tr ) t(1 ) ST
113
Estadstica aplicada Mgt. Cleto De La Torre Dueas
1
( S y ) K
2
2
Se 1 T
n 2
en donde, n numero de datos, Se error estndar, KT variable normal estandarizada.
114
Estadstica aplicada Mgt. Cleto De La Torre Dueas
Limites de confianza
Ln (QTr) t(1-) Se
1
( S y ) K
2
2
Se 1 T
n 2
1
2.33 2 2
1
2
= 1.93
. 0.324
193
Se 011
.
30
t(1-) = t(0.95) = 1.645 (Ledo de la tabla de la normal)
Ln(30.28) (1.645 ) (0.11)
3.41 0.18095
[3.22905 3.59095]
[e3.22905 e3.59095]
115
Estadstica aplicada Mgt. Cleto De La Torre Dueas
Funcin de densidad:
1 (x ) ( x )
f ( x) exp exp
En donde y son los parmetros de la distribucin.
( x )
F ( x) f ( x)dx exp exp
Estimacin de parmetros
6
s
x 0.5772
donde x y s son la media y la desviacin estndar estimadas con la muestra.
Factor de frecuencia:
6 Tr
KT 0.5772 ln ln
Tr 1
Donde Tr es el periodo de retorno. Para la distribucin Gumbel se tiene que el
caudal para un perodo de retorno de 2.33 aos es igual a la media de los caudales
mximos.
Limites de confianza
Xt t(1-) Se
s
Se
n
1
[1 1.1396KT 1.1KT ] 2 2
KT
6
0.577 ln[ln 100 ln(99)]
116
Estadstica aplicada Mgt. Cleto De La Torre Dueas
KT = 3.14
QTr100 = 15 + 3.14*5
QTr100 = 30.7 m3/s
Intervalos de confianza
t(1-) = t(0.95) = 1.645 (Ledo de la tabla de la normal)
1
[1 11396
. . ) 11
(314 . ) 2 ]2
. (314
= 3.93
(3.93) (5)
Se
30
Se 3.58 m 3 / s
Xt t(1-) Se
30.7 m3/s (1.64) (3.58)
[24.83 m3/s 36.58 m3/s] Intervalo de confianza para QTr100
Funcin de densidad:
1
1 x x0 x x0
f ( x) exp
Donde,
x0 x para 0
x x0 para 0
y son los parmetros de escala y forma, respectivamente , y x 0 es el parmetro
de localizacin.
117
Estadstica aplicada Mgt. Cleto De La Torre Dueas
Estimacin de parmetros:
2
2 Cs
; s ; x0 x
Cs 2
Cs es el coeficiente de asimetra, x y s son la media y la desviacin estndar de
la muestra respectivamente.
Factor de frecuencia:
2 3 4 5
Cs 1 3 Cs Cs Cs 1 Cs
K z ( z 1)
2
( z 6 z ) ( z 2 1) z
6 3 6 6 6 3 6
donde z es la variable normal estandarizada
Este valor de K se encuentra tabulado de acuerdo al valor de Cs calculado con la
muestra.
Intervalos de confianza:
Xt t(1-) Se
S
Se
n
118
Estadstica aplicada Mgt. Cleto De La Torre Dueas
Intervalos de confianza
Xt t(1-) Se
S
Se
n
= F(1.981,100) de tablas se obtiene =8.4922 (1.9,100) = 8.2196
(2.0,100) = 8.5562
( 3311) (8.4922)
Se
30
Se = 5133.56 pie3/s
t(1-) = t(0.95) = 1.645 (Ledo de la tabla de la normal)
16050 (5133.56) (1.645)
[7605.29 pie3/s 24494.71pie3/s] Intervalos de confianza para
QTr100
Funcin de densidad:
1
1 ln( x) y0 ln( x) y0
f ( x) exp
x
donde,
y0 y para 0
y y0 para 0
y son los parmetros de escala y forma, respectivamente , y y0 es el parmetro
de localizacin.
119
Estadstica aplicada Mgt. Cleto De La Torre Dueas
Estimacin de parmetros:
2
2 Cs
; s y ; x0 x y
Cs 2
Cs es el coeficiente de asimetra, , x y y s y son la media y la desviacin estndar
Factor de frecuencia:
ln(YTr ) x y K s y
2 3 4 5
Cs 1 3 Cs Cs Cs 1 Cs
K z ( z 1)
2
( z 6 z ) ( z 2 1) z
6 3 6 6 6 3 6
donde z es la variable normal estandarizada
Intervalos de confianza:
Xt t(1-) Se
Sy
Se
n
Donde Sy es la desviacin estndar de los logaritmos de la muestra, n es el nmero
de datos y se encuentra tabulado en funcin de Cs y Tr.
120
Estadstica aplicada Mgt. Cleto De La Torre Dueas
121
Estadstica aplicada Mgt. Cleto De La Torre Dueas
1994 39.6
1995 34.6
1996 31.3
1997 47.0
1998 35.9
1999 19.3
2000 51.3
2001 31.0
2002 26.7
2003 39.1
2004 30.8
2005 27.8
2006 51.6
2007 32.9
2008 27.9
122
Estadstica aplicada Mgt. Cleto De La Torre Dueas
123