Professional Documents
Culture Documents
1/2015
Introduccin
Estadstica:
Desde pocas prehistricas el hombre se ha enfrentado a diversos fenmenos de orden econmico, poltico,
social, cultural, ambiental, biolgico, etc. y a medida que el mundo es absorbido por la tecnologa y las
comunicaciones, aparecen cantidades de datos que al ser analizados pueden revelar explicaciones de lo que
ha sucedido, sucede o pueda suceder respecto a un fenmeno cualquiera. Es ah donde entra la estadstica a
aportar sus herramientas, reglas y mtodos que permitan ordenar, cuantificar y analizar dichos fenmenos.
En general el trmino estadstica tiene tres acepciones gramaticales claramente definidas:
1.
2.
Una segunda acepcin, es la ciencia que, utilizando como instrumento las matemticas y el clculo de
probabilidades, estudia las leyes de comportamiento de aquellos fenmenos que no estn sometidos a las
leyes fsicas y con base en ellas predice e infiere resultados. En este caso se la denomina Estadstica
Matemtica.
3.
Finalmente, significa tcnica o mtodo cientfico usado para recolectar, organizar, resumir, presentar,
analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenmenos reales.
Cabe anotar que la estadstica se aplica en cualquier rea del conocimiento: Computacin, ingenieras (todas),
finanzas, medicina, sociologa, biologa, astronoma, periodismo, sicologa, odontologa, gentica y pruebas
de ADN, contadura, economa, seguridad social, etc.
Tarea: Investigue una aplicacin o ejemplo de la estadstica en cada una de las reas mencionadas.
Terminologa usada frecuentemente en estadstica:
Poblacin:
En estadstica el concepto de poblacin se refiere al conjunto universo o coleccin completa de los elementos
o resultados de la informacin buscada. Los elementos, pueden ser de cualquier ndole: personas, animales,
objetos, caractersticas, etc. Es importante anotar que los elementos tambin se conocen en estadstica como
objetos, observaciones o individuos.
Una poblacin puede ser finita o infinita:
Poblacin finita: Aquella donde el nmero de elementos que la conforman es relativamente pequeo,
fcil de contar. Algunos expertos consideran que una poblacin es finita cuando alcanza un mximo de
10000 elementos. Ejemplos: El numero de hospitales de una ciudad, el nmero de escuelas de
secundaria, el nmero de estaciones de gasolina, el nmero de alumnos en un colegio, etc.
Poblacin infinita: Aquella donde el nmero de elementos que la conforman es grande, no es fcil de
contar. Ejemplos: El numero de habitantes en una ciudad, la cantidad de cervezas producidas por una
empresa en una semana, el numero de aspirinas producidas por Bayer en un da, el numero de bacterias
en un lago rio o manantial de agua, etc.
El tamao de la poblacin se representara por la letra mayscula N
Muestra: Una muestra es un subconjunto o una parte representativa de una poblacin. El tamao de la
muestra se representara por la letra minscula n
Datos u observaciones son nmeros o denominaciones que se pueden asignar a un individuo o elemento
de una poblacin
Parmetro: Es cualquier caracterstica medible de una poblacin. Ejemplo, el promedio del peso en
kilogramos de todos los estudiantes de la universidad.
Estadstica: Una estadstica, es cualquier caracterstica medible de una muestra. Ejemplo el promedio
del peso en kilogramos de una muestra de 100 estudiantes de la USB.
Censo: Es la enumeracin completa de una poblacin
ESCALAS DE MEDICIN
1.
NOMINAL
Son variables numricas cuyos valores representan una categora o identifican un grupo de pertenencia. Este
tipo de variables slo nos permite establecer relaciones de igualdad/desigualdad entre los elementos de la
variable. La asignacin de los valores se realiza en forma aleatoria por lo que NO cuenta con un orden lgico.
Un ejemplo de este tipo de variables es el Gnero ya que nosotros podemos asignarles un valor a los hombres
y otro diferente a las mujeres y por ms machistas o feministas que seamos no podramos establecer que uno
es mayor que el otro.
Otro ejemplo es de los nmeros asignados a los futbolistas en un partido. El 9 no significa que sea ms que el
4, (Un delantero no es ms que un defensa y viceversa, simplemente son jugadores diferentes), los nmeros
telefnicos, la raza, la religin (un cristiano no es mayor que un catlico), el estado civil (un casado no es
menor que un soltero), son ejemplos de este tipo de escala
2.
ORDINAL
Son variables numricas cuyos valores representan una categora o identifican un grupo de pertenencia
contando con un orden lgico. Este tipo de variables nos permite establecer relaciones de
igualdad/desigualdad y a su vez, podemos identificar si una categora es mayor o menor que otra. Un
ejemplo de variable ordinal es el nivel de educacin:
1.
Primaria
2.
Secundaria
3.
Profesional
4.
Especialista
5.
Magister
6.
Doctor
Como puede verse, se puede establecer que una persona con ttulo de Postgrado tiene un nivel de educacin
superior al de una persona con ttulo de bachiller. En las variables ordinales no se puede determinar la
distancia entre sus categoras, ya que no es cuantificable o medible.
3.
INTERVALO
Son variables numricas cuyos valores representan magnitudes y la distancia entre los nmeros de su escala
es igual. Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad, establecer un
orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de
intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicacin y la divisin no son
realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia
entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que
una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.
En los puntajes del icfes la distancia entre un puntaje de 45 y 50 equivale a la distancia entre un puntaje de 90
y uno de 95, lo que no se puede decir es que un puntaje de 80 equivale a afirmar que el alumno sabe el doble
de lo que sabe un alumno con un puntaje de 40.
4.
RAZN
Las variables de razn poseen las mismas caractersticas de las variables de intervalo, con la diferencia que
cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se
puede realizar cualquier operacin Aritmtica (Suma, Resta, Multiplicacin y Divisin) y Lgica
(Comparacin y ordenamiento).
Este tipo de variables permiten el nivel ms alto de medicin. Las variables altura, peso, distancia o el salario,
son algunos ejemplos de este tipo de escala de medida.
Ej. El salario, si A gana 500.000 y B gana 1000.000, entonces podemos decir perfectamente que B gana el
doble de A.
Debido a la similitud existente entre las escalas de intervalo y de razn, SPSS las ha reunido en un nuevo tipo
de medida exclusivo del programa, al cual denomina Escala. Las variables de escala son para SPSS todas
aquellas variables cuyos valores representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no.
5.
DICOTOMICA
Es aquella escala que presenta tan solo dos opciones para medir la variable, siendo esta variable de tipo
cualitativo cuantitativo dependiendo de la informacin resultado que se busque.
Por ejemplo:
Es frecuente convertir una caracterstica medible en una variable dicotmica, por ejemplo el peso al nacer de
los neonatos se clasifica as:
BPN (Bajo Peso al Nacer): Cuando el peso es 2500 gramos
Peso normal PN: Cuando el peso es > 2500 gramos
En este caso BPN=0 Cuando el peso es 2500 gramos
BPN= 1 Cuando el peso es > 2500 gramos
6.
CRONOLOGICA
Es un tipo de escala cuantitativa continua, se la utiliza para estudiar algunos fenmenos en funcin del
tiempo, algunos autores la tratan como si fuera una escala de variable independiente, permite conocer un
determinado fenmeno a travs del tiempo, es decir permite un seguimiento temporalizado (en el pasado, en
el presente en el futuro). De uso frecuente en series de tiempo.
Ejemplos:
Seguimiento del efecto de una droga en un paciente con una enfermedad especfica, o de un
tratamiento teraputico, durante semanas, meses o aos.
TIPOS DE DATOS:
Existen dos tipos de datos: Categricos o cualitativos y numricos o cuantitativos.
Categricos o cualitativos: Son aquellos datos cuyas caractersticas no son medibles, representan
atributos o cualidades, por ejemplo el sexo, la raza, la nacionalidad, el estado civil etc.
Numricos o cuantitativos: Son aquellos cuyas caractersticas son medibles, producen respuestas
numricas, por ejemplo: la edad, la estatura, la temperatura, el dimetro de un buje, etc.
Los datos numricos a su vez se clasifican en dos tipos: Discretos y continuos:
Discretos: Aquellos que se producen a partir de un conteo, por ejemplo el nmero de municipios del
departamento del Atlntico, el nmero de hijos por familia, el nmero de autos en un parqueadero, etc.
Puede observarse que este tipo de conteo produce un nmero entero.
Continuos: Aquellos que se producen a partir de un proceso de medicin, donde la caracterstica que se
mide puede tomar cualquier valor en un intervalo, por ejemplo, la estatura de los estudiantes de la
universidad, la presin diastlica de un grupo de personas, el tiempo que usted tarda de su casa a la
universidad, etc. Puede observarse que para cada uno de los ejemplos mencionados, necesariamente los
valores se encuentran en un intervalo dado, por ejemplo la estatura estar por decir algo entre 1 metro y
2.5 metros, al menos que haya un sper enano de 5 cms. y un gigante de tres metros.
Variables latentes: El paisaje, el grado de inteligencia
UNIDAD II
ORGANIZACIN, TABULACION Y GRAFICOS DE UN CONJUNTO DE DATOS.
Cuando se tiene un conjunto de datos tomados de un trabajo de campo o de una investigacin, es necesario
organizarlos de tal manera que se puedan interpretar y analizar sus tendencias y finalmente generar
conclusiones.
Individuales
Distribucin de frecuencias
TABLAS
Agrupados
Agrupados con dos criterios
Asociacin
> 2 criterios
Matriz de datos
2
4
1
1
4
3
2
2
2
3
5
1
2
5
2
X(N de hijos)
0
1
2
3
4
5
Totales
4
0
3
2
3
3
2
3
4
2
ni
3
5
20
9
10
3
50
2
2
4
2
5
Ni
3
8
28
37
47
50
3
2
3
4
0
2
2
2
2
4
fi(%)
6
10
40
18
20
6
100
0
4
1
4
3
2
2
2
4
1
Fi(%)
6
16
56
74
94
100
20
Operarios
10
9
5
1
0
N de hijos
3
Ejercicio: Los siguientes datos corresponden a La cantidad de DSH (Deshechos Solidos Hospitalarios) en
toneladas por ao en toneladas por nivel de edificio y salas especializadas.
NIVELES
1 nivel
2 nivel
3 nivel
4 nivel
5 nivel
6 nivel
Maternid
ad
Pediatra
Totales
Toneladas/a
o
18
42
11,5
8,5
7
9,5
1
5,5
103
Toneladas/ao1 nivel
2 nivel
3 nivel
1% 5%
9%
17%
7%
8%
11%
41%
4 nivel
5 nivel
6 nivel
Maternidad
Pediatria
Toneladas/ao
120
103
100
80
60
40
20
0
Toneladas/ao
42
18
2.2.1
Con el fin de estudiar la densidad de la poblacin estudiantil infantil en el sector rural del
Departamento de Sucre, se obtuvo una muestra de 150 escuelas. Los resultados del nmero de
estudiantes por escuela se muestran a continuacin:
101
102
106
106
107
108
112
114
114
116
116
121
121
125
125
126
130
132
139
150
151
152
153
153
155
156
156
159
160
160
163
166
170
170
172
173
173
173
174
180
1.
2.
3.
1.
V.A. N de estudiantes
2.
Tipo: Discreta
3.
Tabla de frecuencias:
181
181
187
189
191
194
195
196
199
200
201
201
202
202
202
202
202
203
204
204
204
205
205
206
206
208
209
210
212
214
217
217
218
218
218
220
220
220
220
220
222
223
224
224
225
226
226
226
227
228
228
229
229
229
230
231
231
231
232
232
233
234
234
234
236
237
240
241
242
242
244
245
246
246
246
247
247
248
248
250
250
253
271
272
280
283
285
285
286
306
310
310
315
315
318
321
325
335
338
343
359
365
368
372
378
383
388
389
395
400
k=
ln n
ln 2
k = n
La norma ISO 9001 recomienda el usar como gua la siguiente tabla para determinar el nmero de
intervalos:
N de datos
40 a 80
81 a 150
151 a 250
251 o mas
N de intervalos
5a7
7 a 10
10 a 12
12 a 20
1
2
3
4
5
6
7
8
LI--LS
101--138
139--176
177--214
215--252
253--290
291--328
329--366
367--404
Totales
Xi
119,5
157,5
195,5
233,5
271,5
309,5
347,5
385,5
ni
18
21
31
51
8
8
5
8
150
Ni
18
39
70
121
129
137
142
150
fi (%)
12
14
20,67
34
5,33
5,33
3,33
5,33
100
Fi(%)
12
26
46,67
80,67
86
91,33
94,67
100
Se observa que ms del 50% de las escuelas estn por encima de los 214 alumnos.
Xi: se conoce como marcas de clase y se obtiene sumando los lmites de cada intervalo y dividiendo
entre dos. Este valor refleja el promedio de cada intervalo.
5
5
6
7
7
7
7
7
7
8
8
8
9
9
9
10
10
11
11
11
12
12
13
13
13
15
15
16
16
16
17
17
17
17
17
18
18
19
19
20
21
21
22
22
23
23
23
23
23
24
24
24
24
25
25
25
26
26
26
26
26
27
28
28
28
29
29
30
30
30
31
31
31
31
32
32
32
32
32
33
33
34
34
34
34
35
36
36
36
36
37
37
37
37
37
37
38
38
38
38
38
38
39
39
39
40
41
41
41
41
41
42
42
42
44
44
44
45
45
46
46
46
46
47
47
47
47
47
47
47
48
48
48
48
49
49
49
49
50
50
a) Defina la variable aleatoria, de que tipo es, elabore una tabla de frecuencias
b) Interprete los datos de una fila cualquiera.
2.2.2
Los siguientes datos corresponden a una muestra de los pesos en kilogramos de 80 sacos de caf bajo
recoleccin manual, tomadas de un emporio cafetero.
91
83,4
83,5
88,5
90,4
91,8
96,1
91
90,8
90,9
83,8
87,9
89,9
91,2
93,7
88,7
88,9
89
88,6
90,4
92,2
98,8
88,3
90,1
91,6
94,4
88,2
90
91,2
94,2
90,5
90,6
90,7
88,6
90,4
92,2
100,3
88,3
90,3
91,6
95
88,3
90,1
91,5
94,2
92,2
92,3
92,6
92,7
92,7
92,7
93
88,5
90,3
91,8
95,6
83,3
91
89,2
89,3
89,3
89,6
89,7
83,9
84
84,1
89,8
91,1
93,3
83,6
84,2
89,8
91,1
93,3
93,2
88,7
88,9
90,5
90,6
92,2
92,3
87,8
89,9
91,1
93,4
83,7
83,5
83,6
83,7
83,8
83,9
84
84,1
84,2
87,8
87,9
89
89,2
89,3
89,3
89,6
89,7
89,8
89,8
89,9
89,9
90,7
90,8
90,9
91
91
91
91,1
91,1
91,1
91,2
92,6
92,7
92,7
92,7
93
93,2
93,3
93,3
93,4
93,7
88,2
88,3
88,3
88,3
88,5
88,5
88,6
88,6
90
90,1
90,1
90,3
90,3
90,4
90,4
90,4
91,2
91,5
91,6
91,6
91,8
91,8
92,2
92,2
94,2
94,2
94,4
95
95,6
96,1
98,8
100,3
Finalmente estamos ya en disposicin de armar la tabla de frecuencias con k=6, R=18, Xmin=83
Intervalos
xi
1 83 86
84.5
2 86 89
87.5
3 89 92
90.5
4 92 95
93.5
5 95 98
96.5
6 98 101
99.5
Totales
Lmite inferior y superior de cada intervalo:
ni
10
13
35
18
2
2
80
Ni
10
23
58
76
78
80
fi (%)
12.5
16.25
43.75
22.5
2.5
2.5
100%
Fi (%)
12.5
28.75
72.5
95
97.5
100
Interpretacin y anlisis:
Anlisis e interpretacin de la fila N 4:
Xi = 93.5, significa que hay 18 sacos con un peso promedio de 93.5 Kg..
ni = 18, hay 18 sacos cuyos pesos oscilan entre 92 y 95 kilogramos
Ni = 76, hay 76 sacos cuyo peso mximo es de 95 kilogramos o hay 76 sacos cuyos pesos oscilan entre 83
y 95 kilogramos
fi = 22.5%, hay un 22.5% de los sacos cuyo peso estn entre 92 y 95 kilogramos
Fi = 95%, El 95% (76/80) de los sacos tienen un peso mximo de 95 kilogramos
Nota: Existen diversos procedimientos que a la larga todos confluyen a lo mismo: Obtener el agrupamiento de
los datos.
GRAFICOS
Los siguientes grficos son los ms usados cuando de datos numricos se trata:
a)
Curva de frecuencias absolutas: Es una lnea continua del polgono de frecuencias absolutas
f)
Diagrama de tallos y hojas: Este diagrama propuesto por el estadstico John Tukey ofrece una forma
novedosa de presentar toda la informacin de los n datos, de manera que se puede apreciar el
comportamiento mucho mas real que una tabla de frecuencias. Un Tallo es el primer digito o parte
del numeral, mientras que una hoja est formada por el o los dgitos restantes. Por ejemplo el
numero
456
| 56
se
puede
descomponer
de
|6
Tallo
Hoja
Frec. abs.
40
30
20
10
0
83
86
89
92
95
Intervalos
98
101
dos
formas:
F r ec. abs.
40
30
20
10
0
83
86
89
92
95
98
101
Marcas de clase
F rec. abs.acum .
86
89
92
95
98
101
Intervalos
Frec. abs.acum.
86
89
92
95
Intervalos
98
101
86
89
92
95
Marcas de clase
3 4 5 6 7 8 9
84
0 1 2
87
8 9
98
101
88
2 3 5 5 6 6 7 9
89
0 2 3 3 6 7 8 8 9 9
90
0 1 1 3 3 4 4 4 5 6 7 8 9
91
0 0 0 1 1 1 2 2 5 6 6 8 8
92
2 2 2 3 6 7 7 7
93
0 2 3 3 4 7
94
2 2 4 7
95
96
98
100 3
Se observa que hay una gran concentracin de observaciones entre 88 y 93 kilogramos.
Ejemplo de tabla de asociacin con dos criterios:
La siguiente tabla muestra
exposicin:
Aos de trabajo
0--3
4--7
8--11
11--15
15--18
18--21
21--24
Totales
Expuestos
1
4
15
7
8
10
5
50
No expuestos
25
15
20
18
26
22
24
150
Hombres
Mujeres
TOTAL
Menores de 1 ao
500.428
480.232
980.660
1Fuentes de informacin1 DANE. Proyecciones de poblacin Censo de 1993. Modificadas por Oficina EpidemiologaMinsalud.
0-4
1.940.686
1.862.363
3.803.049
5-14
4.619.174
4.447.671
9.066.845
15-44
10.226.708
10.457.260
20.683.968
45-59
2.327.119
2.558.979
4.886.098
60 y ms
1.300.408
1.600.358
2.900.766
TOTAL
20.914.523
21.406.863
42.321.386
Ejercicio en clase:
Se tom una muestra aleatoria del dimetro (en m.m) de 200 bujes de bronce en una empresa metalmecnica.
Los resultados fueron:
5,001
5,002
5,005
5,007
5,007
5,009
5,010
5,012
5,015
5,018
5,019
5,026
5,028
5,029
5,036
5,037
5,045
5,051
5,061
5,062
c)
5,063
5,064
5,065
5,066
5,067
5,069
5,070
5,070
5,070
5,071
5,072
5,074
5,080
5,086
5,089
5,089
5,090
5,092
5,095
5,100
5,101
5,104
5,105
5,106
5,106
5,109
5,111
5,117
5,121
5,121
5,124
5,125
5,127
5,130
5,131
5,133
5,143
5,146
5,148
5,151
5,151
5,153
5,154
5,157
5,161
5,162
5,165
5,167
5,171
5,171
5,174
5,176
5,177
5,190
5,195
5,197
5,208
5,208
5,209
5,209
5,216
5,222
5,225
5,225
5,226
5,232
5,232
5,236
5,237
5,239
5,246
5,249
5,250
5,250
5,252
5,254
5,256
5,259
5,262
5,265
5,265
5,266
5,270
5,270
5,277
5,277
5,282
5,282
5,283
5,286
5,287
5,288
5,290
5,295
5,299
5,306
5,306
5,309
5,310
5,311
5,316
5,318
5,319
5,324
5,330
5,330
5,331
5,335
5,336
5,338
5,341
5,346
5,346
5,348
5,351
5,363
5,363
5,369
5,369
5,375
5,382
5,384
5,391
5,393
5,393
5,396
5,398
5,398
5,398
5,401
5,410
5,412
5,412
5,416
5,418
5,423
5,423
5,425
5,425
5,440
5,443
5,444
5,448
5,449
5,450
5,459
5,460
5,461
5,461
5,464
5,464
5,465
5,466
5,468
5,471
5,474
5,475
5,477
5,479
5,479
5,483
5,485
5,486
5,491
5,494
5,495
5,497
5,498
5,502
5,503
5,512
5,512
5,519
5,519
5,519
5,537
5,540
5,545
5,546
5,555
Defina la variable aleatoria, de que tipo es, elabore una tabla de frecuencias
4,6
12,3
7,1
7
4
9,2
6,7
6,9
11,5
5,1
3,8
11,2
10,5
14,3
8
8,8
6,4
5,1
5,6
9,6
a)
7,5
7,5
6,2
5,8
2,3
3,4
10,4
9,8
6,6
3,7
6,4
6
8,3
6,5
7,6
9,3
9,2
7,3
5
6,3
13,8
6,2
5,4
4,8
7,5
6
6,9
10,8
7,5
6,6
5
3,3
7,6
3,9
11,9
2,2
15
7,2
6,1
15,3
18,9
7,2
5,4
5,5
4,3
9
12,7
11,3
7,4
5
3,5
8,2
8,4
7,3
10,3
11,9
6
5,6
9,5
9,3
10,4
9,7
5,1
6,7
10,2
6,2
8,4
7
4,8
5,6
10,5
14,6
10,8
15,5
7,5
6,4
3,4
5,5
6,6
5,9
15
9,6
7,8
7
6,9
4,1
3,6
11,9
3,7
5,7
6,8
11,3
9,3
9,6
10,4
9,3
6,9
9,8
9,1
10,6
4,5
6,2
8,3
3,2
4,9
5
6
8,2
6,3
Defina la variable aleatoria, de que tipo es, Elabore una tabla de frecuencias
f)
2. Si tienes una muestra de 500000 datos para agrupar cuantos intervalos de clase seran necesarios. Pueden
concebirse investigaciones en donde una muestra tenga 500000 o ms datos? D ejemplos.
3. Se conoca la tabla de distribucin de los salarios por semana en dlares de 50 obreros de una empresa,
desafortunadamente solo queda de ella lo siguiente:
LI Xi LS
165 -
Xi
ni
5
7
Ni
27
8
40
fi * 100 (%)
Fi *100(%)
-1005
Totales
a) Complete la tabla
b) Una vez llene la tabla, interprete la informacin dada en la fila 4.
4.
Se tom una muestra sobre el consumo semanal de arroz en libra por familia en 44 hogares y los
resultados fueron.
3
4
4
4
4
4
5
5
5
5
6
6
7
7
7
7
7
8
8
8
9
9
9
9
10
10
10
10
11
11
11
12
12
13
13
13
14
14
14
14
14
15
15
16
16
16
16
16
16
16
16
16
16
17
17
17
18
18
18
19
19
19
20
20
20
21
21
21
21
21
21
22
22
22
23
23
23
23
24
24
24
24
25
25
25
Construya una tabla de frecuencias para estos datos y responda las siguientes preguntas:
a)
b)
c)
d)
e)
4.
Para comprobar la eficacia de las maquinas de llenado de bolsas de leche las cuales tienen un
contenido nominal de 946 mililitros. Para ello se realiza un muestreo de 80 bolsas elegidas al azar.
Los resultados se muestran en la siguiente tabla:
953
945
972
945
985
973
955
950
949
941
966
966
937
946
954
935
959
939
948
958
948
937
955
927
958
955
947
941
952
931
928
937
975
970
959
971
940
936
948
957
940
933
965
973
934
937
946
952
935
941
941
933
960
968
959
956
963
973
949
942
965
962
940
962
963
943
950
938
938
945
963
967
969
981
950
970
933
960
934
927
7.
Con el fin de conocer la tendencia de consumo de las marcas de aceite para tracto mulas se realiz una
encuesta a 100 conductores y los resultados fueron los siguientes:
MARCA
BEG
HAVOLIN
E
RIMULA
SHELL
ESSO
OTRAS
N
CONDUCTORE
S
15
20
60
3
4
8
f)
8.
23.1
25.1
21.6
28.7
21.5
9.4
23.4
22.6
22.7
20.1
13.5
21.5
18.9
18.5
24.1
18.4
31.2
21.3
16.1
16.8
26.2
19.6
28.5
17.2.
30.5
14.6
14.6
25.2
16.7
13.5
28.5
23.8
9.4
18.0
27.2
15.1
22.7
16.6
29.6
26.8
23.4
23.2
26.7
11.6
21.8
26.2
8.5
21.2
31.0
11.6
11.3
28.7
27.5
20.6
22.9
31.4
23.0
12.5
22.6
19.6
Con el fin de controlar el dimetro medio de los cojinetes que se producen en una empresa
metalmecnica, el departamento de control de calidad tom 60 muestras extradas al azar Los dimetros
estn en pulgadas y los resultados fueron:
0.738
0.728
0.737
0.736
0.743
0.736
0.740
0.735
0.741
0.733
0.735
0.742
0.745
0.730
0.742
0.740
0.738
0.725
0.743
0.732
0.732
0.730
0.734
0.738
0.735
0.729
0.735
0.727
0.732
0.736
0.732
0.737
0.731
0.746
0.735
0.729
0.731
0.741
0.734
0.737
0.744
0.738
0.736
0.734
0.727
0.735
0.740
0.734
0.733
0.726
0.736
0.732
0.741
0.732
0.739
0.739
0.730
0.735
0.733
0.735
9. En una empresa de produccin de pinturas de aceite se present un problema: "los clientes se quejaban del
grado de impurezas en los galones de aceite" El departamento de control de calidad decidi tomar 80
muestras (u 80 galones) y la cantidad de impurezas en gramos por galn fueron los siguientes:
29.5
27.3
40.5
22.9
23.8
31.6
32.7
35.1
39.5
37.2
a)
45.538
32.0
20.4
45.8
30.6
35.4
45.1
31.6
23.0
45.2
38.8
42.6
28.5
31.5
25.5
31.7
31.6
21.1
42.2
30.7
39.0
44.5
21.5
32.1
41.2
35.2
37.1
31.3
34.2
33.3
27.5
26.9
28.8
31.8
35.5
28.7
34.4
34.2
41.6
44.5
32.3
45.6
36.7
23.9
39.6
30.5
46.0
25.5
31.7
27.2
42.6
36.7
36.6
29.5
31.7
2104
40.2
36.6
30.6
41.2
35.5
38.8
43.2
39.6
26.1
43.1
31.1
28.8
34.6
30.5
f)
j)
UNIDAD III
MEDICION DE DATOS
MEDIDAS DE DISPERSION
3.
MEDIDAS DE FORMA
4.
MEDIDAS DE LOCALIZACION
1.
Para diferenciar datos muestrales de datos poblacionales, la media aritmtica se representa con un
smbolo para cada uno de ellos: si trabajamos con la poblacin, este indicador ser ; en el caso de que
estemos trabajando con una muestra, el smbolo ser
Media poblacional:
N
1
X
N i=1 i
Para la muestra:
n
1
X = X i
n i=1
1.3
La Mediana Me:
Es el dato que est en la posicin central de la serie, en este ejemplo:
1.4 La Moda MO:
Es aquel dato que ms se repite en la serie.
G= X 1 . X 2 . X n
1.6
La media Armnica
Es la inversa de la media aritmtica de las xis invertidas:
n
1
2.
MEDIDAS DE DISPERSIN:
Estas medidas son muy tiles en estadstica ya que proporcionan una medicin de la variabilidad de los
datos alrededor de la media, es decir que tan regados o dispersos estn los datos con respecto a la
media, que tan homogneos o compactos estn los datos.
Las medidas ms comunes de dispersin son:
2.1 El Rango:
2.2 La Varianza
R= Xmax - Xmin
Para la poblacin:
1
2
= ( X i )
N i =1
2
N X 2i ( X i )
N2
Para la muestra:
n
2
1
S=
X i X )
(
n1 i=1
2
n X 2i ( X i )
S=
n (n1)
2
2.4 Coeficiente de variacin: Es una medida para diagnosticar la homogeneidad de los datos.
S
CV = 100
X
2.5
FRACCIN DE MUESTREO
Fraccin de muestreo: Es el porcentaje que representa la muestra sobre el total de la poblacin (n/N)
*100.
2.6 COEFICIENTE DE ELEVACIN: Es el nmero de veces que el tamao de la poblacin contiene
al tamao de la muestra (N/n).
Clculo aproximado y rpido de la varianza
Cuando los datos siguen una distribucin normal, (es decir los datos giran alrededor del promedio), una
forma de diagnosticar rpidamente el valor de la varianza es:
Rango=6S, de aqu: S=R/6
Ejemplo
Los siguientes datos corresponden al llenado de tres maquinas en la empresa industrial COOLECHERA de
leche saborizada en empaque de bolsas de 250 cc.
Maq. 1
Maq. 2
Maq. 3
253,921
241,582
250,562
252,737
242,684
244,039
247,741
243,876
258,582
243,375
35,456
244,508
246,965
250,114
251,109
243,089
232,618
254,782
252,151
247,59
249,155
244,049
252,354
250,902
244,555
56,456
247,375
260,236
246,303
242,79
255,823
222,456
241,24
252.,224
210,231
246,965
245,397
257,707
256,807
256,565
242.,563
247,886
247,419
249,912
253,94
249,012
109,563
243,46
246,681
258,316
256,192
257,847
258,524
255,222
246,312
245,88
245,628
245,487
150,456
249,258
248,718
252,147
237,561
249,692
254,727
245,52
241,718
246,1
245,928
248,471
253,857
245,952
241,121
236,83
248,476
244,064
235,224
249,289
253,887
95,321
252,086
254,071
240,288
241,348
253,921
241,582
265,27
251,873
242,191
241,489
252,379
20,568
250,341
255,878
256,35
251,287
252,878
112,567
248,397
254,043
252,632
250,978
248,449
259,057
252,761
246,526
250,969
254,266
255,066
350,456
253,71
256,671
256,205
251,392
252,548
252,551
251,179
257,596
321,741
251,981
257,191
252,157
253,879
248,627
249,927
247,703
250,816
65,891
251,694
249,61
251,172
245,111
247,764
250,221
252,652
251,545
246,699
250,188
249,809
289,655
252,397
246,753
250,865
247,172
247,904
15,568
248,428
253,124
249,739
247,519
248,401
130,896
251,055
253,837
248,448
245,242
Calcule la media, rango y la desviacin estndar para cada mquina. Que puede usted concluir al comparar los
tres resultados?
3.
Cuando la curva de frecuencias absolutas tiene forma de campana, se puede medir que tan achatada es y que
tan puntiaguda es.
Las medidas que proporcionan informacin al respecto se conocen como medidas de forma, las cuales se
clasifican en medidas de asimetra y medidas de curtosis
3.1 MEDIDAS DE ASIMETRIA:
Estas medidas evalan la forma HORIZONTAL de la curva de frecuencias.
3.1.1
A p=
3 ( X M e )
S
X es la media, M e es la mediana y S es la desviacin estndar.
Donde
Interpretacin:
Si Ap
3.1.2
3
1 ( X i X )
g1 = 3
n
S
Interpretacin:
Si g1 > 0 la curva es asimtrica o sesgada a la derecha
Si g1 < 0 la curva es asimtrica o sesgada a la izquierda.
Si g1 = 0 la curva es simtrica o normal
Grficamente se tiene que:
k=
Q 3Q 1
2 ( P90P10 )
Interpretacin:
Si k < 0,263 la distribucin es platicrtica
Si k 0,263 la distribucin es normal o mesocrtica
Si k > 0,263 la distribucin es leptocrtica
1
g2= 4
S
( X i X ) 3
n
Interpretacin:
Si g2 > 0 entonces la curva es leptocurtica (una curva puntiaguda)
Si g2 < 0 entonces la curva es platicurtica (una curva aplanada)
Si g2 = 0, entonces la curva es mesocurtica, simtrica o normal
Las siguientes figuras muestran grficamente los tres tipos de curvas de acuerdo a la definicin anterior:
Leptocurtica
Platicurtica
Mesocurtica o simtrica.
Calcule para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes de curtosis y asimetra e
interprtelos, compare con la forma de la curva obtenida en el grafico curva de frecuencias y obtenga
conclusiones.
Para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes son:
COEFICIENTE DE ASIMETRIA = -0,53036
COEFICIENTE DE CURTOSIS = 1,73416
Interpretacin:
1. Dado que Ap <0 entonces la curva de frecuencias es levemente sesgada o asimtrica a la izquierda
2. Dado que K>0 entonces la curva de frecuencias es levemente leptocurtica
4.
MEDIDAS DE LOCALIZACION
Para determinar la localizacin o ubicacin de cualquier dato en una serie de valores, es necesario,
inicialmente organizar los datos para aplicarle algunas tcnicas y formulas que permitan ubicarlos.
Por ejemplo la serie 2, 4, 8, 10,12 a simple vista el 8 ocupa la mitad de la serie. El 2 ocupa la primera posicin
y el 12 la ultima. Si dividimos la serie en 5 partes entonces la 5a ava parte la ocupa el 2. Las dos 5a avas
partes la ocupa el 4, la cuarta ava parte la ocupa el 10.
Cuando se disponen de muchos datos, se aplica ciertos trminos y formulas para ubicar esos datos, los cuales
se estudiaran a continuacin:
DECIL: Dp
QUARTIL: Qp
Se habla de cuartil cuando la serie se divide en 4 partes, asi pues p = 1, 2,3 y 4 donde
Q1 = primer cuartil
Q2 = segundo cuartil
Q3 = tercer cuartil
Q 4 = cuarto cuartil o ultimo de la serie.
PERCENTIL: Xp
Cuando la serie se divide en 100 partes, se habla de percentiles as pues p = 1, 2,3..100 donde
X7 = percentil de orden 7 o sptimo percentil
X20 = percentil de orden 20 o vigsimo percentil
X91 = percentil de orden 91
Si se analiza con detenimiento la relacin entre percentiles deciles y cuartiles se puede por ejemplo decir que:
X50 = Me = Q2
X25 = Q1
X90 = D9;
X70 = D7;
X75 = Q3
np
N a
100
X p =LI + A
nx
donde:
Li: Limite inferior del intervalo que contiene el percentil P
A: Es la amplitud
np: Porcentaje del nmero total de datos
Na: Frecuencia acumulada anterior a la del intervalo que contiene al percentil p
nx: Frecuencia absoluta del intervalo que contiene a Xp
RANGO INTERCUARTIL: (Q)
Es una medida de dispersin entre el primer y tercer cuartil, o sea:
Q = Q3 Q1
RANGO INTERDECIL: D
Es tambin una medida de dispersin entre el primer y noveno decil, o sea:
D = D9 D1
Estas medidas de desviacin son importantes porque tienden a excluir los valores extremos, dando Como
resultado una buena medida de dispersin, es decir estos rangos no son afectados por la presencia de datos
con los valores externos.
Ejercicio:
La siguiente tabla muestra los tiempos de operacin de un puesto de trabajo constituido por un operario y una
maquina donde se elabora el corte y doblado de un maletn de cuero, en una muestra de 100 observaciones de
medidas en minutos.
Xi
ni
Ni
fi
Fi
fi*100%
Fi*100%
5.7 - 6.1
5.9
0.05
0.05
6.1 - 6.5
6.3
18
23
0.18
0.23
18
23
6.5 - 6.9
6.7
42
65
0.42
0.65
42
65
6.9 - 7.3
7.1
20
85
0.20
0.85
20
85
Li X1 LS
7.3 - 7.7
7.5
10
95
0.10
0.95
10
95
7.7 - 8.1
7.9
100
0.05
1.00
100
a)
b) Por debajo de que valor se encuentra el 60% de los valores mas pequeos
c)
A nP / 100 N a
nx
X38 = Li +
P = 38; n = 100
nP 100 x38
38
100
100
El 38 est contenido en Ni = 65, de aqu se deduce que:
Li = 6.5 (INTERVALO N 3)
A = 0.4
Na = 23
nx = 42
0.4(38 23)
6.64
42
X38 = 6.5 +
A(nP / 100 N a )
nx
X72 = Li +
nP 100 * 72
72
100
100
P = 72; n = 100
El 72 est contenido en Ni = 85, luego Li = 6.9 (INTERVALO N 4) A = 0.4, Na = 65; nx = 20
0.4(72 65)
7.04
20
X38 = 6.9 +
b)
Rango INTERCUARTIL: Q3 Q1
A(nP / 100 N a )
nx
Q3 = X75
Li +
nP 100 * 75
75
100
100
P = 75; n = 100
Li = 6.9
Na= 65
0.4(75 65)
20
nx = 20
X75 = Q3 = 6.9 +
Q3 = 7.1; y Q1 = 6.21
Es decir la variacin entre la primera cuarta parte y la tercera cuarta parte de los datos es de 0.89 minutos.
Ahora se calcula el rango interdecil y el resultado debe ser mayor que 0.89 por qu?
RANGO INTERDECIL = D9 D1
D9 = X90
nP (1009(90)
90
100
100
P = 90
El 90 est en Ni = 95
Li =73
Na = 85
nx = 10
0.4(90 85)
7.5
10
X90 = 7.3 +
D10 = X10
nP (100)(10)
10
100
100
P = 10
El 10 est contenido en Ni = 23
Li = 6.1 Na= 5; nx = 18
0.4(10 5)
6.2
18
X10 = 6.1 +
Luego D9 D10 = 7.5 6.2 = 1.3
Establezca que tipo de Asimetra y Curtosis tiene la curva de frecuencias utilizando los ndices g 1 y g2.
Confronte estos resultados con la grafica Curva de frecuencias. Obtenga conclusiones.