You are on page 1of 58

TECSUP - PFR

Estadstica Aplicada a Laboratorios

ndice

Unidad I:
1.
2.
3.
4.
5.
6.

7.

8.

9.
10.
11.

Introduccin ................................................................................................. 1
Variables discretas y continuas ....................................................................... 4
Redondeo de datos........................................................................................ 4
Cifras significativas ........................................................................................ 4
Funciones ..................................................................................................... 6
Distribucin de frecuencias - proceso de tabulacin de la informacin ................ 7
6.1.
La representacin de los datos: frecuencias .......................................... 9
6.2.
Tabla de distribucin de frecuencias ................................................... 13
6.3.
Representaciones grficas de la distribucin de frecuencias .................. 15
6.4.
Histogramas de frecuencias ............................................................... 16
6.5.
Polgono de frecuencias ..................................................................... 16
6.6.
Ojivas .............................................................................................. 17
Medidas de tendencia central ....................................................................... 19
7.1.
La media aritmtica........................................................................... 20
7.2.
La mediana ...................................................................................... 22
7.3.
La moda........................................................................................... 25
7.4.
Cuartiles poblacionales y muestrales ................................................... 26
7.5.
Percentiles poblacionales y muestrales ................................................ 26
Medidas de dispersin.................................................................................. 28
8.1.
Rango .............................................................................................. 28
8.2.
Desviacin media .............................................................................. 29
8.3.
Varianza y desviacin estndar .......................................................... 32
8.4.
Coeficiente de variacin (PEARSON) ................................................... 34
Errores ....................................................................................................... 37
9.1.
Clasificacin de errores ...................................................................... 37
9.2.
Cuantificacin de los errores .............................................................. 40
Rechazo de un resultado (valores atpicos, outliners) ...................................... 41
10.1. Prueba de la Q.................................................................................. 41
10.2. Prueba de GRUBBS ........................................................................... 43
Regresin lineal simple. Anlisis de regresin ................................................ 44
11.1. Clculo de las lneas de ajuste y sus ecuaciones. ................................. 45
11.2. Coeficiente de correlacin lineal de PEARSON. ..................................... 48

Unidad II:
1.
2.
3.

HERRAMIENTAS ESTADSTICAS DE CONTROL

TEORA Y APLICACIONES DE CLCULO DE PROBABILIDADES

Introduccin ............................................................................................... 57
Distribucin de probabilidad continua ............................................................ 59
Modelos de distribucin de probabilidad de variables continuas ....................... 69
3.1.
La distribucin normal ....................................................................... 72

Estadstica Aplicada a Laboratorios

TECSUP - PFR

Unidad III: ESTIMACIN ESTADSTICA Y PRUEBA DE HIPTESIS


1.
2.
3.
4.

Estimacin estadstica .................................................................................. 75


Mtodos para la estimacin de parmetros .................................................... 79
2.1
Estimacin de un parmetro ............................................................... 80
2.2
Estimacin por intervalos de confianza ................................................ 83
Prueba de una hiptesis acerca de un parmetro ............................................ 99
Pruebas de significatividad .......................................................................... 106
4.1
Prueba de la F................................................................................. 106
4.2
Prueba de la t de student ................................................................. 107

Unidad IV:
1.

2.
3.
4.

DISEO DE EXPERIMENTOS

Evaluacin de consistencia de datos ............................................................ 113


1.1
Condiciones de repetibilidad ............................................................. 115
1.2
Condiciones de reproductibilidad....................................................... 115
1.3
Tcnica grfica de consistencias ....................................................... 116
1.4
Tcnica numrica para valores atpicos (Prueba de COCHRAN) ............ 117
1.5
Estimacin de la precisin ................................................................ 118
Anlisis de varianza. ANOVA ...................................................................... 119
Grfico de control ...................................................................................... 123
3.1
Grficos de control de shewhart ....................................................... 124
Introduccin al diseo estadstico de experimentos ....................................... 132
4.1
Comprender el problema y definir claramente el objetivo. ................... 137
4.2
Identificar los factores y el dominio experimental de inters. ............... 138
4.3
Planificar la experimentacin. Eleccin del diseo experimental ........... 139
4.4
Realizacin de la experimentacin..................................................... 141
4.5
Interpretar los resultados. ................................................................ 141

TECSUP PFR

Estadstica Aplicada a Laboratorios

UNIDAD I
HERRAMIENTAS ESTADSTICAS DE CONTROL

1.

INTRODUCCIN
La estadstica es una ciencia matemtica que se refiere a la coleccin, estudio e
interpretacin de los datos obtenidos en un estudio. Es aplicable a una amplia
variedad de disciplinas, desde la fsica hasta las ciencias sociales y es usada en la
toma de decisiones en reas de negocios e instituciones gubernamentales.
La Estadstica se divide en dos ramas:
La estadstica descriptiva, que se dedica a los mtodos de recoleccin,
descripcin, visualizacin y resumen de datos originados a partir de los
fenmenos en estudio. Los datos pueden ser resumidos numrica o
grficamente. Ejemplos bsicos de descriptores numricos son la media y la
desviacin estndar. Resmenes grficos incluyen varios tipos de figuras y
grficos.
La inferencia estadstica, que se dedica a la generacin de los modelos,
inferencias y predicciones asociadas a los fenmenos en cuestin teniendo en
cuenta lo aleatorio e incertidumbre en las observaciones. Se usa para modelar
patrones en los datos y extraer inferencias acerca de la poblacin de estudio.
Estas inferencias pueden tomar la forma de repuestas a preguntas si/no
(prueba de hiptesis), estimaciones de caractersticas numricas (estimacin,
pronsticos de futuras observaciones, descripciones de asociacin
(correlacin) o modelamiento de relaciones entre variables (anlisis de
regresin). Otras tcnicas de modelamiento incluyen ANOVA, series de tiempo
y minera de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay
tambin una disciplina llamada estadstica matemtica, la cual se refiere a las
bases tericas de la materia. La palabra estadsticas tambin se refiere al
resultado de aplicar un algoritmo estadstico a un conjunto de datos, como en
estadsticas econmicas, estadsticas criminales, etc.
Al aplicar estadstica a un problema cientfico, industrial o social, se comienza con
un proceso o poblacin a ser estudiado. Esta puede ser una poblacin de
personas en un pas, de granos cristalizados en una roca o de bienes
manufacturados por una fbrica en particular durante un periodo dado. Tambin
podra ser un proceso observado en varios instantes y los datos recogidos de
esta manera constituyen una serie de tiempo.

Estadstica Aplicada a Laboratorios

TECSUP PFR

Por razones prcticas, en lugar de compilar datos de una poblacin entera,


usualmente se estudia un subconjunto seleccionado de la poblacin, llamado
muestra. Datos acerca de la muestra son recogidos de manera observacional o
experimental. Los datos son entonces analizados estadsticamente lo cual sigue
dos propsitos: descripcin e inferencia.
El concepto de correlacin es particularmente valioso. Anlisis estadsticos de un
conjunto de datos puede revelar que dos variables (esto es, dos propiedades de
la poblacin bajo consideracin) tiende a variar conjuntamente, como hubiera
una conexin entre ellas. Por ejemplo un estudio del ingreso anual y la edad de
muerte entre personas podran resultar en que personas pobres tienden a tener
vidas mas cortas que personas de mayor ingreso. Las dos variables se dicen a
ser correlacionadas. Sin embargo, no se pude inferir inmediatamente la
existencia de una relacin de causalidad entre las dos variables; ver correlacin
no implica causalidad. El fenmeno correlacionado podra ser la causa de un
tercero, previamente no considerado, llamado variable confundida.
Si la muestra es representativa de la poblacin, inferencias y conclusiones hechas
en la muestra pueden ser extendidas a la poblacin completa. Un problema
mayor es el de determinar que tan representativa es la muestra extrada. La
estadstica ofrece medidas para estimar y corregir por aleatoriedad en la muestra
y en el proceso de recoleccin de los datos, as como mtodos para disear
experimentos robustos como primera medida, ver diseo experimental.
El concepto matemtico fundamental empleado para entender la aleatoriedad es
el de probabilidad. La estadstica matemtica (tambin llamada teora estadstica)
es la rama de las matemticas aplicadas que usa la teora de probabilidades y el
anlisis matemtico para examinar las bases tericas de la estadstica.
El uso de cualquier mtodo estadstico es valido solo cuando el sistema o
poblacin bajo consideracin satisface los supuestos matemticos del mtodo.
Mal uso de la estadstica puede producir serios errores en la descripcin e
interpretacin afectando las polticas sociales, la practica mdica y la calidad
de estructuras tales como puentes y plantas de reaccin nuclear.
Incluso cuando la estadstica es correctamente aplicada, los resultados pueden
ser difcilmente interpretados por un no experto. Por ejemplo, la significancia
estadstica de una tendencia en los datos, la cual mide que tanto la tendencia
puede ser causada por una variacin aleatoria en la muestra. El conjunto de
habilidades estadsticas bsicas (y el escepticismo) que una persona necesita
para manejar informacin en el da a da se refiere como cultura estadstica.
Mtodos estadsticos
Estudios experimentales y observacionales
Un objetivo comn para un proyecto de investigacin estadstica es investigar la
causalidad, y en particular extraer una conclusin en el efecto que algunos
cambios en los valores de predictores o variables independientes tienen sobre
una respuesta o variables dependientes. Hay dos grandes tipos de estudios
estadsticos para estudiar causalidad: estudios experimentales y observacionales.

TECSUP PFR

Estadstica Aplicada a Laboratorios

En ambos tipos de estudios, el efecto de las diferencias de una variable


independiente (o variables) en el comportamiento de una variable dependiente
es observado. La diferencia entre los dos tipos es la forma en que el estudio es
conducido. Cada uno de ellos puede ser muy efectivo.
Un estudio experimental envuelve el tomar mediciones del sistema bajo estudio,
manipular el sistema y luego tomar mediciones adicionales usando el mismo
procedimiento para determinar si la manipulacin ha modificado los valores de
las mediciones. En contraste, un estudio observacional no necesita manipulacin
experimental. Por el contrario, los datos son recogidos y las correlaciones entre
predictores y la respuesta son investigadas.
Un ejemplo de un estudio experimental es el famoso estudio de Hawthorne el
cual pretenda probar cambios en el ambiente de trabajo en la planta Hawthorne
de la Western Electric Company. Los investigadores estaban interesados en si al
incrementar la iluminacin en un ambiente de trabajo, la produccin de los
trabajadores aumentaba. Los investigadores primero midieron la productividad
de la planta y luego modificaron la iluminacin en un rea de la planta para ver si
cambios en la iluminacin afectaran la productividad. La productividad mejoro
bajo todas las condiciones experimentales (ver estudio de Hawthorne). Sin
embargo, el estudio fue muy criticado por errores en los procedimientos
experimentales, especficamente la falta de un grupo control y ciegamiento.
Un ejemplo de un estudio observacional es un estudio que explora la correlacin
entre fumar y el cncer de pulmn. Este tipo de estudio normalmente usa una
encuesta para recoger observaciones acerca del rea de inters y luego produce
un anlisis estadstico. En este caso, los investigadores recogeran observaciones
de fumadores y no fumadores y luego miraran los casos de cncer de pulmn en
ambos grupos.
Los pasos bsicos para un experimento son:
Planeamiento estadstico de la investigacin, lo cual incluye encontrar fuentes
de informacin, seleccin de material disponible en el rea y consideraciones
ticas para la investigacin y el mtodo propuesto. Se plantea un problema de
estudio.
Disear el experimento concentrndose en el modelo y la interaccin entre
variables independientes y dependientes. Se realiza un muestreo consistente
en la recoleccin de datos referentes al fenmeno o variable que deseamos
estudiar. Se propone un modelo de probabilidad, cuyos parmetros se estiman
mediante estadsticos a partir de los datos de muestreo. Sin embargo, se
mantiene lo que se denominan "hiptesis sostenidas" (que no son sometidas a
comprobacin) Se valida el modelo comparndolo con lo que sucede en la
realidad. Se utiliza mtodos estadsticos conocidos como test de hiptesis y
prueba de significacin.
Se producen estadsticas descriptivas.
Inferencia estadstica. Se llega a un consenso acerca de que dicen las
observaciones acerca del mundo que observamos.
Se utiliza el modelo validado para tomar decisiones o predecir acontecimientos
futuros. Se produce un reporte final con los resultados del estudio.

Estadstica Aplicada a Laboratorios

2.

TECSUP PFR

VARIABLES DISCRETAS Y CONTINUAS


Una variable es un smbolo, tal como x, h o b, que puede tomar un valor
cualquiera de un conjunto determinado de ellos, llamado dominio de las
variables.
Si la variable que tericamente puede tomar cualquier valor entre dos valores
dados se llama variable continua, si no es as, se llama variable discreta.
Ejemplo: En una familia el nmero N de hijos puede tomar cualquiera de los
valores 0; 1; 2; 3;...; pero no puede ser 2,5 3,84; por lo tanto N es una
variable de tipo discreta.
Ejemplo: La altura H de un individuo puede ser 1,50m, 1,52m 1,483m;
dependiendo de la exactitud de la medida, en este caso H es una variable
continua.

3.

REDONDEO DE DATOS
Es una tcnica que permite, ver o manejar una cifra con una determinada
cantidad de nmeros diferentes de cero.

72,8 redondeo al entero ms prximo es 73.


72,8146 redondeando a dos decimales ser 72,81.
72,465 redondeando a dos decimales ser 72,46.
183,575 se redondea a 183,58.
116500000 redondeando con aproximacin a millones ser de 116000000.

Esta prctica es especialmente til al minimizar la acumulacin de errores de


redondeo cuando se abarca un nmero grande de operaciones.
Notacin sistemtica:
864000000 = 8,64 x 108
0,00003416 = 3,1416 x 10-5
(4000000)(0,00000000002) = (4 x 106)(2 x 10-10) = 8 x 10-4
0,00680000 6 10 3 8 10 4 48 101 12 10 3

0,04
4 10 2
4 10 2

4.

CIFRAS SIGNIFICATIVAS
El eslabn ms dbil en la cadena de cualquier anlisis est determinado por la
medicin que se efecte con la menor exactitud. No vale la pena esforzarse en
efectuar otras mediciones del anlisis con mayor exactitud que esta medicin
limitante. El nmero de cifras significativas puede definirse como el nmero de
dgitos necesarios para explicar los resultados de una medicin conforme a la
precisin medida.

TECSUP PFR

Estadstica Aplicada a Laboratorios

Cada dgito representa la cantidad real que especifica. Por ejemplo en el nmero
237 se tiene dos centenas, tres decenas y siete unidades.
El dgito cero puede ser parte significativa de la medicin o usarse simplemente
para sealar el punto decimal. El nmero de cifras significativas en una medicin
es independiente del lugar que ocupa el punto decimal. Por ejemplo, considrese
el nmero 92,067. Este nmero tiene cinco cifras significativas, sin importar el
sitio en que se coloque el punto decimal; por ejemplo 92,067 micrmetros,
9,2067 cm., 0,92067 decmetros y 0,092067 metros tienen todos los mismos
nmeros de cifras significativas. Representan simplemente las distintas maneras
(unidades) de expresar una medicin.
En el ltimo nmero, el cero entre el punto decimal y el 9, se emplean tan slo
para indicar el lugar del punto decimal. No existe duda con respecto a que
cualquier cero que se encuentre despus del punto decimal es significativo, o
que se usa para indicar el lugar del punto decimal. En el nmero 727,0 el cero no
se emplea para indicar el lugar del punto decimal, pero forma parte significativa
del nmero.
Puede haber ambigedad cuando el cero se encuentra otros dos nmeros
enteros distintos de cero; por ejemplo en el caso de 92,067. El nmero 936,600;
es imposible determinar si uno, ambos o ninguno de los ceros se emplean para
indicar el lugar del punto decimal o si son parte de la medicin. En estos casos es
mejor escribir nicamente las cifras significativas de las cuales se tiene certeza y
despus localizar el punto decimal por una expresin de 10 elevado a la potencia
correspondiente.
Son cifras significativas los dgitos necesarios para expresar los resultados de una
medicin con la precisin con que se hizo. No se tienen en cuenta, el nmero de
ceros para situar el punto decimal.
Ejemplo:

65,4 tiene 3 cifras significativas.


4,5300 tiene 5 cifras significativas.
0,00018 = 1,8 x 10-3 tiene 2 cifras significativas.
6,02 x 1023 tiene 3 cifras significativas.

Los nmeros relacionados con enumeraciones o conteo, tan opuestos a medidas,


son naturalmente exactos y tienen un ilimitado nmero de cifras significativas.
No obstante, en algunos de estos casos puede ser difcil decidir que cifras son
significativas, sin una ms detallada informacin.
Por ejemplo, el nmero186000000 puede tener 3; 4;...9; cifras significativas.
Pero si se sabe que tiene cifras significativas sera preferible registrar el nmero
como 186,00 millones o como 1,86x108.

Estadstica Aplicada a Laboratorios

TECSUP PFR

Clculos con cifras significativas


Adicin y substraccin
En clculos de sumas o restas de nmeros, el resultado final no tiene ms cifras
significativas despus del lugar decimal que las de los datos con menor nmero
de ellas despus del punto decimal.
Ejemplo:
Peso del frasco ms las muestras
Peso del frasco slo
Peso de las muestras

11,2169 g.
10,8114 g.
0,04055 g.

Ejemplo:
Peso del frasco ms las muestras
Peso del frasco slo
Peso de las muestras

11,2169 g.
10,81 g.
0,04069 g.

El peso correcto de la muestra no es de 0,4069g. Sino de 0,41g.


3,16 + 2,7 = 5,9
83,42 72 = 11
47, 816 25 =22,816; si es exacto
Multiplicacin, divisin y extraccin de races. En estos clculos, el resultado final
no puede tener ms cifras significativas que los datos con menor nmero de
ellas.
Ejemplo:
73,24 x 4,52 = 331
1,684 / 0,023 = 72
38,7 6,22

8,416 x 50 = 420,8; si 50 es exacto.


5.

FUNCIONES
Si cada valor que la variable x pueda tomar le corresponde un nico valor de la
otra variable y, decimos que y es funcin de x y escribimos y=f(x), y se lee: y es
igual a f de x.

X es la variable independiente
Y es la variable dependiente
Ejemplo: La poblacin total P del Per es una funcin del tiempo t, y escribimos
p=f(t).
La tensin s de un muelle es funcin del peso w colocado al final del muelle, as:
s=f(w).
6

TECSUP PFR

Estadstica Aplicada a Laboratorios

Si y=f(x), se acostumbra por ejemplo, a colocar f(3), cuando para calcular y, la


variable x toma el valor 3.
Si y = f(x) = x2 y f(3), luego y = 32 = 9
Coordenadas rectangulares
Representaciones
Una curva es una representacin grfica de la relacin entre variables.
Ejemplo: Grficos de barras, histogramas, poligonales, etc.
6.

DISTRIBUCIN DE FRECUENCIAS - PROCESO DE TABULACIN DE LA


INFORMACIN
Planteamiento terico-conceptual
Luego que producto de la observacin estadstica se captaron los datos y
atributos del fenmeno-objeto de estudio, se hace necesario proceder a tabular
esta informacin con el objetivo de conocer estadsticamente el fenmeno. A
este proceso de tabulacin de la informacin se la llama distribucin de
frecuencias, y lo definiremos como un mtodo para organizar y resumir datos
en una tabla estadstica. Para una mejor comprensin del tema es necesario
adoptar las siguientes concepciones tericas:
Es obvio que todo estudio estadstico ha de estar referido a un conjunto o
coleccin de personas o cosas. Este conjunto de personas o casas es lo que
denominaremos poblacin. Que se entiende como un conjunto de medidas
cuando stas provienen de una caracterstica cuantitativa, o como el recuento de
todas las unidades que presentan una caracterstica comn, siendo esta
cualitativa. Tambin se puede definir a la poblacin como un conjunto de
elementos o unidades.
Las personas o cosas que forman parte de la poblacin se denominan
elementos. En sentido estadstico un elemento puede ser algo con existencia
real (tangible y observable), como un automvil o una casa, o algo ms abstracto
como la temperatura, un voto, o un intervalo de tiempo.
A su vez cada elemento de la poblacin tiene una serie de caracterstica que
puede ser objeto del estudio estadstico. As por ejemplo, si consideramos como
elemento a una persona, podemos distinguir en ella los siguientes caracteres:
Sexo, edad, nivel de estudios, profesin, peso, altura, color de cabellos, etc.
Luego por tanto de cada elemento de la poblacin podremos estudiar uno o ms
aspectos cualidades o caracteres.
La poblacin puede ser segn su tamao de dos tipos:

Estadstica Aplicada a Laboratorios

TECSUP PFR

Poblacin finita: cuando el nmero de elementos es finito, por ejemplo el


nmero de estudiantes de la Universidad de Panam, o de una facultad o
especialidad.
Poblacin infinita: cuando el nmero de elementos es infinito, o tan grande
que pudiese considerarse infinitos. Como por ejemplo si se realizase un
estudio sobre los productos disponibles en el mercado, hay tantos y de tantas
cualidades y precios que esta poblacin podra considerarse infinita.
Cuando se toman todas las unidades o elementos de la poblacin, se habla de
una investigacin exhaustiva o censo. Si slo se investiga una parte, se le
considera como investigacin parcial o muestra.
Ahora bien, normalmente en un estudio estadstico, no se puede trabajar con
todos los elementos de la poblacin sino que se realiza sobre un subconjunto de
la misma. Este subconjunto puede ser una muestra, cuando se toman un
determinado nmero de elementos de la poblacin, sin que en principio tengan
nada en comn; o una subpoblacin, que es el conjunto de la poblacin
formada por todos los elementos de la poblacin que comparten una
determinada caracterstica, por ejemplo de los valores de pH y la subpoblacin
formada por los valores menores de 7.
La muestra para que sea representativa de la poblacin, requiere que las
unidades o elementos sean seleccionadas al azar, en tal forma que cada una de
ellas tenga la misma posibilidad de ser seleccionada.
Para los smbolos utilizados en poblaciones se usan letras maysculas o griegas,
en cambio para las muestras, se emplean letras minsculas.
Tipos de variables
Los tipos de variables fundamentales, por lo menos para este tema, sern los
siguientes:
a. Variables Cuantitativas o Cardinales: susceptibles de medicin
cuantitativa; o sea son las que se describen por medio de nmeros y las que
a su vez comprenden:
1. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de
valores es a lo sumo numerable. Sus valores pueden representarse
siempre por X1, X2, , Xn.; y slo se pueden asociar a un nmero
entero, es decir, aquellas que por su naturaleza no admiten un
fraccionamiento de la unidad
Ejemplos:

Nmero de hijos en el hogar


Pginas de un libro

TECSUP PFR

Estadstica Aplicada a Laboratorios

2. Variable Cuantitativa Continua: son aquellas que pueden tomar


todos los valores de un intervalo de nmeros reales, o sea que no se
pueden expresar mediante un nmero entero, es decir, aquellas que
por su naturaleza admiten que entre dos valores cualquiera la variable
puede tomar cualquier valor intermedio.
Ejemplos:

Variable temperatura en grados Celsius


intervalos).
Variable longitud en cm. (escala de razn).
Variable peso.
Variable tiempo

(escala

de

b. Variables Cualitativas (Atributos) u Ordinales: susceptibles de


ordenacin, pero no de medicin cuantitativa, reflejan generalmente los
atributos del fenmeno. Los atributos son aquellos caracteres que para su
definicin precisan de palabras, es decir, no le podemos asignar un nmero,
y a su vez las podemos clasificar en:

Ordenables: aquellas que sugieren una ordenacin, por ejemplo la


graduacin militar, el nivel de estudios, etc.

No Ordenables: aquellas que slo admiten un ordenamiento


alfabtico, pero no establece orden por su naturaleza, por ejemplo el
color del cabello, sexo, estado civil, etc.

Nota: no obstante en muchos casos el tratamiento estadstico hace que a


variables discretas las trabajemos como si fuesen continua y viceversa (por
ejemplo la edad de las personas variable continua- se trabaja en aos
cumplidos variable discreta-. En otros casos las variables cualitativas (atributos)
se trabajan como variables cuantitativas, por ejemplo en los concursos de belleza
se recurre a un sistema de calificacin por puntos.
6.1.

LA REPRESENTACIN DE LOS DATOS: FRECUENCIAS


Cuando se rene gran cantidad de datos primarios es til distribuirlos en
clases y categoras y determinar las frecuencias de las clases, o sea, el
nmero de elementos que pertenecen a una clase. El ordenamiento
tabular de los datos por clases conjuntamente con las frecuencias de
clases se denomina distribucin de frecuencias
El caso que se describe a continuacin, variables discretas se denomina
distribucin por conteo de valores individuales. Supongamos que un
determinado colectivo, representado por la variable estadstica Xi, que
para mayor sencillez consideraremos como unidimensional; sean los datos
de esta variable (representativo cada uno de ellos de un suceso) X1, X2,
, Xn (supuesto que sean n los valores de la variable considerada.).
9

Estadstica Aplicada a Laboratorios

TECSUP PFR

Definiremos como frecuencia de un dato el nmero de veces que este


aparece en el colectivo; consecuentemente, si una variable estadstica
toma r valores, cada uno de los cuales puede repetirse un cierto nmero
de veces, podramos decir que el nmero de datos representado por la
variable seran N, siendo N la suma de las respectivas frecuencias de cada
dato (N=Xi).
Este valor N ser denominado como frecuencia total, mientras que la
frecuencia de cada dato recibir el nombre de frecuencia absoluta o
simplemente frecuencia (fi). La frecuencia absoluta nos habla del nmero
de veces que un dato aparece en un colectivo, ms ello no nos dice
demasiado en orden al establecimiento de comparaciones sobre la
importancia de este dato. Para obtener una idea de la importancia que un
dato posee en el seno de un colectivo, puesto que no es suficiente
concepto de frecuencia, se utiliza el concepto frecuencia relativa, que se
definir como: el coeficiente entre la frecuencia absoluta del dato
considerado y la frecuencia total (fr=fi/Xi).
Para efectos prcticos, asumiremos las siguientes definiciones de
frecuencias:

Frecuencias absolutas: es el nmero de veces que aparece en la


muestra dicho valor de la variable y se representa por fi.

Frecuencias relativas: es el cociente entre la frecuencia absoluta y


el tamao de la muestra. La denotaremos por fri

Frecuencias absoluta acumulada: para poder calcular este tipo de


frecuencias hay que tener en cuenta que la variable estadstica ha de
ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho
sentido el clculo de esta frecuencia. La frecuencia absoluta acumulada
de un valor de la variable, es el nmero de veces que ha aparecido en
la muestra un valor menor o igual que el de la variable y lo
representaremos por fa, se puede acumular, en la tabla estadstica) en
orden ascendente (fa) o descendente (fa).

Frecuencia relativa acumulada: al igual que en el caso anterior se


calcula como el cociente entre la frecuencia absoluta acumulada
dividido por el tamao de la muestra (N) y la denotaremos por fra.

Resumiendo lo expuesto, si Xi es un valor de la variable, podemos


representar por fi a su frecuencia y por fi/Xi a su frecuencia relativa
(siendo Xi=N o la frecuencia total). Para el conjunto de los valores de la
variable Xi tendramos, as la tabla #1, compresiva de la informacin
sobre dicha variable, a travs de las respectivas frecuencias:

10

TECSUP PFR

Estadstica Aplicada a Laboratorios

Tabla 1: Variables Discretas


Valores de la
variable Xi
(datos)
X1
X2

Xn

frecuencias
absolutas
fi
f1
f2

fn

Frecuencias relativas
fi/N
f1/N
f2/N

fn/N

Donde: N=fi y fi/N=1


Otro es el caso de las clases representadas en forma de intervalos,
variables continuas, llamados intervalos de clases que poseen extremos
llamados limite inferior y limite superior. Un intervalo se dice que es
abierto o no cerrado, por un extremo si no contiene el lmite
correspondiente.
La longitud, tamao o amplitud de un intervalo de clases (C) es la
diferencia entre los limites superior e inferior (C=lim sup lim inf). El
Recorrido (R) es la diferencia entre el dato mayor y el menor del conjunto
da datos en estudio (R=Xn X1)
En el caso de variables continuas ser necesario fijar intervalos de
frecuencias para llegar a un resumen efectivo de la informacin original.
A menudo es necesario representar una clase, o ms particularmente, un
intervalo por un nico valor, este representar a todo el intervalo y se
denominar marca de clases. Matemticamente el punto medio de cada
intervalo corresponde a lo que denominamos marca de clase, se denotar
por Xi, y constituir el valor representativo de cada intervalo. El nmero
de observaciones que correspondan a cada intervalo se denominar
frecuencias absolutas.
Tabla 2: Variables Continuas
Intervalos
(C)
X1-X2
X2-X3

Xn-1-Xn

Marcas de Clases
Xi
X1
X2

Xn

Frecuencias Absolutas
fi
f1
f2

fn

X X
Xi = ------------- = Marca de clases
2
N = fi = Nmero de observaciones
C = X X = Amplitud del intervalo

11

Estadstica Aplicada a Laboratorios

TECSUP PFR

Donde
Por ltimo, en el caso de variables no mensurables, dicha tabla adoptar
una forma como la siguiente:
Tabla 3: Variable Ordinales
Variable
Caracterstica A
Caracterstica B

Caracterstica Z

Frecuencias
fA
fB

fZ

Reglas Generales para construir las distribuciones de frecuencias


por intervalos
1. Efectuar el arreglo ordenado (Ascendente o Descendente) de la
poblacin o muestra A = ( X1, X2, , Xn ).
2. Obtener la frecuencia absoluta mediante la tabulacin o conteo de los
datos (homogenizar los datos).
3. Encontrar el rango o recorrido (R) de los datos: R = (valor mayor
valor menor) = Xn X1.
4. Encontrar el nmero de clases o intervalos de clases (K). El nmero
de clases debe ser tal que se evite el detalle innecesario, pero que no
conduzca a la perdida de ms informacin de la que puede ser
convenientemente ignorada. Para este clculo se utiliza la formula
de Sturges K = 1 + 3.322 (log. N).
5. Determinar la amplitud de la clase (C):
R
C =--K
Nota: el resultado siempre se aproxima al siguiente entero si excede al
nmero entero obtenido, no importa el monto de la fraccin excedida al
entero.
C = se lee se aproxima a
6. El dato menor (X1) ser el limite inferior de la primera clase. A l
se le suma C y se obtiene el lmite superior de la primera clase
que tambin ser el lmite inferior de la segunda clase. Luego se suma
nuevamente C y se obtiene el lmite superior del segundo intervalo e
inferior del tercero. Y as sucesivamente hasta que el limite superior
corresponda o supere ligeramente el valor mayor (Xn), la cantidad de
12

TECSUP PFR

Estadstica Aplicada a Laboratorios

clases obtenidas deber corresponder con el nmero K calculado


mediante la formula de Sturges.
7. Una vez construidos los intervalos se calculan, mediante tabulacin de
acuerdo a los lmites inferiores y superiores de las clases, las
frecuencias absolutas, relativasp, orcentuales y acumulados
correspondientes.
8. Con los datos obtenidos se procede a construir la tabla de distribucin
de frecuencia.
6.2.

TABLA DE DISTRIBUCIN DE FRECUENCIAS


Una de los primeros pasos que se realizan en cualquier estudio estadstico
es la tabulacin de resultados, es decir, recoger la informacin de la
muestra resumida en una tabla, que denominaremos distribucin de
frecuencias, en la que cada valor de la variable se le asocian
determinados nmeros que representan el nmero de veces que ha
aparecido, su proporcin con respecto a otros valores de la variable, etc.
Por tanto, llamaremos distribucin de frecuencias a un agrupamiento de
datos en clases acompaada de sus frecuencias: frecuencias absolutas,
frecuencias relativa o frecuencia porcentuales. En caso de que las
variables estn al menos en escala ordinal aparecen opcionalmente las
frecuencias acumuladas
absolutas, y
frecuencias
acumuladas
porcentuales. Las distribuciones de frecuencias varan en dependencia si
corresponden a una variable discreta o a una variable continua.
Ejemplo 1: Variable Continua
Laboratorio de TECSUP estaba interesado en efectuar un anlisis de sus
valores. Uno de los factores que ms interesaba a la administracin era
el de los pesos. Se escogi al azar una muestra aleatoria de 30 valores y
se anot como sigue:
77.97
43.66
32.67

13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99


29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97
43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68

Solucin:
1. Efectuar el arreglo ordenado de la poblacin o muestra:
A= (7.42, 8.15, , , , 90.99, 93.91)
Donde: X1 = valor mnimo = 7.42
Xn= valor mximo = 93.91
2. Encontrar el rengo o recorrido de los datos: R
R = valor mayor valor menor = Xn X1 = 93.91 7.42 = 86.49

13

Estadstica Aplicada a Laboratorios

TECSUP PFR

3. Encontrar en nmero de clases K , segn la frmula de Sturges:


K=1+3.322(log N)
Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la
muestra:
K = 1 + 3.322 (log 30)
= 1 + 3.322 (1.477) el log fue obtenido segn calculadora
= 1+ 4.9069
= 5.9069 ~ 6 aproximado al siguiente entero
4. Determinar la amplitud de la clase: C
R
86.49
C = -------- = ---------- = 14.415
K
6
Nota: obsrvese que se va a trabajar con una cifra significativa ms
cmoda, o sea como los datos estn dados en centsimos, se calculo C
hasta el milsimo para evitar que algn dato coincida con el lmite de
clases
Clases
7.420 21.835
21.835 36.250
36.250 50.665
50.665 65.080
65.080 79.495
79.495 93.910
Total

P.M.
fi
fr
fa
Xi
14.628 10 0.33 10
29.043 4 0.13 14
43.458 5 0.17 19
57.873 3 0.10 22
72.288 3 0.10 25
86.703 5 0.17 30
XXX
30 1.00 XXX

fa

fra

fra

30
20
16
11
8
5
XXX

0.33
0.46
0.63
0.73
0.83
1.00
XXX

1.00
0.67
0.54
0.37
0.27
0.17
XXX

Tabla 4.

Simbologa utilizada:
XI
fi
fr
fa
fa
fra
fra

= Punto medio o marca de clases.


= frecuencia absoluta.
= frecuencia relativa.
= frecuencia absoluta acumulada descendente.
= frecuencia absoluta acumulada ascendente.
= frecuencia relativa acumulada descendente.
= frecuencia relativa acumulada ascendente.

Nota:

Obsrvese que el lmite inferior de la primera clase es el valor mnimo


( X1=7.42 ) y el lmite superior es el resultado de X1+C = 7.42+14.415
= 21.835.

14

TECSUP PFR

6.3.

Estadstica Aplicada a Laboratorios

El lmite inferior de la siguiente clase es igual al lmite superior de la


clase anterior y el lmite superior es el resultado de adicionarle
nuevamente la amplitud de la clase (C).

Obsrvese que el lmite superior de la ltima clase es igual al valor


mayor (Xn=93.91).

REPRESENTACIONES
FRECUENCIAS

GRFICAS

DE

LA

DISTRIBUCIN

DE

a. Los Cuadros estadsticos:


La estadstica es una disciplina que nos ensea a organizar los datos
recogidos para poder analizar sus caractersticas y posteriormente
inferir, a partir de las muestras tomadas, las caractersticas de la
poblacin investigada. Los cuadros o tablas corresponden a arreglos
sistemticos de los datos por filas y columnas y son un buen
complemento del texto en los informes
El primer procedimiento estadstico consiste en tabular los datos
segn el tipo de escala de medicin utilizada. La tabulacin de los
datos conlleva a representar la informacin a travs de tablas que de
forma general contiene las siguientes partes fundamentales:
1.

Numeracin (siempre que se presenten dos o ms cuadros).

Ttulo: es la descripcin que precede al cuadro, la cul


deber estar redactada en forma breve y clara, de tal
manera que exprese su contenido, siguiendo el
ordenamiento del mismo. Es necesario abarcar las
caractersticas: Qu, Dnde, Cmo y Cundo.

Encabezamiento: se refiere al nmero de atributos o


variables que se quieren representar en el cuadro y se
anotan como denominaciones de las columnas y
subcolumnas; puede ser unidimensional, bidimensonial o
multidimensional. Los ttulos de las columnas van en
maysculas y los subttulos en minsculas.

Cuerpo: es el conjunto de columnas y lneas que contiene el


cuadro en orden vertical y horizontal, donde se colocan los
datos sobre los hechos observados.

Pie: se refiere a la informacin adicional necesaria a saber:


notas, llamadas, fuentes de informacin y otras. Se anotan
en el espacio debajo de la lnea inferior que limita el cuerpo
del cuadro.

15

Estadstica Aplicada a Laboratorios

TECSUP PFR

b. Los Grficos Estadsticos


El grfico es quizs el auxiliar ms valioso y utilizado para expresar
datos estadsticos, este elemento no le aade novedad a las tablas o
cuadros estadsticos, es de fcil comprensin y accesible a un nmero
mayor de usuarios. El grfico adems de expresar visualmente los
hechos ms importantes de la informacin numrica, permite una
mejor y ms fcil comprensin y ahorra tiempo y esfuerzo en el
anlisis de datos estadsticos al facilitar su apreciacin visual en forma
conjunta.
6.4.

HISTOGRAMAS DE FRECUENCIAS
Un histograma es un grfico que sirve para representar una distribucin
de frecuencias. Este grfico est formado por un conjunto de rectngulos
(caso de variables continuas) que tienen como base un eje horizontal
(generalmente el eje de las abscisas o de las X), y como centro los puntos
medios de las clases. Los anchos de las clases y las reas de los
rectngulos son proporcionales a las frecuencias de las clases. En el caso
de las variables discretas el grfico consiste de un conjunto de barras
verticales en lugar de rectngulos, hallndose cada barra sobre la
observacin respectiva y con una altura proporcional a la frecuencia de la
observacin.

Figura 1. Histograma de frecuencias

6.5.

POLGONO DE FRECUENCIAS
El polgono de frecuencias es un grfico formado por lneas quebradas,
que tiene los centros de las clases representadas en un eje horizontal (eje
de las X) y las frecuencias de las clases en un eje vertical (eje de las Y).
La frecuencia correspondiente a cada centro de clase se seala mediante
un punto y luego los puntos consecutivos se unen por lneas rectas.

16

TECSUP PFR

Estadstica Aplicada a Laboratorios

Del correspondiente histograma se puede lograr el polgono de frecuencia


uniendo los puntos medios de las bases superiores de cada rectngulo
mediante lneas rectas.

Figura 2. Histograma y Polgono de Frecuencias

6.6.

OJIVAS
Las ojivas se refieren a los grficos que se construyen utilizando una
distribucin acumulativa de frecuencias, el orden de acumulacin se aplica
al cuadro de distribucin de frecuencia y puede ser descendente (fa,
fra) o ascendente (fa, fra). La figura que se forma al unir los puntos
del polgono de frecuencias acumulativas es lo contrario del orden
anunciado (por ejemplo si se utiliz el orden descendente en la
acumulacin de los datos en el cuadro, la ojiva resulta ser ascendente).

Figura 3. Frecuencias absolutas acumuladas y relativs acumuladas (Ojiva)

17

Estadstica Aplicada a Laboratorios

TECSUP PFR

Ejercicios
Problema 1: Variable Continua
En la siguiente tabla se presentan los pesos de 40 estudiantes de la
Universidad de Panam, con una aproximacin de una libra.
138
146
168
146
161

164
164
126
173
145

150
140
138
142
135

132
147
176
147
142

144
136
163
135
150

125
148
118
153
156

149
152
154
140
145

157
144
165
135
126

Construya una tabla de distribucin de frecuencias, indicando las


frecuencias absolutas, relativas, absolutas acumuladas y relativas
acumuladas.

Construya un histograma, un polgono de frecuencias y una ojiva de la


distribucin.

Problema 2: Variable Discreta


Una encuesta entre un grupo de madres-solteras, para analizar los
problemas econmicos que enfrentan, en determinada comunidad; arroj
los siguientes resultados acerca del nmero de nios en el hogar.
1
1
2
3
2

4
1
1
1
5

2
2
1
3
1

3
1
2
4
4

5
4
1
1
2

3
1
2
1
3

5
2
3
3
1

3
1
2
5
2

3
4
3
4
5

5
1
3
2
1

Construya una tabla de distribucin de frecuencias y sus respectivas


representaciones grficas.

Problema 3
Una compaa de transmisiones electrnicas registro como sigue el
nmero de recibos de servicios prestados por cada una de sus 20
sucursales en el ltimo mes:
808
335

641
459

628
727

731
848

641
229

446
347

342
309

545
649

910
575

568
757

La compaa piensa que una tienda realmente no puede esperar alcanzar


financieramente el punto de equilibrio con menos de 456 servicios
prestados mensualmente. Adems su poltica es dar un bono financiero

18

TECSUP PFR

Estadstica Aplicada a Laboratorios

al gerente que genere ms de 683 servicios al mes. Disponga los datos en


un arreglo e indique cuntas sucursales no estn consiguiendo el punto
de equilibrio y cuntas ganan el bono.
Problema 4
Una agencia de viajes ofrece precios especiales en ciertas travesas por el
Caribe. Planea ofrecer varios de estos paseos durante la prxima
temporada invernal en el hemisferio norte y desea enviar folletos a
posibles clientes. A fin de obtener el mayor provecho por cada unidad
monetaria gastada en publicidad, necesita la distribucin de las edades de
los pasajeros de travesas anteriores. Se consider que si participaban
pocas personas de un grupo de edad en los paseos no sera econmico
enviar un gran nmero de folletos a personas de ese grupo de edad. La
agencia seleccion una muestra de 40 clientes anteriores de sus archivos
y se registr sus edades, como sigue:
77
54
58
63
45

7.

18
56
58
62
66

63
36
53
62
83

84
50
62
61
63

38
50
62
61
63

54
34
43
52
58

50
44
52
60
61

59
41
53
60
71

Organice los datos en una tabla de distribucin de frecuencias de las


edades de los clientes en la muestra.

Cul grupo de edad presenta la mayor frecuencia relativa?, Cul la


menor frecuencia relativa?.

Saque conclusiones que puedan ayudar a la agencia a planear una


campaa de publicidad para los paseos invernales.

MEDIDAS DE TENDENCIA CENTRAL


Otra forma de describir datos numricos, las medidas de tendencia central,
comnmente conocidas como promedios. Estos promedios son la media
aritmtica, la mediana, y la moda.
Que es un promedio?
A menudo necesitamos un solo nmero para representar una serie de datos. Este
nico nmero puede ser considerado como tpico de todos los datos.
La palabra promedio es usada frecuentemente en nuestro lenguaje diario,
normalmente nos referimos a la media aritmtica, pero podra referirse a
cualquiera de los promedios. Un trmino mas preciso que promedio es una
medida de tendencia central.
19

Estadstica Aplicada a Laboratorios

7.1.

TECSUP PFR

LA MEDIA ARITMTICA
La medida de tendencia central mas ampliamente usada es la media
aritmtica, usualmente abreviada como media.
Propiedades de la media aritmtica
1. Puede ser calculada en distribuciones con escala relativa e intervalar.

Todos los valores son incluidos en el cmputo de la media.


Una serie de datos solo tiene una media.
Es una medida muy til para comparar dos o ms poblaciones.
Es la nica medida de tendencia central donde la suma de las
desviaciones de cada valor respecto a la media es igual a cero. Por
lo tanto podemos considerar a la media como el punto de balance
de una serie de datos.

Desventajas de la media aritmtica

Si alguno de los valores es extremadamente grande o


extremadamente pequeo, la media no es el promedio apropiado para
representar la serie de datos.

No se puede determinar si en una distribucin de frecuencias hay


intervalos de clase abiertos.

La media para datos agrupados


Frecuentemente los datos ests agrupados y presentados en
distribucin de frecuencias. Si esto sucede es normalmente
recuperar los datos crudos originales. Por consiguiente si
calcular la media u otro estadstico es necesario estimarlo en
distribucin de frecuencias.

forma de
imposible
queremos
base a la

La media aritmtica de una muestra de datos organizados en una


distribucin de frecuencias se calcula de la siguiente manera:

Donde:
_
X
X
f
fX
n

X = fX
n

simboliza la media de la muestra.


es la marca de clase.
es la frecuencia de clase.
es la suma de los productos de f por X.
es la suma de las frecuencias de clase.

20

TECSUP PFR

Estadstica Aplicada a Laboratorios

Ejemplo:
Calcular la media aritmtica de la siguiente distribucin de frecuencia del
nmero de meses de duracin de una muestra de 40 sacos de sulfato de
calcio.

duracin de las
sacos (meses)
15 - 19
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49

Nmero
de sacos
2
1
4
15
10
5
3

Primeramente, calculamos la marca de clase, para despus calcular el


producto fX y proceder finalmente a calcular la sumatoria fX y aplicar la
frmula.

LI
15
20
25
30
35
40
45

LS
19
24
29
34
39
44
49

X = fx
n

X
17
22
27
32
37
42
47

F
2
1
4
15
10
5
3
n =40

= 1365
40

FX
34
22
108
480
370
210
141
fX = 1365
= 34.12

Para datos crudos, es decir datos no agrupados, la media es la suma de


todos los valores dividida entre el nmero total de valores. Para encontrar
la media de una muestra se usa la siguiente frmula:
X = x
n

21

Estadstica Aplicada a Laboratorios

TECSUP PFR

Donde:
X
X
n

simboliza la media de la muestra.


es la suma de todos los valores de la muestra.
es el nmero de valores que tiene la muestra.

La media de la muestra, o cualquier otra medida basada en los datos de


la muestra se le denomina estadstico.

Ejemplo:
El peso neto del contenido de cinco botellas de perfume Giorgio
seleccionadas de forma aleatoria de la lnea de produccin son (en
gramos): 85.4, 85.3, 84.9, 85.4, y 84.0. Cul es la media aritmtica de
las observaciones muestreadas?

X = x
n

= 85.4+85.3+84.9+85.4+84.0 =85.0
5

La media de la muestra y la media de la poblacin se calculan de la


misma manera pero tienen diferente notacin:
=

X
N

Donde:
simboliza la media de la poblacin.
N simboliza el tamao de la poblacin, es decir, el nmero total de
observaciones en la poblacin.
As como todas las medidas caractersticas de una muestra son llamadas
estadsticos, las medidas caractersticas de una poblacin se denominan
parmetros.

7.2.

LA MEDIANA
Cuando una serie de datos contiene uno o dos valores muy grandes o
muy pequeos, la media aritmtica no es representativa. El valor central
en tales problemas puede ser mejor descrito usando una medida de
tendencia central llamada mediana.

22

TECSUP PFR

Estadstica Aplicada a Laboratorios

Mediana. Es el punto medio de los valores de una serie de datos


despus de haber sido ordenados de acuerdo a su magnitud. Hay tantos
valores antes que la mediana como posteriores en el arreglo de datos
Ejemplo:
El peso neto del contenido de cinco botellas de perfume Giorgio
seleccionadas de forma aleatoria de la lnea de produccin son (en
gramos): 85.4, 85.3, 84.9, 85.4, y 84.0. Cul es la mediana de las
observaciones muestreadas?
85.4
85.4
85.3
84.9
84.0

mediana =

Ejemplo:
Una muestra de los volmenes medidos en una titulacin revel estas
cantidades: 35, 29, 30, 25, 32, 35 mililitros. Cul es la mediana?.
25
29
30
32
35
35

mediana

En este caso la mediana se calcula obteniendo la media de las dos


observaciones centrales.

X = 30 + 32 = 31
2

Propiedades de la mediana:
1. Hay solo una mediana en una serie de datos.

No es afectada por los valores extremos ( altos o bajos).


Puede ser calculada en distribuciones de frecuencia con intervalos
abiertos, si no se encuentra en el intervalo abierto.

La mediana para datos agrupados


Como no conocemos los datos crudos, es necesario estimar la mediana
mediante los siguientes pasos:

23

Estadstica Aplicada a Laboratorios

TECSUP PFR

1. Calcular el valor n / 2

Localizar el intervalo de clase donde se encuentra la mediana


(intervalo mediano). Esto se hace encontrando el primer intervalo
de clase donde la frecuencia acumulada es igual o mayor que n /
2.

Aplicando la siguiente frmula con los valores del intervalo


mediano:

X = LSR +

( n / 2 ) fa
f

( tic )

Ejemplo:
Calcular mediana de la siguiente distribucin de frecuencia del nmero de
meses de duracin de una muestra de 40 sacos de sulfato de calcio.

Duracin de los
sacos (meses)
15 - 19
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49

Nmero
de sacos
2
1
4
15
10
5
3

El valor de ( n / 2 ) = 40 / 2 = 20

El intervalo mediano es:


LI
15
20
25
30
35
40
45
N=

LS
19
24
29
34
39
44
49

LSR
19.5
24.5
29.5
34.5
39.5
44.5
49.5

X
17
22
27
32
37
42
47

F
2
1
4
15
10
5
3
40

24

FA
2
3
7
22
32
37
40

intervalo mediano

TECSUP PFR

Estadstica Aplicada a Laboratorios

2. Aplicar la frmula:

X = LSR +

7.3.

(n / 2) fa
f

(tic )

= 34.5 +

( 20 22 )
15

(5)

= 33.83

LA MODA
La moda es la medida de tendencia central especialmente til para
describir mediciones de tipo ordinal y nominal.
La moda. Es
frecuentemente.

el

valor

de

la

observacin

que

aparece

ms

Propiedades de la moda

La moda se puede determinar en todos los tipos de mediciones


(nominal, ordinal, intervalar, y relativa).
La moda tiene la ventaja de no ser afectada por valores extremos.
Al igual que la mediana, puede ser calculada en distribuciones con
intervalos abiertos.

Desventajas de la moda

En muchas series de datos no hay moda porque ningn valor aparece


ms de una vez.
En algunas series de datos hay ms de una moda, en este caso uno
podra preguntarse Cual es el valor representativo de la serie de
datos?

Ejemplo
El peso neto del contenido de cinco botellas de perfume Giorgio
seleccionadas de forma aleatoria de la lnea de produccin son (en
gramos): 85.4, 85.3, 84.9, 85.4, y 84.0. Cul es la moda de las
observaciones muestreadas?.
Moda = 85.4
La moda para datos agrupados
Para datos agrupados en una distribucin de frecuencia, la moda puede
ser estimada por la marca de clase del intervalo que contenga la
frecuencia de clase ms grande. Si hay dos intervalos contiguos con
frecuencia mxima la moda ser la media aritmtica de las dos marcas de
clase. Si hay dos o ms intervalos no contiguos con frecuencia de clase
mxima habr dos o ms modas que sers las marcas de clase de dichos
intervalos.

25

Estadstica Aplicada a Laboratorios

TECSUP PFR

Ejemplo: Calcular las modas de las siguientes distribuciones de


frecuencia:

7.4.

5
10
15
20
25
30

4
3
15
9
10
7

5
10
15
20
25
30

4
8
6
7
8
8

moda = 15

hay dos
modas:
moda = 10

moda = (25+30) / 2
= 27.5

5
10
15
20
25
30

4
4
4
4
4
4

no hay
moda

CUARTILES POBLACIONALES Y MUESTRALES


Los cuartiles poblacionales dividen la distribucin de frecuencias en
cuartos. El segundo cuartil, q2, coincide con la mediana.

Figura 4.

Se define el primer cuartil muestral Q1 como el valor para el cual el 25%


de las observaciones son menores o iguales que Q1 y el 75% de las
observaciones son mayores o iguales que Q1.
Se define el tercer cuartil muestral Q3 como el valor para el cual el 75%
de las observaciones son menores o iguales que Q3 y el 25% de las
observaciones son mayores o iguales que Q3.
7.5.

PERCENTILES POBLACIONALES Y MUESTRALES


En general, para 0<p<1 definimos un percentil (poblacional o muestral)
de orden p y lo representamos por q(p), como aquel valor de la curva de
frecuencias (poblacional o muestral) que deja a su izquierda un p100%
de la masa (de la poblacin o de la muestra). Notar que:

q(0,5) = mediana.

26

TECSUP PFR

Estadstica Aplicada a Laboratorios

q(0,25) = Q1 primer cuartil (Lower Quartile).


q(0,75) = Q3 tercer cuartil (Upper Quartile).
Mediana Ordenamos los valores de menor a mayor:

La mediana es el valor medio de los dos centrales

Si eliminramos el valor 21.000 obtendramos m = 950, valor muy


cercano al obtenido (1.000). Cuando hay valores atpicos, la mediana es
un valor ms significativo que la media ya que est mucho menos
influenciada por los valores atpicos.

Primer cuartil Q1 deja el 25% de los datos por debajo de l. En este


caso el 25% de 10 datos es 2,5, por tanto tomamos como primer
cuartil el tercer dato (despus de ordenarlos).
Q1 = 900

Tercer cuartil Q3 Deja el 75% de los datos por debajo de l. En este


caso el 75% de 10 datos es 7,5, por tanto tomamos como tercer
cuartil el octavo dato (despus de ordenarlos).
Q3 = 1200

En este caso el recorrido intercuartlico es:


IQR = Q3 = 1200 900 = 300

Figura 5.

27

Estadstica Aplicada a Laboratorios

8.

TECSUP PFR

MEDIDAS DE DISPERSIN

Figura 6.

Una vez que se han recogido los valores que toman las variables de
nuestro estudio (datos), procederemos al anlisis descriptivo de los
mismos. Para variables categricas o cualitativas, como el sexo por
ejemplo, se quiere conocer el nmero de casos en cada una de las
categoras, reflejando habitualmente el porcentaje que representan del
total, y expresndolo en una tabla de frecuencias.
Para variables numricas, en las que puede haber un gran nmero de
valores observados distintos, se ha de optar por un mtodo de anlisis
distinto, respondiendo a las siguientes preguntas:
a)
b)

Alrededor de qu valor se agrupan los datos?.


Supuesto que se agrupan alrededor de un nmero, cmo lo
hacen? muy concentrados? muy dispersos?.

Las medidas de centralizacin vienen a responder a la primera pregunta.


La medida ms evidente que podemos calcular para describir un conjunto
de observaciones numricas es su valor.
8.1.

RANGO
En el caso de datos sueltos se obtiene buscando el mximo y el mnimo
valor entre los datos, que se llaman valores extremos, y se realiza la
diferencia.

28

TECSUP PFR

Estadstica Aplicada a Laboratorios

Ejemplo: Tenemos los siguientes datos, que representan los montos de


40 prstamos personales, en dlares, en una compaa financiera de
consumidores:
900, 500, 450, 1900, 1200, 1250, 2500, 550, 1650, 1200, 1000, 550, 650,
600, 750, 1300,
850, 350, 1400, 700, 300, 1100, 300, 1600, 1500, 1000, 1800, 900, 500,
650, 2000, 1000, 2000, 450, 750, 850, 600, 3000, 350 y 1500.
Rango = 3000 - 300 = 2700
Si disponemos de datos agrupados, no sabemos los valores mximos o
mnimos, por lo que no podemos calcularlo.
Ventajas:

Es fcil de calcular y es comnmente usado como una medida burda,


pero eficaz de variabilidad.
Es comprensible para cualquier persona, an cuando no conozca de
estadstica.

Desventajas:

8.2.

La desventaja ms importante es que posiblemente deseemos saber


ms respecto a la dispersin de los datos, que lo que podemos
obtener del rango, puesto que ste refleja nicamente los valores
extremos, ignorando la informacin intermedia.
No es aconsejable usarlo para muestras grandes, pues puede
conducirnos a errores. Pero s, por lo comn, se lo utiliza en muestras
pequeas de 4 a 5 observaciones, sobre todo en el control estadstico
de la calidad.

DESVIACIN MEDIA
En teora, la desviacin puede referirse a cada una de las medidas de
tendencia central: media, mediana o moda; pero el inters se suele
centrar en la medida de la desviacin con respecto a la media, que
llamaremos desviacin media.
Puede definirse como la media aritmtica de las desviaciones de cada uno
de los valores con respecto a la media aritmtica de la distribucin, y de
indica as:
DM

xx
N

29

Estadstica Aplicada a Laboratorios

TECSUP PFR

Ntese que se toman las desviaciones en valor absoluto, es decir, que la


frmula no distingue si la diferencia de cada valor de la variable con la
media es en ms o en menos.
Ya se habr advertido que esta expresin sirve para calcular la desviacin
media en el caso de datos sin agrupar. Veamos un ejemplo:
Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviacin media
de estos valores.

x
2
2
4
4
4
5
6
7
8
8

xx

-3
3
-1
-1
-1
0
1
2
3
3

3
3
1
1
1
0
1
2
3
3

DM = 1,8
Veamos ahora cmo se calcula la desviacin media en el caso de datos
agrupados en intervalos.

n x

DM
i

Donde observamos que ahora las desviaciones van multiplicadas por las
frecuencias de los intervalos correspondientes.
Adems, las desviaciones son de cada centro, o marca de clase, a la
media aritmtica. Es decir,

DM

n (x
i

30

x)

TECSUP PFR

Estadstica Aplicada a Laboratorios

Ejemplo: Para hallar la desviacin media de la siguiente tabla referida a


las edades de los 100 empleados de una cierta empresa:
Clase
16-20
20-24
24-28
28-32
32-36
36-40
40-44
44-48
48-52

ni
2
8
8
18
20
18
15
8
3

Veamos cmo se procede:

Clase

ni

xm

ni xm

xx

ni x x

16-20
20-24
24-28
28-32
32-36
36-40
40-44
44-48
48-52

2
8
8
18
20
18
18
8
3
100

18
22

36
176

16,72

33,44

DM = 6,09
La desviacin media viene a indicar el grado de concentracin o de
dispersin de los valores de la variable. Si es muy alta, indica gran
dispersin; si es muy baja refleja un buen agrupamiento y que los valores
son parecidos entre s.
La desviacin media se puede utilizar como medida de dispersin en
todas aquellas distribuciones en las que la medida de tendencia central
ms significativas haya sido la media.
Sin embargo, para las mismas distribuciones es mucho ms significativa la
desviacin tpica, que estudiaremos a continuacin, y eso hace que el uso
de la desviacin media sea cada vez ms restringido.

31

Estadstica Aplicada a Laboratorios

8.3.

TECSUP PFR

VARIANZA Y DESVIACIN ESTNDAR


La varianza y la desviacin estndar estn basadas en las desviaciones
respecto a la media.
Varianza. Es la media aritmtica de las desviaciones cuadradas de los
datos respecto a la media.
Desviacin estndar. Es la raz cuadrada de la varianza.
Varianza y desviacin estndar para datos agrupados
Si los datos estn agrupados en una distribucin de frecuencia, la
varianza y la desviacin estndar de la muestra se pueden aproximar
sustituyendo fx por x y fx por x. Las frmulas quedaran de la
siguiente manera:

Ejemplo:
Calcular la varianza y la desviacin estndar de la siguiente distribucin
de frecuencia del nmero de meses de duracin de una muestra de 40
bateras para coche.

Duracin de las
bateras (meses)
15 - 19
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49

Nmero de bateras
2
1
4
15
10
5
3

Primeramente, calculamos la marca de clase, para despus calcular los


productos fX y fx para proceder finalmente a calcular las sumatorias
SfX y fx y aplicar las frmulas.

32

TECSUP PFR

Estadstica Aplicada a Laboratorios

LI

LS

FX

FX2

15

19

17

34

578

20

24

22

22

484

25

29

27

108

2916

30

34

32

15

480

15360

35

39

37

10

370

13690

40

44

42

210

8820

45

49

47

141

6627

n=40

1365

48475

Varianza y Desviacin Estndar para datos no agrupados


Las frmulas de la varianza de la poblacin y de la muestra son
ligeramente diferentes. (Recordemos que poblacin es la totalidad de las
observaciones estudiadas). Aparte de algunos smbolos, la frmula de la
varianza de la muestra vara ligeramente en el denominador.
La raz cuadrada de la varianza de la poblacin es llamada desviacin
estndar de la poblacin.

33

Estadstica Aplicada a Laboratorios

TECSUP PFR

Ejemplo:
El peso neto del contenido de cinco botellas de perfume Giorgo
seleccionadas de forma aleatoria de la lnea de produccin son (en
gramos): 85.4, 85.3, 84.9 y 84.0. Cul es la varianza y la desviacin
estndar de las observaciones muestreadas?
X
85.4
85.3
84.9
85.4
84.0
425.0
8.4

X2
7293.16
7276.09
7208.01
7293.16
7056.00
36126.42

COEFICIENTE DE VARIACIN (PEARSON)


Otra medida que se suele utilizar es el coeficiente de variacin
(CV).
Es una medida de dispersin relativa de los datos y se calcula
dividiendo la desviacin estndar muestral por la media y
multiplicando el cociente por 100. Su utilidad estriba en que nos
permite comparar la dispersin o variabilidad de dos o ms
grupos.
El coeficiente de variacin se utiliza para comparar la
homogeneidad de dos series de datos, an cuando estn
expresados en distintas unidades de medida.
Se debe destacar que a medida que el coeficiente de variacin
disminuye, se observa una mayor homogeneidad en los datos o lo
que es lo mismo, los datos estn ms concentrados alrededor del
promedio.
As, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56,
83 y 79Kg) cuya medida es de 69,6Kg y su desviacin estndar (S)
= 10,44Kg y la talla de los mismo (150, 170, 135, 180 y 195cm)
cuya medida es de 166cm y su desviacin estn de 21,3cm. La
pregunta sera: qu distribucin es ms dispersa, el peso o la
talla? Si comparamos las desviaciones estndar observamos que
la desviacin de la talla es mucho mayor; sin embargo, no
podemos comparar dos variables que tienen escalas de medidas
diferentes, por lo que calculamos los coeficientes de variacin:
CV de la variable peso =

CV de la variable talla =

34

TECSUP PFR

Estadstica Aplicada a Laboratorios

Respuesta: La distribucin ms dispersa es la del peso.

1. Los resultados siguientes representan las calificaciones del examen


final de un curso de estadstica elemental.
23
80
52
41
60
34

60
77
10
71
78
67

79
81
64
83
89
17

32
95
75
54
76
82

57
41
78
64
84
69

74
65
25
72
48
74

52
92
80
88
84
63

70
85
98
62
90
80

82
55
81
74
15
85

36
76
67
43
79
61

a) Haga una distribucin de frecuencia, de frecuencia acumulada, de


frecuencia relativa y de frecuencia relativa acumulada, represente
grficamente cada una de ellas.
b) Calcule la media aritmtica. la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza.
2. El gerente de calidad, una firma especializada en Lima quiere saber
como estn distribuidas los anlisis (miligramos) realizados en el
laboratorio. Seleccion una muestra que son mostradas abajo.

1170
1332
1471
1826
1440
1119
1352

1207
1418
1399
1309
1421
1020
1340

1581
1949
1041
1426
1329
1400
1459

Miligramos del anlisis


1277 1305 1472 1077
1403 1744 1532 1219
1379 821 1558 1118
1288 1394 1545 1032
1407 718 1457 1449
1442 1593 1962 1263
1823 1451 1138 1592

35

1319
896
1533
1289
1455
1788
982

1537
1500
1510
695
2051
1501
1981

1849
1671
1760
803
1677
1668
1091

Estadstica Aplicada a Laboratorios

TECSUP PFR

a) Haga una distribucin de frecuencia, de frecuencia acumulada, de


frecuencia relativa y de frecuencia relativa acumulada, represente
grficamente cada una de ellas.
b) Calcule la media aritmtica. la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza.
3. Los siguientes datos representan la duracin de la vida en meses de
30 bombas de combustible similares.
24
3
18

36
72
48

4
66
71

40
78
22

16
3
57

5
28
9

18
67
54

6
72
4

30
15
12

60
3
72

a) Haga una distribucin de frecuencia, de frecuencia acumulada, de


frecuencia relativa y de frecuencia relativa acumulada, represente
grficamente cada una de ellas.
b) Calcule la media aritmtica. la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza.
4. Los siguientes datos representan la duracin de la vida, en segundos,
de 50 moscas sometidas a un nuevo atomizador en un experimento
de laboratorio controlado.
17
12
16
13
7

20
14
18
7
10

10
6
8
18
5

9
9
13
7
14

23
13
3
10
15

13
6
32
4
10

12
7
9
27
9

19
10
7
19
6

18
13
10
16
7

24
7
11
8
15

a) Haga una distribucin de frecuencia, de frecuencia acumulada, de


frecuencia relativa y de frecuencia relativa acumulada, represente
grficamente cada una de ellas.
b) Calcule la media aritmtica. la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza.
5. Se aplic una encuesta donde se les pide indicar el nmero de
muestras tomadas en un mes por los laboratoristas de una empresa.
Los resultados son los siguientes:
3
2
5
4
9
4

5
4
6
14
4
3

2
2
4
3
1
5

36

3
5
3
5
4
7

3
3
2
6
2
3

4
3
2
3
4
5

1
3
6
4
3
6

8
0
3
2
5
2

4
3
5
4
0
2

TECSUP PFR

Estadstica Aplicada a Laboratorios

a) Haga una distribucin de frecuencia, de frecuencia acumulada, de


frecuencia relativa y de frecuencia relativa acumulada, represente
grficamente cada una de ellas.
b) Calcule la media aritmtica. la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza.
6. La compaa Primax tiene varias sucursales en la zona metropolitana.
El nmero de cambios de aceite en la sucursal de un distrito de Lima
en 20 das son:
66
70

98
62

55
66

62
80

79
94

59
79

51
63

90
73

72
71

56
85

a) Haga una distribucin de frecuencia, de frecuencia acumulada, de


frecuencia relativa y de frecuencia relativa acumulada, represente
grficamente cada una de ellas.
b) Calcule la media aritmtica. la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza.
9.

ERRORES
Las mediciones que se realizan en la ciencia y la ingeniera tienen por objetivo el
valor numrico de determinada magnitud. Este valor numrico no corresponde al
valor real de la magnitud que se mide porque los resultados que se obtienen en
el proceso de medicin son aproximados debido a la presencia del error
experimental.
Para tratar de manera crtica dichos valores y obtener conclusiones provechosas
es necesario valorar el error asociado a la magnitud en cuestin durante el
proceso de medicin. En la prctica no es posible determinar el error de la
magnitud que se mide. La mayor dificultad radica en que la medicin va
acompaada de la interaccin de gran cantidad de factores que influyen en uno
u otro grado en el resultado de la medicin. Sin embargo, s es posible establecer
los lmites dentro de los cuales se encuentra el verdadero valor de la magnitud
medida. Cuanto ms prximos se encuentren los limites, ms precisa ser la
medida. Es conveniente advertir que el objetivo del experimentador no es solo
procurar que el error experimental sea lo ms reducido posible, sino que sea lo
suficientemente pequeo para no afectar las conclusiones que se puedan inferir
de los resultados experimentales.
9.1.

CLASIFICACIN DE ERRORES
El error experimental es inherente al proceso de medicin, su valor solo
se puede estimar .Dicho error se define como la diferencia entre el valor
verdadero y el valor medido de la magnitud.
Debido a que los errores pueden surgir por muy distintas causas, para
analizarlos los cientficos los han clasificado en dos amplias categoras:
37

Estadstica Aplicada a Laboratorios

TECSUP PFR

1. Errores sistemticos.
2. Errores aleatorios o accidentales.
Errores sistemticos
Los errores sistemticos son los que en principio se pueden evitar,
corregir o compensar. Estos alteran la medida porque no toman en
cuenta alguna circunstancia que afecta al resultado siempre igual, dando
lugar a un alejamiento hacia un sentido del valor verdadero. Se les llama
sistemticos porque son consistentes, pues cuando estn presentes se
obtienen valores que son ms altos o ms bajos que el valor verdadero.
Los errores sistemticos se pueden originar por:
a) Defectos o falta de calibracin de los instrumentos de medicin.
b) El estado del medio ambiente en que se realizan los experimentos.
c) Malos hbitos y forma peculiar de realizar las observaciones por parte
del experimentador.
d) La limitada precisin de las constantes universales de las ecuaciones
que se usan en el diseo y calibracin de los instrumentos.
No obstante, si se conoce la fuente de error sistemtico se puede
considerar su influencia en la magnitud que se mide, y en una serie de
casos se puede excluir total o parcialmente, bien sea eliminando la fuente
que lo provoca, o introduciendo la correccin. Es conveniente sealar que
la eliminacin de los errores sistemticos en los resultados experimentales
se logra en forma eficiente si se toma en cuenta lo siguiente:
a) El experimentador debe esperar y descubrir la existencia de errores
sistemticos.
b) Una vez detectado el error se estimar su influencia en el resultado.
c) La importancia del error se valorar en funcin de la exactitud total
que se desea y del costo y dificultad de las posibles alternativas para
evitarlo.
d) Finalmente se estudian los medios para eliminar o disminuir el error,
para lo cual se deber sustituir el equipo defectuoso, controlar las
condiciones del experimento, cambiar totalmente el mtodo de
medicin.
La deteccin de errores sistemticos es de gran importancia debido a que
la presencia inadvertida de este tipo de errores puede conducir a un
resultado aparentemente digno de confianza.
Algunos errores determinados comunes son:
1. Errores instrumentales. Equipo defectuoso, pesas sin calibrar, material
de vidrio sin calibrar.

38

TECSUP PFR

Estadstica Aplicada a Laboratorios

2. Impurezas en los reactivos. La cantidad de reactivo empleado y por


tanto la cantidad de impurezas aadidas suelen ser proporcionales al
tamao de la muestra que se toma para el anlisis.
3. Errores de operacin. Estos incluyen los errores personales y pueden
reducirse por la experiencia y cuidado del analista en las
manipulaciones fsicas que efecta. Las operaciones en que presenta
dichos errores incluyen la transferencia de soluciones, efervescencia
durante la distribucin de muestra, muestras que no estn bien secas,
etc. son difciles de corregir. Otros errores personales son los errores
matemticos en los clculos y los prejuicios al estimar mediciones.
4. Errores de mtodo. Estos son los errores ms graves de un anlisis.
La mayora de los errores anteriores pueden reducirse al mnimo o
corregirse, pero los errores inherentes al mtodo no pueden
cambiarse a menos que se modifiquen las condiciones de la
determinacin. Algunas fuentes de errores metdicos son las
coprecipitaciones de impurezas, la ligera solubilidad del precipitado,
las reacciones secundarias, las reacciones incompletas, las impurezas
de los reactivos, etc. En algunos casos las correcciones sern
relativamente sencillas, por ejemplo corriendo un blanco de reactivo.
La determinacin de un blanco es un anlisis que se hace nicamente
a los reactivos obtenidos a los de la muestra. Cuando estos errores se
hacen intolerables, el anlisis deber enfocarse de distinta manera. No
obstante, en ciertos casos es necesario aceptar un mtodo
determinado por carecer de otro mejor.
Errores aleatorios o accidentales
Por lo general, los errores accidentales se deben a la suma de gran
nmero de perturbaciones individuales y fluctuantes que se combinan
para dar lugar a que la repeticin de una misma medicin en cada
ocasin resulte en un valor distinto. Estos errores siempre estn
presentes en las mediciones y en ausencia de errores sistemticos son
causas de lecturas sucesivas que se dispersan alrededor del valor
verdadero de la magnitud de la medida. Por ejemplo, al medir varias
veces el perodo de un pndulo con la ayuda de un cronmetro se
obtienen resultados ligeramente diferentes debido a la presencia de
errores aleatorios. Estos errores pueden ser originados por el observador
al leer la escala, por las pequeas irregularidades del movimiento del
pndulo, etc. Si no hay errores sistemticos presentes, algunos resultados
sern mayores y otros menores que el del valor verdadero.
En general, los errores aleatorios no se pueden eliminar, pero s estimar.
Se debe observar que los errores sistemticos y accidentales se
diferencian en que los primeros producen efectos sistemticos y los
segundos efectos aleatorios. Las fuentes de error pueden originar tanto
efectos sistemticos como aleatorios. Por ejemplo, al operar un
cronmetro no solo se podr ponerlo en marcha y detenerlo en forma
irregular al medir el perodo de un pndulo, introduciendo un error

39

Estadstica Aplicada a Laboratorios

TECSUP PFR

aleatorio, sino que se podr tener la tendencia a ponerlo en marcha


despus y detenerlo antes, lo que conducir a un error sistemtico.
Aunque no se puede determinar el valor del error aleatorio, producto de
las fluctuaciones personales, de las alteraciones del medio ambiente, de la
falta de calibracin de algunos de los instrumentos que se utilizan, etc., s
es posible estimar su valor mediante mtodos estadsticos.
9.2.

CUANTIFICACIN DE LOS ERRORES


Error absoluto
La diferencia entre el valor verdadero y el valor medido, con respecto al
signo, es el error absoluto y se expresa en las mismas unidades que la
medicin. Si se analiza una muestra de 2,62 g. considerando un peso de
2,52 g., el error absoluto es 0,10g. Cuando el valor medido es el
promedio de varias mediciones, el error se llama error medio. El error
medio tambin puede calcularse tomando el promedio de la diferencia,
con respecto al signo, de los resultados individuales de las pruebas, con
respecto al valor verdadero.
Error relativo
El error absoluto o medio expresado como porcentaje del valor verdadero
es el error relativo. El anlisis anterior tiene un error relativo de (-0,10 /
2,62) x 100% = -3.8%, es necesario insistir en que ninguno de los
nmeros es realmente verdadero y el error relativo o exactitud se basa
en la media de dos conjuntos de mediciones.
El error relativo puede expresarse en unidades distintas al porcentaje. En
investigaciones muy exactas, generalmente los errores relativos son
menores de 1% y es conveniente emplear unidades ms pequeas. Un
error de 1% es equivalente a una parte de 100. Tambin equivale a 10
partes de 1000. Esta ltima unidad se emplea comnmente para expresar
incertidumbres pequeas. Es decir la incertidumbre se expresa en partes
por millar, se abrevia ppm. El nmero 23 expresado en partes por millar
del nmero 6725, ser 23 partes por 6725 3,4 ppmm. Las partes por
millar se emplean a menudo para expresar la precisin de mediciones.
Ejemplo: los resultados de un anlisis son 36,97%, en comparacin con el
valor aceptado de 37,06%. Cul es el valor error relativo en partes por
millar?
Error absoluto = 39,97% - 37,06% = -0,09%
Error relativo =

0,09
1000% 2,4ppm
37,06

40

TECSUP PFR

Estadstica Aplicada a Laboratorios

10. RECHAZO DE UN RESULTADO (VALORES ATPICOS, OUTLINERS)


10.1. PRUEBA DE LA Q
Con frecuencia, al efectuar una serie de rplicas de anlisis, uno de los
resultados obtenidos ser muy distinto de los otros. Habr que decidir si
debe rechazarse o tenerse en cuenta. Desafortunadamente, no existen
criterios uniformes que puedan emplearse para decidir si un resultado
sospechoso pueda atribuirse a error accidental o a variacin aleatoria. La
nica base confiable para el rechazo es cuando puede decirse que se ha
cometido algn error especfico al obtener el dato dudoso. El resultado no
debe conservarse cuando se sabe que se ha cometido un error para
obtenerlo.
Coeficiente de rechazo. Q en el nivel de confianza del 90 por ciento.
Nmero de
observaciones
3
4
5
6
7
8
9
10

Q
0,94
0,76
0,64
0,56
0,51
0,47
0,44
0,41
0,00

Tabla 5.

La expresin y el sentido comn pueden servir tambin como base


prctica para juzgar la validez de una observacin particular, como una
prueba estadstica. Con frecuencia, el analista experto tendr una buena
idea de la precisin que pueda separase en determinado mtodo y
reconocer los resultados sospechosos.
Se han sugerido muchas pruebas estadsticas para determinar si una
observacin debe rechazarse. En todas ellas se establece el mbito dentro
del cual debern encontrarse las observaciones estadsticamente
significativas. La dificultad en todas ellas es determinar dicho mbito.
Cuando es demasiada pequea se rechazarn datos correctos y cuando
es demasiado grande se incluirn medidas errneas en proporcin
demasiado elevada. La prueba del Q es una de las ms correctas desde el
punto de vista estadstico para nmeros pequeos de observaciones y se
recomienda cuando es necesario efectuar una comprobacin. La relacin
Q se calcula ordenando los datos en orden ascendente de valor. La
diferencia entre el nmero sospecho y se vecino ms cercano se divide
por el mbito, es decir, la diferencia entre el nmero mayor y el nmero
a
menor. Refirindose a la figura siguiente Q .
w

41

Estadstica Aplicada a Laboratorios

TECSUP PFR

w
a

Esta relacin se compara con los valores tabulados de Q. Si es igual o


mayor que el valor tabulado, se puede rechazar la observacin
sospechosa. En la tabla de valores de Q, se dan los valores tabulados de
Q en el nivel de confianza de 90%. Cuando Q excede al valor tabulado en
un nmero determinado de observaciones, entonces la observacin
dudosa puede rechazarse con el 90% de confianza de que se ha cometido
algn error en su obtencin.
Ejemplo: Se reportaron los siguientes conjuntos de anlisis de cloruros en
alcuotas tomadas por separado de un suero. Aparentemente uno de los
valores es errneo. Determnese si puede atribuirse esto a algn error
accidental 103; 106; 107; 114 meq/litro.
El resultado sospechoso es 114. Difiere de su vecino ms cercano, 107,
por 7 meq/litro. El mbito es 114 103 o sea 11 meq/litro. Q ser igual a
7/11=0,64. El valor tabulado para cuatro observaciones es 0,76. Como el
valor calculado para Q es menor que el valor tabulado para Q, no debe
rechazarse el resultado sospechoso.
Cuando se efectan pocas mediciones (por ejemplo de tres a cinco) la
discrepancia de mediciones debe ser bastante para que pueda rechazarse
alguna de ellas segn este criterio y es probable, que se incluyan
resultados errneos. Esto provocara un cambio significativo de la media
aritmtica, porque la media es muy influenciada por los valores
discordantes. Por este motivo se ha sugerido que la mediana se reporte
en vez de la media cuando no pueda rechazarse un nmero discordante
por haberse efectuado pocas mediciones. La mediana presenta la ventaja
de no estar muy influenciada por los valores discrepantes. En el ejemplo
anterior, la mediana sera el promedio de los valores centrales
106 107

106 . Esto se compara con una media de 108, que est ms


2
influencia por el nmero sospechoso.
Se sugiere el siguiente procedimiento para interpretar los datos cuando se
efectan de tres a cinco mediciones, si la precisin es considerablemente
ms baja de lo esperado y cuando una de las observaciones difiere
bastante del conjunto de datos.
1. Estimar la precisin que puede razonablemente esperarse para el
mtodo para decidir si un nmero en particular es en realidad dudosa.

Comprobar los datos que permitieron obtener dicho nmero para


observar si puede identificarse algn error definido.

42

TECSUP PFR

Estadstica Aplicada a Laboratorios

De ser posible efectese otro anlisis. Si el nuevo resultado concuerda


con los datos previamente obtenidos, probablemente deba rechazarse
el resultado sospechoso.

Cuando no puedan obtenerse nuevos datos, hgase la prueba del Q,


reportar la mediana en vez de la media cuando el conjunto de datos
sea pequeo.

10.2. PRUEBA DE GRUBBS


Determinaremos si una o dos observaciones de un conjunto de datos son
atpicos de acuerdo a la norma ISO/TEC 5725-2
Consideraciones de aplicacin:

Utilizacin de materiales homogneos.


Se asume que el conjunto de datos responde a una distribucin
normal.
Homogeneidad en las varianzas.

Una observacin atpica

Dado un conjunto de datos xi donde i= 1.... p, dispuestos en orden


ascendente, se determinar si la observacin ms grande (xp) es un
valor atpico, para ello se calcula:

Gp

(x p x)
s

Similarmente se calcula para la observacin pequea:

G1

( x x1 )
s

Luego se aplica el siguiente criterio de decisin:


a) Si la estadstica de prueba es menor o igual a su valor crtico de 5%,
el item probado es aceptado.
b) Si la estadstica de prueba es mayor que su valor crtico de 5%, y
menor a su valor crtico de 1% el item probado es rezagado.
c) Si la estadstica de prueba es mayor que su valor crtico de 1%, el
item probado, se le llama atpico.

43

Estadstica Aplicada a Laboratorios

TECSUP PFR

11. REGRESIN LINEAL SIMPLE. ANLISIS DE REGRESIN


Se considera que dos variables cuantitativas estn relacionadas entre s cuando
los valores de una de ellas varan de forma sistemtica con respecto a los valores
homnimos de la otra; en otras palabras, si tenemos dos variables, A y B, existe
relacin entre ellas si al aumentar los valores de A tambin lo hacen los de B, o
por el contrario si al aumentar los valores de A disminuyen los de B.
Si ponemos en relacin las dos variables A y B, compuestas por los valores
representados de la tabla azul, obtenemos el siguiente grfico:

Figura 7.

Un grfico de dispersin como el mostrado arriba es la forma ms sencilla de


comprobar la relacin entre las dos variables. En l hemos grafiado tambin la
tendencia de la distribucin, plasmada como una recta que trata de ajustarse a
los puntos del grfico. Ms adelante estudiaremos cmo trazar esta recta de dos
formas distintas.
Definicin de Relacin entre Variables
La relacin entre dos variables cuantitativas queda representada mediante la
lnea de mejor ajuste, que es la que esquematiza las condiciones de la nube de
puntos y de la relacin. Los componentes elementales de una lnea de ajuste y
por extensin de una relacin entre dos variables son:
La fuerza.
El sentido.
La Forma

44

TECSUP PFR

Estadstica Aplicada a Laboratorios

La fuerza mide el grado en que la lnea representa a la nube de puntos. Si la


nube es estrecha y alargada una lnea recta representar adecuadamente a la
nube de puntos y a la relacin y por tanto sta ser fuerte. Si por el contrario, la
nube de puntos tiene una tendencia elptica o circular, una lnea recta que trate
de representar a la misma ser consecuencia de una relacin dbil y poco
representativa, con amplios residuos.
El sentido de la relacin se refiere a cmo varan los valores de B con respecto
a A. Si al crecer los valores de la variable A lo hacen los de B, ser una relacin
positiva (a valores bajos de A le corresponden valores bajos de B). Si al
aumentar A, disminuye B, ser una relacin negativa (a valores bajos de A le
corresponden valores altos de B y viceversa).
La forma establece el tipo de lnea a emplear para definir el mejor ajuste. Se
pueden emplear tres tipos de lneas: una lnea recta, una curva monotnica y
una curva no monotnica.
En el caso de usar una recta, se admite que existe una proporcin entre la
diferencia entre dos valores A y la diferencia entre dos valores de B. A ese factor
de ajuste entre ambas series se le llama pendiente de la recta, y se asume que
es constante a lo largo de toda la recta de ajuste.
En el caso de usar una curva monotnica, ese factor de proporcin entre las
dos variables no es constante a lo largo de toda la recta, y por lo tanto la
pendiente de la misma es variable en su recorrido. Se dice entonces que la lnea
de ajuste es no lineal monotnica, puesto que la lnea se ha convertido en curva.
Sin embargo, lo que no vara es el sentido de la relacin: si la relacin es positiva
lo ser a lo largo de todo el recorrido de la curva y si es negativa, ser negativa
en toda la curva.
11.1. CLCULO DE LAS LNEAS DE AJUSTE Y SUS ECUACIONES.
El primer paso para la obtencin de la lnea de ajuste es escoger el
mtodo de representacin, que puede ser alguno de los siguientes:

45

Estadstica Aplicada a Laboratorios

TECSUP PFR

Describiremos en este artculo el primer caso: la representacin de la


relacin entre dos series de variables mediante rectas, que es el mtodo
ms comn. En primer lugar, veremos el mtodo de clculo de la lnea
de mnimos cuadrados o ecuacin de regresin lineal simple entre
dos variables, que a su vez es la ms utilizada de las rectas de ajuste.
Esta lnea es la que hace mnima la suma de los cuadrados de los
residuos, es decir, es aquella recta en la que las diferencias elevadas al
cuadrado entre los valores calculados por la ecuacin de la recta y los
valores reales de la serie, son las menores posibles.
Recordemos primero que la ecuacin general de la recta tiene la forma:

Con esta sencilla ecuacin podemos calcular para cualquier punto de una
recta, el valor que tomara Y a partir del conocimiento de su valor X, de la
pendiente de la recta (m) y del punto de corte sobre las ordenadas (b).
As, cuando tenemos una lnea recta convencional, el clculo de la
pendiente m es sencillo, y se obtiene poniendo en relacin el incremento
de las X con el incremento de las Y, para una distancia dada, de la forma:

En cuanto al parmetro b, ya hemos dicho que es el valor que adquiere el


punto de corte de la recta representada con el eje cartesiano de las Y
(ordenada). Dicho de otra forma, b es el valor de Y para X = 0, por lo que
se puede deducir con la ecuacin general si conocemos la pendiente de la
recta.
Una vez que hemos recordado estos conceptos bsicos acerca de la recta
y su ecuacin lineal, veamos cmo se calculan los valores m y b para la
lnea de ajuste de mnimos cuadrados o regresin lineal simple, aplicable
a series de puntos no alineados sobre las que buscamos la recta que
mejor se ajuste a su distribucin. En estos casos el clculo de m y de b se
realiza de la siguiente manera:

Donde
e
son las medias de x e y respectivamente. Son datos
conocidos pues proceden de los puntos de muestreo graficados a partir
de las series de datos.

46

TECSUP PFR

Estadstica Aplicada a Laboratorios

En realidad, calculando el parmetro m, ya podemos aplicar la ecuacin


general de la recta; en primer lugar para x = 0, con lo que obtenemos b,
y en segundo lugar para otro punto x que queramos. Con ello
obtendremos los valores de y correspondientes, pudiendo en
consecuencia dibujar dos puntos sobre el grfico que, unidos, darn lugar
a la recta de tendencia.
El problema de la lnea de mnimos cuadrados y de las regresiones
lineales simples es que no son resistentes a valores extremos en las
series, que pudieran ser anomalas en los datos. Este mtodo, por tanto,
puede ser engaoso si se dispone de muy pocos datos y valores extremos
en los mismos. Como medida de comparacin, se puede utilizar el
proceso de clculo de la recta resistente, cuyo proceso de clculo
describiremos a continuacin.
Para calcular la recta resistente, el primer paso es crear el grfico de
distribucin de la nube de puntos. Posteriormente se divide el grfico en
tres grupos con igual nmero de casos, y se calculan las medianas de
cada grupo:

Figura 8.

47

Estadstica Aplicada a Laboratorios

TECSUP PFR

Se calcula la pendiente m de la recta resistente, de la forma:

La ordenada de origen (punto de interseccin con el eje de las Y, o en


otras palabras, punto donde x=0 ), se calcula de la forma:

Dado que la lnea resistente se configura a partir de las medianas y no de


las medias, es mucho ms tolerante a los valores extremos en la serie, y
constituye un elemento de gran ayuda para contrastar y comparar la
validez de la recta de mnimos cuadrados resultante de la regresin
simple.
11.2. COEFICIENTE DE CORRELACIN LINEAL DE PEARSON.
El Coeficiente de Correlacin Lineal de Pearson es un ndice estadstico
que permite definir de forma ms concisa la relacin entre dos variables.
Su resultado es un valor que flucta entre 1 (correlacin perfecta de
sentido negativo) y +1 (correlacin perfecta de sentido positivo). Cuanto
ms cercanos al 0 sean los valores, indican una mayor debilidad de la
relacin o incluso ausencia de correlacin entre las dos variables.
Su clculo se basa en la expresin:

48

TECSUP PFR

Estadstica Aplicada a Laboratorios

O lo que es lo mismo: el coeficiente de correlacin lineal de Pearson se


calcula a partir de la covarianza de las dos series, dividido por el producto
de las desviaciones tpicas de las dos series, es decir:

Normalmente se utiliza la desviacin tpica verdadera y no la muestral:


obsrvese que el sumatorio de los residuos al cuadrado se multiplica por
1/n y no por 1/(n-1).
La interpretacin del ndice de Pearson es la siguiente:
r = 1 indica que la correlacin es positiva.
r = 0 indica la inexistencia de correlacin.
r = -1 indica que la correlacin es negativa.
Denominamos coeficiente de determinacin R2 como el coeficiente
que nos indica el porcentaje del ajuste que se ha conseguido con el
modelo lineal, es decir el porcentaje de la variacin de Y que se explica a
travs del modelo lineal que se ha estimado, es decir a travs del
comportamiento de X. A mayor porcentaje mejor es nuestro modelo para
predecir el comportamiento de la variable Y.

49

Estadstica Aplicada a Laboratorios

TECSUP PFR

Tambin se puede entender este coeficiente de determinacin como el


porcentaje de varianza explicada por la recta de regresin y su valor
siempre estar entre 0 y 1 y siempre es igual al cuadrado del coeficiente
de correlacin (r).

R2 =r2
Es una medida de la proximidad o de ajuste de la recta de regresin a la
nube de puntos. Tambin se le denomina bondad del ajuste.
1-R2 nos indica qu porcentaje de las variaciones no se explica a travs
del modelo de regresin, es como si fuera la varianza inexplicada que es
la varianza de los residuos.
Si el coeficiente de determinacin nos da bajo, el 75,3%, por lo que slo
conseguimos explicar el 75,3 % de las variaciones a travs del ajuste por
medio.

Figura 9. Ajuste de datos experimentales por un modelo lineal a) Caso de una


buena correlacin lineal; b) aceptable; c) es un caso en el prcticamente no hay
correlacin entre X e Y; d) tiene una buena correlacin pero el modelo lineal es
inadecuado.

50

TECSUP PFR

Estadstica Aplicada a Laboratorios

Figura 10.

Del diagrama anterior, cabe observar que no todos los puntos estn en la
lnea de regresin. Si todos lo estuvieran y, adems, si el nmero de
observaciones fuera suficientemente grande, no habra ningn error de
estimacin. En ese caso, no habra ninguna diferencia entre el valor
observado y el valor de la prediccin.
Como imaginamos, en los casos reales, las predicciones perfectas son
prcticamente imposibles y lo que necesitamos es una medida que
describa cmo de precisa es la prediccin de Y en funcin de X o,
inversamente, qu inexacta puede ser la estimacin.
A esta medida se le llama error estndar de estimacin y se denota
Syx. El error estndar de estimacin, es el mismo concepto que la
desviacin estndar, aunque sta mide la dispersin alrededor de la
media y el error estndar mide la dispersin alrededor de la lnea de
regresin.
Distribuciones de frecuencia
1. Los resultados siguientes representan las calificaciones del examen
final de un curso de estadstica elemental.
23
80
52
41
60
34

60
77
10
71
78
67

79
81
64
83
89
17

32
95
75
54
76
82

51

57
41
78
64
84
69

74
65
25
72
48
74

52
92
80
88
84
63

70
85
98
62
90
80

82
55
81
74
15
85

36
76
67
43
79
61

Estadstica Aplicada a Laboratorios

TECSUP PFR

a) Haga una distribucin de frecuencia, de frecuencia acumulada, de


frecuencia relativa y de frecuencia relativa acumulada, represente
grficamente cada una de ellas.
b) Calcule la media aritmtica la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza
2. El gerente de calidad, una firma especializada en Lima quiere saber
como estn distribuidas los anlisis (miligramos) realizados en el
laboratorio. Seleccion una muestra que son mostradas abajo.

1170
1332
1471
1826
1440
1119
1352

d)
e)
f)

1207
1418
1399
1309
1421
1020
1340

1581
1949
1041
1426
1329
1400
1459

Miligramos del anlisis


1277 1305 1472 1077
1403 1744 1532 1219
1379 821 1558 1118
1288 1394 1545 1032
1407 718 1457 1449
1442 1593 1962 1263
1823 1451 1138 1592

1319
896
1533
1289
1455
1788
982

1537
1500
1510
695
2051
1501
1981

1849
1671
1760
803
1677
1668
1091

Haga una distribucin de frecuencia, de frecuencia acumulada,


de frecuencia relativa y de frecuencia relativa acumulada,
represente grficamente cada una de ellas.
Calcule la media aritmtica la mediana, y la moda.
Calcule la desviacin media, la desviacin estndar, la varianza.

3. Los siguientes datos representan la duracin de la vida en meses de


30 bombas de combustible similares.
24
3
18

36
72
48

4
66
71

40
78
22

16
3
57

5
28
9

18
67
54

6
72
4

30
15
12

60
3
72

a) Haga una distribucin de frecuencia, de frecuencia acumulada,


de frecuencia relativa y de frecuencia relativa acumulada,
represente grficamente cada una de ellas.
b) Calcule la media aritmtica la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza.
4. Los siguientes datos representan la duracin de la vida, en segundos,
de 50 moscas sometidas a un nuevo atomizador en un experimento
de laboratorio controlado.
17
12
16
13
7

20
14
18
7
10

10
6
8
18
5

9
9
13
7
14

23
13
3
10
15

13
6
32
4
10

52

12
7
9
27
9

19
10
7
19
6

18
13
10
16
7

24
7
11
8
15

TECSUP PFR

Estadstica Aplicada a Laboratorios

a) Haga una distribucin de frecuencia, de frecuencia acumulada,


de frecuencia relativa y de frecuencia relativa acumulada,
represente grficamente cada una de ellas.
b) Calcule la media aritmtica la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza.
5. Se aplic una encuesta donde se les pide indicar el nmero de
muestras tomadas en un mes por los laboratoristas de una empresa.
Los resultados son los siguientes:
3
2
5
4
9
4

5
4
6
14
4
3

2
2
4
3
1
5

3
5
3
5
4
7

3
3
2
6
2
3

4
3
2
3
4
5

1
3
6
4
3
6

8
0
3
2
5
2

4
3
5
4
0
2

a) Haga una distribucin de frecuencia, de frecuencia acumulada,


de frecuencia relativa y de frecuencia relativa acumulada,
represente grficamente cada una de ellas.
b) Calcule la media aritmtica la mediana, y la moda.
c) Calcule la desviacin media, la desviacin estndar, la varianza.
6. La compaa Primax tiene varias sucursales en la zona metropolitana.
El nmero de cambios de aceite en la sucursal de un distrito de Lima
en 20 das son:
66
70
a)
b)
c)

98
62

55
66

62
80

79
94

59
79

51
63

90
73

72
71

56
85

Haga una distribucin de frecuencia, de frecuencia acumulada,


de frecuencia relativa y de frecuencia relativa acumulada,
represente grficamente cada una de ellas.
Calcule la media aritmtica la mediana, y la moda.
Calcule la desviacin media, la desviacin estndar, la varianza.

7. Calcular la desviacin media a partir del registro de las siguientes


edades de una muestra de 36 personas.

53

Estadstica Aplicada a Laboratorios

TECSUP PFR

8. Calcular la desviacin media a partir de la siguiente tabla de


frecuencia.

9. Calcule la desviacin media, varianza y desviacin estndar a partir de


los siguientes datos sin agrupar y agrupndolos en una tabla de
frecuencia tipo B (notar la variacin de las medidas de dispersin en
ambos casos).

10. Calcule la desviacin media, varianza y desviacin estndar a partir


del siguiente grfico de ojiva.

Figura 11. Histograma

54

TECSUP PFR

Estadstica Aplicada a Laboratorios

11. El cuadro que figura ms abajo da los caudales mensuales del ro


Rmac observados durante los meses del abril y mayo, desde 1988 a
2005 (la unidad de medida no se precisa).

Se desea ordenar estos datos y efectuar el anlisis siguiente:


1. Dar una representacin global de los caudales de abril y mayo.
Graficar mediante dos histogramas los datos resumidos
(recomendacin: agrupe los datos empleando tablas de frecuencia
con iguales intervalos de clase).

Calcular la media de los caudales de abril, y la media de los


caudales de mayo. Calcular la desviacin tpica de los caudales de
abril, y la desviacin tpica de los caudales de mayo.
Comparar los caudales de abril con los caudales de mayo, a partir
de la informacin suministrada en la segunda y tercera pregunta.
Realizar conclusiones sobre: media, mediana, moda, frecuencias,
desviaciones e histogramas de frecuencia.

55

Estadstica Aplicada a Laboratorios

TECSUP PFR

ANOTACIONES
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................

56

You might also like