Professional Documents
Culture Documents
DE TAMAULIPAS A.C
ANTOLOGÍA
BIOESTADISTICA I
1
ÍNDICE
2
Unidad III: Técnicas de Análisis Estadísticos
Objetivo de la unidad 32
3.1 Relación de Análisis e Interpretación. 32
3.2 El Test T 32
3.3 Análisis de Varianza 34
3.4 El Xi Cuadrado 35
3.5 Pruebas de Hipótesis 38
3.6 Solución de ejercicios 40
Actividades de Aprendizaje de la Unidad III 43
Síntesis de la Unidad III 43
Bibliografía y Fuentes Consultadas 44
3
OBJETIVO GENERAL DE LA ANTOLOGIA
La información contenida en ésta antología es un gran recurso para que el alumno comprenda los
temas enlistados en la carta descriptiva de la materia de Bioestadística I. Su lectura y consulta
constante será de gran ayuda para su entendimiento.
4
Introducción a la Bioestadística
La bioestadística es una rama de la estadística que se ocupa de los problemas planteados dentro de
las ciencias de la vida, como la biología, la medicina, entre otros. La bioestadística es una disciplina
aplicada ya que comprende el desarrollo y aplicación de métodos y de técnicas de análisis
cuantitativo para extraer información biológica de conjuntos de datos obtenidos desde la
experimentación o el muestreo.
El primer médico que utilizó métodos matemáticos para cuantificar variables de pacientes y sus
enfermedades fue el francés Pierre Charles-Alexandre Louis (1787-1872). La primera aplicación de la
Méthode numérique (que es como tituló a su obra y llamó a su método) es su clásico estudio de la
tuberculosis, que influyó en toda una generación de estudiantes.
Aplicaciones
5
UNIDAD I
Objetivo: Reconocer y analizar con ayuda de las herramientas estadísticas más apropiadas, los
datos extraídos de muestras o poblaciones.
La estadística busca entre otras cosas, describir las características típicas de conjuntos de datos. Las
medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central
de un conjunto de datos que nos ayudan a resumir la información en un sólo número. (Dawson, 2011)
Entre las medidas de tendencia central tenemos: Media Aritmética, Mediana y Moda. Se debe tomar
en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de
tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan
variables cuantitativas.
Una variable es una propiedad que puede fluctuar y cuya variación es susceptible de adoptar
diferentes valores, los cuales pueden medirse u observarse. (Dawson, 2011)
Tipos de variables:
Cualitativas: son aquellas que no pueden expresarse numéricamente. Sus posibles valores se
llaman modalidades o categorías. No se pueden asociar naturalmente a un número y no se
pueden hacer operaciones algebraicas con ellos. Ejemplo: Sexo, nivel de estudios, etc.
Cuantitativas: Son aquellas que se pueden expresar numéricamente:
6
Variables cuantitativas continuas son aquellas que pueden tomar los infinitos valores
de un intervalo, es decir, si entre dos valores son posibles infinitos valores
intermedios. Ejemplo: la altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75
Una variable no aleatoria (asociada al resultado de una experiencia que sí produce el mismo
resultado) está caracterizada por un valor para cada condición.
Una variable aleatoria está caracterizada por la llamada función densidad de probabilidad, a
partir de la cual se obtienen las probabilidades para sus posibles valores para cada condición.
(García Ramos, Ramos González, & Ruiz Garzón, 2008)
Los objetivos de la investigación científica se pueden entender, de un modo muy general, en términos
de encontrar y describir las variables de interés y las relaciones entre ellas, para el problema en
estudio.
La estadística es la ciencia que estudia los métodos que permiten realizar este proceso para variables
aleatorias. Estos métodos permiten resumir datos y acotar el papel de la casualidad (azar).
Estadística descriptiva: Trata de describir las variables aleatorias en las "muestras". El objetivo
esencial de la Estadística descriptiva es la caracterización de los conjuntos de datos numéricos; dicha
caracterización, pretende poner de manifiesto, las propiedades de estos conjuntos, lo cuál se puede
lograr de forma gráfica o analítica. (Guerra Bustillo, Menéndez Acuña, & Barrero Morera, 2011)
Estadística inductiva o inferencial: Trata de la generalización hacia las poblaciones de los resultados
obtenidos en las muestras y de las condiciones bajo las cuales estas conclusiones son válidas. Se
enfrenta básicamente con dos tipos de problemas:
7
El tamaño de la muestra es una característica a considerar para lograr una buena representatividad.
Los procedimientos de selección de muestra o de muestreos basados en el azar (procedimientos
aleatorios) son preferibles a los procedimientos de selección muestreos basado en el juicio del
investigador sobre cuáles elementos considerar en la muestra y cuáles no. Los muestreos aleatorios
son muestreos probabilísticos ya que es posible conocer la probabilidad que tiene cada muestra de
ser seleccionada. En el muestreo aleatorio simple, uno de los más utilizados, todas las unidades
tienen la misma posibilidad de formar parte de la muestra.
Estadística Descriptiva
La descripción completa de una variable aleatoria está dada por su función densidad de probabilidad
(fdp).
Afortunadamente una gran cantidad de variables de muy diversos campos están adecuadamente
descritas por unas pocas familias de fdps: binomial, Poisson, normal, gamma, etc.
Dentro de cada familia, cada fdp está caracterizada por unos pocos parámetros, típicamente dos:
media y varianza.
Por tanto la descripción de una variable indicará la familia a que pertenece la fdp y los parámetros
correspondientes.
8
Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma
probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de otros
y con la misma probabilidad. (Celis de la Rosa, 2014)
El histograma es una variedad especial de gráfico que, al igual que el diagrama de barras, utiliza
columnas para mostrar la frecuencia con que las características se presentan, pero difiere en que las
columnas no se separan y en que la escala horizontal es cuantitativa. Presenta las siguientes
características:
1. El área de trazo está formada por un eje vertical, con escala discreta, y un eje horizontal, con
escala cuantitativa discreta o continua.
2. El eje vertical corresponde a las frecuencias observadas, sean absolutas o relativas, y siempre
empieza en cero.
3. En el eje horizontal, se anota la escala en que se midió la variable que se describe. No es
indispensable que la escala empiece en cero.
4. Las barras se extienden desde el eje horizontal hasta que alcancen la frecuencia que
representan. Su ancho es igual al intervalo de clase en que se agruparon los datos
cuantitativos. Las barras no se separan, excepto cuando no existen elementos en la barra
adyacente.
5. El área de cada barra es igual a la proporción que el número de elementos en ese intervalo de
clase tiene en relación con el total de observaciones. (Balzarini, 2011)
9
1.2 Media Aritmética
E s e l s í m b o l o d e la m e d i a ar i t m é t i c a .
Ejemplo
Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.
10
Ejercicio de media aritmética
En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la
tabla 1. C a l c u l a l a p un t u a c i ó n m e d i a . (Celis de la Rosa, 2014)
xi fi xi · fi
[10, 20) 15 1 15
[ 3 0 , 4 0) 35 10 350
[50, 60 55 8 440
[ 6 0 , 7 0) 65 4 260
42 1 820
11
1.3 Mediana
Todos nuestros datos en forma creciente o decreciente, la mediana es aquel valor que deja sobre sí
el 50% (la mitad) de los datos y bajo sí el otro 50% (la otra mitad de los datos).
La m e d i a n a se representa por M e .
La m e d i a n a se puede h a l l a r sólo para va r i a b l e s c u a n t i t at i va s .
Cálculo de la mediana
1. O r d e n am o s los d a t os de m e n o r a m a yo r .
2. Si la serie tiene un n ú m e r o i m p a r d e m e d i da s la m e d i a n a es la p u n t u a c i ó n c e n t r a l
de la misma.
2, 3, 4, 4, 5, 5, 5, 6, 6 Me = 5
1.4 Moda
La moda de una muestra es aquel valor de la variable que se presenta con mayor frecuencia, es
decir, el que más se repite.
Se representa por M o .
Se puede hallar la m o da para va r i a b l e s c u a l i t a t i va s y c u a n t i t a t i va s .
H a l l a r la m o d a de la distribución:
2, 3, 3, 4, 4, 4, 5, 5 Mo= 4
Si en un grupo hay d o s o va r i a s p u n t u a c i o n e s con la m i s m a f r ec u e n c i a y esa frecuencia es
la máxima, la d i s t r i b u ci ó n es b i m o d a l o m u l t i m o d a l , es decir, tiene va r i a s m o d a s .
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9
12
PROPIEDADES DE LAS MEDIDAS DE TENDENCIA CENTRAL.
Propiedades de la mediana:
Es menos sensible que la media a oscilaciones de los valores de la variable.
Puede calcularse para datos agrupados en intervalos, incluso cuando uno de ellos no esta
acotado.
No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética
cuando la población es bastante heterogénea.
Propiedades de la moda:
Calculo sencillo
Interpretación muy clara
Al depender solo de las frecuencias, puede calcularse para las variables cualitativas
(García Ramos, Ramos González, & Ruiz Garzón, 2008)
13
La razón fundamental para utilizar la distribución de frecuencia de clases es proporcionar mejor
comunicación acerca del patrón establecido en los datos y facilitar la manipulación de los mismos.
Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información
obtenida de una investigación sea manejable con mayor facilidad.
Los datos que pueden tener tantos decimales como se desee y que entre cada dos de ellos siempre
puede haber otro, se llaman continuos. Al poder estar muy cerca unos de otros, no se pueden
estudiar de uno en uno y se agrupan en intervalos.
Las m e d i d a s d e d i s pe r s i ó n son:
1.8 Rango
El rango es la diferencia entre el valor máximo y el mínimo de un conjunto de datos de una
distribución estadística.
Desviación media
La d e s vi a c i ó n m e d i a es la m e d i a a r i t m ét i c a de los va l o r e s a b s o l u t o s de las
d e s vi a c i o n e s respecto a la m e d i a .
14
1.9 Varianza
La va r i a n za es la m e d i a a r i t m ét i c a del c u a d r a d o d e l a s de s vi a c i o n e s respecto a la
media.
(Ritchey, 2008)
Ejercicios de varianza
Calcular la varianza de la distribución:
15
9 , 3, 8, 8, 9, 8, 9, 18
C A L C U L A R L A V A R I A N Z A d e l a d i st r i b uc i ó n d e l a t a b l a 2 :
xi fi xi · fi xi2 · fi
[ 3 0 , 4 0) 35 10 350 12 250
[ 6 0 , 7 0) 65 4 260 16 900
42 1 820 88 050
16
Desviación típica o estándar
La varianza se expresa en unidades cuadradas que son difíciles de interpretar. Una medida de
dispersión expresada en las unidades originales es la desviación típica o desviación estándar, que es
igual a la raíz cuadrada de la varianza.
La d e s vi a c i ó n t í p i c a se representa por σ.
Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las
anteriores.
( R i t c h e y, 2 0 0 8 )
17
1 . 1 0 E j e r c i ci o s Pr op u e s t o s
Calcular la d e s vi a c i ó n t í p i c a de la distribución:
9 , 3, 8, 8, 9, 8, 9, 18
C a l c u l a r l a d e s vi a c i ó n t í pi c a d e l a d i s t r i b u c i ó n d e l a t a b l a 3 :
xi fi xi · fi xi2 · fi
[ 3 0 , 4 0) 35 10 350 12 250
[ 6 0 , 7 0) 65 4 260 16 900
42 1 820 88 050
(Ritchey, 2008)
18
Actividades de Aprendizaje de la Unidad I
Síntesis de la Unidad I
El abordar éste tema nos permite comprender el uso de la estadística, en este caso bioestadística, en
el ámbito médico. Nos brinda el tener un panorama más amplio sobre la estadística, la cuál se basa
en información obtenida en encuestas de muestras poblacionales que representan un todo.
Asimismo se da a conocer las herramientas más importantes para la elaboración de tendencias en los
análisis estadísticos básicos.
19
UNIDAD II
Objetivo de la Unidad
Según Pearson, se define como un índice que puede utilizarse para medir el grado de relación de dos
variables siempre y cuando ambas sean cuantitativas. (Álvarez Alva, 2002)
Regresión lineal
El objeto de un análisis de regresión es investigar la relación estadística que existe entre una variable
Para poder realizar esta investigación, se debe postular una relación funcional entre las variables.
Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la relación
lineal. Cuando solo existe una variable independiente, esto se reduce a una línea recta:
recta. (Nótese que hemos usado el símbolo especial para representar el valor de Y calculado por la
recta. Como veremos, el valor real de Y rara vez coincide exactamente con el valor calculado, por lo
que es importante hacer esta distinción.)
El parámetro b0, conocido como la "ordenada en el origen," nos indica cuánto es Y cuando X = 0. El
parámetro b1, conocido como la "pendiente," nos indica cuánto aumenta Y por cada aumento de una
unidad en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una
muestra de observaciones sobre las variables Y y X. En el análisis de regresión, estas estimaciones
se obtienen por medio del método de mínimos cuadrados.
20
El método de mínimos cuadrados consiste en calcular los parámetros de la variable independiente X,
y anotando en cada caso el correspondiente valor medio para la variable dependiente Y de la curva ó
línea seleccionada (X1,Y1)……(Xn,Yn) utilizando como criterio la minimización de la suma de los
cuadrados de los residuos ó errores. Que representados gráficamente, deberían caer sobre una
línea recta. (Díaz Portillo, 1992)
Diagrama de Dispersión
Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que
determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en
el eje vertical. Un diagrama de dispersión se llama también gráfico de dispersión.
Ejemplo
21
En éste gráfico se está representando los datos de peso y altura de una muestra poblacional, en
donde podemos observar que pese a la distribución de los puntos, existe una tendencia hacia una
línea recta.
Ejemplo
La Tabla 4, muestra las pérdidas de peso medias, observadas en 9 grupos de 25 escarabajos
Tribolium, después de 6 días de ser sometidos a distintos grados de humedades relativas. Se trata de
estudiar la relación lineal entre ambas variables y predecir la pérdida de peso media de los
escarabajos en función de la humedad.
Tabla 4
22
En primer lugar podemos realizar un gráfico de dispersión (figura 2) para ver cómo varía el peso
medio en función de la humedad.
Figura 2
Observamos que cuanto mayor es la humedad, menor es la pérdida de peso, además los puntos del
gráfico se ajustan bastante bien a una recta. Por lo que podemos pensar en el modelo lineal
23
2.3 Intensidad de una Regresión Lineal Simple
El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue
confirmado por su amigo Karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de
los descendientes (variable Y) a partir de los de sus padres (variable X). Estudiando la altura de
padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los
padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura, pero que
revelaban también una tendencia a regresar a la media.
El coeficiente de determinación, por otro lado, mide el porcentaje de la variación total en Y que es
explicado por la variación conjunta de las variables independientes. (Balzarini M. , Estadística y
biometría, 2013)
Para poder interpretar adecuadamente una regresión lineal es necesario que se respeten los
siguientes supuestos:
2. Para cada valor de X existe una sub población de valores de Y que tienen una distribución
normal.
4. Las medias de las sub poblaciones de Y forman una línea recta en la gráfica de correlación, lo
que se representa mediante la fórmula
24
Ejemplo
Imaginemos un análisis de regresión con “salario” como variable dependiente y “salini” (salario inicial)
y “expprev” (experiencia previa) como variables independientes. La figura 3 muestra el diagrama de
dispersión de salario sobre salini y expprev, y el plano de regresión en un plano tridimensional.
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin
_SPSS.pdf (Departamento de Materiales y Análisis de Datos, 2015)
Con una variable dependiente y dos independientes, necesitamos 3 ejes para poder representar el
correspondiente diagrama de dispersión. Y si en lugar de usar dos variables independientes
25
utilizaríamos tres, sería necesario un espacio de cuatro dimensiones para poder construir el
diagrama de dispersión. Y un espacio de cinco dimensiones para poder construir el diagrama
correspondiente a 4 variables independientes, etc.
Por lo tanto, con más de una variable independiente, la representación grafica de las relaciones
presentes en un modelo de regresión resulta poco intuitiva, muy complicada y poco útil.
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datos
yMultivariable/18reglin_SPSS.pdf (Departamento de Materiales y Análisis de Datos, 2015)
En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables
aleatorias. Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las notas de la
asignatura Estadística I y las de Matemáticas I. Una primera aproximación al problema consistiría en
dibujar en el plano de dispersión un punto por cada alumno: la primera coordenada de cada punto
sería su nota en estadística, mientras que la segunda sería su nota en matemáticas. Así,
obtendríamos una nube de puntos la cual podría indicarnos visualmente la existencia o no de algún
tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas.
Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado y
de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un
periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año de
forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en publicidad,
mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De esta manera,
obtendríamos una nube de puntos que nos indicaría el tipo de relación existente entre ambas
variables.
En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El
parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson cuyo valor
oscila entre –1 y +1. (Celis de la Rosa, 2014)
26
2.5 Cálculo del Coeficiente de Correlación
El coeficiente de correlación habla de la relación lineal entre dos variables en una población
bivariante. Puede asumir valores entre -1 y +1. Si la relación entre dos variables es perfectamente
lineal e inversa, r = –1. Si es lineal y directa, r = 1. Cuando las dos variables no están
correlacionadas, r = 0. Mientras más cerca esté el valor numérico del coeficiente de correlación a 1,
indistintamente del signo, más estrecha será la relación entre las dos variables. El coeficiente de
correlación poblacional se representa con la letra griega l, y su estadístico, r, se calcula mediante la
ecuación:
El coeficiente de correlación (r) es un número que indica el grado o intensidad de asociación entre las
variables X e Y. Su valor varía entre -1 y +1; esto es:
-1 ≤ r ≤ 1.
Si r=-1, la asociación es perfecta pero inversa; es decir, a valores altos de una variable le
corresponde valores bajos a la otra variable, y viceversa.
Luego puede verse que a medida que r se aproxime a -1 ó +1 la asociación es mayor, y cuando se
aproxima a cero la asociación disminuye o desaparece. (Celis de la Rosa, 2014)
27
2.6 Interpretación
Para interpretar el coeficiente de correlación utilizamos la siguiente escala (Tabla 5)
Valor Significado
0 Correlación nula
http://www.monografias.com/trabajos85/coeficiente-correlacion-karl-pearson/coeficiente-correlacion-karl-pearson.shtml
(Suárez Ibujes, 2015)
28
2.7 Ejercicios Propuestos
Calcular el coeficiente de correlación de la siguiente serie de datos (Tabla 6) de altura y peso de los
alumnos de una clase:
Tabla 6
Si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación
entre ambas variables: mientras más alto sea el alumno, mayor será su peso.
Si representáramos en un gráfico (Figura 4) los pares de valores de las dos variables la nube de
puntos se aproximaría a una recta.
Figura 4
http://www.aulafacil.com/CursoEstadistica/Lecc-12-est.htm (Aula Facil.com, 2015)
29
Sin embargo, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En
estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables,
por lo que convendría utilizar otro tipo de coeficiente más apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los
pares de valores en un gráfico y ver qué forma describe.
Los valores que puede tomar el coeficiente de correlación “r” son: -1 < r < 1
Si “r” > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra).
La correlación es tanto más fuerte cuando se aproxime a 1.
Por ejemplo: altura y peso, los alumnos más altos suelen pesar más.
Si “r < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra).
La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.
Por ejemplo: Peso y velocidad, los alumnos más gordos suelen correr menos.
Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación
(parabólica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir
obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este
resultado podría haberse debido al puro azar.
r = 0,719
Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo positivo.
http://www.aulafacil.com/CursoEstadistica/Lecc-12-est.htm (Aula Facil.com, 2015)
30
Actividades de Aprendizaje de la Unidad II
1. Elabora Síntesis en Power Point del tema Correlación entre dos Variables.
2. Realiza los Ejercicios de las Actividades de Aprendizaje correspondientes al tema Coeficiente
de Correlación, sustituyendo valores en fórmulas.
3. Participa en el foro “Coeficiente de Correlación y Regresión Lineal”.
4. Resuelve cuestionario de la unidad.
Síntesis de la Unidad II
31
UNIDAD III
Objetivo de la Unidad
Una de las etapas más relevantes en el proceso de Investigación, es el análisis e interpretación de los
resultados; con el apoyo de las técnicas estadísticas es posible hacer predicciones, mismas que son
consideradas como herramientas básicas para la toma de decisiones.
La Teoría de Correlación y regresión es con el propósito de que ejerciten su aplicación en las formas
manual y electrónica, de manera que cuenten con elementos para los avances de su trabajo de
investigación.
El propósito del análisis es resumir las observaciones llevadas a cabo de forma tal que proporcionen
respuesta a las interrogantes de la investigación. La interpretación, más que una operación distinta,
es un aspecto especial del análisis su objetivo es buscar un significado más amplio a las respuestas
mediante su tropiezo con otros conocimientos disponibles. (Dawson, 2011)
3.2 El Test T.
En estadística, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el
estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando
la población estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño
como para que el estadístico en el que está basada la inferencia esté normalmente distribuido,
utilizándose una estimación de la desviación típica en lugar del valor real. Es utilizado en análisis
discriminante.
Los Test estadísticos ayudan a saber cuánto NO vale el valor poblacional en que estamos
interesados. (Prieto Valiente, 2010)
32
Entre los usos más frecuentes de las pruebas T se encuentran:
El test de locación de muestra única por el cual se comprueba si la media de una población
distribuida normalmente tiene un valor especificado en una hipótesis nula.
El test de locación para dos muestras, por el cual se comprueba si las medias de dos
poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente
llamados test t de Student, a pesar de que estrictamente hablando, tal nombre sólo debería
ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como
iguales; la forma de los ensayos que se utilizan cuando esta asunción se deja de lado suelen
ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comúnmente
nombradas como pruebas t desapareadas o de muestras independientes, debido a que tienen
su aplicación más típica cuando las unidades estadísticas que definen a ambas muestras que
están siendo comparadas no se superponen.
El test de hipótesis nula por el cual se demuestra que la diferencia entre dos respuestas
medidas en las mismas unidades estadísticas es cero. Por ejemplo, supóngase que se mide el
tamaño del tumor de un paciente con cáncer. Si el tratamiento resulta efectivo, lo esperable
seria que el tumor de muchos pacientes disminuyera de tamaño luego de seguir el
tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o
repetidas. (Prieto Valiente, 2010)
EJEMPLO.
La compañía USALUZ produce focos. El presidente de la Cía. dice que sus focos duran 300 días.
Entonces la competencia va a varios (nótese) supermercados y compra15 focos para probar esa
afirmación. Los focos de la muestra duran en promedio290 días con una desviación estándar de 50
días. Entonces, si quieren desmentir al presidente de USALUZ necesita saber cual es la probabilidad
de de que 15 focos seleccionados al azar tengan una vida promedio no mayor de 290 días. La
solución de este tipo de problemas requiere calcular el valor t basado en los datos y después usar
una tabla de distribución t para encontrar la probabilidad. (Sitio Web de Geociencias UNAM, 2015)
33
Solución.
Usando la tabla de T Student (Prieto Valente, 2010) ó para una mayor exactitud la T Distribution
Calculator (www.stattrek.com, 2015)
Usando esta última seleccionamos “T-Score” del menú de “Random Variable” e introducimos los
datos:
*Grados de libertad (v): 15-1 = 14
*El valor de “t” que obtuvimos = -0.7746
El resultado que nos proporciona es 0.2257. Esto significa que si la verdadera vida de un foco es de
300 días, hay una probabilidad de 22.6% de que la vida promedio de 15 focos seleccionados al azar
sea menor o igual a 290 días. (Sitio Web de Geociencias UNAM, 2015)
Es una técnica estadística que nos permite, entre otras cosas, comparar dos o más medias de forma
simultánea. El análisis de la varianza plantea el problema como un modelo matemático, en el cual la
variable dependiente es la variable cuantitativa, y la variable independiente es la variable cualitativa,
también llamada factor.
34
El análisis de la varianza se basa en que, si existen diferencias significativas entre las medias de
cada grupo, la varianza entre grupos se verá incrementada y por lo tanto será significativamente
distinta y mayor que la varianza dentro de grupos.
Al análisis de la varianza se le conoce casi universalmente por las siglas ANOVA, que corresponden
a su nombre en inglés (ANALISYS OF VARIANCE). El modelo matemático de ANOVA se basa en
descomponer la diferencia observada entre un elemento y la media global en dos partes:
Entre grupos, debida al efecto de grupo (si es que lo hay), esta fracción de la variabilidad es la
explicada por la variable independiente.
Dentro de grupos debida a todas las demás causas, que pueden ser efectos de otras variables
no controladas por el modelo.
3.4 El Xi Cuadrado
Se define como una distribución de probabilidad continua con un parámetro que representa los
grados de libertad de la variable aleatoria.
En realidad la distribución ji-cuadrada es la distribución muestral de s2. O sea que si se extraen todas
las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se
obtendrá la distribución muestral de varianzas. (Díaz Narvaéz, 2009)
Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X2.
Si se elige una muestra de tamaño n de una población normal con varianza , el estadístico:
35
Tiene una distribución muestral que es una distribución ji-cuadrada con gl=n-1 grados de libertad y se
denota X2 (X es la minúscula de la letra griega ji). El estadístico ji-cuadrada esta dado por:
EJEMPLO
Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos en una
ciudad grande forman una distribución normal con una desviación estándar =1 minuto. Si se elige
al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor
que 2.
36
Solución: Primero se encontrará el valor de ji-cuadrada correspondiente a s2=2 como sigue:
37
En consecuencia, el valor de la probabilidad es P(s2>2)
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la
toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en
favor de la otra. Una hipótesis estadística se denota por “H” y son dos:
1. Hipótesis
Por lo tanto la hipótesis nula es una afirmación que no se rechaza a menos que los datos muestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre
contiene un signo de igualdad con respecto al valor especificado del parámetro.
38
Es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos
muestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también
como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un
signo de igualdad con respecto al valor especificado del parámetro.
2. Nivel de significancia
Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega
α, también es denominada como nivel de riesgo, este término es más adecuado ya que se corre el
riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera.
Errores tipo I y II
Error tipo l se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de
hecho es falsa y debía ser rechazada.
3. Estadístico de prueba
Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la
hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos
z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si las muestras
son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se utiliza el estadístico t. (Wayne
W, 2008)
39
3.6. Solución de Ejercicios
Supóngase que un investigador está interesado en el peso al nacer de una población en la cual se
sospecha que el promedio está por arriba de lo que se ha reportado. Para probar su hipótesis, desea
medir el peso de los que nacieron en el transcurso del último año. El investigador asume que el peso
promedio al nacer es 3 300 g y que su desviación estándar es 500 g.
1. Planteamiento de la hipótesis.
40
cuando es verdadera, la probabilidad de ocurrencia aleatoria de una z de
ese tamaño o mayor es igual o menor de 0.05.
d) Con lo anterior, y mediante el apoyo de la tabla 8, de distribución normal del
anexo ¨B¨ (Celis de la Rosa, 2014) , se procede de la siguiente manera:
i. A la probabilidad de que el resultado sea mayor que la media
de referencia (3,300 g) se le resta el valor de
(0.50-0.05=0.45);
ii. El valor resultado (0.4500) se busca en el cuerpo del cuadro
de distribución normal del anexo B (Tabla 8). Dado que el
valor 0.4500 no se encuentra en la tabla, entonces se
extrapolan los valores z para los valores más próximos. Así,
ya que el valor de z correspondiente a 0.4495 es 1.64, y que
el valor de z para 0.4505 es 1.65, el valor de z para 0.4500
debe ser 1.645.
Tabla 8
41
e) Una vez obtenido el valor crítico, éste define las regiones de rechazo y
aceptación. En la figura 6, la región de rechazo se representa de color,
mientras que la región de aceptación la constituye el resto del área que se
encuentra por debajo de la curva normal.
8. Decisión estadística.
Dado que el valor z calculado en el punto anterior es inferior al valor z tabulado en el punto 6,
el resultado encontrado por el investigador en el grupo estudiado se localiza en la región de
aceptación de la hipótesis nula, por lo que ésta no se rechaza.
42
Actividades de Aprendizaje de la Unidad III
En ésta unidad se lleva a cabo la explicación de los distintos métodos de distribución que nos llevan a
interpretar correctamente los resultados de una investigación estadística para la mejor toma de
decisiones, en el entendido que los resultados no debe ir exentos del sentido común y más
tratándose del área médica.
43
BIBLIOGRAFIA Y FUENTES CONSULTADAS
44
Suárez Ibujes, M. O. (2015). Monografías. Recuperado el 2015, de
http://www.monografias.com/trabajos85/coeficiente-correlacion-karl-pearson/coeficiente-
correlacion-karl-pearson.shtml
Valencia, U. d. (2015). Pràcticas de Estadìstica. Recuperado el 2015, de
http://www.uv.es/framarru/estCCAA_0809_archivos/practica5.PDF
Wayne W, D. (2008). Bioestadística. Base para el análisi de las ciencias de la salud. México: Limusa
Wiley.
45