Anto Bioe Nle

INSTITUTO DE CIENCIAS Y ESTUDIOS SUPERIORES
DE TAMAULIPAS A.C
ANTOLOGÍA
BIOESTADISTICA I
Compilador: Ricardo Alberto Ponce de León Díaz
Tampico, Tamps. Mayo de 2015
1
ÍNDICE
Objetivo General de la Antología 4

Introducción a la Bioestadística 5
Unidad I: Medidas de Tendencia Central y Dispersión

Objetivo de la Unidad 6
1.1. Concepto de Tendencia Central 6
1.2. Media Aritmética 10
1.3. Mediana 12
1.4. Moda 12
1.5. Datos Simples y Datos Agrupados 13
1.6. Agrupamiento por Intervalos 14
1.7. Medidas de Dispersión 14
1.8. Rango 14
1.9. Varianza 15
1.10Ejercicios Propuestos 18
Actividades de Aprendizaje de Unidad I 19
Síntesis de la Unidad I 19
Unidad II: Coeficiente de Correlación

Objetivo de la Unidad 20
2.1. Regresión Lineal 20
2.2. Interpretación de la Ecuación de Regresión Lineal Simple 20
2.3. Intensidad de una Relación Lineal 24
2.4. Correlación Lineal Simple 26
2.5. Cálculo del Coeficiente de Correlación 27
2.6 Interpretación 28
2.7. Ejercicios Propuestos 29
Actividades de Aprendizaje de la Unidad II 31
Síntesis de la Unidad I 31
2
Unidad III: Técnicas de Análisis Estadísticos
Objetivo de la unidad 32
3.1 Relación de Análisis e Interpretación. 32
3.2 El Test T 32
3.3 Análisis de Varianza 34
3.4 El Xi Cuadrado 35
3.5 Pruebas de Hipótesis 38
3.6 Solución de ejercicios 40
Actividades de Aprendizaje de la Unidad III 43
Síntesis de la Unidad III 43
Bibliografía y Fuentes Consultadas 44
3
OBJETIVO GENERAL DE LA ANTOLOGIA
La información contenida en ésta antología es un gran recurso para que el alumno comprenda los
temas enlistados en la carta descriptiva de la materia de Bioestadística I. Su lectura y consulta
constante será de gran ayuda para su entendimiento.
4
Introducción a la Bioestadística
La bioestadística es una rama de la estadística que se ocupa de los problemas planteados dentro de
las ciencias de la vida, como la biología, la medicina, entre otros. La bioestadística es una disciplina
aplicada ya que comprende el desarrollo y aplicación de métodos y de técnicas de análisis
cuantitativo para extraer información biológica de conjuntos de datos obtenidos desde la
experimentación o el muestreo.
El primer médico que utilizó métodos matemáticos para cuantificar variables de pacientes y sus
enfermedades fue el francés Pierre Charles-Alexandre Louis (1787-1872). La primera aplicación de la
Méthode numérique (que es como tituló a su obra y llamó a su método) es su clásico estudio de la
tuberculosis, que influyó en toda una generación de estudiantes.
Aplicaciones
La aplicación resulta hoy en día necesaria, en los campos:
 Salud pública, que incluye: epidemiología, nutrición, salud ambiental y en investigación de

servicios sanitarios.
 Genómica y poblaciones genéticas
 Medicina
 Ecología
 Bioensayos
La colaboración de la bioestadística ha sido clave en el desarrollo de nuevos fármacos, en el

entendimiento de enfermedades crónicas como el cáncer y sida, y estos son algunos de los miles de
ejemplos posibles. (Balzarini, Tablada, & González, Introducción a la Bioestadística, 2011)
5
UNIDAD I
MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN.
Objetivo: Reconocer y analizar con ayuda de las herramientas estadísticas más apropiadas, los
datos extraídos de muestras o poblaciones.
1.1 Concepto De Tendencia Central
La estadística busca entre otras cosas, describir las características típicas de conjuntos de datos. Las
medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central
de un conjunto de datos que nos ayudan a resumir la información en un sólo número. (Dawson, 2011)
Medidas de Tendencia Central
Entre las medidas de tendencia central tenemos: Media Aritmética, Mediana y Moda. Se debe tomar
en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de
tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan
variables cuantitativas.
Una variable es una propiedad que puede fluctuar y cuya variación es susceptible de adoptar
diferentes valores, los cuales pueden medirse u observarse. (Dawson, 2011)
Tipos de variables:
 Cualitativas: son aquellas que no pueden expresarse numéricamente. Sus posibles valores se
llaman modalidades o categorías. No se pueden asociar naturalmente a un número y no se
pueden hacer operaciones algebraicas con ellos. Ejemplo: Sexo, nivel de estudios, etc.
 Cuantitativas: Son aquellas que se pueden expresar numéricamente:
 Variables cuantitativas discretas son aquellas variables cuyos posibles valores

constituyen un conjunto de cardinal finito ó a lo sumo infinito numerable. Ejemplo:
Tamaño de una familia (4), número de enfermeras (12), número de hermanos de un
amigo (2)
6
 Variables cuantitativas continuas son aquellas que pueden tomar los infinitos valores
de un intervalo, es decir, si entre dos valores son posibles infinitos valores
intermedios. Ejemplo: la altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75
 Una variable no aleatoria (asociada al resultado de una experiencia que sí produce el mismo
resultado) está caracterizada por un valor para cada condición.
 Una variable aleatoria está caracterizada por la llamada función densidad de probabilidad, a
partir de la cual se obtienen las probabilidades para sus posibles valores para cada condición.
(García Ramos, Ramos González, & Ruiz Garzón, 2008)
Los objetivos de la investigación científica se pueden entender, de un modo muy general, en términos
de encontrar y describir las variables de interés y las relaciones entre ellas, para el problema en
estudio.
La estadística es la ciencia que estudia los métodos que permiten realizar este proceso para variables
aleatorias. Estos métodos permiten resumir datos y acotar el papel de la casualidad (azar).
Se divide en dos áreas:
Estadística descriptiva: Trata de describir las variables aleatorias en las "muestras". El objetivo
esencial de la Estadística descriptiva es la caracterización de los conjuntos de datos numéricos; dicha
caracterización, pretende poner de manifiesto, las propiedades de estos conjuntos, lo cuál se puede
lograr de forma gráfica o analítica. (Guerra Bustillo, Menéndez Acuña, & Barrero Morera, 2011)
Estadística inductiva o inferencial: Trata de la generalización hacia las poblaciones de los resultados
obtenidos en las muestras y de las condiciones bajo las cuales estas conclusiones son válidas. Se
enfrenta básicamente con dos tipos de problemas:
 Estimación, que puede ser puntual o por intervalos

 Contraste de hipótesis.
7
El tamaño de la muestra es una característica a considerar para lograr una buena representatividad.
Los procedimientos de selección de muestra o de muestreos basados en el azar (procedimientos
aleatorios) son preferibles a los procedimientos de selección muestreos basado en el juicio del
investigador sobre cuáles elementos considerar en la muestra y cuáles no. Los muestreos aleatorios
son muestreos probabilísticos ya que es posible conocer la probabilidad que tiene cada muestra de
ser seleccionada. En el muestreo aleatorio simple, uno de los más utilizados, todas las unidades
tienen la misma posibilidad de formar parte de la muestra.
Estadística Descriptiva
La descripción completa de una variable aleatoria está dada por su función densidad de probabilidad
(fdp).
Afortunadamente una gran cantidad de variables de muy diversos campos están adecuadamente
descritas por unas pocas familias de fdps: binomial, Poisson, normal, gamma, etc.
Dentro de cada familia, cada fdp está caracterizada por unos pocos parámetros, típicamente dos:
media y varianza.
Por tanto la descripción de una variable indicará la familia a que pertenece la fdp y los parámetros
correspondientes.
Ejemplo: (hipotético) la concentración de glucosa en sangre en individuos no diabéticos, medida en

mg/dl, es normal con media 98 y varianza 90.
El problema es ¿cómo averiguar la fdp de una variable de interés?
La familia, generalmente, se sabe por resultados de la teoría de la probabilidad, aunque, en cada

caso, conviene verificarlo. Para conocer los parámetros se deberían conocer los resultados de todos
los posibles experimentos (población: conjunto de todos los valores de una variable aleatoria).
Generalmente la población es inaccesible, bien es infinita, o aunque finita suficientemente grande
para ser inabordable. En consecuencia, se estudian muestras (subconjuntos de la población) que, en
caso de ser aleatorias, permiten realizar estimaciones tanto de la familia como de los parámetros de
las fdps.
8
Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma
probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de otros
y con la misma probabilidad. (Celis de la Rosa, 2014)
Métodos gráficos de representación de muestras: El método gráfico más frecuente es el histograma.
El histograma es una variedad especial de gráfico que, al igual que el diagrama de barras, utiliza
columnas para mostrar la frecuencia con que las características se presentan, pero difiere en que las
columnas no se separan y en que la escala horizontal es cuantitativa. Presenta las siguientes
características:
1. El área de trazo está formada por un eje vertical, con escala discreta, y un eje horizontal, con
escala cuantitativa discreta o continua.
2. El eje vertical corresponde a las frecuencias observadas, sean absolutas o relativas, y siempre
empieza en cero.
3. En el eje horizontal, se anota la escala en que se midió la variable que se describe. No es
indispensable que la escala empiece en cero.
4. Las barras se extienden desde el eje horizontal hasta que alcancen la frecuencia que
representan. Su ancho es igual al intervalo de clase en que se agruparon los datos
cuantitativos. Las barras no se separan, excepto cuando no existen elementos en la barra
adyacente.
5. El área de cada barra es igual a la proporción que el número de elementos en ese intervalo de
clase tiene en relación con el total de observaciones. (Balzarini, 2011)
9
1.2 Media Aritmética
La media aritmética, o simplemente media o promedio, es una medida descriptiva de tendencia

central cuyo único número resume una serie de valores a partir de los cuales se calcula. Se obtiene
sumando todos los valores de una población y dividiendo el total entre el número de valores que se
sumaron.
E s e l s í m b o l o d e la m e d i a ar i t m é t i c a .
Ejemplo
Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.
Media aritmética para datos agrupados

Si los d a t o s vienen a g r u p a d o s en una tabla de frecuencias, la expresión de la m e d i a es:
10
Ejercicio de media aritmética
En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la
tabla 1. C a l c u l a l a p un t u a c i ó n m e d i a . (Celis de la Rosa, 2014)
Tabla 1 Ejercicio sobre la Media (Celis de la Rosa, 2014)
xi fi xi · fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[ 3 0 , 4 0) 35 10 350
[40, 50) 45 9 405
[50, 60 55 8 440
[ 6 0 , 7 0) 65 4 260
[70, 80) 75 2 150
42 1 820
11
1.3 Mediana
Todos nuestros datos en forma creciente o decreciente, la mediana es aquel valor que deja sobre sí
el 50% (la mitad) de los datos y bajo sí el otro 50% (la otra mitad de los datos).
La m e d i a n a se representa por M e .
La m e d i a n a se puede h a l l a r sólo para va r i a b l e s c u a n t i t at i va s .
Cálculo de la mediana
1. O r d e n am o s los d a t os de m e n o r a m a yo r .
2. Si la serie tiene un n ú m e r o i m p a r d e m e d i da s la m e d i a n a es la p u n t u a c i ó n c e n t r a l
de la misma.
2, 3, 4, 4, 5, 5, 5, 6, 6 Me = 5
3. Si la serie tiene un n ú m e r o p a r de puntuaciones la m e d i a n a es la m e d i a entre las dos

p u n t u a c i o n e s c e nt r al e s .
7, 8, 9, 10, 11, 12 Me = 9 . 5
1.4 Moda
La moda de una muestra es aquel valor de la variable que se presenta con mayor frecuencia, es
decir, el que más se repite.
Se representa por M o .
Se puede hallar la m o da para va r i a b l e s c u a l i t a t i va s y c u a n t i t a t i va s .
H a l l a r la m o d a de la distribución:
2, 3, 3, 4, 4, 4, 5, 5 Mo= 4
Si en un grupo hay d o s o va r i a s p u n t u a c i o n e s con la m i s m a f r ec u e n c i a y esa frecuencia es
la máxima, la d i s t r i b u ci ó n es b i m o d a l o m u l t i m o d a l , es decir, tiene va r i a s m o d a s .
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9
Cuando todas las p u nt ua c i o n e s de un grupo tienen la m i sm a f r ec u e nc i a , n o hay m o d a .

2, 2, 3, 3, 6, 6, 9, 9
(Balzarini, Estadística y biometría, 2013)
12
PROPIEDADES DE LAS MEDIDAS DE TENDENCIA CENTRAL.
Propiedades de la media aritmética:

 Su cálculo es muy sencillo y en el intervienen todos los datos.
 Su valor es único para una serie de datos dada.
 Se usa con frecuencia para comparar poblaciones, aunque es más apropiada
acompañarla de una medida de dispersión.
 Se interpreta como punto de equilibrio de las masas del conjunto de datos.
Propiedades de la mediana:
 Es menos sensible que la media a oscilaciones de los valores de la variable.
 Puede calcularse para datos agrupados en intervalos, incluso cuando uno de ellos no esta
acotado.
 No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética
cuando la población es bastante heterogénea.
Propiedades de la moda:
 Calculo sencillo
 Interpretación muy clara
 Al depender solo de las frecuencias, puede calcularse para las variables cualitativas
(García Ramos, Ramos González, & Ruiz Garzón, 2008)
1.5 Datos Simples Y Datos Agrupados
Es aquella distribución en la que la disposición tabular de los datos estadísticos se encuentra

ordenada en clases y con la frecuencia de cada clase; es decir, los datos originales de varios valores
adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas
establecidas para determinar cuándo es apropiado utilizar datos agrupados o datos no agrupados; sin
embargo, se sugiere que cuando el número total de datos (N) es igual o superior 50 y además el
rango o recorrido de la serie de datos es mayor de 20, entonces, se utilizará la distribución de
frecuencia para datos agrupados, también se utilizará este tipo de distribución cuando se requiera
elaborar gráficos lineales como el histograma, el polígono de frecuencia o la ojiva.
13
La razón fundamental para utilizar la distribución de frecuencia de clases es proporcionar mejor
comunicación acerca del patrón establecido en los datos y facilitar la manipulación de los mismos.
Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información
obtenida de una investigación sea manejable con mayor facilidad.
1.6 Agrupamiento Por Intervalo
Los datos que pueden tener tantos decimales como se desee y que entre cada dos de ellos siempre
puede haber otro, se llaman continuos. Al poder estar muy cerca unos de otros, no se pueden
estudiar de uno en uno y se agrupan en intervalos.
Son continuos el peso, la estatura, el nivel de glucosa en la sangre, etc.

Estos datos se suelen estudiar clasificados en intervalos: De 20 a 30 kg. , de 30 g a 40 g., de 120 cm.
a 140 cm., etc.
La primera operación que hay que aprender es la de agrupar datos. (Prieto Valiente, 2010)
1.7 Medidas de Dispersión
La dispersión de un conjunto de observaciones se refiere a la variedad que exhiben sus valores. Si

todos los valores son los mismos, no existe dispersión; si no lo son, hay dispersión en los datos. La
magnitud de la dispersión puede ser pequeña cuando los valores, aunque diferentes, están próximos
entre sí. Si los valores están ampliamente “diseminados”, la dispersión es mayor. Las medidas de
dispersión más frecuentes utilizadas son: el rango, desviación media y la varianza.
Las m e d i d a s d e d i s pe r s i ó n son:
1.8 Rango
El rango es la diferencia entre el valor máximo y el mínimo de un conjunto de datos de una
distribución estadística.
Desviación media
La d e s vi a c i ó n m e d i a es la m e d i a a r i t m ét i c a de los va l o r e s a b s o l u t o s de las
d e s vi a c i o n e s respecto a la m e d i a .
14
1.9 Varianza
La va r i a n za es la m e d i a a r i t m ét i c a del c u a d r a d o d e l a s de s vi a c i o n e s respecto a la
media.
La varianza se representa por .
Varianza para datos agrupados
Para simplificar el c á l c u l o d e l a va r i a n za vamos o utilizar las siguientes expresiones que son

equivalentes a las anteriores.
Varianza para datos agrupados
(Ritchey, 2008)
Ejercicios de varianza
Calcular la varianza de la distribución:
15
9 , 3, 8, 8, 9, 8, 9, 18
C A L C U L A R L A V A R I A N Z A d e l a d i st r i b uc i ó n d e l a t a b l a 2 :
Tabla 2 Varianza (Ritchey, 2008)
xi fi xi · fi xi2 · fi
[10, 20) 15 1 15 225
[20, 30) 25 8 200 5000
[ 3 0 , 4 0) 35 10 350 12 250
[40, 50) 45 9 405 18 225
[50, 60 55 8 440 24 200
[ 6 0 , 7 0) 65 4 260 16 900
[70, 80) 75 2 150 11 250
42 1 820 88 050
16
Desviación típica o estándar
La varianza se expresa en unidades cuadradas que son difíciles de interpretar. Una medida de
dispersión expresada en las unidades originales es la desviación típica o desviación estándar, que es
igual a la raíz cuadrada de la varianza.
La d e s vi a c i ó n t í p i c a se representa por σ.
Desviación típica para datos agrupados
Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las
anteriores.
Desviación típica para datos agrupados
( R i t c h e y, 2 0 0 8 )
17
1 . 1 0 E j e r c i ci o s Pr op u e s t o s
Calcular la d e s vi a c i ó n t í p i c a de la distribución:
9 , 3, 8, 8, 9, 8, 9, 18
C a l c u l a r l a d e s vi a c i ó n t í pi c a d e l a d i s t r i b u c i ó n d e l a t a b l a 3 :
Tabla 3 Datos para ejercicio de desviación típica (Ritchey, 2008)
xi fi xi · fi xi2 · fi
[10, 20) 15 1 15 225
[20, 30) 25 8 200 5000
[ 3 0 , 4 0) 35 10 350 12 250
[40, 50) 45 9 405 18 225
[50, 60) 55 8 440 24 200
[ 6 0 , 7 0) 65 4 260 16 900
[70, 80) 75 2 150 11 250
42 1 820 88 050
(Ritchey, 2008)
18
Actividades de Aprendizaje de la Unidad I
 Síntesis en Power Point titulado Las Medidas de Tendencia Central.

 Realiza Ejercicios correspondientes al tema Medidas de Tendencia Central, sustituyendo
valores en fórmulas.
 Participa en el foro “Medidas de Tendencia Central y Dispersión”
 Resuelve cuestionario de la unidad I
Síntesis de la Unidad I
El abordar éste tema nos permite comprender el uso de la estadística, en este caso bioestadística, en
el ámbito médico. Nos brinda el tener un panorama más amplio sobre la estadística, la cuál se basa
en información obtenida en encuestas de muestras poblacionales que representan un todo.
Asimismo se da a conocer las herramientas más importantes para la elaboración de tendencias en los
análisis estadísticos básicos.
19
UNIDAD II
COEFICIENTE DE CORRELACIÓN Y REGRESION LINEAL
Objetivo de la Unidad
Analizar e interpretar los resultados obtenidos.
2.1 Regresión Lineal.
Según Pearson, se define como un índice que puede utilizarse para medir el grado de relación de dos
variables siempre y cuando ambas sean cuantitativas. (Álvarez Alva, 2002)
Regresión lineal
El objeto de un análisis de regresión es investigar la relación estadística que existe entre una variable
dependiente (Y) y una o más variables independientes ( ).
2.2 .Interpretación de la Ecuación de regresión Lineal Simple
Para poder realizar esta investigación, se debe postular una relación funcional entre las variables.
Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la relación
lineal. Cuando solo existe una variable independiente, esto se reduce a una línea recta:
Donde los coeficientes b0 y b1 son parámetros que definen la posición e inclinación de la
recta. (Nótese que hemos usado el símbolo especial para representar el valor de Y calculado por la
recta. Como veremos, el valor real de Y rara vez coincide exactamente con el valor calculado, por lo
que es importante hacer esta distinción.)
El parámetro b0, conocido como la "ordenada en el origen," nos indica cuánto es Y cuando X = 0. El
parámetro b1, conocido como la "pendiente," nos indica cuánto aumenta Y por cada aumento de una
unidad en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una
muestra de observaciones sobre las variables Y y X. En el análisis de regresión, estas estimaciones
se obtienen por medio del método de mínimos cuadrados.
20
El método de mínimos cuadrados consiste en calcular los parámetros de la variable independiente X,
y anotando en cada caso el correspondiente valor medio para la variable dependiente Y de la curva ó
línea seleccionada (X1,Y1)……(Xn,Yn) utilizando como criterio la minimización de la suma de los
cuadrados de los residuos ó errores. Que representados gráficamente, deberían caer sobre una
línea recta. (Díaz Portillo, 1992)
Diagrama de Dispersión
Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas

cartesianas para mostrar los valores de 2 variables para un conjunto de datos.
Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que
determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en
el eje vertical. Un diagrama de dispersión se llama también gráfico de dispersión.
Ejemplo
Figura 1. http://blog.espol.edu.ec/nemo/2010/12/03/creando-grafico-dispersion-ggplot2-part1/ (Montaño, 2010)
21
En éste gráfico se está representando los datos de peso y altura de una muestra poblacional, en
donde podemos observar que pese a la distribución de los puntos, existe una tendencia hacia una
línea recta.
Ejemplo
La Tabla 4, muestra las pérdidas de peso medias, observadas en 9 grupos de 25 escarabajos
Tribolium, después de 6 días de ser sometidos a distintos grados de humedades relativas. Se trata de
estudiar la relación lineal entre ambas variables y predecir la pérdida de peso media de los
escarabajos en función de la humedad.
Tabla 4
http://www.uv.es/framarru/estCCAA_0809_archivos/practica5.PDF (Valencia, 2015)
22
En primer lugar podemos realizar un gráfico de dispersión (figura 2) para ver cómo varía el peso
medio en función de la humedad.
Figura 2
Observamos que cuanto mayor es la humedad, menor es la pérdida de peso, además los puntos del
gráfico se ajustan bastante bien a una recta. Por lo que podemos pensar en el modelo lineal
, la variable representará la pérdida de peso y la variable independiente la

humedad relativa, notemos que en este caso no hay otra alternativa.
23
2.3 Intensidad de una Regresión Lineal Simple
El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889) y fue
confirmado por su amigo Karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de
los descendientes (variable Y) a partir de los de sus padres (variable X). Estudiando la altura de
padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los
padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura, pero que
revelaban también una tendencia a regresar a la media.
El modelo de regresión simple se define por:
El coeficiente de determinación, por otro lado, mide el porcentaje de la variación total en Y que es
explicado por la variación conjunta de las variables independientes. (Balzarini M. , Estadística y
biometría, 2013)
Para poder interpretar adecuadamente una regresión lineal es necesario que se respeten los
siguientes supuestos:
1. Y es una variable aleatoria.
2. Para cada valor de X existe una sub población de valores de Y que tienen una distribución
normal.
3. Todas las sub poblaciones de Y tienen la misma varianza.
4. Las medias de las sub poblaciones de Y forman una línea recta en la gráfica de correlación, lo
que se representa mediante la fórmula
5. La variable X puede o no ser aleatoria, pero se mide sin error.
(Celis de la Rosa, 2014)
24
Ejemplo
Imaginemos un análisis de regresión con “salario” como variable dependiente y “salini” (salario inicial)
y “expprev” (experiencia previa) como variables independientes. La figura 3 muestra el diagrama de
dispersión de salario sobre salini y expprev, y el plano de regresión en un plano tridimensional.
Figura 3 Diagrama de dispersión de salario sobre salini y expprev
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datosyMultivariable/18reglin
_SPSS.pdf (Departamento de Materiales y Análisis de Datos, 2015)
Con una variable dependiente y dos independientes, necesitamos 3 ejes para poder representar el
correspondiente diagrama de dispersión. Y si en lugar de usar dos variables independientes
25
utilizaríamos tres, sería necesario un espacio de cuatro dimensiones para poder construir el
diagrama de dispersión. Y un espacio de cinco dimensiones para poder construir el diagrama
correspondiente a 4 variables independientes, etc.
Por lo tanto, con más de una variable independiente, la representación grafica de las relaciones
presentes en un modelo de regresión resulta poco intuitiva, muy complicada y poco útil.
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis_datos
yMultivariable/18reglin_SPSS.pdf (Departamento de Materiales y Análisis de Datos, 2015)
2.4 Correlación Lineal Simple
En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables
aleatorias. Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las notas de la
asignatura Estadística I y las de Matemáticas I. Una primera aproximación al problema consistiría en
dibujar en el plano de dispersión un punto por cada alumno: la primera coordenada de cada punto
sería su nota en estadística, mientras que la segunda sería su nota en matemáticas. Así,
obtendríamos una nube de puntos la cual podría indicarnos visualmente la existencia o no de algún
tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas.
Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado y
de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un
periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año de
forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en publicidad,
mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De esta manera,
obtendríamos una nube de puntos que nos indicaría el tipo de relación existente entre ambas
variables.
En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El
parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson cuyo valor
oscila entre –1 y +1. (Celis de la Rosa, 2014)
26
2.5 Cálculo del Coeficiente de Correlación
El coeficiente de correlación habla de la relación lineal entre dos variables en una población
bivariante. Puede asumir valores entre -1 y +1. Si la relación entre dos variables es perfectamente
lineal e inversa, r = –1. Si es lineal y directa, r = 1. Cuando las dos variables no están
correlacionadas, r = 0. Mientras más cerca esté el valor numérico del coeficiente de correlación a 1,
indistintamente del signo, más estrecha será la relación entre las dos variables. El coeficiente de
correlación poblacional se representa con la letra griega l, y su estadístico, r, se calcula mediante la
ecuación:
El coeficiente de correlación (r) es un número que indica el grado o intensidad de asociación entre las
variables X e Y. Su valor varía entre -1 y +1; esto es:
-1 ≤ r ≤ 1.
Si r=-1, la asociación es perfecta pero inversa; es decir, a valores altos de una variable le
corresponde valores bajos a la otra variable, y viceversa.
Si r=+1, también la asociación es perfecta pero directa.
Si r=0, no existe asociación entre las dos variables.
Luego puede verse que a medida que r se aproxime a -1 ó +1 la asociación es mayor, y cuando se
aproxima a cero la asociación disminuye o desaparece. (Celis de la Rosa, 2014)
27
2.6 Interpretación
Para interpretar el coeficiente de correlación utilizamos la siguiente escala (Tabla 5)
Valor Significado
Correlación negativa grande y

-1
perfecta
-0,9 a -0,99 Correlación negativa muy alta
-0,7 a -0,89 Correlación negativa alta
-0,4 a -0,69 Correlación negativa moderada
-0,2 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,2 a 0,39 Correlación positiva baja
0,4 a 0,69 Correlación positiva moderada
0,7 a 0,89 Correlación positiva alta
0,9 a 0,99 Correlación positiva muy alta
Correlación positiva grande y

1
perfecta
http://www.monografias.com/trabajos85/coeficiente-correlacion-karl-pearson/coeficiente-correlacion-karl-pearson.shtml
(Suárez Ibujes, 2015)
28
2.7 Ejercicios Propuestos
Calcular el coeficiente de correlación de la siguiente serie de datos (Tabla 6) de altura y peso de los
alumnos de una clase:
Tabla 6
http://www.aulafacil.com/CursoEstadistica/Lecc-12-est.htm (Aula Facil.com, 2015)
Si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación
entre ambas variables: mientras más alto sea el alumno, mayor será su peso.
Si representáramos en un gráfico (Figura 4) los pares de valores de las dos variables la nube de
puntos se aproximaría a una recta.
Relación lineal Relación exponencial Sin relación
Figura 4
29
Sin embargo, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En
estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables,
por lo que convendría utilizar otro tipo de coeficiente más apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los
pares de valores en un gráfico y ver qué forma describe.
El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:
Los valores que puede tomar el coeficiente de correlación “r” son: -1 < r < 1
Si “r” > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra).
La correlación es tanto más fuerte cuando se aproxime a 1.
Por ejemplo: altura y peso, los alumnos más altos suelen pesar más.
Si “r < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra).
La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.
Por ejemplo: Peso y velocidad, los alumnos más gordos suelen correr menos.
Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación
(parabólica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir
obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este
resultado podría haberse debido al puro azar.
Aplicando la formula tenemos que,
r = 0,719
Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo positivo.
30
Actividades de Aprendizaje de la Unidad II
1. Elabora Síntesis en Power Point del tema Correlación entre dos Variables.
2. Realiza los Ejercicios de las Actividades de Aprendizaje correspondientes al tema Coeficiente
de Correlación, sustituyendo valores en fórmulas.
3. Participa en el foro “Coeficiente de Correlación y Regresión Lineal”.
4. Resuelve cuestionario de la unidad.
Síntesis de la Unidad II
En la presente unidad se muestra la importancia de la correlación entre dos variables distintas. El

alumno entiende que encontrar cierto grado de relación entre dos variables cuantitativas distintas de
si, tiene una enorme aplicación en la investigación médica y muchas otras actividades. Así como
también en el transcurso de la unidad se explican las herramientas para el cálculo de dichas
correlaciones.
31
UNIDAD III
TÉCNICAS DE ANÁLISIS ESTADÍSTICOS
Objetivo de la Unidad
Analizar la hipótesis comprobada.
3.1 Relación de Análisis e Interpretación
Una de las etapas más relevantes en el proceso de Investigación, es el análisis e interpretación de los
resultados; con el apoyo de las técnicas estadísticas es posible hacer predicciones, mismas que son
consideradas como herramientas básicas para la toma de decisiones.
La Teoría de Correlación y regresión es con el propósito de que ejerciten su aplicación en las formas
manual y electrónica, de manera que cuenten con elementos para los avances de su trabajo de
investigación.
El propósito del análisis es resumir las observaciones llevadas a cabo de forma tal que proporcionen
respuesta a las interrogantes de la investigación. La interpretación, más que una operación distinta,
es un aspecto especial del análisis su objetivo es buscar un significado más amplio a las respuestas
mediante su tropiezo con otros conocimientos disponibles. (Dawson, 2011)
3.2 El Test T.
En estadística, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el
estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando
la población estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño
como para que el estadístico en el que está basada la inferencia esté normalmente distribuido,
utilizándose una estimación de la desviación típica en lugar del valor real. Es utilizado en análisis
discriminante.
Los Test estadísticos ayudan a saber cuánto NO vale el valor poblacional en que estamos
interesados. (Prieto Valiente, 2010)
32
Entre los usos más frecuentes de las pruebas T se encuentran:
 El test de locación de muestra única por el cual se comprueba si la media de una población
distribuida normalmente tiene un valor especificado en una hipótesis nula.
 El test de locación para dos muestras, por el cual se comprueba si las medias de dos
poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente
llamados test t de Student, a pesar de que estrictamente hablando, tal nombre sólo debería
ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como
iguales; la forma de los ensayos que se utilizan cuando esta asunción se deja de lado suelen
ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comúnmente
nombradas como pruebas t desapareadas o de muestras independientes, debido a que tienen
su aplicación más típica cuando las unidades estadísticas que definen a ambas muestras que
están siendo comparadas no se superponen.
 El test de hipótesis nula por el cual se demuestra que la diferencia entre dos respuestas
medidas en las mismas unidades estadísticas es cero. Por ejemplo, supóngase que se mide el
tamaño del tumor de un paciente con cáncer. Si el tratamiento resulta efectivo, lo esperable
seria que el tumor de muchos pacientes disminuyera de tamaño luego de seguir el
tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o
repetidas. (Prieto Valiente, 2010)
EJEMPLO.
La compañía USALUZ produce focos. El presidente de la Cía. dice que sus focos duran 300 días.
Entonces la competencia va a varios (nótese) supermercados y compra15 focos para probar esa
afirmación. Los focos de la muestra duran en promedio290 días con una desviación estándar de 50
días. Entonces, si quieren desmentir al presidente de USALUZ necesita saber cual es la probabilidad
de de que 15 focos seleccionados al azar tengan una vida promedio no mayor de 290 días. La
solución de este tipo de problemas requiere calcular el valor t basado en los datos y después usar
una tabla de distribución t para encontrar la probabilidad. (Sitio Web de Geociencias UNAM, 2015)
33
Solución.
Primero necesitamos calcular el valor “t” usando la formula:
Donde es la media de la muestra, la media poblacional, es la
Desviación estándar de la muestra y el tamaño de la muestra.
(Sitio Web de Geociencias UNAM, 2015)
Usando la tabla de T Student (Prieto Valente, 2010) ó para una mayor exactitud la T Distribution
Calculator (www.stattrek.com, 2015)
Usando esta última seleccionamos “T-Score” del menú de “Random Variable” e introducimos los
datos:
*Grados de libertad (v): 15-1 = 14
*El valor de “t” que obtuvimos = -0.7746
El resultado que nos proporciona es 0.2257. Esto significa que si la verdadera vida de un foco es de
300 días, hay una probabilidad de 22.6% de que la vida promedio de 15 focos seleccionados al azar
sea menor o igual a 290 días. (Sitio Web de Geociencias UNAM, 2015)
3.3. Análisis de Varianza
Es una técnica estadística que nos permite, entre otras cosas, comparar dos o más medias de forma
simultánea. El análisis de la varianza plantea el problema como un modelo matemático, en el cual la
variable dependiente es la variable cuantitativa, y la variable independiente es la variable cualitativa,
también llamada factor.
34
El análisis de la varianza se basa en que, si existen diferencias significativas entre las medias de
cada grupo, la varianza entre grupos se verá incrementada y por lo tanto será significativamente
distinta y mayor que la varianza dentro de grupos.
Al análisis de la varianza se le conoce casi universalmente por las siglas ANOVA, que corresponden
a su nombre en inglés (ANALISYS OF VARIANCE). El modelo matemático de ANOVA se basa en
descomponer la diferencia observada entre un elemento y la media global en dos partes:
 Entre grupos, debida al efecto de grupo (si es que lo hay), esta fracción de la variabilidad es la
explicada por la variable independiente.
 Dentro de grupos debida a todas las demás causas, que pueden ser efectos de otras variables
no controladas por el modelo.
De acuerdo a Ricard Boque, El análisis de la varianza (ANOVA) es una potente herramienta

estadística, de gran utilidad tanto en la industria, para el control de procesos, como en el laboratorio
de análisis, para el control de métodos analíticos. (Álvarez Cáceres, 2008)
3.4 El Xi Cuadrado
Se define como una distribución de probabilidad continua con un parámetro que representa los
grados de libertad de la variable aleatoria.
En realidad la distribución ji-cuadrada es la distribución muestral de s2. O sea que si se extraen todas
las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se
obtendrá la distribución muestral de varianzas. (Díaz Narvaéz, 2009)
Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X2.
Si se elige una muestra de tamaño n de una población normal con varianza , el estadístico:
35
Tiene una distribución muestral que es una distribución ji-cuadrada con gl=n-1 grados de libertad y se
denota X2 (X es la minúscula de la letra griega ji). El estadístico ji-cuadrada esta dado por:
Donde n es el tamaño de la muestra, s2 la varianza muestral y la varianza de la población de

donde se extrajo la muestra. El estadístico ji-cuadrada también se puede dar con la siguiente
expresión:
Propiedades de las distribuciones ji-cuadrada
1. Los valores de X2 son mayores o iguales que 0.

2. La forma de una distribución X2 depende del gl=n-1. En consecuencia, hay un número infinito
de distribuciones X2.
3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a la
derecha; esto es, están sesgadas a la derecha.
5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1).
6. El valor modal de una distribución X2 se da en el valor (n-3). (Díaz Narvaéz, 2009)
EJEMPLO
Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos en una
ciudad grande forman una distribución normal con una desviación estándar =1 minuto. Si se elige
al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor
que 2.
36
Solución: Primero se encontrará el valor de ji-cuadrada correspondiente a s2=2 como sigue:
El valor de 32 se busca adentro de la tabla 7 de PERCENTILES DE DISTRIBUCION (Celis de la

Rosa, 2014) en el renglón de 16 grados de libertad y se encuentra que a este valor le corresponde un
área a la derecha de 0.01.
Tabla 7 (Celis de la Rosa, 2014)
37
En consecuencia, el valor de la probabilidad es P(s2>2)
Figura 5 (Celis de la Rosa, 2014)
3.5 Pruebas de Hipótesis

La hipótesis se define simplemente como una proposición acerca de una ó más poblaciones y que
motiva a la investigación.
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la
toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en
favor de la otra. Una hipótesis estadística se denota por “H” y son dos:
- Ho: hipótesis nula

- H1: hipótesis alternativa
Partes de una hipótesis:
1. Hipótesis
- La hipótesis nula “Ho”
Se refiere siempre a un valor específico del parámetro de la población, no a una estadística de

muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por lo general hay un “no”
en la hipótesis nula que indica que “no hay cambio” Podemos rechazar o aceptar Ho.
Por lo tanto la hipótesis nula es una afirmación que no se rechaza a menos que los datos muestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre
contiene un signo de igualdad con respecto al valor especificado del parámetro.
- La hipótesis alternativa “H1”
38
Es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos
muestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también
como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un
signo de igualdad con respecto al valor especificado del parámetro.
2. Nivel de significancia
Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega
α, también es denominada como nivel de riesgo, este término es más adecuado ya que se corre el
riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera.
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de

rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de
prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula. Estos valores
no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de
no rechazo de la de rechazo.
Errores tipo I y II
Error tipo l se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de
hecho es falsa y debía ser rechazada.
3. Estadístico de prueba
Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la
hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos
z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si las muestras
son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se utiliza el estadístico t. (Wayne
W, 2008)
39
3.6. Solución de Ejercicios
Supóngase que un investigador está interesado en el peso al nacer de una población en la cual se
sospecha que el promedio está por arriba de lo que se ha reportado. Para probar su hipótesis, desea
medir el peso de los que nacieron en el transcurso del último año. El investigador asume que el peso
promedio al nacer es 3 300 g y que su desviación estándar es 500 g.
1. Planteamiento de la hipótesis.
, o “el peso promedio al nacer en la población de interés es menor o igual a

3,300 g”.
, o “el peso promedio al nacer en la población de interés es mayor de 3,300 g”.

2. Selección del nivel de significancia. = 0.05.
3. Descripción de la población que interesa y planteamiento de los supuestos necesarios:
a. Se sabe que los valores que adquiere la variable peso al nacer se distribuyen
normalmente en la población de interés.
b. Se conoce la varianza poblacional.
4. Selección del estadístico pertinente. Media muestral,

5. Especificación del estadístico de prueba y consideración de su distribución. El estadístico de
prueba es z, que se distribuye normalmente con media igual a cero y desviación estándar
igual a uno.
6. Especificación de las regiones de rechazo y aceptación. El valor crítico de la prueba, que

define las regiones de rechazo y aceptación, se localiza de la siguiente manera:
a) Se pone atención a qué tipo de prueba se realiza: . Como se
trata de una prueba de una cola, la región de rechazo se encuentra en un
extremo de la curva normal.
b) Se recuerda que para esta prueba = 0.05.
c) Entonces, el interés se ubica en una región de rechazo que consta de
aquella parte de la distribución normal que se localiza en la derecha de la
curva de distribución z, la cual incluye todos los valores de z tales que,
40
cuando es verdadera, la probabilidad de ocurrencia aleatoria de una z de
ese tamaño o mayor es igual o menor de 0.05.
d) Con lo anterior, y mediante el apoyo de la tabla 8, de distribución normal del
anexo ¨B¨ (Celis de la Rosa, 2014) , se procede de la siguiente manera:
i. A la probabilidad de que el resultado sea mayor que la media
de referencia (3,300 g) se le resta el valor de
(0.50-0.05=0.45);
ii. El valor resultado (0.4500) se busca en el cuerpo del cuadro
de distribución normal del anexo B (Tabla 8). Dado que el
valor 0.4500 no se encuentra en la tabla, entonces se
extrapolan los valores z para los valores más próximos. Así,
ya que el valor de z correspondiente a 0.4495 es 1.64, y que
el valor de z para 0.4505 es 1.65, el valor de z para 0.4500
debe ser 1.645.
Tabla 8
41
e) Una vez obtenido el valor crítico, éste define las regiones de rechazo y
aceptación. En la figura 6, la región de rechazo se representa de color,
mientras que la región de aceptación la constituye el resto del área que se
encuentra por debajo de la curva normal.

Fig. 6 Regiones de rechazo y aceptación para ejemplo explicativo.
7. Recolección de datos y cálculo de los estadísticos necesarios. Después de estudiar a los 10

niños que nacieron en la población, el investigador encuentra en ellos que el promedio del
peso al nacer es de 3 250 g. Para saber qué valor de z corresponde a un promedio de 3,550
g, cuando la población se distribuye normalmente con = 3 300 g y = 500 g, bajo el
supuesto de la hipótesis nula, se realiza la siguiente ecuación:
8. Decisión estadística.
Dado que el valor z calculado en el punto anterior es inferior al valor z tabulado en el punto 6,
el resultado encontrado por el investigador en el grupo estudiado se localiza en la región de
aceptación de la hipótesis nula, por lo que ésta no se rechaza.
9. Conclusión. Se concluye que “la diferencia observada no es estadísticamente significativa

(p > 0.05)”. (Celis de la Rosa, 2014)
42
Actividades de Aprendizaje de la Unidad III
1. Presentación en Power Point sobre el “Análisis de Varianza”

2. Participa en el foro “Técnicas de Análisis Estadístico”.
3. Resuelve cuestionario de la unidad.
Síntesis de la Unidad III
En ésta unidad se lleva a cabo la explicación de los distintos métodos de distribución que nos llevan a
interpretar correctamente los resultados de una investigación estadística para la mejor toma de
decisiones, en el entendido que los resultados no debe ir exentos del sentido común y más
tratándose del área médica.
43
BIBLIOGRAFIA Y FUENTES CONSULTADAS
Aula Facil.com. (2015). Recuperado el 2015, de http://www.aulafacil.com/CursoEstadistica/Lecc-12-

est.htm
Departamento de Materiales y Análisis de Datos. (2015). Recuperado el 2015, de
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/analisis
_datosyMultivariable/18reglin_SPSS.pdf
Sitio Web de Geociencias UNAM. (2015). Recuperado el 2015, de
http://www.geociencias.unam.mx/~ramon/EstInf/Clase7.pdf
www.stattrek.com. (2015). Recuperado el 2015, de http://stattrek.com/online-calculator/t-
distribution.aspx
Álvarez Alva, R. (2002). Salud Pública y Medicina Preventiva. México: Manual Moderno.
Álvarez Cáceres, R. (2008). Estadística multivariante y no paramétrica con SPSS: aplicación a las
ciencias de la salud. México: Ediciones Díaz de Santos.
Balzarini, M. (2013). Estadística y biometría. México: Editorial Brujas.
Balzarini, M., Tablada, M., & González, L. (2011). Introducción a la Bioestadística. México: Brujas.
Celis de la Rosa, A. d. (2014). Bioestadística (3era. Edición). México: El Manual Moderno.
Dawson, G. F. (2011). Interpretración Fàcil de la Bioestadística. España: Sciences.
Díaz Narvaéz, V. P. (2009). Metodología de la Investigación científica y estadística para médicos,
odontólogos y estudiantes de la salud. México: RIL editores.
Díaz Portillo, J. (1992). Guía Práctica del curso de Bioestadística Aplicada a las Ciencias de la Salud.
México: Instituto Nacional de Gestión Sanitaria.
García Ramos, J. A., Ramos González, C. D., & Ruiz Garzón, G. (2008). Estadística administrativa.
Cádiz, España: Servicio de Publicaciones de la Universidad de Cádiz.
Guerra Bustillo, C. W., Menéndez Acuña, E., & Barrero Morera, R. (2011). Estadística. México:
Editorial Félix Varela.
Montaño, N. (03 de Diciembre de 2010). Gráfico de Dispersión. Recuperado el 24 de febrero de 2015,
de http://blog.espol.edu.ec/nemo/2010/12/03/creando-grafico-dispersion-ggplot2-part1/
Prieto Valiente, L. (2010). Bioestadísticas sin dificultades matemáticas en base de tesoros perdidos.
México: Díaz Santos.
Ritchey, F. J. (2008). Estadísticos para las ciencias sociales. Mèxico: McGraw Hill Interamericana.
44
Suárez Ibujes, M. O. (2015). Monografías. Recuperado el 2015, de
http://www.monografias.com/trabajos85/coeficiente-correlacion-karl-pearson/coeficiente-
correlacion-karl-pearson.shtml
Valencia, U. d. (2015). Pràcticas de Estadìstica. Recuperado el 2015, de
http://www.uv.es/framarru/estCCAA_0809_archivos/practica5.PDF
Wayne W, D. (2008). Bioestadística. Base para el análisi de las ciencias de la salud. México: Limusa
Wiley.
45

Anto Bioe Nle

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Anto Bioe Nle

Uploaded by

Copyright:

Available Formats

INSTITUTO DE CIENCIAS Y ESTUDIOS SUPERIORES

Compilador: Ricardo Alberto Ponce de León Díaz

Tampico, Tamps. Mayo de 2015

Objetivo General de la Antología 4

Unidad I: Medidas de Tendencia Central y Dispersión

Unidad II: Coeficiente de Correlación

La aplicación resulta hoy en día necesaria, en los campos:

 Salud pública, que incluye: epidemiología, nutrición, salud ambiental y en investigación de

La colaboración de la bioestadística ha sido clave en el desarrollo de nuevos fármacos, en el

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN.

1.1 Concepto De Tendencia Central

Medidas de Tendencia Central

 Variables cuantitativas discretas son aquellas variables cuyos posibles valores

Se divide en dos áreas:

 Estimación, que puede ser puntual o por intervalos

Ejemplo: (hipotético) la concentración de glucosa en sangre en individuos no diabéticos, medida en

El problema es ¿cómo averiguar la fdp de una variable de interés?

La familia, generalmente, se sabe por resultados de la teoría de la probabilidad, aunque, en cada

Métodos gráficos de representación de muestras: El método gráfico más frecuente es el histograma.

La media aritmética, o simplemente media o promedio, es una medida descriptiva de tendencia

Media aritmética para datos agrupados

Tabla 1 Ejercicio sobre la Media (Celis de la Rosa, 2014)

[20, 30) 25 8 200

[40, 50) 45 9 405

[70, 80) 75 2 150

3. Si la serie tiene un n ú m e r o p a r de puntuaciones la m e d i a n a es la m e d i a entre las dos

Cuando todas las p u nt ua c i o n e s de un grupo tienen la m i sm a f r ec u e nc i a , n o hay m o d a .

Propiedades de la media aritmética:

1.5 Datos Simples Y Datos Agrupados

Es aquella distribución en la que la disposición tabular de los datos estadísticos se encuentra

1.6 Agrupamiento Por Intervalo

Son continuos el peso, la estatura, el nivel de glucosa en la sangre, etc.

1.7 Medidas de Dispersión

La dispersión de un conjunto de observaciones se refiere a la variedad que exhiben sus valores. Si

La varianza se representa por .

Varianza para datos agrupados

Para simplificar el c á l c u l o d e l a va r i a n za vamos o utilizar las siguientes expresiones que son

Varianza para datos agrupados

Tabla 2 Varianza (Ritchey, 2008)

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5000

[40, 50) 45 9 405 18 225

[50, 60 55 8 440 24 200

[70, 80) 75 2 150 11 250

Desviación típica para datos agrupados

Desviación típica para datos agrupados

Tabla 3 Datos para ejercicio de desviación típica (Ritchey, 2008)

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5000

[40, 50) 45 9 405 18 225

[50, 60) 55 8 440 24 200

[70, 80) 75 2 150 11 250

 Síntesis en Power Point titulado Las Medidas de Tendencia Central.

COEFICIENTE DE CORRELACIÓN Y REGRESION LINEAL

Analizar e interpretar los resultados obtenidos.

2.1 Regresión Lineal.

dependiente (Y) y una o más variables independientes ( ).

2.2 .Interpretación de la Ecuación de regresión Lineal Simple

Donde los coeficientes b0 y b1 son parámetros que definen la posición e inclinación de la

Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas

Figura 1. http://blog.espol.edu.ec/nemo/2010/12/03/creando-grafico-dispersion-ggplot2-part1/ (Montaño, 2010)

http://www.uv.es/framarru/estCCAA_0809_archivos/practica5.PDF (Valencia, 2015)

http://www.uv.es/framarru/estCCAA_0809_archivos/practica5.PDF (Valencia, 2015)

, la variable representará la pérdida de peso y la variable independiente la