Professional Documents
Culture Documents
• FACULTAD DE MEDICINA
• CARRERA MEDICINA
Mayo, 2017
Unidad de Aprendizaje: Introducción a la Estadística
Mayo, 2017
4. Simular un trabajo de investigación empleando todas las técnicas
de estadística descriptiva univariante y bivariante
2
Definición
Estudio que reúne, clasifica y recuenta todos los
hechos que tienen una determinada característica en
común, para poder llegar a conclusiones a partir de los
datos numéricos extraídos.
Mayo, 2017
3
Estadística
• La ciencia que tiene
por objeto el estudio
cuantitativo de los
colectivos.
• Expresión
cuantitativa del
Mayo, 2017
conocimiento
dispuesta en forma
adecuada para el
escrutinio y análisis.
Mayo, 2017
actividad humana.
• El estudio de la Estadística y el
modo de pensamiento que se
genera a partir del mismo,
capacita a la persona para
evaluar objetiva y
5
efectivamente si la información
que recibe es relevante y
adecuada.
Línea Del Tiempo Antecedentes
Antes de Cristo
3050 3000 2000 1000 540
Mayo, 2017
Egipto : hay datos sobre China: existen registros Israel antiguo: el rey David Grecia: censos
población y riqueza (según Babilonia : hay registros de numéricos de bienestar ordena un censo para periódicos para
Heredoto) para construir las datos comerciales y material. conocer el numero de fines tributarios,
agrícolas. habitantes. sociales y
pirámides de Egipto militares.
6
Línea Del Tiempo Antecedentes
Después de Cristo
1086 1501-1576, 1650 1657 1662
1564-1642
Mayo, 2017
Inglaterra.- censo Se enriquece la Se considera inicios de la Dentro de los orígenes Se considera como
encargado por estadística con Girolamo probabilidad con la de esta ciencia de iniciador de estadística a
Guillermo I El Cardano (Físico italiano) correspondencia que teorías de probabilidad John Graunt por sus
Conquistador y Galileo Galilei (Físico y mantuvo Pascal con entra Christian trabajos de demografía
Astrónomo) Fermat.. Huygens (Geómetra,,
físico y astrónomo) con
un corto articulo.
Mayo, 2017
ocurrencia de enfermedad,
notando disparidades entre
hombres-mujeres, alta mortalidad
infantil, diferencias urbanas-
rurales, y variaciones estacionales.
8
Línea Del Tiempo Antecedentes
Después
Después de
de Cristo
Cristo
1654-1705
1654-1705 Siglo XVII a XIX 1718-1730 1760 1764
Mayo, 2017
Jacob Bernoulli es La estadistica se Godofredo Achewall acuña la Thomas Bayes publica
Abraham De Moivre
considerado como iniciador propaga a traves de palabra ESTADISTICA, del “Ensayo sobre la
hizo la 1ra formulación
de la teoría de probabilidad , varias disiplinas: italiano STATISTA (estadista) resolución de un
de la “Ley de
introduce la 1ra “Ley de los astronomia, geodesia, del latin STATUS (estado o problema de doctrina del
probabilidad normal”
grandes números” psicologia, biologia y situación). azar” grava su nombre en
ciencias sociales la Inferencia Bayesiana
9
Teorema de los grandes
números
Soporte matemático a la idea de que el promedio de una
muestra al azar de una población de gran tamaño tenderá a estar
cerca de la media de la población completa.
Mayo, 2017
10
Teorema del límite central
Mayo, 2017
11
Línea Del Tiempo Antecedentes
Siglo XVII y XVIII
1773-1855 1774-1781 1801-1887 1805 1835
Mayo, 2017
Pierre Simón Laplace Gustav Fechner Adrian Marie Legendre Adolphe Quetelet
Karl Gauss (matemático, (Matemático francés) (Psicólogo Alemán) (Matemático y (Matemático,
astrónomo y físico alemán) formulo la “Ley de Derivo la estadística Estadístico Francés) meteorólogo,
contribuyo al “Método de los probabilidad normal” hacia la Psicología crea un sistema que astrónomo,
mínimos cuadrados ” y Experimental. involucra el método de estadístico y
desemboco en la “Ley de mínimos cuadrados, sociólogo) es llamado
probabilidad normal” como “Método de padre de la
estimación de Estadística Moderna
parámetros.”
12
Mayo, 2017
13
Línea Del Tiempo Antecedentes
Siglo XVIII
1837 1850-1909 1880
Mayo, 2017
Simeón Denis Poisson Hermann Ebbinghaus Willhelm Lexis (Economista y Se crea una revolución Estadística proporcionando una
(Matemático y Físico); (Psicólogo Alemán): aplico el Estadístico Alemán) metodología empírica que sustituye a la experimentación
publico “La distribución de diseño experimental al contribuyo a la estadística controlada. Algunas personalidades importantes son:
poisson” y “ley de los estudio de la memoria. social estudiando datos como •Francis Galton: fue pionero en el tema de la regresión
grandes números de series de tiempo. lineal simple, y por la correlación. Investigo la distribución
Bernoulli” normal Bivariada.
•Francis Edgeworth: aporto la aproximación de Edgeworth
y desarrollo una versión del Teorema de limite central
14
Línea Del Tiempo Antecedentes
FINALES SIGLO XVIII Y COMIENZO SIGLO XIX
1892 1906 1934 1892-1962
Mayo, 2017
Jerzy Neyman (Polonia, matemático y estadístico ingles)
estadístico).- Desarrollo el muestro de Desarrollo técnicas claves para la
poblaciones finitas y la estimación por experimentación:;
intervalo. Estableció que la selección • El diseño experimental en bloques .
Karl Person.(Inglaterra).- A.L. Bowley (Inglaterra. aleatoria es la base de una teoría científica • La aleotorizacion.
Introdujo la distribución matemático y economista) que permite predecir la validez de las • El diseño Factorial.
Gamma. Desarrollo el Aplica la teoría de Inferencia estimaciones muéstrales y dejo establecida • El análisis de varianza.
estadístico Ji - Cuadrado a las encuestas por una filosofía sobre la eficiencia de la • Teoría de estimación eficiente,
muestreo. estrategia muestral. basada en la Función de
Verosimilitud.
15
Línea Del Tiempo Antecedentes
Siglo XIX
1933 1936 1876-1937
Mayo, 2017
George Snedecor
William Cochran Harold Hotelling
(Matemático E.U.A) fue uno Ego Pearson William Gosset:
(Matemático Escocia) (Economista y
de los pioneros de presento una Desarrollo el Test T,
hizo contribuciones al estadístico E:U.A). Es
estadística al constituirse en teoría de cómo basado en la distribución
diseño de conocido en Estadística
fundador de laboratorio de probar hipótesis. de probabilidad de T
experimentos y la por sus trabajos en
estadística de IOWA STATE STUDENT, introducida
teoría de muestreo. Análisis Multivariante,
UNIVERSITY. por el.
en particular por la
distribución de
probabilidad T-
Cuadrada de Hotelling,
una generalización de la
T de Student.
16
Línea Del Tiempo Antecedentes
Siglo XIX
Mayo, 2017
Charles Spearman L.L. Thurstone: Defendió la
(Psicólogo Inglaterra) Se le explicación de la inteligencia
Frank Wilcoxon (Químico y considera el primer como conjunto de siete Abraham Wald.- Desarrolló la Teoría de
estadístico E.U.A) psicometrista sistemático. capacidades o factores, Muestreo Secuencial y la Teoría
Contribuyó a la Estadística Fue pionero en el desarrollo también identificables Estadística de Decisiones. También en
No-Paramétrica, en particular del método del Análisis mediante el análisis otros campos, como Máxima
es suyo el test basado en Multivariante denominado factorial. Verosimilitud Asintótica, Estadística
rangos de Wilcoxon. Análisis Factorial. No-Paramétrica, Análisis Discriminante,
Control de calidad, Modelos Lineales
con Error en las Variables, entre otros.
17
Línea Del Tiempo Antecedentes
Siglo XIX al día de hoy.
1953, 1960
Mayo, 2017
Estadístico Indio. Hizo contribuciones
Andrey Kolmogorov George Box
en las áreas de Teoría de
Matemático, físico y probabilista Ruso, Químico, matemático, estadístico ingles. Estimación, Inferencia, Modelos
Planteó los fundamentos de la teoría Acuño el término Robustez para designar Lineales, Análisis Multivariante, entre
otras.
axiomática de la probabilidad.. Hizo procedimientos estadísticos que dan
contribuciones cruciales a la Teoría resultados aceptables cuando no se Es conocido especialmente por la
Cota de Crámer-Rao y el Teorema
Algorítmica de la Aleatoriedad, a la Mecánica cumplen totalmente los supuestos en que
de Rao-Blackwell.
Estadística, a los Procesos Estocásticos, a la se basan
Teoría de la Información.
18
Computadoras y software
estadísticos
Mayo, 2017
19
La estadística se divide en dos grandes
áreas:
• Estadística descriptiva: Se
dedica a la descripción,
visualización y resumen de
datos originados a partir de
los fenómenos de estudio.
Los datos pueden ser
Mayo, 2017
resumidos numérica o
gráficamente.
• Estadística inferencial: Se
dedica a la generación de los
modelos, inferencias y
predicciones asociadas a los
fenómenos en cuestión
teniendo en cuenta la 20
aleatoriedad de las
observaciones.
Estadística descriptiva
Mayo, 2017
21
Un brevísimo resumen sobre
estadísticos univariantes
• Centralización
• Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda
• Posición
• Dividen un conjunto ordenado de datos en grupos con la misma
Mayo, 2017
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
• Dispersión
• Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
22
• Asimetría
• Apuntamiento o curtosis
Un brevísimo resumen sobre
estadísticos univariantes
Mayo, 2017
23
Estadísticas univariantes y Bivariantes.
24
UNIVERSIDAD CATÓLICA DE CUENCA
FACULTAD DE MEDICINA
CARRERA MEDICINA
Mayo, 2017
Unidad de Aprendizaje: Metodología y Filosofía de la Ciencia
Mayo, 2017
El alumno conocerá los elementos básicos para elaborar el
diseño de investigación de un tema científico específico,
basándose en resultados de investigación y datos obtenidos.
26
Unidad I. Filosofía de la Ciencia
Mayo, 2017
1.2 Filosofía de la Ciencia
27
Objetivo de la Unidad I
Mayo, 2017
y los paradigmas científicos de la estadística
dentro de las ramas biológicas y biomédicas.
28
Contenido temático
• Ciencia
• ¿Qué debemos entender de un científico?
• ¿Qué es ciencia?
• Ramas de la ciencia
• Características de la ciencia factual
• Diferencia entre ciencia y sentido común
Mayo, 2017
• Métodos del conocimiento
• Objetivo de la ciencia
• Investigación científica
• Filosofía
• Definición y surgimiento
• Características de la filosofía
• Métodos filosóficos
• Disciplinas filosóficas 29
• Filosofía de la Ciencia
CIENCIA
Mayo, 2017
1.1 Ramas de la Ciencia
30
¿Qué debemos entender acerca
de un científico?
• Hablan de variables dependientes
e independientes (X; Y). Ejemplo:
Ingreso del consumidor (X) y
Consumo individual (Y).
Mayo, 2017
• Aleatorizan sus procedimientos
experimentales.
31
• La forma en la que se aproximan a
los problemas (sociales) debe ser
entendida con claridad.
Ciencia
“Es un conocimiento racional, sistemático, exacto, verificable y falible”
(Bunge, 2014, p. 9)
Mayo, 2017
Exacto: sus resultados son claros y contrarios a la vaguedad y superficialidad.
32
Ramas de la ciencia (Bunge, 2014)
Mayo, 2017
verdad fáctica.
Entes ideales. Solo existen Hechos, sucesos,
¿QUÉ ESTUDIA?
en la mente humana. procesos, etc.
Verifican, confirman o
FIN Demuestran, prueban.
refutan hipótesis.
Relaciones entre signos,
ENUNCIADOS Símbolos interpretados.
símbolos vacíos.
Emplean la
CONFIRMACIÓN DE
A través de la Lógica. experimentación,
CONJETURAS
observación. 33
Lógica
Formal
Ciencia Matemática
Natural (Física,
Química, Biología)
Mayo, 2017
Bio-social
Factual (Antropología,
Demografía, Psicología
Social)
Social (Sociología,
Economía, Ciencia
Política)
34
Fuente: Bunge, M. (2004). La Investigación científica. México: Siglo XXI.
Características de la ciencia
fáctica
1.- El conocimiento científico es fáctico: parte de los hechos.
2.- El conocimiento científico trasciende los hechos: descarta
hechos, produce nuevos hechos y los explica.
Mayo, 2017
35
3.- La ciencia es analítica: 4.- La investigación científica
aborda problemas concretos, es especializada: una de sus
uno por uno, y trata de características es la
descomponerlo todo en especialización.
elementos.
Químico
Mayo, 2017
Físico
Médicos 36
5.- El conocimiento científico es claro y preciso: sus resultados
son claros.
6.- El conocimiento científico es comunicable: es expresable y
público.
7.- El conocimiento científico es verificable: empirismo.
Mayo, 2017
Se prueba la hipótesis germinación de
37
semillas y crecimiento de plantas
Publicación en revistas científicas
8.- La investigación científica es metódica: es planeada.
Mayo, 2017
9.- El conocimiento científico es sistemático: es un sistema
de ideas conectadas lógicamente entre sí.
38
10.- El conocimiento científico es general: ubica los hechos
singulares en pautas generales.
11.- El conocimiento científico es legal: busca leyes y las aplica.
12.- La ciencia es explicativa: intenta explicar los hechos en
términos de leyes.
Mayo, 2017
39
Es una ley de física y a su vez reconoce la generalidad
13.- El conocimiento científico es predictivo: imagina cómo pudo
haber sido el pasado y cómo podrá ser el futuro.
14.- La ciencia es abierta: no reconoce barreras al conocimiento.
15.- La ciencia es útil: busca la verdad, provee de herramientas
para el bien y para el mal.
Conocimiento del universo y su predicción con
base en las leyes
Mayo, 2017
El funcionamiento de un submarino: para
investigar formas de vida en el fondo del mar o
para trasportar objetos ilegales.
40
Diferencia entre ciencia y
sentido común (Kerlinger y Lee, 2002)
1)
2)
Estructuras
Hipótesis
teóricas
La persona común
Mayo, 2017
Los científicos
emplea teoría de prueban hipótesis
forma vaga. de forma
sistemática.
El científico,
construye La persona común
estructuras selecciona
teóricas, las evalúa evidencia para
y las somete a una probar hipótesis.
prueba empírica. 41
4) Relación
3) Control entre
fenómenos
El científico
El científico persigue las
descarta variables relaciones de
que son “posibles” forma sistemática
causas de las que (X y Y)
son las “causas”
Mayo, 2017
La persona común
emplea el sentido
La gente común común para
rara vez se explicar la relación
preocupa por de fenómenos
controlar sus (nube obscura, va
explicaciones. llover)
42
5) Explicación
El científico descarta
explicaciones
“metafísicas” (no se
puede probar)
Científico
Mayo, 2017
La gente común
emplea la
“metafísica”: la gente
es pobre porque así
lo decidió Dios.
43
Sentido común
Métodos del conocimiento
Mayo, 2017
• 2.- Método de la autoridad
• 3.- Método a priori
• 4.- Método de la ciencia
44
Método de la tenacidad
• La gente sostiene firmemente
la verdad con base en sus
creencias. La repetición de
verdades sustentan su
validez.
Mayo, 2017
Método de la autoridad
Mayo, 2017
es para el individuo.
Método de la
ciencia
• Es autocorrectivo y
objetivo. 46
Objetivo de la ciencia
Objetivo Teoría
Mayo, 2017
es explicar los fenómenos naturales. Tales explicaciones
se llaman teorías.
Teoría: conocer el
Objetivo de la comportamiento
Ciencia Biomédica de una
enfermedad
(ejemplo)
47
• De acuerdo a Creswell (2009) la teoría es un conjunto de
constructos (variables) interrelacionados en forma de
proposiciones o hipótesis que especifican la relación entre
variables.
• ¿Por qué una variable X (independiente) se relaciona con una
variable Y (dependiente)? La teoría podría explicar la relación
o predicción para esta pregunta.
X Y
Mayo, 2017
No. de pacientes con Mayor incidencia del
Paludismo mosquitos A. aegypti
Ejemplo
Mayo, 2017
La investigación científica arranca con la percepción de que el acervo de
conocimiento disponible es insuficiente para mejorar determinados
49
problemas
a) Investigación de calidad
Mayo, 2017
• Se puede hacer.
• Genera nuevas preguntas.
• Es incremental.
• Es una actividad apolítica.
50
b) Proceso de investigación
Hacer la pregunta
Mayo, 2017
Reconsiderar la Formular una
teoría hipótesis
51
Probar la hipótesis Salkind, 1999
FILOSOFÍA
Mayo, 2017
1.2 Filosofía de la Ciencia
52
Definición y surgimiento
• Philos (amigo, amante)
• Sophia (sabiduría)
• “Amar el saber”
Mayo, 2017
• Los inicios de la filosofía
de occidente se ubican en
Grecia: se realizaba una
reflexión racional, una
explicación de la
naturaleza, la realidad y el
hombre.
53
• No existe una definición única. Para fines de la clase, filosofía
es:
Mayo, 2017
54
Características de la Filosofía
(Camacho, López y Mendoza, 2009)
Asombro
Formas de
Duda
expresión
Mayo, 2017
Amor a la
Reflexión
sabiduría
Visión
Pregunta
totalizadora 55
Objeto de la Filosofía
Mayo, 2017
Conocimiento
de la realidad
Mayo, 2017
Con preguntas
Sócrates (diálogo)
Sócrates dirige Platón
“Partera”
“a punto de dar a luz
el parto
(conocimiento)”
(conocimiento)
de Platón. 57
Cartesiano (René Descartes)
De René Descartes, funciona a través de la duda metódica.
Siempre hay que dudar. Su método:
Mayo, 2017
2.- Buscar lo que es perdurable.
Principios:
1.- Nada es verdadero
2.- Se debe analizar
3.- Se incrementa el conocimiento
por el pensamiento ordenado
58
4.- No se debe omitir nada
Fenomenológico (Edmund
Husserl)
• Es la descripción de lo que aparece en la conciencia, el
fenómeno o la apariencia.
Tratar de
Mayo, 2017
Lema:
describir el
“Volver a las
sentido de las
cosas
cosas
mismas”
viviéndolas
Pasos:
1.- Reducción: poner un paréntesis y tener una actitud natural.
2.- Resultado: residuo fenomenológico. 59
Hermenéutico (Friedrich
Ernst)
• Es el arte de interpretación de un texto, más que su
descripción.
Mayo, 2017
60
Método Dialéctico (Georg
Friedrich Hegel)
• Se basa en el supuesto de que tanto la realidad como el
pensamiento se manifiestan según el principio de la dialéctica,
transcurriendo por tres estadios o momentos sucesivos.
Mayo, 2017
Síntesis
Antítesis
Tesis
61
Como lo explicamos.
Mayo, 2017
62
Disciplinas filosóficas
Algunos
ejemplos Ontología (Estudio del ser)
Mayo, 2017
Epistemología (El objeto de estudio
es el conocimiento)
Mayo, 2017
1996).
Mayo, 2017
2.- La Filosofía, amor al saber, está relacionada con el
descubrimiento de la verdad de todo lo que le rodea al hombre.
Dentro de la Filosofía se pueden ubicar algunas disciplinas
filosóficas como la Filosofía de la Ciencia. La Filosofía de la
Ciencia evalúa las teorías.
3.- La Filosofía de la Economía evalúa el andamiaje teórico de la
Ciencia Económica. 65
Fuentes de información
Bunge, M. (2004). La Investigación científica. México: Siglo XXI.
Bunge, M. (2014). La ciencia, su método y su filosofía. México: Nueva
Imagen.
Camacho, M.G.; López, M.I. y Mendoza, B. (2009). Filosofía. México:
Progreso.
Mayo, 2017
Creswell, J.W. (2009). Research design. Qualitative, Quantitative, and
Mixed Methods Approaches. USA: SAGE.
Hernández, R.; Fernández-Collado, C. y Baptista, P. (2006).
Metodología de la investigación. México: McGraw Hill.
Kerlinger, F.N. y Lee, H. (2002). Investigación del comportamiento.
México: McGraw-Hill.
Salkind, N. (1999). Métodos de investigación. México: Prentice Hall.
Verdugo, C. (1996). La filosofía de la ciencia de Popper. En Estudios 66
Mayo, 2017
diseño.
• Es importante explicitar la población o universo que será
investigado.
70
Resumen de la investigación
200 palabras
Mayo, 2017
71
PLANTEAMIENTO DEL
PROBLEMA
• Se constituye en la justificación científica del estudio, es decir,
lo que fundamenta la necesidad de realizar una investigación
para generar conocimientos que brinden un aporte al
conocimiento existente.
Mayo, 2017
• Los vacíos de conocimiento existente sobre el problema y/o la
controversia existente y la evidencia no conclusiva
• Es en este punto donde el investigador delimita el objeto de
estudio y da a conocer las interrogantes o las grandes
preguntas que orientan la investigación
Argumento convincente
72
Justificación del problema
• ¿Cómo se relaciona la investigación con las prioridades de la
región y del país?
• ¿Qué conocimiento e información se obtendrá?
• ¿Cuál es la finalidad que se persigue con el conocimiento que
Mayo, 2017
brindará el estudio?
• ¿Cómo se diseminarán los resultados?
• ¿ se utilizarán los resultados y quiénes serán los beneficiarios?
73
FUNDAMENTO TEÓRICO
(Background)
• Se deriva del planteamiento del problema (presentación de
evidencia empírica y pregunta central) y es la argumentación y
demostración de que la "pregunta" tiene fundamento (piso),
derivando en probable(s) respuesta(s) y/o hipótesis de
Mayo, 2017
trabajo.
• Sustenta la pregunta central del estudio, expone el
razonamiento y argumentos del investigador hacia la
búsqueda de la evidencia que le dé respuesta a la pregunta
y/o hipótesis.
• Requiere igualmente, una exhaustiva revisión de la
bibliografía.
74
OBJETIVOS DE LA
INVESTIGACIÓN
Objetivo general:
• Debe explicitar lo que se espera lograr con el estudio en
términos de conocimiento.
• Debe dar una noción clara de lo que se pretende describir,
Mayo, 2017
determinar, identificar, comparar y verificar.
Objetivos específicos:
• Son la descomposición y secuencia lógica del objetivo general.
• Son un anticipo del diseño de la investigación.
75
Metodología y Análisis
Mayo, 2017
76
Definición operacional de las
variables
• Las variables deben tener una expresión operacional; es decir,
que el investigador deje claro al lector qué está entendiendo
por cada variable
Mayo, 2017
• De qué tipo de variable se trata y cuál sería la manera de
resumir sus valores (cuantitativos o cualitativos)
77
Tipo de estudio y diseño
general
• El investigador debe enunciar con claridad el tipo de estudio
que realizará y una explicación detallada de su diseño.
• Estratégicas y los mecanismos que va a poner en práctica para
Mayo, 2017
reducir o suprimir las amenazas a la validez de los resultados,
o sea, los llamados factores confusores.
78
Universo de estudio,
selección y tamaño de
muestra, unidad de análisis
y observación
Mayo, 2017
• En este acápite, el investigador debe enunciar y describir el
universo del estudio y todo lo relativo a los procedimientos y
técnicas para la selección y tamaño de muestra (en caso de
que no aplique se debe explicar el por qué)
• En este punto se debe también señalar, los criterios de
inclusión y exclusión de los sujetos o unidades de observación
79
Criterios de inclusión y
exclusión
• Tener por lo menos claro y argumentarlo, por que se incluyen
o se excluyen ciertas variables que podrían ser necesarias
dentro del proceso de su investigación
Mayo, 2017
80
Intervención propuesta
• Se debe asegurar que la descripción de la intervención
responde a tres preguntas fundamentales:
• ¿Quién será el responsable de la intervención?
• ¿Dónde tendrá lugar?
• ¿Qué actividades se van a realizar y en qué nivel de frecuencia e
Mayo, 2017
intensidad?
81
Procedimientos para la recolección de
información, instrumentos a utilizar y
métodos para el control y calidad de
los datos
• Encuesta a población, entrevistas a profundidad, observación no-
practicante, dinámica de grupos focales, análisis de contenido, etc.
Mayo, 2017
• Cómo y cuándo los aplicará y los instrumentos que utilizará para
recopilar la información
• los procedimientos que utilizará para controlar los factores que
amenazan la validez y confiabilidad de los resultados
• En el caso de requerirse el uso de datos secundarios, el
investigador describirá las fuentes, su contenido y la calidad de los
datos que piensa utilizar
82
Se deben anexar al protocolo, los instrumentos que serán utilizados
Procedimientos para garantizar
aspectos éticos en las
investigaciones con sujetos
humanos
Mayo, 2017
• Indicar cómo será mantenida la confidencialidad de la
información de los participantes en el estudio.
83
Métodos de investigación y
análisis de datos.
• Métodos y modelos de análisis de los datos según tipo de
variables
• Programas a utilizar para análisis de datos
Mayo, 2017
84
Referencias bibliográficas
Normas APA
Mayo, 2017
85
Mayo, 2017
86
Población y Muestra
Mayo, 2017
los conceptos de población y de muestra para lograr
comprender mejor su significado en la investigación
educativa o social que se lleva a cabo.
87
Población y Muestra
Proceso Estadístico
Población
Mayo, 2017
Muestreo
Inferencia
Estadística
88
Muestra
Población y Muestra
Población: Definición
Es el conjunto total de individuos, objetos o medidas
que poseen algunas características comunes
Mayo, 2017
observables en un lugar y en un momento
determinado.
Cuando se vaya a llevar a cabo alguna investigación
debe de tenerse en cuenta algunas características
esenciales al seleccionarse la población bajo estudio.
89
Población y Muestra
Población: Características
Es el conjunto total de individuos, objetos o medidas
que poseen algunas características comunes
Mayo, 2017
observables en un lugar y en un momento
determinado.
Cuando se vaya a llevar a cabo alguna investigación
debe de tenerse en cuenta algunas características
esenciales al seleccionarse la población bajo estudio.
90
Población y Muestra
Población: Características
Homogeneidad - que todos los miembros de la
población tengan las mismas características según las
variables que se vayan a considerar en el estudio o
Mayo, 2017
investigación.
Mayo, 2017
limitarlo a un área o comunidad en específico.
Mayo, 2017
Hay diferentes tipos de muestreo. El tipo de muestra
que se seleccione dependerá de la calidad y cuán
representativo se quiera sea el estudio de la población.
93
Población y Muestra
Muestra: Tipos
ALEATORIA - Cuando se selecciona al azar y cada
miembro tiene igual oportunidad de ser incluido.
Es preferible usar, métodos computacionales para
Mayo, 2017
discriminar cualquier efecto sobre la toma de la
muestra.
Ejm. en Excel
=ALEATORIO.ENTRE(1,45)
94
Población y Muestra
Muestra: Tipos
ESTRATIFICADA - cuando se subdivide en estratos o
subgrupos según las variables o características que se
pretenden investigar. Cada estrato debe corresponder
Mayo, 2017
proporcionalmente a la población..
95
Población y Muestra
Muestra: Tipos
SISTEMÁTICA - cuando se establece un patrón o criterio
al seleccionar la muestra. Ejemplo: se entrevistará una
familia por cada diez que se detecten.
Mayo, 2017
96
Población y Muestra
Muestreo:
El muestreo es indispensable para el investigador ya
que es imposible entrevistar a todos los miembros de
una población debido a problemas de tiempo,
Mayo, 2017
recursos y esfuerzo. Al seleccionar una muestra lo que
se hace es estudiar una parte o un subconjunto de la
población, pero que la misma sea lo suficientemente
representativa de ésta para que luego pueda
generalizarse con seguridad de ellas a la población.
97
Población y Muestra
Investigación: Tipos.
En la investigación experimental, por su naturaleza y
por la necesidad de tener control sobre las variables,
se recomienda muestras pequeñas que suelen ser de
Mayo, 2017
por lo menos 30 sujetos.
Mayo, 2017
Ahorrar tiempo. Estudiar a menos individuos es
evidente que lleva menos tiempo.
Mayo, 2017
Aumentar la calidad del estudio. Al disponer de más
tiempo y recursos, las observaciones y mediciones
realizadas a un reducido número de individuos pueden
ser más exactas y plurales que si las tuviésemos que
realizar a una población. 100
Población y Muestra
Muestreo: Importancia
La selección de muestras específicas nos permitirá
reducir la heterogeneidad de una población al indicar
los criterios de inclusión y/o exclusión.
Mayo, 2017
101
Bioestadística
Muestreo
102
• Parte de los conceptos de la teoría del muestreo han sido
discutidos con anterioridad. Aquí los repasaremos y ampliaremos.
Por ejemplo, hemos mencionado que las poblaciones están
formadas por individuos, pero sería mejor denominarlas unidades
de muestreo o unidades de estudio:
• Personas, células, familias, hospitales, países…
• ¿Cómo se hace?
Pídele que lance una moneda antes de responder y…
• Si sale cara que diga la “opción compremetida”
• (no tiene por qué avergonzarse, la culpa es de la moneda)
• Si sale cruz que diga la verdad
• (no tiene por qué avergonzarse, el encuestador no sabe si
ha salido cara o cruz)
Con respuesa
aleatorizada Diferencia entre los que han dicho sí y los que
40% No debían hacerlo por que así lo indicaba la moneda
60% Sí
0,6 0,5
¡No son mitad y mitad! p
*
0,2 20%
El porcentaje estimado de ind. que tomó drogas 1 0,5 106
es:
Los que deben decir la verdad
Técnicas de muestreo
• Cuando elegimos individuo de una población de
estudio para formar muestras podemos encontrarnos
en las siguientes situaciones:
• Muestreos probabilistas
• Conocemos la probabilidad de que un individuo sea elegido
para la muestra.
• Interesantes para usar estadística matemática con ellos.
• Muestreos no probabilistas
• No se conoce la probabilidad.
• Son muestreos que seguramente esconden sesgos.
• En principio no se pueden extrapolar los resultados a la
población.
• A pesar de ello una buena parte de los estudios que se publican
usan esta técnica. ¡Buff!
• En adelante vamos a tratar exclusivamente con
muestreos con la menor posibilidad de sesgo
(probabilistas): aleatorio simple, sistemático,
estratificado y por grupos. 107
Estimación
• Un estimador es una cantidad numérica calculada sobre
una muestra y que esperamos que sea una buena
aproximación de cierta cantidad con el mismo significado
en la población (parámetro).
121
P1: La frecuencia de la exposición entre los casos
P2: La frecuencia de la exposición entre los controles
122
El poder estadístico (1-β) que se quiere para el estudio,
o riesgo de cometer un error de tipo II.
Es habitual tomar β = 0,2, es decir, un poder del 80%.
123
124
Muestreo en estudios estadísticos
Definiciones:
• Universo (U): Conjunto de elementos susceptible de ser estudiados.
Individuos, aldeas, pueblos, acontecimientos (nacimientos, fallecimientos, …)
Precisión en la definición
• Unidades muestrales (UM): Elementos que componen el Universo.
Individuos, aldeas, pueblos, manzanas, hogares, …
Un mismo U puede descomponerse en distintos tipos de UM.
• Muestra (m): Subconjunto de UE extraídas del U. .
Los resultados de la muestra se van a “extrapolar” (estimación)
Mayo, 2017
Universo (U)
Unidades
muestrales
125
Unidades
Muestra (n) Muestrales seleccionadas
Representatividad en estudios estadísticos
Características a evaluar
Mayo, 2017
Grupos de estudio “sobre-representados”
Ponderación en la estimación
126
Muestreo Aleatorio Simple (MAS) (Azar Simple):
Extraer m de tamaño n donde cada UM tiene la misma probabilidad
de ser extraída. Puede realizarse con o sin reposición.
Mayo, 2017
Ventajas:
• Sencillez.
• Se basa en métodos probabilísticos
• Sirve de base para otros métodos más complejos.
Inconvenientes:
•Todas las unidades poblacionales han de ser listadas.
• No unifica las distintas características de los elementos.
•Algún grupo poblacional puede no ser representado 127
Muestreo Aleatorio Sistemático (MAST)
(Azar Sistemático):
Mayo, 2017
correlativamente.
CE = N (población y/o universo) n (el tamaño de la muestra).
Ventajas:
Las mismas que en MAS
Inconvenientes:
Una cierta ordenación puede dar lugar a un sesgo.
El CE puede no ser entero.
La sustitución de las unidades vacías produce otro CE y este a su vez 128
puede producir un nuevo sesgo.
Muestreo Estratificado:
Se eligen unas características de la población diana y se realizan
subgrupos de la misma a partir de éstos, intentando que sea un fiel
reflejo del universo muestral.
Mayo, 2017
Ventajas:
Consigue una mayor precisión que el MAS y el MAST.
Se puede obtener información de cada estrato.
Es más beneficioso logística y administrativamente hablando.
Inconvenientes:
Es más complejo que el MAS.
129
Es más costoso económicamente y de recursos utilizados.
Muestreo Aleatorio Estratificado (MAE):
Mayo, 2017
Simple.- Cada estrato contiene el mismo número de unidades
muestrales.
nmuestral
ne L = nº de estratos
L
Proporcional.- Cada estrato es proporcional en la muestra a la
proporción que le corresponde en la población de interes.
130
Ne
ne nmuestra
N población
Ejemplo de muestreo aleatorio estratificado
N=600 n=60 L=nº de estratos=3
Mayo, 2017
N=600 n=60 n=60
nmuestral
Simple ne 60 20
L 3
Ne
Proporcional ne nmuestra 131
N población
Muestreo por Conglomerados:
Mayo, 2017
Los pasos a seguir son:
Identificar los conglomerados a estudiar
Seleccionar al azar a los conglomerados
Seleccionar unidades muestreales en cada conglomerado.
132
Ejemplo:
Para realizar un estudio epidemiológico, se desea diseñar una muestra
estratificada en función de tres factores de riesgo. Siendo la población total de
1.000.000 de habitantes:
Hábitat:
Rural-300.000 h.
Urbana-700.000 h.
Sexo: En el medio rural el % de varones es del 40% y en el urbano
de 55%.
Mayo, 2017
Edad: Se estratifica en 3 categorías, siendo su distribución igual en
varones que en mujeres y en cada uno de los hábitat
<20 años-30%
20-50 años-50%
>50 años-20%.
Mayo, 2017
Población Total 1000000
<20 20-50 >50 <20 20-50 >50 <20 20-50 >50 <20 20-50 >50
0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2
Población Rural 300000
36.000 60.000 24.000 54.000 90.000 36.000 115.500 192.500 77.000 94.500 157.500 63.000
Rural
0,036 el0,06 40%
0,024 0,054 (0.40)
0,09 0,036* 300000
0,115 = 120.000
0,192 0,077 0,094 0,157 0,063
120 48 108 180 231 385 154 189 126
72
Urbano el 55% (0.55)72 * 700000 = 385.000 315
134
Mujeres: se obtiene de la diferencia entre los valores obtenidos
Del total hombres menos el total rural
Población (1.000.000)
0,3 0,7
<20 20-50 >50 <20 20-50 >50 <20 20-50 >50 <20 20-50 >50
30 (0,3) 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2
36.000 60.000 24.000 54.000 90.000 36.000 115.500 192.500 77.000 94.500 157.500 63.000
<20 20-50 >50 <20 20-50 >50 <20 20-50 >50 <20 20-50 >50
0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2
36.000 60.000 24.000 54.000 90.000 36.000 115.500 192.500 77.000 94.500 157.500 63.000
0,036 0,06 0,024 0,054 0,09 0,036 0,115 0,192 0,077 0,094 0,157 0,063
72 120 48 108 180 72 231 385 154 189 315 126
136
El grupo con menor muestra debe tener un mínimo de 48
individuos. Se divide el valor mas bajo para 48, da 500.
Dividimos el resto para 500 y tenemos las muestras para C/u.
Ejercicio 1.
Mayo, 2017
personas en el grupo definido como de Alto Riesgo, que en
este grupo el porcentaje de varones es del 55% mientras que
en el grupo de bajo riesgo es del 50% y que en los varones
tenemos un 20% menores de 10 años, un 60% entre 10 y 50
años y un 20% mayores de 50, mientras que en las mujeres
este porcentaje es de 40, 40 y 20% respectivamente para cada
grupo de edad.
0,2 0,009 – 18
>50
Muestra
0,20 <10 0,09 – 180
(2000)
0,60 10-50 0,27 – 540
Varones
0,9 0,5
0,20 >50 0,09 – 180
Bajo Riesgo
0,4 <10 0,18 – 360
0,5
0,4 138
Mujeres 10-50 0,18 – 360
El concepto fundamental
de la estadística es la
Mayo, 2017
variabilidad y El dato es
la materia prima
140
Variabilidad
• Variabilidad es la
propiedad de aquello
que es variable.
• Este adjetivo, que
Mayo, 2017
procede del vocablo
latino variabĭlis, refiere
a lo que varía, cambia o
se modifica.
Lo que no se puede medir no existe físicamente 141
Variabilidad
CUANTITATIVA CUALITATIVA
Mayo, 2017
142
Variable
• Una variable es un aspecto o
dimensión de un fenómeno que tiene
como característica la capacidad de
asumir distintos valores, ya sea
cuantitativa o cualitativamente.
• Es la relación causa-efecto que se da
Mayo, 2017
entre uno o más fenómenos
estudiados.
Mayo, 2017
• La información recabada durante una investigación
proviene de observaciones individuales y esta se ha
de resumir de alguna manera que pueda utilizarse.
144
Variables y Conceptos
• El término «variable», en su significado más general, se
utiliza para designar cualquier característica de la realidad
que pueda ser determinada por observación y que pueda
mostrar diferentes valores de una unidad de observación a
otra.
Mayo, 2017
• las variables existen en el mundo real, mientras que
los conceptos, en cierto modo, existen como parte
de nuestro lenguaje y de nuestra manera de
conocer ese mundo real.
• La ciencia construye conceptos: identificando las
variables que poseen
145
Variables
• Nominal → clasifica
• Dicotómica o Binaria
Cualitativa
Según la • Policotómica
medición • Ordinal → Jerarquiza
• Discreta → Cuenta
Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada
Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada
Mayo, 2017
viene a ser una traducción para el análisis
• Se clasifican en:
• Nominal
• Ordinal
148
Variables Cualitativas
Categóricas nominales
• Son datos clasificados únicamente por su nombre.
• Los posibles valores son excluyentes
• No tiene en cuenta el orden, la jerarquía o la magnitud
del dato
Mayo, 2017
• No son datos numéricos (aunque se les codifique
asignándole un número)
• Solo permite operaciones de igualdad o desigualdad
• Se clasifican en:
• Dicotómicas y/o Binaria (Hombre, Mujer)
149
• Policotómicas (Mestizo, Blanco, Afroamericano)
Ejemplo de variables cualitativas
Categóricas o Nominales
Dicotómicas (Binarias) Policotómicas
Muerte Grupo Sanguíneo: A, B, AB, O
Enfermedad Raza: Blanca, negra……
Mayo, 2017
Sexo? Religión: católica, musulmana……
Antecedente: IAM, EPOC……. Estado civil
Efectos adversos Ciudad de nacimiento: Cuenca, Quito..
150
Variables Cualitativas
Ordinales
• En la escala existe cierto orden o jerarquía entre las
categorías.
• Los intervalos entre las categorías no necesariamente
Mayo, 2017
son iguales
151
Los intervalos no son necesariamente iguales
Puesto Tiempo
1 9.69
Mayo, 2017
2 10,09
3 10,10
5 10,11
6 10,35
7 10,50
8 12,50
152
Variables
• Nominal → clasifica
• Dicotómica o Binaria
Cualitativa
Según la • Policotómica
medición • Ordinal → Jerarquiza
• Discreta → Cuenta
Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada
Mayo, 2017
• Continuas
• Discretas
154
Variables Cuantitativas
Discretas
• Representan datos con un orden o
magnitud asignado, pero se registra
en números enteros.
• Sus valores son finitos
Mayo, 2017
• No admiten valores intermedios en
un rango. toman solamente valores
enteros.
155
Ejemplo de variables cuantitativas
discretas
Número de hijos, abortos, partos
Personas
Numero de habitaciones en un hotel
Carros, casas, zapatos,
Arboles, frutas,
Mesas, sillas
Mayo, 2017
Votos
156
Variables Cuantitativas
Continuas
• Son datos capaces de tomar cualquier valor en una
escala determinada
• Puede tomar valores decimales
Mayo, 2017
157
Ejemplo de variables
cuantitativas continuas
Peso
Talla
Dinero
Edad
Tiempo
Mayo, 2017
158
Variables cuantitativas continuas y
discretas
Escala de Intervalo Escala de razón
• Establecemos un orden dentro de sus • Admite el cero absoluto
valores. • Permiten el nivel más alto de
• La distancia entre los números de su medición
escala es igual.
• El cero es arbitrario, no indica la
Mayo, 2017
ausencia de atributo
159
Categorización de una variable cuantitativa
Consiste en transformar una variable cuantitativa (discreta o
continua) a una cualitativa (nominal u ordinal)
Mayo, 2017
80 Anciano Anciano
55 adulto Adulto
25 Joven Adulto
22 Joven Adulto
90 Anciano Anciano
87 Anciano Anciano
45 adulto adulto
160
Categorización de una variable cuantitativa
Consiste en transformar una variable cuantitativa (discreta o
continua) a una cualitativa (nominal u ordinal)
Mayo, 2017
80 Anciano Anciano
55 adulto Adulto
25 Joven Adulto
22 Joven Adulto
90 Anciano Anciano
87 Anciano Anciano
45 adulto adulto
161
Variables
• Nominal → clasifica
• Dicotómica o Binaria
Cualitativa
Según la • Policotómica
medición • Ordinal → Jerarquiza
• Discreta → Cuenta
Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada
Mayo, 2017
Abscisas
163
Abscisas
Ordenadas
Variable independiente o explicativa
Mayo, 2017
• Son aquella característica o propiedad que se supone ser la causa del
fenómeno estudiado.
• Se representa en el eje de abscisas (eje de X)
EJEMPLOS
“Si al aumentar los años de educación, correlativamente aumentan sus
ingresos”.
• Años de educación
“El embarazo precoz incide en la habilidad para aprender a leer en el niño” 164
• Embarazo precoz
Variables dependientes
• Una variable dependiente es aquella cuyos valores dependen de los que
tomen otra variable.
• La variable dependiente en una función se suele representar en el eje de las
ordenadas (y)
• Son las variables de respuesta que se observan en el estudio que podrían
estar influidas por los valores de las variables independientes.
EJEMPLOS
“Si al aumentar los años de educación, correlativamente aumentan sus
ingresos”.
• Años de educación →→ Aumento de ingresos
“El embarazo precoz incide en la habilidad para aprender a leer en el niño”
• Embarazo precoz →→ Menor habilidad para leer
165
Correlaciones
166
X
Variables
• Nominal → clasifica
• Dicotómica o Binaria
Cualitativa
Según la • Policotómica
medición • Ordinal → Jerarquiza
• Discreta → Cuenta
Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada
Mayo, 2017
• En salud es frecuente que se utilicen
variables que no se observan
directamente, como, por ejemplo, la
calidad de vida, la satisfacción usuaria,
o la competencia cultural.
Mayo, 2017
169
Mayo, 2017
170
MÉTODOS, TÉCNICAS DE RECOLECCION DE
DATOS E INSTRUMENTOS DE MEDICION
• Un buen instrumento determina
en gran parte la calidad de la
información, siendo ésta la
base para las etapas
subsiguientes (resultados y
conclusiones).
Mayo, 2017
• Para la elección y desarrollo del
instrumento de medición se
debe tomar en cuenta el
objetivo de la investigación.
171
• Primero se debe definir el tipo de información requerida
(cuantitativa, cualitativa o ambas).
• Método
Mayo, 2017
• Instrumento
172
• Fuente
• Representa la estrategia concreta
e integral de trabajo para el
análisis de un problema
coherente con la definición
teórica del mismo y con los
objetivos de la investigación.
Mayo, 2017
• Observación
• Entrevista
• Encuesta 173
INSTRUMENTOS DE MEDICION
• formularios
Mayo, 2017
• pruebas
• Test
• Escalas de opinión
• Listas de chequeo.
Mayo, 2017
documentos; historia clínica, ficha académica, estadísticas,
datos epidemiológicos, Censo, encuestas nacionales, etc.
175
175
• Primero se debe definir el tipo de información requerida
(cuantitativa, cualitativa o ambas).
• Método
Mayo, 2017
• Instrumento
• Fuente 176
Teorema de los grandes números
Soporte matemático a la idea de que el promedio
de una muestra al azar de una población de gran
tamaño tenderá a estar cerca de la media de la
población completa.
Mayo, 2017
177
Teorema del límite central
Demuestra que en condiciones muy generales, la
suma de muchas variables aleatorias independientes
se aproxima bien a una distribución normal
Mayo, 2017
178
•Fin del primer
Mayo, 2017
bloque
179
Bioestadística
Junio, 2017
180
¿Para qué sirve la estadística?
• La Ciencia se ocupa en general de fenómenos observables
Junio, 2017
aleatorio (estocástico)
Junio, 2017
• deducir las leyes que rigen esos fenómenos,
Plantear Diseñar
hipótesis experimento
Recoger
Obtener
datos
conclusiones
y analizarlos 185
Población y muestra
• Población es el conjunto sobre el que
estamos interesados en obtener
conclusiones (hacer inferencia).
• Normalmente es demasiado grande
para poder abarcarlo.
Junio, 2017
• En los individuos de una población cualquiera, de uno a otro es
variable:
• El grupo sanguíneo
• {A, B, AB, O} Var. Cualitativa
• Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal
• El número de hijos
• {0,1,2,3,...} Var. Numérica discreta 187
• La altura
• {1’62 ; 1’74; ...} Var. Numérica continua
Tipos de variables
• Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
número (no se pueden hacer operaciones algebraicas con ellos)
Junio, 2017
• Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones
algebraicas con ellos)
190
• Aunque se codifiquen como números, debemos recordar siempre el
verdadero tipo de las variables y su significado cuando vayamos a usar
programas de cálculo estadístico.
• No todo está permitido con cualquier tipo de variable.
191
• Los posibles valores de una variable suelen denominarse modalidades.
Género Frec. 5
4
Hombre 4 3
2
1
Mujer 6 0
Hombre Mujer
Porcentaje
Frecuencia Porcentaje válido
Válidos Hombre 636 41,9 41,9 194
Mujer 881 58,1 58,1
Total 1517 100,0 100,0
Tablas de frecuencia
Nivel de felicidad
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Muy feliz 467 30,8 31,1 31,1
Bastante feliz 872 57,5 58,0 89,0
No demasiado feliz 165 10,9 11,0 100,0
Total 1504 99,1 100,0
Perdidos No contesta 13 ,9
Total 1517 100,0
Número de hijos
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 0 419 27,6 27,8 27,8
1 255 16,8 16,9 44,7
2 375 24,7 24,9 69,5
3 215 14,2 14,2 83,8
4 127 8,4 8,4 92,2
5 54 3,6 3,6 95,8
6 24 1,6 1,6 97,3
7 23 1,5 1,5 98,9 195
Oc ho o más 17 1,1 1,1 100,0
Total 1509 99,5 100,0
Perdidos No contesta 8 ,5
Total 1517 100,0
Como hacer un tabla de Frecuencia
n=20
=9
Tema 1: Introdución
9 n K 1 3.322(log 20)
A A 1,8
5
Como hacer un tabla de Frecuencia
n=20
=9
=5
Tema 1: Introdución
= 1,8
Como hacer un tabla de Frecuencia
n=20
R=9 […Se pone el número
K=5 (…No, se pone el número
A = 1,8
Tema 1: Introdución
1. Tomar el valor menor 13
2. Verificar amplitud 2
[ 13 - 15 ) 14 4 0.2 4
3. Ver intervalos 5
4. Poner marca de clase x [ 15 - 17 ) 16 9 0.45 13
5. f Intervalos abiertos […) [17 - 19 ) 18 3 0.15 16
6. Buscar valores X Rango 19
[ 19 - 21 ) 20 3 0.15
7. Frec Rel (fr) f/n = 4/20
8. Frec acumulada F [ 21 - 23 ) 22 1 0.05 20
n=20 1
Datos desordenados y ordenados en tablas
• Modalidades: porcentaje
Hombre 4 4/10=0,4=40%
• H = Hombre
Mujer 6 6/10=0,6=60%
• M = Mujer
Junio, 2017
10 = tamaño
muestral
• Muestra:
MHHMMHMMMH
• equivale a 199
HHHH MMMMMM
Ejemplo
• ¿Cuántos individuos tienen Número de hijos
menos de 2 hijos?
• frec. indiv. sin hijos Porcent. Porcent.
+ Frec. (válido) acum.
0 419 27,8 27,8
frec. indiv. con 1 hijo
= 419 + 255 1 255 16,9 44,7
= 674 individuos 2 375 24,9 69,5 ≥50%
3 215 14,2 83,8
4 127 8,4 92,2
• ¿Qué porcentaje de 5 54 3,6 95,8
individuos tiene 6 hijos o
6 24 1,6 97,3
menos?
7 23 1,5 98,9
• 97,3% Oc ho+ 17 1,1 100,0
Total 1509 100,0
• ¿Qué cantidad de hijos es tal
que al menos el 50% de la
200
200
población tiene una cantidad
inferior o igual?
• 2 hijos
Gráficos para variables. cualitativas
• Diagramas de barras
• Alturas proporcionales a las
frecuencias (abs. o rel.)
• Se pueden aplicar también a variables
discretas
201
Gráficos para v. cualitativas
• Pictogramas
• Fáciles de entender.
• El área de cada modalidad
debe ser proporcional a la
frecuencia.
202
202
Gráficos diferenciales para variables numéricas
419
400 375
255
Recuento
Valen con frec. absolutas o relativas. 200
215
127
100
Número de hijos
para indicar los valores que no
son posibles
250
203
(porcentaje o frecuencia) de 50
individuos en el intervalo. 20 40 60 80
204
¿Qué hemos visto?
• Definición de estadística
• Población
• Muestra
• Variables
• Cualitativas
• Numéricas
• Presentación ordenada de datos
• Tablas de frecuencias
• absolutas
• relativas
• acumuladas
• Representaciones gráficas
• Cualitativas
• Numéricas
• Diferenciales 205
• Integrales
Bioestadística
Estadísticos
206
Parámetros y estadísticos
• Parámetro: Es una cantidad numérica
calculada sobre una población
207
Parámetros y estadísticos
• Estadístico: Ídem (cambiar población por
muestra)
211
Estadísticos de posición
• Percentil de orden k = cuantil de orden k/100
• La mediana es el percentil 50
• El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%
212
Cálculo Cuartiles datos sin agrupar.
Octubre, 2015
• 1. Ordenar de menor a mayor n = 20
• 2. Seleccionar Cuartil 1 y 2
• 3. Ver n
Kn1.20
• 4. Calcular posición 5
4 4
Q1 = 35 Kn 2.20
Q2 = 38 10
4 4
Cálculo deciles datos sin agrupar.
Octubre, 2015
• 1. Ordenar de menor a mayor n = 20
• 2. Seleccionar decil 6 y 5
• 3. Ver n
Kn 6.20
• 4. Calcular posición 12
10 10
D6 = 40 Kn 5.20
D5 = 38 10
10 10
Cálculo Cuartiles datos agrupados.
Kn 1
4 Fi
QK Li A 1
Número de cuartil a (F i Fi
𝑄𝐾 calcularse 1,2,3,4
Junio, 2017
Q
Junio, 2017
50 - 55 14 59
Si lo localizamos dentro
55 - 60 1 60
de la F, directamente
60 tomamos el Ls (límite
superior) del intervalo
(50) y decimos que
Q3 = 50
Cálculo cuartiles ..Q..
Kn 1
4 Fi
QK Li A 1
Número de cuartil a (F i Fi
𝑄𝐾 calcularse 1,2,3,4
Junio, 2017
𝐿𝑖
A
Posición: valor del
Kn cuartil por el No. De
datos
𝐹𝑖 −1
𝐹𝑖
Cálculo Deciles ..D..
EDAD f (abs) F (acumu)
30 - 35 3 3 • 1) Medidas de
35 - 40 7 10 posición. Primero
40 - 45 12 22 encontrar la
posición. D1, D2,
45 - 50 23 45
Junio, 2017
D3, D4……., D10
50 - 55 14 59
55 - 60 1 60
60
Kn 1
10 Fi
DK Li A 1
(F i Fi
Cálculo Deciles ..D..
Número de decil a
𝑫𝐾 calcularse 1,2,3.., 10
Kn
2.60
120
12
10 10 10
𝐿𝑖
D2 12
A
La posición del segundo decil es 12.
Junio, 2017
Posición: valor del
Kn decil por el No. de
Ir a la tabla y buscar en la
datos frecuencia acumulada el valor que
sea o que contenga al No. 12
𝐹𝑖 −1
𝐹𝑖
Cálculo Deciles ..D.. Número de decil a
𝑫𝐾 calcularse 1,2,3..,
EDAD f (abs) F (acumu) 10
30 - 35 3 3
.
Limite inferior del
35 - 40 7 10 𝐿𝑖 valor que contenga
40 - 45 12 22 al valor de la
posición 40
45 - 50 23 45
Junio, 2017
Amplitud. Se
50 - 55 14 59 A calcula con la resta
55 - 60 1 60 de Ls – Li = 5
Posición: valor del
60 Kn decil por el No. de
Kn 1
datos
DK Li A 1
del valor de
posición 10
(F i Fi Frec Acu posterior
𝐹𝑖
del valor de
posición 22
Cálculo deciles
Kn 1
10 Fi 12 10
DK Li A D 40 5
22 10
1 2
(F i Fi
Junio, 2017
2 2
D2 40 5 D2 40 5
12 12
D2 40 0.83 D2 40.83
Cálculo percentiles
Tema 1: Introdución
Cálculo percentiles
Tema 1: Introdución
Ejemplos
• El 5% de los recién nacidos tiene un peso demasiado bajo.
¿Qué peso se considera “demasiado bajo”?
• Percentil 5 o cuantil 0,05
Percentil 5 del peso
25
20
frecuencia
15
10
5
0
224
1 2 3 4 5
15
10
5
0
50 55 60 65 70 75 80 85
225
Peso (Kg) de 100 deportistas
Ejemplos
• El colesterol se distribuye simétricamente en la población.
Supongamos que se consideran patológicos los valores extremos. El
90% de los individuos son normales ¿Entre qué valores se encuentran
los individuos normales?
Percentiles 5 y 95
20
15
frecuencia
10
5
0
226
10
5
227
0
0.08
• Resumen con 5 números:
0.06
• Valor Mínimo, cuartiles (1, 2
densidad
y 3) y V. máximo.
0.04
• Suelen dar una buena idea
0.02
Mín. P25 P50 P75 Máx.
de la distribución.
0.00
• La zona central, ‘caja’, 40 45 50 55 60 65
las observaciones.
• Su tamaño se llama ‘rango
intercuartílico’ (R.I.) 0.04 Diagrama de cajas de Tukey: Resumen en 5 números
observaciones que se
separan de la caja en no más P25 P50 P75
0.01
Mín. Máx.
de 1,5 R.I.
0.00
Media
Válidos
Perdidos
1508
0
12,90
Número de años de escolariz ación Mediana 12,00
Moda 12
Porcentaje Percentiles 10 9,00
Frecuenc ia Porcentaje acumulado 20 11,00
3 5 ,3 ,3 25 12,00
30 12,00
4 5 ,3 ,7
40 12,00
5 6 ,4 1,1 50 12,00
6 12 ,8 1,9 60 13,00
7 25 1,7 3,5 70 14,00
8 68 4,5 8,0 75 15,00
80 16,00
9 56 3,7 11,7
90 16,00
10 73 4,8 16,6
11 85 5,6 22,2 ≥20%?
12 461 30,6 52,8
13 130 8,6 61,4
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7 ≥ 90%?
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0 229
Estadísticos de centralización
Añaden unos cuantos casos particulares a las medidas
de posición. En este caso son medidas que buscan
posiciones (valores) con respecto a los cuales los
datos muestran tendencia a agruparse.
230
Estadísticos de centralización
• Mediana (‘median’) Es un valor que divide a las
observaciones en dos grupos con el mismo
número de individuos (percentil 50). Si el número
de datos es par, se elige la media de los dos datos
centrales.
• Mediana de 1,2,4,5,6,6,8 es 5
• Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
• Es conveniente cuando los datos son
asimétricos. No es sensible a valores extremos.
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media
es 117,7!
232
Algunas fórmulas
• Datos sin agrupar: x1, x2, ..., xn
• Media
x
xi
i
n
• Datos organizados en tabla
• si está en intervalos usar como xi las marcas de
clase. Si no ignorar la columna de intervalos.
x
•
L0 – L1 X1 n1 N1
i fi
L1 – L2 X2 n2 N2 X
...
N
233
Lk-1 – Lk Xk nk Nk
n
Ejemplo con variable en intervalos
Peso Marca d frec Fr.
Clase acum
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100– 130 115 3 58
234
Ejemplo con variable en intervalos
En el histograma se identifica
“unidad de área” con “individuo”.
235
Ejemplo Media
Peso M. Fr. Abs Fr. ഥ
𝑿 Promedio ?
Clase (ni o fi) Ac
(xi) (F) Marca de 40+50/2
𝒙𝒊 Clase
50+60/2
40 – 50 45 5 5 etc.
50 – 60 55 10 15 Frecuencia No. de
60 – 70 65 21 36
𝒏𝒊 Absoluta
datos
por
70 - 80 75 11 47 rango
80 - 90 85 5 52 Frecuencia Suma
𝒏 de cada
90 - 100 95 3 55 acumulada Fr. Ac
100 – 130 115 3 58 total por
cada
n = 58 Rango
x
xn i i i
45 5 55 10 115 3
69,3
236
n 58
Otra forma de Calcular la Media Ar.
Peso M. Clase (xi) Fr. Abs (ni o fi) Fr. Ac (F) xi*fi
40 – 50 45 5 5 225
50 – 60 55 10 15 550
60 – 70 65 21 36 1365
70 - 80 75 11 47 825
80 - 90 85 5 52 425
90 - 100 95 3 55 285
100 – 130 115 3 58 345
N = 58 4020
x i fi
4020 237
X X X X 69.3
N 58
Otra forma de Calcular, otro ejemplo.
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
x i fi
336
X X X X 16,8
N 20
238
Algunas fórmulas
• Datos sin agrupar: x1, x2, ..., xn
• Mediana
Impar • Mediana de 1,2,4,5,6,6,8 es 5
Par • Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
• Datos organizados en tabla
• si está en intervalos usar como xi las marcas de
clase. Si no ignorar la columna de intervalos.
Variable frec. frec. ac.
•
L0 – L1 N 1
2 F
X1 n1 N1
•
L1 – L2 X2 n2 N2
Me Li .ai
... fi
Lk-1 – Lk Xk nk Nk
239
n
Explicación Formula Mediana
Me Mediana ?
Li Límite inferior de donde esta Me 15-20
Li= 15
noN Total de la muestra Número total
de datos
Fi-1 Frecuencia acumulada de la clase
anterior a Me
fi Frecuencia absoluta de la clase
donde esta Me
𝐀 𝐨 𝒂𝒊 Ancho de clase. Resta de Límite Ls-Li 15 -17 = 2
superior y L. inferior donde esta
Me 240
Ojo recordar siempre que f es frecuencia
absoluta y F es frecuencia acumulada
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
N 1
2 F
Me Li .ai
fi
241
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
De ser impar + 1 y para 2
N 1 28
impar 27 + 1 =
2 2
Valor más cercano al N/2
N 20
par par 10 Buscarlo en F (Frec Abso. Acu.)
2 2
OJO Si el valor encontrado coincide con el que tenemos en la tabla entonces 242
tomamos directamente el límite superior del mismo y encontramos nuestra
Mediana. Me = Ls
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
N 1 20
2 F 2 4
Me Li .ai Me 15 .2
fi 9
ai = Ls - Li
ai = 17 - 15 243
ai = 2
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
20
2 4 10 4
Me 15 .2 Me 15 .2
9 9
244
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
6 6 2
Me 15 .2 Me 15 *
9 9 1
245
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
6 6 2
Me 15 .2 Me 15 *
9 9 1
246
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
12
Me 15 Me 15 1.33
9
Me 16.33 247
n
Moda Datos Organizados en
Tablas
1
fi fi
Mo Li 1 1
.ai
( fi fi ) ( fi fi )
Explicación Formula Moda
Mo Moda ?
Li Límite inferior de donde esta Mo 15-20
Li= 15
fi Valor más alto dentro del
contenido de fi
fi - 1 Valor del dato inmediatamente
superior al dato fi
fi + 1 Valor del dato inmediatamente
inferior al dato fi
𝐀 𝐨 𝒂𝒊 Ancho de clase. Resta de Límite Ls-Li 15 -17 = 2
superior y L. inferior donde esta
Mo 250
Ojo recordar siempre que f es freccuencia
absoluta y F es frecuencia acumulada
Moda Datos Organizados en
Tablas
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
1
fi fi
Mo Li 1 1
.a
( fi fi ) ( fi fi )
i
1
fi fi
Mo Li 1 1
.a
( fi fi ) ( fi fi )
i
ai = Ls –Li 17 - 15
ai = 2
Moda Datos Organizados en
Tablas
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
94
Mo 15 .2
(9 4) (9 3)
Moda Datos Organizados en
Tablas
94
Mo 15 .2
(9 4) (9 3)
5
Mo 15 .2
56
Moda Datos Organizados en
Tablas
5 5
Mo 15 .2 Mo 15 .2
56 11
5 2 10
Mo 15 . Mo 15
11 1 11
Mo 15 0.91 Mo 15.91
OJO La MODA deberá estar, también siempre
dentro del rango en donde se determino el N/2
Resultados
Media 16.80
Mediana 16.33
Moda 15.91
Variabilidad o dispersión
• Los estudiantes de Bioestadística reciben diferentes
calificaciones en la asignatura (variabilidad). ¿A qué
puede deberse?
257
Variabilidad o dispersión
• Por ejemplo supongamos que todos los alumnos
poseen el mismo nivel de conocimiento. ¿Las notas
serían las mismas en todos? Seguramente No.
259
Medidas de dispersión
• Rango intercuartílico (‘interquartile
range’):
• Es la distancia entre primer y
tercer cuartil.
• Rango intercuartílico = P75 - P25
0.05
Mín. P25 P50 P75 Máx.
0.04
las observaciones más extremas
inferiores y superiores.
0.03
25% 25% 25% 25%
0.02
• No es tan sensible a valores
Rango intercuartílico
extremos.
0.01
0.00 Rango
n i
Es sensible a valores extremos (alejados de la media).
(X i X) 2
(X i X) 2
2 i 1
S
2 i 1
Tema 1: Introdución
N n 1
2
S 2
• Varianza
Varianza, datos no agrupados
• Edades: 5, 6, 6, 7, 8
i
( X X ) 2
2 i 1
Tema 1: Introdución
N
• 1 Sacar promedio
n
X i
32
X i 1
X X 6, 4
N 5
Varianza, datos no agrupados
• Edades: 5, 6, 6, 7, 8
(5 6.4) 2 (6 6.4) 2 (6 6.4) 2 (7 6.4) 2 (8 6.4) 2
2
5
(1, 4) 2 (0, 4) 2 (0, 4) 2 (1.4) 2 (2.4) 2
2
Tema 1: Introdución
5
1,96 0,16 0,16 0,36 2,56
2
5
5, 2
2 2 1, 04
5
S S
Desviación típica (‘standard
deviation’) 2
Es la raíz cuadrada de la varianza
50
• Tiene las misma dimensionalidad
(unidades) que la variable. Versión
‘estética’ de la varianza. 40
desviación típica.
10
Desv. típ. = 568,43
• A una distancia de una desv. Media = 2023
1.
2.
2.
3.
1.
2.
mitad’. 50
90
30
50
90
30
70
10
0
0
0
0
Peso recién nacidos en partos gemelares
• A una distancia de dos desv. típica 265
de la media las tendremos casi
todas.
Desviación típica (standard)
1, 04
2
1, 04
1, 01
Tema 1: Introdución
Dispersión en distribuciones
‘normales’
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
x s x 2s
68.5 % 95 %
0.00
0.00
150 160 170 180 190 150 160 170 180 190
0.3
densidad
densidad
0.2
0.2
0.1
0.1
x s x 2s x s x 2s
66 % 95 % 71 % 94 %
0.0
-3 -2 -1 0 1 2 3 0.0 -3 -2 -1 0 1 2 3
0.4
0.3
0.3
densidad
densidad
0.2
0.2
0.1
0.1
x s x s x 2s
x 2s
68 % 94 % 70 % 94 %
268
0.0
0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Coeficiente de variación
S
CV
Es la razón entre la desviación típica y la media. x
• Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
269
Coeficiente de variación
S
CV
x
• Es una cantidad adimensional. Interesante para comparar la
variabilidad de diferentes variables.
• Si el peso tiene CV=30% y la altura tiene CV=10%, los
individuos presentan más dispersión en peso que en altura.
Tema 1: Introdución
CV 16%
Varianza para datos agrupados
Tema 1: Introdución
Varianza para datos agrupados
Tema 1: Introdución
n
Encontrar n n
Marca de clase por frecuencia (x . f) x.f 1560
Calcular X = 26 X i 1 X X 26
n 60
Varianza para datos agrupados
Tema 1: Introdución
X = 26 n
Encontrar ( X X ) (12.5 26) 182.25
2 2
Varianza para datos agrupados
Tema 1: Introdución
X = 26 n
Encontrar ( X X )2 . f (182, 25).5 911.25
Varianza para datos agrupados
n
( X X ) 2
.f
3265
2 i 1
2
54, 41
2
n 60
Tema 1: Introdución
Desviación estándar
54, 41 7,37 años
Coeficiente de variación
C.V . 0, 28.100
7,37
C.V . .100 C.V . .100 C.V . 28%
X 26
Asimetría o Sesgo
• Una distribución es simétrica si la mitad izquierda de su
distribución es la imagen especular de su mitad derecha.
277
Asimetría o Sesgo
• La media tiende a desplazarse hacia las valores extremos
(colas).
278
278
Estadísticos para detectar asimetría
0.20
0.5
0.20
0.4
0.15
0.15
0.3
0.10
0.10
0.2
0.05
0.05
0.1
x s x s x s
279
66 % 78 %
78 %
0.00
0.00
0.0
8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14
x x x
Estadísticos para detectar asimetría
280
Estadísticos para detectar asimetría
281
Estadísticos para detectar asimetría
282
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.
283
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.
0.8
0.3
1.5
0.6
0.2
1.0
0.4
0.1
0.5
0.2
x s
x s x s
68 %
57 % 82 %
0.0
0.0
0.0
Intervalo de Límite
1,81 17%
confianza para la inferior
20%
media al 95% Límite n=255 14%
Porce ntaje
superior 1,99 n=215
15%
8%
Media recortada al 5%
1,75 n=127
10%
4%
Mediana 2,00 n=54 2% 2% 1%
5%
Varianza 3,114 n=24 n=23 n=17
Bioestadística. UTPL
Relaciones entre variables y
regresión
• El término regresión fue introducido por
Galton en su libro “Natural inheritance”
(1889) refiriéndose a la “ley de la regresión
universal”:
Bioestadística. UTPL
• Haremos mención de pasada a otros casos:
• Alguna de las variables es ordinal.
• Estudiar la relación entre el sobrepeso y el dolor de
100
90
80 Pesa 76 kg.
70
60
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200 293
Predicción de una variable en
función de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70
10 kg.
60
50
40 10 cm.
30
140 150 160 170 180 190 200 294
Relación directa e inversa
330 100
r^2 = 0.172
• la dispersión marginal de Y
400
• La dispersión de Y condicionada
aX
380
y
360
r^2 = 0.969
• La distribución de Y,
380
• Si la dispersión se reduce
360
297
Coef. de correlación lineal de
Pearson
• La coeficiente de correlación lineal de Pearson de
dos variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente (excluyendo
rectas horizontales y verticales).
-1 0 +1 299
Entrenando el ojo: correlaciones
positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99 300
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: correlaciones
negativas
90 80
80 70
Bioestadística. UTPL
70 60
60 50
50
40
40
30
30
20 20
r=-0,5 r=-0,7
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Animación: Evolución de r y
diagrama de dispersión
302
Preguntas frecuentes
• ¿Si r=0 eso quiere decir que no las variables son independientes?
• En la práctica, casi siempre sí, pero no tiene
por qué ser cierto en todos los casos.
• Lo contrario si es cierto: Independencia
implica incorrelación.
303
Otros coeficientes de correlación
• Cuando las variables en vez de ser numéricas son
ordinales, es posible preguntarse sobre si hay algún
tipo de correlación entre ellas.
305
• X = Variable independiente
• predictora
• explicativa
• ¿Es posible descubrir una relación?
• Y = f(X) + error
• f es una función de un tipo determinado
• el error es aleatorio, pequeño, y no depende de X 305
Regresión
• El ejemplo del estudio de la altura en grupos familiares
de Pearson es del tipo que desarrollaremos en el resto
del tema.
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
308
• La relación entre las variables no es exacta. Es natural
preguntarse entonces:
• Cuál es la mejor recta que sirve para predecir los valores de Y en
función de los de X
• Qué error cometemos con dicha aproximación (residual).
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
309
• El modelo lineal de regresión se construye utilizando la técnica de
estimación mínimo cuadrática:
• Buscar b0, b1 de tal manera que se minimice la cantidad
• Σi ei2
SY
b1 r b0 y b1 x
SX
• Se obtiene además unas ventajas “de regalo”
• El error residual medio es nulo
• La varianza del error residual es mínima para dicha estimación.
311
• Que el error medio de las Cometió un
error de -30 en
predicciones sea nulo no quiere su última
decir que las predicciones sean predicción
buenas.
313
Interpretación de la variabilidad
en Y
En primer lugar olvidemos que existe la Y
variable X. Veamos cuál es la
variabilidad en el eje Y.
314
Interpretación del residuo
Fijémonos ahora en los errores de predicción
(líneas verticales). Los proyectamos sobre el eje Y
Y.
315
2
S
Bondad de un ajuste R 1
2 e
2
Resumiendo: S Y
• La dispersión del error residual será Y
una fracción de la dispersión original
de Y
•Cuanto menor sea la dispersión del
error residual
mejor será el ajuste de regresión.
S S
2
e
2
Y 316
Animación: Descomposición de la varianza
317
Resumen sobre bondad de un ajuste
• La bondad de un ajuste de un modelo de regresión se mide usando el
coeficiente de determinación R2
• Incluso se puede considerar 140 150 160 170 180 190 200
319
140 150 160 170 180 190 200
Modelos de análisis de regresión
1 variable explicativa
Modelos de 2+ variables explicativas
regresión
Simple Múltiple
14
10
12
8
10
8 6
6
4
• b0=89,985
• b1=0,466
• ¿Aprecias regresión a la media? 150
150 160 170 180 190 200
• ¿Eso significa que el 57% de las predicciones del modelo son correctas?
• ¿Cómo lo interpretas?
324
• ¿Cuál es la probabilidad de aprobar Bioestadística?
A A B 327
B B
UNIÓN INTERS.
Definición de probabilidad
• Se llama probabilidad a cualquier función, P, que
asigna a cada suceso A un valor numérico P(A),
verificando las siguientes reglas (axiomas)
E espacio muestral
• P(E)=1 100%
E espacio muestral
• 0≤P(A) ≤1 A
• P(AUB)=P(A)+P(B) si A∩B=Ø B
• Ø es el conjunto vacío.
P( A B)
P( A | B) A
P( B) B
Error frecuentíiiiiiisimo:
No confundáis probabilidad condicionada con
intersección.
En ambos medimos efectivamente la intersección,
pero… 329
B
B
P(A|B)=1 P(A|B)=0,8
Intuir la probabilidad
condicionada
A A
B
B
• P(A’) = 1 - P(A)
• A es independiente de B
P(A|B) = P(A)
333
Ejemplo (I)
Rec uento
MENOPAUSIA
NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000
• Otra forma:
697 58 336
58 /1000 0, 058
1000 697
Ejemplo (IV)
Rec uento
MENOPAUSIA
NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000
• ¿Otra forma?
• P(Menop ∩ Osteoporosis) = 58/1000 = 0,058
• P(Menop) P(Osteoporosis)= (697/1000) x (64/1000) = 0,045 337
• La probabilidad de la intersección no es el producto de probabilidades.
No son independientes.
Sistema exhaustivo y excluyente
de sucesos Son una colección de sucesos
A1 A2
A1, A2, A3, A4…
A1
A3 A4
A2
Suceso
seguro
A3
338
A4
Divide y vencerás
Todo suceso B, puede ser descompuesto en
componentes de dicho sistema.
A1 A2
B A1 B
A2 B
Suceso
A3 A4 seguro
A3 B
A4 B
339
Nos permite descomponer el problema B en
subproblemas más simples
Teorema de la probabilidad total
Si conocemos la probabilidad de B en cada uno
A1 A2 de los componentes de un sistema exhaustivo y
excluyente de sucesos, entonces…
P(A4) P(B|A4)
A4 B
0,8
•Los caminos a través de nodos representan No fuma 341
intersecciones.
P(B Ai)
P(Ai | B)
A3 A4 P(B)
donde P(B) se puede calcular usando el teorema de la probabilidad
total:
0,7 Mujer
Se elije a un individuo al 0,9
No fuma
azar y es… fumador
¿Probabilidad de que sea Estudiante
un hombre? 0,2
0,3 Fuma
Hombre
P( H F ) P( H ) P( F | H )
P( H | F )
P( F ) P( F ) 0,8
0,3 0,2 No fuma
0,46 343
0,13
Ejemplo de prueba diagnósticas:
Diabetes
• Los carbohidratos ingeridos terminan como glucosa en la sangre. El exceso se
transforma en glucógeno y se almacena en hígado y músculos. Este se
transforma entre comidas de nuevo en glucosa según necesidades.
• Valores por encima de 110 mg/dL se asocian con un posible estado pre-
diabético.
• Pero no es seguro. Otras causas podrían ser: hipertiroidismo, cancer de páncreas,
pancreatitis, atracón reciente de comida… 344
• Supongamos que los enfermos de diabetes, tienen un valor medio de
126mg/dL.
Funcionamiento de la prueba diagnóstica de
glucemia
• Valor límite: 110mg/dL
• Superior: test
positivo.
• Inferior: test
negativo.
• Probabilidad de
acierto:
• Para enfermos
• Verdadero positivo
(sensibilidad)
• Para sanos
• Verdadero
negativo
(especificidad)
• Probabilidad de error
• Para enfermos
• Falso –
• Para sanos 345
• Falso +
¿Cómo definir el punto de corte de la prueba
diagnóstica?
Falsos - T-
Individuo
Falsos +
T+
Sano
Especificidad, T-
Verdaderos - 348
Ejemplo: Índices predictivos
Individuo
• La diabetes afecta al 2% de
los individuos.
0,98 0,02
• La presencia de glucosuria se
usa como indicador de
diabetes.
• Su sensibilidad es de 0,945.
P( Sano T ) P ( Enf T )
P( Sano | T ) P ( Enf | T )
P( Sano T ) P( Enf T ) P( Enf T ) P ( Sano T ) 349
0,98 0,977 0,02 0,945
0,999 0,456
0,98 0,977 0,02 0,055 0,02 0,945 0,98 0,023
Observaciones
-¿Qué probabilidad
tengo de estar
enfermo?
• En el ejemplo anterior, al llegar un
individuo a la consulta tenemos una idea - En principio un 2%. Le
a priori sobre la probabilidad de que haremos unas pruebas.
tenga una enfermedad.
Bioestadística. UTPL.
• Probabilidad
• Nociones
• Frecuentista
• Subjetiva o Bayesiana
• Axiomas
Tema 4: Probabilidad
• Probabilidad condicionada
• Reglas de cálculo
• Complementario, Unión, Intersección
• Independencia de sucesos
• Sistema exhaustivo y excluyente de sucesos
• Teorema probabilidad total.
• Teorema de Bayes
• Pruebas diagnósticas
• A priori: Incidencia, prevalencia. 351
• Eficacia de la prueba: Sensibilidad, especificidad.
• A posteriori: Índices predictivos.
Bioestadística
Modelos probabilísticos
352
Variable aleatoria
• El resultado de un experimento aleatorio puede ser
descrito en ocasiones como una cantidad numérica.
probabilidad. 35%
30%
• Recuerda los conceptos de 25%
frecuencia relativa y diagrama de 20%
barras. 15%
• Ejemplo 10%
5%
354
Función de densidad (V. Continuas)
• Definición
• Es una función no negativa de integral 1.
• Piénsalo como la generalización del
histograma con frecuencias relativas para
variables continuas.
355
¿Para qué sirve la f. densidad?
• Muchos procesos aleatorios vienen descritos por variables de forma
que son conocidas las probabilidades en intervalos.
356
Función de distribución
• Sé que una persona que mida 170cm no posee una altura nada
extraña pues su función de distribución es aproximadamente
0,5.
• Relaciónalo con la idea de cuantil.
• Valor esperado
• Se representa mediante E[X] ó μ
• Es el equivalente a la media
• Más detalles: Ver libro.
• Varianza
• Se representa mediante VAR[X] o σ2
• Es el equivalente a la varianza
• Se llama desviación típica a σ
• Más detalles: Ver diapos anteriores
359
Algunos modelos de v.a.
• Hay v.a. que aparecen con frecuencia en las Ciencias de la
Salud.
• Experimentos dicotómicos.
• Bernoulli
• Solución.
• La noc. frecuentista de prob. nos permite aproximar
la probabilidad de tener secuelas mediante
300/2000=0,15=15%
• Solución.
• La noc. frecuentista de prob. nos permite aproximar
la probabilidad de quedar con secuelas por
10/2000=0,005=0,5%
• Función de probabilidad
n k nk
P[ X k ] p q , 0 k n
k
• Problemas de cálculo si n es grande y/o p cercano a 0 o 1.
• Media: μ =n p
• Varianza: σ2 = n p q
365
Distribución Binomial
• Si se repite un número fijo de veces, n, un experimento de Bernoulli
con parámetro p, el número de éxitos sigue una distribución
binomial de parámetros (n,p).
Lanzar una moneda 10 veces y contar las caras.
• Bin(n=10,p=1/2)
• Aún no conocen la
distribución normal, ni de
Poisson.
k
P[ X k ] e , k 0,1,2,...
k! 368
Ejemplos de variables de Poisson
369
Ejemplos de variables de Poisson
• Sospechamos que diferentes hospitales pueden tener
servicios de traumatología de diferente “calidad” (algunos
presentan pocos, pero creemos que aún demasiados,
enfermos con secuelas tras la intervención). Es dificil
compararlos pues cada hospital atiende poblaciones de
tamaños diferentes (ciudades, pueblos,…)
370
Distribución normal o de Gauss
2
N(μ, σ): Interpretación
geométrica
• Se puede interpretar
la media como un
factor de traslación.
• Y la desviación típica
como un factor de
escala, grado de
dispersión,…
372
N(μ, σ): Interpretación probabilista
374
Algunas características
375
Tipificación
• Dada una variable de media μ y desviación típica σ, se
denomina valor tipificado,z, de una observación x, a la distancia
(con signo) con respecto a la media, medido en desviaciones
típicas, es decir
x
z
• En el caso de variable X normal, la interpretación es clara:
Asigna a todo valor de N(μ, σ), un valor de N(0,1) que deja
exáctamente la misma probabilidad por debajo.
• Como es de esperar la
media es cercana a 170. El
histograma no se parece
en nada a una
distribución normal con la
misma media y desviación
típica.
378
• A continuación elegimos Muestra
aleatoriamente grupos de 10
observaciones de las anteriores y 1ª 2ª 3ª
calculamos el promedio. 185 190 179
174 169 163
• Para cada grupo de 10 obtenemos 167 170 167
entonces una nueva medición, que
vamos a llamar promedio muestral. 160 159 152
172 179 178
380
Teorema central del límite
• Dada una v.a. cualquiera, si extraemos muestras de
tamaño n, y calculamos los promedios muestrales, entonces:
• Sobre todo nos interesa saber qué valores de dichas distribuciones son
“atípicos”.
• Significación, p-valores,…
382
Chi cuadrado
• Tiene un sólo parámetro denominado
grados de libertad.
• Normalmente consideraremos
anómalos aquellos valores de la
variable de la “cola de la derecha”.
383
T de student
• Tiene un parámetro denominado
grados de libertad.
• Normalmente se consideran
valores anómalos los de la
cola de la derecha.
385
¿Qué hemos visto?
• En v.a. hay conceptos equivalentes a los de temas anteriores
• Función de probabilidad Frec. Relativa.
• Función de densidad histograma
• Función de distribución diagr. Integral.
• Valor esperado media, …
• Hay modelos de v.a. de especial importancia:
• Bernoulli
• Binomial
• Poisson
• Normal
• Propiedades geométricas
• Tipificación
• Aparece tanto en problemas con variables cualitativas (dicotómicas,
Bernoulli) como numéricas
• Distribuciones asociadas
• T-student
• X2 386
• F de Snedecor
Bioestadística
T Stutent
387
INVESTIGACION EN APS
Procesamiento y análisis
Selección de la prueba estadística para
observaciones independientes
Variable de resultado
Nominal Categórica Cuantitativa Cuantitativa normal
(>2
Ordinal Cuantitativa
discreta No-normal
categorías)
X2 o de X2 tendencia Mann- Mann-Whitney
Nominal X2 o Mann-
Z-test y T-test
Fisher Whitney o log-rank (a)
Whitney
Categórica
X2 X2
Kruskal- Kruskal- Kruskal- Análisis de la
(>2
categorías) Wallis Wallis (b) Wallis (b) varianza (ANOVA)
X2 de
(b) (c)
Ordinal (e) Rangos Rangos de Rangos de Rangos de
Variable (categorías tendencia o de Spearman Spearman Spearman o
de ordenadas) Mann – Spearman
Whitney regresión lineal (d)
entrada
Cuantitativa Regresión (e) (e) Rangos de Rangos de Rangos de Spearman o
Discreto Logística Spearman Spearman regresión lineal (d)
Ploteo de
(e) (e) (e) Ploteo de datos, Pearson
Cuantitativa Regresión datos, Pearson
o Rangos de Spearman y
no-normal Logística o rangos de
Spearman regresión lineal
Cuantitativa Regresión (e) (e) (e) Regresión Pearson y regresión388
normal Logística lineal (d) lineal
Similitudes y diferencias entre Z-test
y T-test
389
• Vemos que ambas fórmulas difieren, tan sólo, en que en el
estadístico del Z-test aparece en el denominador la desviación
típica poblacional (conocida), mientras que en el T-test tenemos un
estimador insesgado de dicho parámetro. Sin embargo, conviene
no olvidar que las distribuciones de referencia de ambos
estadísticos no son las mismas:
390
Generalidades
• Para un tamaño muestral grande, es de esperar que ambos
valores sean muy similares. Por tanto, los
estadísticos Zexp y Texp también lo serán.
• En síntesis, el Z-test o el T-test para la media de una normal
presentan diversas similitudes que pueden resumirse
indicando que cuanto mayor sea el tamaño muestral más se
parecerán los valores del estadístico de contraste,
su distribución y el p-valor.
391
Supuestos del modelo t de Student para
dos muestras independientes.
392
393
Test de normalidad
- Test de Kolmogoroff-Smirnoff-Lilliefors (test más potente para
muestra > 30 casos).
- Test de Shapiro-Wilk (la prueba más potente para muestra < 30
casos).
- Test de D’Agostino.
- Test de Anderson-Darling.
- Test chi-cuadrado de bondad de ajuste.
- Test de Contraste de asimetría: Sirve para contrastar la
hipótesis de que el coeficiente de
asimetría de Fisher es cero. Propiedad que verifica la
distribución normal ( = 10). 1
395
396
397
Gl = (nA.-1) + (nB-1) = (75-1) + (75-1) = 148
398
N1 = 75
Ṧ1 = 88,671
X1= 32,76
N2 = 75
S2 = 73,278
X2 = 31,213 399
400
Decisión sobre el estadístico obtenido en
función de la región donde se encuentra.
• Dado que T = 1,0585 y que es mayor que -1,976 y menor que
1,976 se encuentra dentro de la región de aceptación de la
hipótesis nula, aceptamos la hipótesis nula .
• Por tanto, y dado que la hipótesis nula establecía que la
diferencia de medias era igual a 0, podemos concluir que no
existe evidencia en contra de que las medias de las dos
muestras sean iguales, o lo que es lo mismo, no se han
encontrado diferencias estadísticamente significativas.
401
402
403
404
Bioestadística
Xi Cuadrado
405
Pregunta
• Tengo un grupo de estudiantes, me interesa saber si
la frecuencia de habito tabáquico es igual entre
hombres y mujeres: