Curso A

BIOESTADISTICA Gabriel Cavada
Un poco de historia
Qu es Estadstica?, etimolgicamente el vocablo deriva de Estado y significa "contar los bienes del Estado Los albores de esta disciplina se encuentran en la Antigedad Las autoridades del Egipto faranico contaban sus bienes y registraban la profundidad del ro Nilo en cada estacin del ao Jesucristo nace en Beln, porque un edicto del emperador romano ordena un censo, para conocer el nmero y caractersticas de los habitantes del Imperio
En nuestros das Qu es estadstica?

Estadstica es la disciplina que se ocupa de: La recoleccin, organizacin y procesamiento de datos, para obtener inferencias hacia un universo cuando se observa slo una parte de este universo Identificar la variabilidad de un fenmeno y tratar de explicarla Tomar desiciones bajo incertidumbre
Cmo conocemos?
Memoria Vulgar Fuentes del conocimiento Cientfico Percepcin sensorial Sistemtico
Mtodo Cientfico
Se sistematiza en cinco puntos: 1. Deteccin y Enunciado del Problema: Es la descripcin de una situacin problema o es el planteamiento de una pregunta. Formulacin de la Hiptesis: Es una respuesta o explicacin al problema enunciado, que se hace en base al conocimiento cientfico existente. Deduccin de una consecuencia verificable: Como la hiptesis es una explicacin general, a menudo ocurre que no se puede investigar directamente, luego se procede a deducir, lgicamente, consecuencias particulares de la hiptesis.
2.
3.
Mtodo Cientfico
4. Verificacin de la consecuencia: En ciencias exactas esto se realiza usando lgica pura, sin embargo en ciencias no exactas la verificacin se hace a travs de la recoleccin de informacin o la observacin de los fenmenos, lo que hace necesario la aplicacin de Procedimientos Estadsticos. Conclusin: Consiste en la aceptacin, modificacin o total rechazo de la hiptesis planteada.
Conocimiento cientfico
5.
Mtodo Estadstico
Mtodo Estadstico es el que proporciona las tcnicas necesarias para: Recolectar y Analizar la informacin requerida. El Mtodo Estadstico distingue dos etapas: la Planificacin y la Ejecucin.
Mtodo estadstico: Planificacin
Definicin de objetivos: es la descripcin formal del problema que da origen a la investigacin. Se debe sealar detalladamente lo que se va a investigar, el qu, cmo, dnde, cundo y por qu. Universo del estudio: es la definicin del conjunto desde el cual se extraer la informacin y hacia el que se generalizarn las conclusiones obtenidas. Diseo de la muestra: la Teora de Muestreo garantiza que la informacin que generaremos nos permita proyectar vlidamente las conclusiones al Universo de inters.
Mtodo estadstico: Planificacin

Definicin de las unidades de observacin (que objetos observaremos), las escalas de clasificacin y las unidades de medida. Preparacin del Plan de Tabulacin y Anlisis de la informacin: aqu se determinan las formas de presentar y analizar la informacin recolectada
Mtodo estadstico: Ejecucin

En la fase de Ejecucin se reconocer los siguientes aspectos:
Recoleccin de la informacin Elaboracin de la informacin Anlisis de los resultados
Unidad de anlisis y atributos

Unidad de anlisis: Una vez definido el problema que se va a investigar, se definen naturalmente los objetos que sern observados:
Seres humanos Animales Clulas rganos Etctera
Unidades de anlisis
Unidad de anlisis y atributos

Atributos: Teniendo definidas las unidades de anlisis, obviamente ellas presentan caractersticas que nos importan para nuestro estudio: Si nuestro estudio es antropomtrico, podemos consignar algunas caractersticas esenciales tales como:
Sexo Estatura Raza Peso
Variables
Variables: Cuando se han definido los atributos a estudiar, podemos ya observar unidades de anlisis especificadas y los atributos quedan consignados como caractersticas nicas del objeto que estamos estudiando. Si observamos una persona en particular podemos consignar:
Sexo: Femenino Estatura: 165 centmetros Raza: Caucsico Peso: 52 kilgramos
Cuando los atributos ya han sido evaluados, reciben el nombre de Variables del estudio.
Escalas de medida
Cuando procedemos a medir las variables del estudio, debemos tener presente que estamos consignando valores con unidades de medida y por consiguiente introduciendo escalas de medicin. Estas escalas pueden ser: Nominales, Ordinales o Intervalares (o de Razn). Estas escalas tienen diferente Poder de Clasificacin
Escalas de medida
Escala de medida Nominal Capacidad Slo es capaz de nombrar o etiquetar la unidad de anlisis. Por ejemplo: Sexo, raza, nacionalidad Es capaz de nombrar pero adems introduce una jerarqua en las unidades observadas. Por ejemplo: Grado que se cursa en el sistema escolar bsico, nivel econmico, escala analgica para el dolor Es capaz de nombrar, jerarquizar pero adems permite hacer comparaciones matemticas entre las unidades de anlisis. Por ejemplo: Temperatura en grados Celcius (intervalar). Peso, estatura (de razn). Las escalas de razn el cero indica ausencia de la variable.
Ordinal
Intervalar y de razn
Escalas de medida
Las escalas de medida se pueden bajar pero nunca subir. Es decir una variable en escala intervalar se puede dejar en escala ordinal y una en escala ordinal se puede dejar en escala nominal, pero una variable en escala nominal no se puede dejar en escala ordinal y una en escala ordinal no se puede dejar en escala intervalar
Escalas de medida
Las variables medidas en escala intervalar pueden ser: Discretas: Asociadas a los nmeros naturales, es decir slo cuentan, por ejemplo: Nmero de hijos, clulas por campo Asociadas a los nmeros reales, es decir miden, por ejemplo: Peso, temperatura, edad
Continuas:
Escalas de medida
Una variable continua se puede discretizar, pero una variable discreta no se puede continuizar.
Por ejemplo: la edad es una medida de tiempo y de naturaleza continua, sin embargo se registra en aos cumplidos que es de naturaleza discreta. Resulta poco cmodo registrar la edad de alguien como: 30.2130 aos (30 aos con 2 meses, 16 das, 16 horas y 19 minutos ) es mejor contar la cantidad de velas que apag en la torta en su ltimo cumpleaos, 30 velas = 30 aos
Escalas de medida
La precisin con que se mide una variable va de acuerdo al inters de la investigacin, como se estableci en el Mtodo Estadstico.
Poblacin y muestra
Poblacin: Llamamos Poblacin al Conjunto Universo de las unidades de anlisis, la poblacin puede ser de tamao finito o infinito:
Si se desea averiguar el volumen de la cavidad craneana en humanos adultos, la poblacin en estudio son todos los humanos vivos en este momento, esta poblacin en la prctica es infinita. Si se desea saber la edad de los sujetos VIH+ en Chile actualmente, la poblacin es finita.
Poblacin y muestra
MUESTRA:
Es un SUBCONJUNTO FINITO y FACTIBLE de la Poblacin, que debe cumplir caractersticas ineludibles para lograr que las conclusiones estadsticas sean vlidas.
Poblacin y muestra
LAS CARACTERSTICAS DE UNA "BUENA MUESTRA" SON: Aleatoria: garantiza que los elementos que componen la muestra fueron escogidos completamente al azar, es decir no hay predileccin alguna por incluir o excluir determinada unidad de anlisis (todos los sujetos de una poblacin tienen la misma probabilidad de integrar la muestra) El tamao de la muestra, que es el nmero de unidades de anlisis que se deben escoger, debe ser lo suficientemente grande como para garantizar la generalizacin de los resultados a la poblacin.
La determinacin del tamao de una muestra no es un problema trivial y constituye una especializacin de la estadstica llamada Teora del Muestreo.
Estadstica Descriptiva
Se llama estadstica descriptiva, al conjunto de tcnicas que permiten ordenar, resumir y representar la informacin recolectada. Esta slo pretende hacer una descripcin cuantitativa del fenmeno sin proyectar, an, sus resultados a la universalidad del fenmeno.
Ordenacin y representacin de datos

Obtenida la informacin que se desea analizar es necesario ordenarla, para ello utilizaremos tcnicas que dependen de la naturaleza de la variable y su escala de medida

Para desarrollar este captulo nos referiremos a la base de datos AURI.dta, que contiene informacin de pacientes con cncer vesicular confirmado por estudio histolgico:

. describe Contains data from F:\LosAndes\AURI.DTA obs: vars: size: 342 5 8,208 (99.2% of memory free) 16 Jul 2005 09:31
------------------------------------------------------------------------------storage variable name type display format value label variable label
------------------------------------------------------------------------------ident sexo edad imc nivsocie float float float float float %9.0g %9.0g %9.0g %9.0g %9.0g 1:alto 2:medio alto 3:medio 4:bajo 5:muy bajo ------------------------------------------------------------------------------Sorted by: 0: hombre 1: mujer

Sexo : Edad : Imc : Nivsocie: medida en escala nominal medida en escala de razn medida en escala de razn medida en escala ordinal

Representacin de la variable Sexo:
.
tab sexo
0: hombre | 1: mujer | Freq. Percent Cum. ------------+----------------------------------0 | 63 18.42 18.42 1 | 279 81.58 100.00 ------------+----------------------------------Total | 342 100.00

Distribucin por sexo
18.42%
81.58%
Hombres
Mujeres

Representacin de la variable nivel socioeconmico:
. tab nivsocie, gen(Niv) 1:alto | 2:medio | alto | 3:medio | 4:bajo | 5:muy bajo | Freq. Percent Cum. ------------+----------------------------------2 | 14 4.17 4.17 3 | 83 24.70 28.87 4 | 193 57.44 86.31 5 | 46 13.69 100.00 ------------+----------------------------------Total | 336 100.00

Distribucin por nivel socio econmico
.6 0 .2 .4
mean of Nmedioalto mean of Nbajo
mean of Nmedio mean of Nmuybajo

Variable Edad: Ordenacin en tallo y hoja
. stem edad, line(2) Stem-and-leaf plot for edad (aos cumplidos) 2* 2. 3* 3. 4* 4. 5* 5. 6* 6. 7* 7. 8* 8. | | | | | | | | | | | | | | 34 114 556666688 000011111122223333 5555566777777777888888999999999 00000000000001111111111222222222223333334444 55566666667777888888899999999 000000000011111111222223333333333333333333344444444444444 5555555555566666666777777777888888888999999999 00000000000011111112222222233333333333334444444444444 55555555555566666666777777777888889999 000123344 689

Variable Edad: Ordenacin tabulacin
. tab Edad
Edad | Freq. Percent Cum. ------------+----------------------------------20-30 | 2 0.58 0.58 30-40 | 12 3.51 4.09 40-50 | 49 14.33 18.42 50-60 | 73 21.35 39.77 60-70 | 103 30.12 69.88 70-80 | 91 26.61 96.49 80-90 | 12 3.51 100.00 ------------+----------------------------------Total | 342 100.00

Variable Edad: Histograma
Distribucin de la edad
.04 0 20 .01 Edad .02 .03
40
60 aos cumplidos
80
100

Frecuencias ajustadas: Para construir un histograma hay que considerar la siguiente regla: La rea de cada barra es proporcional a la frecuencia que representa
Cuando se desea construir un histograma en que la tabulacin presenta intervalos de clase de distinta longitud, es necesario ajustar por dichos largos usando la siguiente frmula:
fk f = lk
* k

Revisemos el siguiente ejemplo: La siguiente tabla muestra la frecuencia de accidentes caseros por rangos de edad (Hospital Clinic BCN Dic. 2003):
Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95 frec. 30 50 40 60 40 35

Histograma:
80
N de accident
Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95 frec. 30 50 40 60 40 35
60 40 20 0
0-3 30
50 40
60 40 35
3-5
5 - 10 10 - 30 30 - 60 60 - 95
Edad en aos

Histograma:
Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95 frec. 30 50 40 60 40 35
70 60 50 40 30 20 10 0
N de accidentes
60 50 40 30 40 35
0-3
3-5
5 - 10
10 30
30 60
60 95
Edad en aos

frecuencia ajusta
Histograma:
Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95
frec. 30 50 40 60 40 35
largo 3.0 2.0 5.0 20.0 30.0 35.0
frec.* 10.00 25.00 8.00 3.00 1.33 1.00
30.00 25.00 25.00 20.00 15.00 10.00 8.00 10.00 3.00 1.33 1.00 5.00 0.00
0-3 3 - 5 5 - 10 10 - 30 30 - 60 60 - 95
Edad en aos
Estadgrafos o estadsticos
Estadgrafos: llamaremos estadgrafo o estadstico, a nmeros resmenes, que nos permiten establecer conclusiones a cerca de la estructura de una muestra, estos nmeros son construidos considerando TODA la informacin que contiene dicha muestra, es decir consideran TODOS los datos que han sido recolectados.
Pueden construirse estadgrafos para distintos fines, sin embargo estudiaremos cuatro tipos de ellos, estadgrafos de: Posicin Tendencia central Variabilidad o dispersin Y de forma.
Cada vez que la muestra de datos, medidos en al menos en escala ordinal, ha sido ordenada, se establece un Ranking para cada una de las observaciones, este ranking, indica en que posicin, en direccin ascendente, se encuentra el dato respecto a la muestra.
Este ranking se denota por un subndice encerrado entre parntesis. Por ejemplo si se tienen los datos: 12, 7, 15 y 13 al ordenarlos se tiene: 7, 12, 13 y 15 es decir el primer dato ordenado es 7, el segundo es 12 etc. Este hecho lo anotamos simblicamente como sigue: X(1)=7, X(2)=12, X(3)=13 y X(4)=15
De este modo la muestra la podemos visualizar sobre un eje ordenado:
X(1)
X(2)
X(3)
X(n)
As X(1)=mn(X1,X2Xn) y X(n)=mx(X1,X2Xn)
Estadgrafos de posicin: son aquellos que dan informacin a cerca del orden en la estructura de una muestra. Ya hemos mencionado dos de ellos que aparecen en forma instantnea al ordenar la muestra, nos referimos al mximo, X(n), y al mnimo, X(1).
Percentiles
Llamaremos PERCENTILES, a cada uno de los nmeros que dividen la muestra en 100 partes iguales. Hay 99 percentiles, y se denotan por P(k), donde k es el orden del percentil indicado. Dado el percentil P(k), este divide la muestra en dos partes, la inferior que contiene el k% inferior de las observaciones y la superior que contiene el (100-k)% de las observaciones. Entre dos percentiles consecutivos est contenido un 1% de la muestra
Percentiles
k%
(100-k)%
1%
X(1)
P(k-1)
P(k)
X(n)
Percentiles
Clculo de los percentiles para variables medidas en escala ORDINAL o variables de RAZON DISCRETAS: Pk es el valor de la variable para el cual la frecuencia acumulada IGUALA o SUPERA por primera vez el orden del percentil buscado.
Percentiles
En la base AURI.dta tabulamos la variable nivel social:
. tab nivsocie
1:alto | 2:medio | alto | 3:medio | 4:bajo | 5:muy bajo | Freq. Percent Cum. ------------+----------------------------------2 | 14 4.17 4.17 3 | 83 24.70 28.87 4 | 193 57.44 86.31 5 | 46 13.69 100.00 ------------+----------------------------------Total | 336 100.00
Mnimo Mximo
Percentiles
. tab nivsocie
4.17% supera o iguala por primera vez los rdenes 1,2,3 y 4 %
Percentiles
. tab nivsocie
4.17% supera o iguala por primera vez los rdenes 1,2,3 y 4 %
P1,P2,P3 y P4 son iguales a2
Percentiles
Busquemos P25, P50 y P75:
. tab
nivsocie
28.87% supera o iguala por primera vez el orden 25%, luego P25=3
Percentiles
Busquemos P25, P50 y P75:
. tab
nivsocie
86.31% supera o iguala los rdenes 50% y 75% por primera vez, luego P50=4 y P75=4
Percentiles
Si la variable es de naturaleza continua hay que pensar menos. Por ejemplo los percentiles de la Edad en AURI.dta:
. sum edad,d edad ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453 Edad mnima Edad mxima
P25 P50 P95
Percentiles
Hay percentiles, que por la popularidad de interpretacin que tienen, reciben nombre propio: entre ellos estn:
Los Cuartiles: son tres, denotados por Q1, Q2 y Q3 , que corresponden respectivamente a los percentiles P25, P50 y P75, ellos dividen la muestra en cuatro partes iguales.
Los quintiles: son cuatro, denotados por C1, C2, C3 y C4, que corresponden respectivamente a los percentiles P20, P40, P60 y P80, ellos dividen la muestra en cinco partes iguales.
Los deciles: son nueve, denotados por D1, D2,...,D9, que corresponden respectivamente a los percentiles P10, P20,..., P90, ellos dividen la muestra en diez partes iguales.
Estadgrafos de centralizacin
Cada vez que se observa un fenmeno cuantitativo, nos interesa saber si los datos recolectados se aglutinan en torno a ciertos valores representativos que son propios del fenmeno estudiado: Por ejemplo si pensamos en la Edad de los jugadores profesionales de ftbol, la experiencia nos dice que sus edades varan entre los 17 y 35 aos, siendo raro pero no imposible, encontrar jugadores con mas de 35 aos o menores de 17 aos, adems sabemos que la gran mayora de estos jugadores tienen entre 23 y 30 aos. Ahora la pregunta general se hace obvia, dada una coleccin de datos, es posible saber a que valores tienden dichos datos?, la respuesta la entregan los llamados estadgrafos de tendencia central.
Estadgrafos de centralizacin
En consecuencia llamamos estadsticos de tendencia central a aquellos valores hacia los cuales tienden a aglomerarse los datos de una muestra. Los mas utilizados son:
MODA MEDIANA PROMEDIO O MEDIA
Moda
MODA: es el dato con mayor frecuencia de aparicin, apropiada para describir datos medidos en escala NOMINAL, ORDINAL o DE RAZON PERO DISCRETOS Moda en una variable nominal: Aqu est de MODA ser mujer !
. tab sexo 0: hombre | 1: mujer | Freq. Percent Cum. ------------+----------------------------------0 | 63 18.42 18.42 1 | 279 81.58 100.00 ------------+----------------------------------Total | 342 100.00
Distribucin por sexo
18.42%
81.58%
Hom bres
M ujeres
Moda
Moda en una variable ordinal:
. tab nivsocie
Aqu est de MODA ser de nivel social bajo !

Distribucin por nivel socio econmico
.6 0 .2 .4
m ean of Nmedioalto m ean of Nbajo
mean of Nm edio mean of Nm uyba jo
Mediana
MEDIANA: es el punto que divide a la muestra en dos partes iguales, se trata en consecuencia del P50 o Q2 , es apropiada para describir datos medidos en escala ORDINAL o DE RAZON ya sean discretos o contnuos. La forma de calcularla ya fue revisada.
. tabstat edad, stat(n min q max) variable | N min p25 p50 p75 max -------------+-----------------------------------------------------------edad | 342 23 51 63 71 89 --------------------------------------------------------------------------
Promedio o media aritmtica

MEDIA: es el punto en donde se ubica el centro de masas de la muestra. Es el estadgrafo de tendencia central mas conocido, usado y abusado y se calcula segn la frmula:
X 1 + X 2 + .... + X n 1 n X = = Xi n n i =1
Se interpreta como el valor al cual se pueden asimilar todos y cada uno de los datos, es decir, describe bien slo si la muestra es homognea y/o simtrica. Slo puede ser calculada en variables medidas en escalas intervalares o de razn. (Jams sobre variables medidas en escala ordinal)

Ante cambios de escala, tiene las siguientes propiedades:
X a= X a aX = aX a=a

Ejemplo 1: Promedio de la Edad en AURI.dta
. sum edad, d edad ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453
Promedio de Edad 61.3 aos

Ejemplo 2: Calcular el promedio de temperatura, a partir de la siguiente tabla:
temperatura 35.0 35.5 36.0 36.5 35.5 36.0 36.5 37.0 frecuencia 100 250 300 120
En STATA ingresamos:

. gen temp=( tinf+ tsup)/2 . list +----------------------------+ | tinf tsup frec temp | |----------------------------| | 35 35.5 100 35.25 | | 35.5 36 250 35.75 | | 36 36.5 300 36.25 | | 36.5 37 120 36.75 | +----------------------------+
1. 2. 3. 4.
Percentiles Promedio
. sum temp [freq= frec],d temp ------------------------------------------------------------Percentiles Smallest 1% 35.25 35.25 5% 35.25 35.75 10% 35.25 36.25 Obs 770 25% 35.75 36.75 Sum of Wgt. 770 50% 75% 90% 95% 99% 36.25 36.25 36.75 36.75 36.75 Largest 35.25 35.75 36.25 36.75 Mean Std. Dev. Variance Skewness Kurtosis 36.03571 .4520476 .204347 -.1078049 2.234091

Ejemplo 3: Calcular el promedio hijos, a partir de la siguiente tabla:
hijos 0 1 2 3 4 5 6 7 nmujeres 300 500 700 420 250 120 80 20

Ingresamos en STATA:

. sum hijos [freq= nmujeres],d hijos ------------------------------------------------------------Percentiles Smallest 1% 0 0 5% 0 1 10% 0 2 Obs 2390 25% 1 3 Sum of Wgt. 2390 50% 75% 90% 95% 99% 2 3 4 5 6 Largest 4 5 6 7 Mean Std. Dev. Variance Skewness Kurtosis 2.251046 1.562078 2.440089 .6537613 3.110751
Promedio Mediana Moda
. tab hijos [freq= nmujeres] hijos | Freq. Percent Cum. ------------+----------------------------------0 | 300 12.55 12.55 1 | 500 20.92 33.47 2 | 700 29.29 62.76 3 | 420 17.57 80.33 4 | 250 10.46 90.79 5 | 120 5.02 95.82 6 | 80 3.35 99.16 7 | 20 0.84 100.00 ------------+----------------------------------Total | 2,390 100.00
Estadgrafos de variabilidad
Consideremos las calificaciones en bioestadstica de dos alumnos: Pedro y Pablo
Alumno Pedro Pablo 4.0 2.0 4.0 3.0 4.0 7.0 4.0 4.0 4.0 6.0 4.0 5.0 4.0 1.0 Promedio 4.0 4.0
Como es observa, tanto Pedro como Pablo tienen idntico rendimiento promedio. Sin embargo quin tiene rendimiento mas homogneo? La respuesta la encontramos en los estadgrafos de variabilidad o dispersin
Estadgrafos de variabilidad
Estudiaremos tres de ellos : Recorrido Recorrido intercuartlico Varianza y desviacin estndar
Recorrido
Se llama recorrido de una variable a la diferencia entre el MAXIMO y el MINIMO : Recorrido=X(n)-X(1)
Aqu: Recorrido(Pedro)=4.0-4.0=0 Recorrido(Pablo)=7.0-1.0=6
Recorrido
El recorrido se puede calcular si la variable est medida en a lo menos escala ordinal Puede ser variabilidad
Alumno Pedro Pablo 1.0 2.0 4.0 3.0 4.0 7.0 4.0 4.0 4.0 6.0 4.0 5.0 7.0 1.0
una
medida
muy
exagerada
de
Promedio 4.0 4.0
Aqu: Recorrido(Pedro)=7.0-1.0=6 Recorrido(Pablo)=7.0-1.0=6 Sin embargo Pedro sigue teniendo un rendimiento mas homogeneo
Recorrido
. sum edad,d aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453
R(Edad)=89-23=66 aos
Recorrido intercuartlico
Se llama recorrido intercuartlico de una variable a la diferencia entre los CUARTILES TERCERO y PRIMERO : Recorrido intercuartlico=Q(3)-Q(1)
Aqu: RIC(Pedro)=4.0-4.0 = 0 RIC(Pablo)=6.0-2.0 = 4
. sum edad,d aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453
RIC(Edad)=71-51=20 aos
Un grfico muy informativo que relaciona el concepto de cuartil y recorrido intercuartlico, es el llamado CAJON CON BIGOTES (Box plot)
100
Q3+1.5RIC
80 aos cumplidos 60
(lo mas prximo)
Q3 Q2 Q1
Q1-1.5RIC (lo mas prximo)
20
40
El CAJON con BIGOTES permite comparar una variable desagregada por otra variable nominal
0
100
aos cumplidos
60
80
Graphs by 0: hombre 1: mujer
20
Valores OUT LAYERS
40
Varianza
Llamaremos desvo del i-simo dato respecto al promedio a la expresin:
di = X i X
Es decir la distancia dirigida entre el dato y el promedio
Varianza
Llamaremos VARIANZA a la expresin:
d + d + ... + d S x = Var ( X ) = = n 1
2 2 1 2 2 2 n
(X
i =1
X)
n 1
La varianza slo se puede calcular para variables medidas en escala intervalar o de razn
Varianza
La VARIANZA ante cambios de escala tiene las siguientes propiedades:
Var ( X a ) = Var ( X ) Var ( a X ) = a Var ( X )

2
Var ( a ) = 0
Desviacin estndar
Llamamos DESVIACION ESTANDAR a la RAIZ CUADRADA de la VARIANZA:
d + d + ... + d Sx = = n 1
2 1 2 2 2 n
(X
i =1
X)
n 1
Desviacin estndar
Cuando la distribucin de los datos se acerca a una distribucin normal, la mayora de los datos (alrededor del 67%) est contenido entre: EL PROMEDIO MENOS LA DESVIACION y EL PROMEDIO MAS LA DESVIACION
Desviacin estndar
. sum edad,d aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453 Desviacin estndar Varianza
Coeficiente de variabilidad
Llamamos COEFICIENTE VARIABILIDAD a la expresin:
Sx C.V . = 100% X
de
. sum edad,d
aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453
. display r(sd)/r(mean)*100 20.126034
20.1% de variabilidad
El C.V. sirve para comparar descriptivamente las dispersiones de una variable desagregada por otra.
. sum edad if sexo==0
Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------edad | 63 64.95238 9.258699 38 84 . display r(sd)/r(mean)*100 14.254595 . sum edad if sexo==1
La edad de los hombres es mas homognea
Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------edad | 279 60.51971 12.81294 23 89 . display r(sd)/r(mean)*100 21.171511
Estadgrafos de forma
Son aquellos nmeros resmenes, que indican la morfologa de la distribucin de los datos, es decir de la simetra y apuntamiento que tiene el histograma de la variable en estudio. Slo se pueden calcular en variables medidas en escala intervalar y de razn. Son el SESGO y la CURTOSIS
Sesgo
Sesgo: mide el grado de asimetra, respecto de la moda (el mximo del perfil del histograma), que tienen los datos.
Sesgo = 0
Sesgo > 0
Sesgo < 0
Curtosis
Curtosis: mide el grado de apuntamiento que tienen los datos
K baja (<3)
K normal (=3)
K alta (>3)
Sesgo y Curtosis
. sum edad,d
aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453
Sesgo Curtosis
Clculo de probabilidades
Introduccin El clculo de probabilidades tiene su origen en la poca pos renacentista, nace del estudio de los juegos de azar, del deseo de poder cuantificar las posibilidades de ganar o perder que se tienen ante una mano de naipes, el lanzamiento de un dado o lanzar una moneda al aire. Sin embargo este inters ldico inicial trascendi en la historia del pensamiento, pues un anlisis mas fino de cualquier situacin real nos lleva a considerar una porcin de azar (imponderables) que est presente en la misma.
De qu estamos seguros? Slo de nuestra muerte biolgica, la mayora de las veces cuando decimos que algo ser seguro en realidad estamos diciendo que es altamente probable que ocurra.
Al estudiar la realidad podemos distinguir dos tipos de experimentos: Los determinsticos y los probabilsticos. Los experimentos determinsticos son aquellos que tienen slo un resultado posible y adems este es predecible. Los experimentos probabilsticos son aquellos que tienen mas de un resultado posible y cada resultado no es predecible.
Dado un experimento cualquiera, que denotaremos por E, llamamos ESPACIO MUESTRAL, denotado por , al conjunto de todos los posibles resultados de E. Como ejemplos tenemos: a) E: Se lanza una moneda al aire =cara, sello b) E: Se lanza un dado =1,2,3,4,5,6 c) E: Se juega una cartilla de Loto 1=se gana premio, no se gana premio 2=0,1,2,3,4,5,6
Se llama suceso o evento a cualquier subconjunto de . Los sucesos se denotan por letras maysculas: A, B, El hecho que A sea un suceso de , lo denotamos por A . El conjunto vaco () es un suceso, pues y le llamamos suceso vaco o suceso imposible. Como , tambin es un suceso que llamamos suceso seguro.
Si jugamos al Cara y Sello y previamente se nos pregunta por la probabilidad de sacar Cara, seguramente diremos que es de 50%, pues diremos que hay slo dos posibles resultados, pero adems hemos supuesto que las posibilidades de obtener Cara son idnticas a las de obtener Sello, este concepto se denomina EQUIPROBABILIDAD
Se llama medida de un conjunto a algn nmero que nos indique el tamao del conjunto, la medida del conjunto A se denota por m(A). Si el conjunto es finito y se pueden contar sus elementos, la medida natural que aparece es m(A)=nmero de elementos del conjunto. Si el conjunto es un intervalo de la recta real o una porcin del plano cartesiano puede considerarse como m(A)=longitud del intervalo o m(A)=rea de la porcin del plano cartesiano segn sea el caso.
Definicin clsica de probabilidad Introducido el concepto de medida, podemos dar una definicin de probabilidad del un suceso A como: medida de A dividido por medida de , en smbolos:
m( A) P( A) = m()
De esta definicin aparecen dos resultados fundamentales:
P()=0, la probabilidad del suceso imposible es nula. P()=1, la probabilidad del espacio muestral es 1.
Dos sucesos A y B se dicen excluyentes, si es IMPOSIBLE que ocurran juntos (al mismo tiempo), en smbolos AB=. Por ejemplo se lanza un dado y el dado muestra un nmero par e impar a la vez.
Hechas las consideraciones enunciamos los AXIOMAS del probabilidades:
1. 0 P(A) 1 2. Si AB= entonces P(AB)=P(A)+P(B)
anteriores, clculo de
Para enfrentar un problema de clculo de probabilidades, se debe poner especial cuidado en definir los sucesos de inters. Ejemplifiquemos con algunas situaciones elementales del experimento lanzar un dado: E: Se lanza un dado, as: =1,2,3,4,5,6 Definamos los sucesos siguientes y calculemos sus probabilidades de ocurrencia: 1. 2. A: el dado muestra as, as: A=1 y m(A)=1, con lo que:
1 B: el dado muestra un nmero impar, as B=1,3,5 y m(B)=3, P ( A) = 6 con lo que:
P( B) =
3 1 = 6 2
La realidad presenta sucesos compuestos, los que se forman unindolos , intersectndolos y complementndolos. Dados los sucesos A y B se tiene: AB : sucede A y sucede B (suceden ambos a la vez) AB : sucede A B, as P(AB)=P(A) + P(B) P(AB) Ac : no sucede A, as P(Ac)=1 P(A)
Decimos de los sucesos A y B son INDEPENDIENTES, si la ocurrencia de uno de ellos no altera la ocurrencia o no ocurrencia del otro, la hiptesis de independencia se expresa as: P(AB) = P(A)P(B)
Adems la realidad presenta abundantemente SUCESOS CONDICIONALES, es decir sucesos que condicionan su ocurrencia a la presencia de otros, as podemos preguntarnos por la probabilidad de que ocurra un evento DADO EL HECHO que ocurri tal o cual evento.
Si consideramos los sucesos A y B, de modo que B condiciona la ocurrencia de A entonces la probabilidad de que ocurra A dado el hecho que ocurri B es:
P( A B) P( A | B) = P( B)
Condicionar el suceso A al suceso B, es reducir el espacio muestral a B.
AB A
De la frmula:
P( A B) P( A | B) = P(B)
Tener presente que:

P(AB)=P(A|B) P(B) P(A|B) P(B|A)
Ejemplo: Considerar la siguiente tabla:
Sano Mujer Hombre 6 8 14 Enfermo 2 4 6 8 12 20
Aqu se pueden distinguir cuatro sucesos, de los cuales dos son fundamentales: A : la persona es MUJER B : la persona est SANA : la persona es HOMBRE Ac Bc : la persona est ENFERMA
Sano (B) Mujer (A) Hombre (Ac) 6 8 14 Enferm o (Bc) 2 4 6 8 12 20
-P(A) = 8/20= 0.40, probabilidad de ser mujer. - P(B) = 14/20=0.60, probabilidad de estar sano.
la la
-P(ABc)=2/20=0.10, la probabilidad de ser mujer y estar enfermo. -P(A|B)=6/14=0.43, la probabilidad de ser mujer dado que est sano. P(B|A)=6/8=0.75, la probabilidad de estar sano dado que es mujer.
En STATA
Mujer (A) Hombre (Ac) Sano (B) 6 8 14 Enfermo (Bc) 2 4 6 8 12 20
En STATA
. tab sexo enfermo [freq=n], +-------------------+ | Key | |-------------------| | frequency | | row percentage | | column percentage | | cell percentage | +-------------------+ 0:hombre | 0:sano 1:enfermo 1:mujer | 0 1 | Total -----------+----------------------+---------0 | 8 4 | 12 | 66.67 33.33 | 100.00 | 57.14 66.67 | 60.00 | 40.00 20.00 | 60.00 -----------+----------------------+---------1 | 6 2 | 8 | 75.00 25.00 | 100.00 | 42.86 33.33 | 40.00 | 30.00 10.00 | 40.00 -----------+----------------------+---------Total | 14 6 | 20 | 70.00 30.00 | 100.00 | 100.00 100.00 | 100.00 | 70.00 30.00 | 100.00 row col cell
Probabilidad de estar sano dado que se es hombre = 8/12 Probabilidad de ser hombre dado que se est sano = 8/14 Probabilidad de ser hombre y estar sano = 8/20 Probabilidad de ser mujer = 8/20
Probabilidad de estar enfermo = 6/20
En mltiples oportunidades la ocurrencia de un suceso principal A se debe a la ocurrencia previa de causas, que tambin son sucesos, de modo que en el clculo de la probabilidad de la ocurrencia de A las probabilidades de los sucesos causales deben ser incluidas segn la ponderacin o influencia que tengan sobre A. Si el suceso principal A se debe a las causas E1, E2,...,En , entonces:
P( A) = P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + ... + P( A | En ) P( En ) = P( A) = P( A | Ei ) P( Ei )
i =1 n
Esta frmula recibe el nombre de TEOREMA DE LA PROBABILIDAD TOTAL
Ejemplo: En un hospital hay tres servicios: Urgencia, Ciruga y Medicina. El porcentaje de hospitalizados por servicio es: Urgencia 30%, Ciruga 20% y Medicina 50%. Si la mortalidad en cada servicio es 10%, 5% y 3% respectivamente. Cul es la probabilidad de que un paciente hospitalizado muera? Suceso principal, Causas A : el paciente muere : E1: el paciente est en urgencia E2: el paciente est en ciruga E3: el paciente est en medicina
P( A) = P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + P( A | E3 ) P( E3 )
P(A) = 0.10.3 + 0.050.2 + 0.030.5 = 0.055
En ocasiones es necesario calcular la probabilidad de que una determinada causa haya producido el suceso principal. Es decir necesitamos saber P(Ek|A).
En el ejemplo: Si se nos comunica que ha ocurrido una muerte, Cul es la probabilidad que haya ocurrido en Urgencia? Suceso principal, A : el paciente muere. Causas:E1: el paciente est en Urgencia;E2: el paciente est en Ciruga; E3: el paciente est en Medicina Es decir se pide:
P( E1 | A) =
P( E1 A) P( A E1 ) P( A | E1 ) P( E1 ) = = P( A) P( A) P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + P( A | E3 ) P( E3 )
Suceso principal, Causas A : el paciente muere : E1: el paciente est en urgencia E2: el paciente est en ciruga E3: el paciente est en medicina
P( A) = P( A | E1)P(E1) + P( A | E2 )P(E2 ) + P( A | E3 )P(E3 )
P(A) = 0.10.3 + 0.050.2 + 0.030.5 = 0.055

P( E1 | A) = P( E1 A) P( A E1 ) P( A | E1 ) P( E1 ) = = P( A) P( A) P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + P( A | E3 ) P( E3 )
0.10.3 P( E1 | A) = = 0.545 0.055
Generalizando el resultado anterior
P( Ek | A) = P( Ek | A) = P( A | Ek ) P( Ek ) P( A | Ek ) P( Ek ) P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + ... + P( A | En ) P( En )
P( A | E ) P( E )
i =1 i i
Frmula que es conocida como el TEOREMA DE BAYES
Variables aleatorias
Introduccin Una variable aleatoria, en general, es una codificacin numrica de los posibles resultados que contiene el espacio muestral de un experimento, dicha codificacin puede ser arbitraria, sin embargo, si el espacio muestral tiene algn orden jerrquico especfico, este mismo orden sugiere la codificacin. El empleo de variables aleatorias permite descubrir nuevas propiedades del experimento que se est estudiando.
Como ejemplo, retomemos el experimento de lanzar un dado, para lo cual tenemos: E: Se lanza un dado =1,2,3,4,5,6 el espacio muestral, tiene seis sucesos fundamentales: A1: el dado muestra as A2: el dado muestra 2 .................................. A6: el dado muestra 6
Sin embargo, estos sucesos pueden ser codificados por la variable X, que tal que: X=1 si ocurre A1 , X=2 si ocurre A2 etc. Hecha esta codificacin, podemos hacer una descripcin completa del experimento, pues las probabilidades asociadas con cada suceso se pueden representar por una funcin, que recibe el nombre de FUNCION DE CUANTIA DE PROBABILIDADES
X 1 2 3 4 5 6 Total P(X) 1/6 1/6 1/6 1/6 1/6 1/6 1
Observamos que la suma de las P(X) es igual a 1, pues es la probabilidad del espacio muestral completo.
En general una Funcin de Cuanta de Probabilidades, es una funcin, cuyo dominio es un subconjunto, A, de los Naturales, que cumple las siguientes propiedades:
P( X ) : A N R P( X ) 0
P( X ) = 1
A
Se llama FUNCION DE DISTRIBUCION DE PROBABILIDADES a la expresin:
F ( X j ) = P( X X j ) =
P( X )
i min ( A )
Dada una funcin de cuanta, podemos definir el valor promedio de ella, que llamaremos esperanza o valor esperado de la variable, que denotamos por E(X) o , y la definimos por:
E ( X ) = = X 1 P( X 1 ) + X 2 P( X 2 ) + .... + X n P( X n ) = X i P( X i )
i =1 n
Ante cambios de escala, E(X) tiene las siguientes propiedades:
E( X a) = E( X ) a E ( aX ) = aE ( X ) E (a ) = a
Generalizando este resultado, se llama MOMENTO DE ORDEN K respecto del origen a la expresin:
E ( X ) = X ik P( X i )
k i =1 n
Tambin podemos medir la variabilidad de la variable aleatoria X, mediante el clculo de lo que llamaremos VARIANZA de X, que denotaremos por V(X), y definimos como sigue:
V ( X ) = ( X 1 ) P ( X 1 ) + ( X 2 ) P ( X 2 ) + .... + ( X n ) P ( X n ) = ( X i ) 2 P ( X i )
2 2 2 i =1 n
V ( X ) = E ( X 2 ) (E ( X ) )
2
A la raz cuadrada de la varianza se le llama desviacin estndar de X, la denotamos por y junto con tienen la misma interpretacin que en la estadstica descriptiva. Ante cambios de escala, V(X) tiene las siguientes propiedades:
V ( X a) = V ( X ) V ( aX ) = a 2V ( X ) ( aX ) = a ( X ) V (a ) = 0
La distribucin uniforme
n +1 2 n2 1 V (X ) = 12 E( X ) =
La distribucin geomtrica
El modelo geomtrico permite calcular la probabilidad de OBTENER XITO POR PRIMERA VEZ EN EL K-ESIMO INTENTO, as si X es la variable que denota el intento donde se produce el xito por primera vez, X puede tomar valores desde 1 al infinito, pues el xito podra aparecer en el primer intento o bien podramos pasarnos la vida completa esperando que se produzca el xito, as:
P ( X = k ) = q k 1 p, X = 1,2,3,.... 1 E( X ) = p q V (X ) = 2 p
Distribucin Binomial
El modelo binomial, permite calcular la probabilidad de tener k xitos en n intentos, si tenemos n intentos la cantidad de xitos que podramos obtener van desde 0 a n, es decir X=0, 1, 2, ...., n . En este contexto:
n nk k P ( X = k ) = q p , X = 0,1,2,3..., n k mx (t ) = (q + pe t ) n E( X ) = n p V (X ) = n p q
Distribucin de Poisson
El modelo probabilstico de Poisson, calcula la probabilidad de ocurrencia de fenmenos de rara ocurrencia ya sea por: unidad de tiempo, de longitud de rea etctera. Dado un fenmeno de rara ocurrencia por alguna unidad de medida, es posible, por la experiencia acumulada, establecer una tasa de ocurrencia que llamaremos . En estas condiciones la variable X es la cantidad de veces que aparece el fenmeno en un perodo, as X puede tomar valores desde 0 al infinito, con lo que:
P( X = k ) = E( X ) = V (X ) =
k
k!
e , X = 0,1,2,3....
Distribucin Hipergeomtrica
Supongamos ahora que tenemos un conjunto con N de objetos, de los cuales r son de una determinada caracterstica de inters, por lo tanto N-r no tienen la caracterstica de inters. Si de este conjunto de N objetos sacamos una muestra de tamao n, nos interesa la probabilidad de que en dicha muestra hayan k objetos de inters, as esta probabilidad est dada por:
r N r k n k P(k ) = N n nr E (k ) = N nr ( N r )( N n) V (k ) = N 2 ( N 1)
Experimentos de Bernoulli
Antes de continuar revisando otras importantes funciones de cuanta de probabilidad, definamos lo que entenderemos por EXPERIMENTOS DE BERNOULLI. En efecto es una secuencia de experimentos que tiene las siguientes caractersticas: El experimento tiene slo dos posibles resultados, que llamaremos xito y fracaso. Cada vez que se repite el experimento, la probabilidad de aparicin del xito (y de fracaso) se mantiene constante. Cada ensayo es independiente de otro.
Experimentos de Bernoulli
Si llamamos p a la probabilidad del xito, obviamente la probabilidad del fracaso es 1-p al que llamaremos q, es decir q=1-p o bien p+q=1
Distribucin de Bernoulli
En una poblacin que esta dicotomizada respecto de un determinado atributo (los elementos que poseen el atributo versus el resto de la poblacin), en que la proporcin con el atributo es p y q=1-p la proporcin que no lo posee, se realiza el experimento de extraer un elemento y se observa la presencia del atributo, podemos asumir la codificacin: X=0, si el objeto no tiene el atributo X=1, si el objeto tiene el atributo, con lo que se obtiene la siguiente funcin de cuanta:
Distribucin de Bernoulli
La distribucin normal
Introduccin Es la distribucin mas querida usada y abusada por los usuarios de la estadstica. Decimos que la variable aleatoria, X, sigue una distribucin normal con promedio (o esperanza) y varianza 2, si la funcin densidad de probabilidades (curva perfil del histograma) est dada por:
1 f ( x) = e 2
( x )2
2 2
, x R, R, > 0
f ( x) = 1 e 2
( x )2
2 2
, x R, R, > 0
.4
.3
.2
.1
0 -4 -3 -2 -1 0 X 1 2 3 4
Curva Normal con promedio 0 y varianza 1
El grfico de esta .4 curva es tal que: Tiene un mximo en x= .3 Es simtrica respecto a la .2 vertical x= Tiene puntos de .1 inflexin en x= - y x= + 0 Se aproxima -4 -3 -2 -1 0 1 2 X asintticamente al Curva Normal con promedio 0 y varianza 1 eje X, lo que se refleja en la relacin: f ( 3 ) = f ( + 3 ) = 1 f ( )
100
La probabilidad, P(X<a) est dada por:
P( X < a) =
1 e 2
( x )2
2 2
dx
La probabilidad, P(X<a) est dada por:
P( X < a) =
1 e 2
( x )2
2 2
dx
Calma, los clculos sern muy simples!
P(a < X < b) =
1 e 2
( x )2
2 2
dx
Si =0 y =1 se habla de una distribucin normal estndar, tpica o reducida. En la normal estndar a la P(Z<z)=(z) Valor que despliega STATA: P(Z<1.96)=(1.96) display norm(1.96) .9750021 P(Z<0.2)=(0.2) . display norm(0.2) .57925971 z
La probabilidad P(a<Z<b)=(b)- (a)
Ejemplo: P(1.2<Z<2.5)=(2.5)- (1.2) display norm(2.5)-norm(1.2) .10886 La probabilidad P(Z>a)=1- (a) Ejemplo: P(Z>1.5)=1-(1.5) display 1-norm(1.5) .0668072
Si X~N(,2) entonces Z=(X-)/ ~N(0,1) es decir normal estndar.
Ejemplo:Si la temperatura,T, de una persona sana sigue una distribucin normal con media de 36.5 y desviacin estndar 0.1, calcular:
P(T<36.3)=((36.3-36.5)/0.1) display norm((36.3-36.5)/0.1) .02275013 P(36.4<T<36.8)=((36.8-36.5)/0.1)- ((36.4-36.5)/0.1) display norm((36.8-36.5)/0.1)-norm((36.436.5)/0.1) .83999485 P(T>36.9)=1-((36.9-36.5)/0.1) display 1-norm((36.9-36.5)/0.1) .00003167
Cul es el percentil 75 de las temperaturas? Es decir para que valor de t se tiene: P(T<t)=0.75
display 36.5 + 0.1*invnorm(.75) 36.567449
Y el percentil 99?
display 36.5 + 0.1*invnorm(.99) 36.732635
Inferencia estadstica
Supongamos una poblacin de tamao N=10.000, de personas adultas en que se les ha medido sus estaturas en metros, los parmetros poblacionales son:
. sum X,d Estatura ------------------------------------------------------------Percentiles Smallest 1% 119.1348 86.62138 5% 131.7351 88.6692 10% 139.2241 91.11671 Obs 10000 25% 151.5324 93.84512 Sum of Wgt. 10000 50% 75% 90% 95% 99% 165.226 178.3917 190.5882 197.993 211.7315 Largest 230.2685 233.3427 234.4337 237.8318 Mean Std. Dev. Variance Skewness Kurtosis 164.988 20.01317 400.527 -.0088502 2.982042
El siguiente programa STATA, extraer 300 muestras de tamao 100 de la Poblacin y en cada una de ellas se calcular el promedio y la desviacin estndar:
* Programa TCL set more off local iterate = 1 while `iterate' <= 300
use "C:\Documents and Settings\Gabriel Cavada\Escritorio\LosAndes\TCL.dta", clear sample 1 sum X clear local iterate =`iterate' + 1 }
Al registrar el promedio en cada muestra tenemos una muestra de promedios es decir el promedio muestral es una variable aleatoria, con la siguiente distribucin:
.3
.2 Fraction
.1
0 155 160 promedios 165 170
Las estadsticas descriptivas de estos promedios son:
. sum promedios,d promedios ------------------------------------------------------------Percentiles Smallest 1% 160.0712 157.0182 5% 161.6588 159.0572 10% 162.374 159.708 Obs 300 25% 163.5157 160.4345 Sum of Wgt. 300 50% 75% 90% 95% 99% 164.7495 166.2547 167.4832 168.3237 169.2054 Largest 169.1602 169.2505 169.7911 170.2179 Mean Std. Dev. Variance Skewness Kurtosis 164.8657 2.004618 4.018492 -.1519181 3.343029
2/n
Hemos probado empricamente que X ~ N ( , Cuando n es muy grande
2
n
Este resultado permite construir un intervalo de confianza para . En la realidad no se dispone del valor de 2 y/o de muestras muy grandes, as entonces la distribucin de probabilidades no es normal sino t-Student. Basta tomar una muestra, de tamao n, en la poblacin para hacer inferencias acerca del promedio poblacional:
. ci X
Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------X | 100 163.7289 1.993126 159.7741 167.6837
Apostamos con 95% de certeza que el promedio poblacional est comprendido entre 157.8 y 167.7 metros
Lo mismo ocurre con una proporcin. En nuestra poblacin de tamao 10.000, la proporcin de enfermos es:
. tab enfermo enfermo | Freq. Percent Cum. ------------+----------------------------------0 | 8014 80.14 80.14 1 | 1986 19.86 100.00 ------------+----------------------------------Total | 10000 100.00
Al extraer una muestra de tamao 500, encontramos un intervalo de confianza para la prevalencia de:
. sample 5 (9500 observations deleted) . ci enfermo,bin -- Binomial Exact -Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------enfermo | 500 .202 .0179553 .1676573 .2399116
Ejemplo ilustrativo (diseo antes despus): A 20 mujeres obesas se les registra el peso en Kgs. Luego se les somete a una dieta hipocalrica y al cabo de un mes son evaluadas. Los datos se muestran a continuacin:
. list
id 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. pesoini~l 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 pesofinal 92.9 91.1 86.5 80.1 84.3 84.8 96.3 97.8 90.6 89.4 80 94.6 92.9 107.5 83 96.3 94.8 86.3 75 96.3
74.8 88 82.4 79.9 92.8 68.9 71.6 74.4 85.3 76.5 78.6 88.6 85 64.7 80.4 93.1 84.8 86.1 86 95.2
Es efectiva la dieta? Qu tan efectiva es la dieta?
. gen dif= pesofinal- pesoinicial . list
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 pesoini~l 92.9 91.1 86.5 80.1 84.3 84.8 96.3 97.8 90.6 89.4 80 94.6 92.9 107.5 83 96.3 94.8 86.3 75 96.3 pesofinal dif 74.8 -18.1 88 -3.099998 82.4 -4.099998 79.9 -.1999969 92.8 8.5 68.9 -15.9 71.6 -24.7 74.4 -23.4 85.3 -5.299995 76.5 -12.9 78.6 -1.400002 88.6 -6 85 -7.900002 64.7 -42.8 80.4 -2.599998 93.1 -3.200005 84.8 -10 86.1 -.2000046 86 11 95.2 -1.100006
. sum dif, d dif ------------------------------------------------------------Percentiles Smallest 1% -42.8 -42.8 5% -33.75 -24.7 10% -24.05 -23.4 Obs 20 25% -14.4 -18.1 Sum of Wgt. 20 50% 75% 90% 95% 99% . ci -4.699997 -1.250004 4.150002 9.75 11 dif Largest -.2000046 -.1999969 8.5 11 Mean Std. Dev. Variance Skewness Kurtosis -8.170001 12.28555 150.9349 -1.084781 4.396793
Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------dif | 20 -8.170001 2.747134 -13.91982 -2.420184
Ejemplo ilustrativo (diseo antes despus): A 50 hombres con dolor lumbar se les da un tratamiento anti inflamatorio, de ellos 38 mejoran. En qu porcentaje es efectivo el tratamiento?
. list mejora 0 1 0 1 1 0 1 0 1
. tab mejora mejora | Freq. Percent Cum. ------------+----------------------------------0 | 12 24.00 24.00 1 | 38 76.00 100.00 ------------+----------------------------------Total | 50 100.00
. ci mejora,bin
1. 2. 3. 4. 5. 47. 48. 49. 50.
-- Binomial Exact -Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------mejora | 50 .76 .0603987 .6183118 .8693945
Dcimas de hiptesis
Introduccin Hiptesis estadstica es una afirmacin respecto de una caracterstica poblacional (forma de ella o valor de sus parmetros); esta sentencia puede ser docimada (probada) en base a una muestra aleatoria extrada de esa poblacin.
Dcimas de hiptesis
En muchas ocasiones es necesario decidir entre una afirmacin de la forma = 0 (Hiptesis nula) u otra que puede tomar las siguientes formas 0 , > 0 < 0 (Hiptesis alternativa). En smbolos:
H 0 : = 0 H1 : 0 H1 : > 0 H1 : < 0
Dcimas de hiptesis
Necesitamos desarrollar un procedimiento que nos permita tomar una decisin acerca de H0, como esta decisin es tomada en base a informacin muestral est sujeta a errores probables, debido a que no se sabe como es realmente la naturaleza y slo tenemos una percepcin de ella. Cruzando este efecto con la decisin tenemos:
Dcimas de hiptesis
Dcimas de hiptesis
Deseamos que los errores no se cometan, pero como la decisin ser tomada bajo incertidumbre, slo podemos pedir que la probabilidad de cometerlos sea pequea. La filosofa para docimar consiste en suponer que Ho es verdadera, hasta encontrar evidencia muestral suficiente que permita decir lo contrario, si esta evidencia no existe no podemos dudar de la afirmacin contenida en Ho. As el error mas grave que se puede cometer es el Error tipo I, que es el que intentamos de controlar.
Dcimas de hiptesis
Llamamos:
=P(Rechazar Ho | Ho es Verdad) , tamao del Error tipo I =P(No rechazar Ho | Ho es Falsa) , tamao del Error tipo II
nos interesa que sea pequeo (generalmente 5% o menos).
se llama significacin de la dcima y 1- se llama potencia de la dcima, la potencia depende de la hiptesis alternativa que estemos proponiendo.
Dcimas de hiptesis
Se llama estadstica de prueba, E, a una funcin que contenga el parmetro de inters (que se desea docimar) y toda la informacin muestral. Deseablemente la estadstica de prueba, bajo la hiptesis nula, debe seguir una distribucin de probabilidades conocida.
Dcimas de hiptesis
Se llama regin crtica o de rechazo, aquella porcin de los reales para la cual la probabilidad de que E est en ella, considerando la veracidad de H0, sea menor que
Dcimas de hiptesis
Una dcima de la forma:
H0 : = 0 H1 : 0
se llama de dos colas pues la regin de rechazo, se compone de dos porciones de los reales inconexas, que se muestran en el siguiente grfico:
Dcimas de hiptesis
Una dcima de la forma:
H 0 : = 0 H1 : > 0 H1 : < 0
se llama de una cola pues la regin de rechazo, se compone de una porcin de los reales conexa, como se muestra a continuacin:
Dcimas de hiptesis
H1 : < 0
H1 : > 0
Dcimas de hiptesis
Como deseablemente la estadstica de prueba, E, tiene una distribucin de probabilidades conocida, se pueden calcular las siguientes probabilidades llamadas P-VALUES, el P-VALUE es el tamao del Error I:
P(E<-E0 U E>E0)=
P(E<-E0 )=
P(E>E0 )=
Dcimas respecto de promedios

El caso de una muestra y de dos muestras pareadas
Hiptesis Nula
Estadstica de Prueba
Distribucin de la estadstica de prueba
H 0 : = 0
X 0 S n
t(n 1)

Ejemplo ilustrativo (diseo antes despus): A 20 mujeres obesas se les registra el peso en Kgs. Luego se les somete a una dieta hipocalrica y al cabo de un mes son evaluadas. Los datos se muestran a continuacin:

. gen dif= pesofinal- pesoinicial . list
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 pesoini~l 92.9 91.1 86.5 80.1 84.3 84.8 96.3 97.8 90.6 89.4 80 94.6 92.9 107.5 83 96.3 94.8 86.3 75 96.3 pesofinal dif 74.8 -18.1 88 -3.099998 82.4 -4.099998 79.9 -.1999969 92.8 8.5 68.9 -15.9 71.6 -24.7 74.4 -23.4 85.3 -5.299995 76.5 -12.9 78.6 -1.400002 88.6 -6 85 -7.900002 64.7 -42.8 80.4 -2.599998 93.1 -3.200005 84.8 -10 86.1 -.2000046 86 11 95.2 -1.100006

. sum dif, d dif ------------------------------------------------------------Percentiles Smallest 1% -42.8 -42.8 5% -33.75 -24.7 10% -24.05 -23.4 Obs 20 25% -14.4 -18.1 Sum of Wgt. 20 50% 75% 90% 95% 99% . ci -4.699997 -1.250004 4.150002 9.75 11 dif Largest -.2000046 -.1999969 8.5 11 Mean Std. Dev. Variance Skewness Kurtosis -8.170001 12.28555 150.9349 -1.084781 4.396793
Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------dif | 20 -8.170001 2.747134 -13.91982 -2.420184

Otras preguntas relevantes Es posible afirmar que la dieta en promedio permite bajar 5 Kgs.?
. ttest dif=-5 One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------dif | 20 -8.170001 2.747134 12.28555 -13.91982 -2.420184 -----------------------------------------------------------------------------Degrees of freedom: 19 Ho: mean(dif) = -5 Ha: mean < -5 t = -1.1539 P < t = 0.1314 Ha: mean ~= -5 t = -1.1539 P > |t| = 0.2628 Ha: mean > -5 t = -1.1539 P > t = 0.8686

Es posible afirmar que la dieta en promedio permite bajar 15 Kgs.?
. ttest dif=-15
One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------dif | 20 -8.170001 2.747134 12.28555 -13.91982 -2.420184 -----------------------------------------------------------------------------Degrees of freedom: 19 Ho: mean(dif) = -15 Ha: mean < -15 t = 2.4862 P < t = 0.9888 Ha: mean ~= -15 t = 2.4862 P > |t| = 0.0224 Ha: mean > -15 t = 2.4862 P > t = 0.0112

La pregunta mas relevante: La dieta en promedio es efectiva?
. ttest dif=0
One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------dif | 20 -8.170001 2.747134 12.28555 -13.91982 -2.420184 -----------------------------------------------------------------------------Degrees of freedom: 19 Ho: mean(dif) = 0 Ha: mean < 0 t = -2.9740 P < t = 0.0039 Ha: mean ~= 0 t = -2.9740 P > |t| = 0.0078 Ha: mean > 0 t = -2.9740 P > t = 0.9961

Otra forma de verlo La dieta en promedio es efectiva?
. ttest pesoinicial= pesofinal
Paired t test ---------------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] -------------+-------------------------------------------------------------------pesoiniciall | 20 90.025 1.706472 7.631574 86.45331 93.59669 pesofinall | 20 81.855 1.843459 8.244199 77.9966 85.7134 -------------+-------------------------------------------------------------------diff | 20 8.170001 2.747134 12.28555 2.420184 13.91982 ---------------------------------------------------------------------------------Ho: mean(pesoinicial - pesofinal) = mean(diff) = 0 Ha: mean(diff) < 0 t = 2.9740 P < t = 0.9961 Ha: mean(diff) ~= 0 t = 2.9740 P > |t| = 0.0078 Ha: mean(diff) > 0 t = 2.9740 P > t = 0.0039

El caso de dos muestras independientes
Hiptesis Nula Estadstica de Prueba Distribucin de la estadstica de prueba
H0 : x y = 0
Sc =
X Y 1 1 Sc + nx ny
2 2 (n x 1) S x + (n y 1) S y
t ( n x + n y 2)
nx + n y 2

Ejemplo: Se aleatorizan 40 nios afiebrados a causa de una gripe comn, para probar la efectividad de dos antipirticos A y B, se desea probar que el antipirtico B es mejor que A. Los datos se muestran a continuacin:

. list id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 tratami~o B A B A B A B B A A B A B A A A B A B B tinicial 38.9 39.3 38.9 39 38.9 39 38.7 39.2 39.3 38.9 38.8 39.2 39 38.8 39.1 39.4 38.7 39.1 39.3 39 tfinal 36.7 38 36.8 37.7 36.8 37.9 37.1 36.7 37.8 37.9 36.8 38.1 37 38.2 37.9 37.8 36.7 38.1 36.8 36.6 id 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 tratami~o B B A A A A A B A B B A B B A B A A B B tinicial 39.1 39.1 39.1 38.8 38.6 38.8 38.9 38.6 39.1 39.1 39.1 39.2 39 38.9 38.5 39.1 39 38.9 38.9 38.9 tfinal 37.1 36.9 38.1 37.8 38.1 38 38.1 36.8 38 36.8 36.8 38.1 36.8 36.6 38.2 36.9 37.9 37.9 36.7 36.7
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40.

. gen dif= tfinal- tinicial . sort . by tratamiento tratamiento: sum dif
_______________________________________________________________________________ -> tratamiento = A Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------dif | 20 -1.02 .3122079 -1.600002 -.2999992 _______________________________________________________________________________ -> tratamiento = B Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------dif | 20 -2.155 .2187883 -2.5 -1.600002

dif 0
-1
-2
-3
Cambio de temperatura por tratamiento

. ttest dif, by( tratamiento)
Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------A | 20 -1.02 .0698118 .3122079 -1.166118 -.8738821 B | 20 -2.155 .0489226 .2187883 -2.257396 -2.052604 ---------+-------------------------------------------------------------------combined | 40 -1.5875 .1001402 .633342 -1.790053 -1.384948 ---------+-------------------------------------------------------------------diff | 1.135 .0852473 .9624262 1.307575 -----------------------------------------------------------------------------Degrees of freedom: 38 Ho: mean(A) - mean(B) = diff = 0 Ha: diff < 0 t = 13.3142 P < t = 1.0000 Ha: diff ~= 0 t = 13.3142 P > |t| = 0.0000 Ha: diff > 0 t = 13.3142 P > t = 0.0000
Dcimas de proporciones
Dcima de una proporcin en el caso de dos muestras. Recordemos la base de datos practico1.dta, en la cual se dispone informacin de pacientes con una determinada enfermedad renal. Al recordar la variable sexo, podemos hacernos algunas preguntas:
Por ejemplo: La proporcin poblacional de hombres es igual a la de mujeres? Es esta una enfermedad que afecta en proporcin 3:1 a hombres respecto de mujeres?
Estas hiptesis pueden plantearse mediante la siguiente dcima:
Hiptesis Nula
Estadstica de Prueba
Distribucin de la estadstica de prueba
H 0 : P = P0
p P0 P0Q0 n
N (0,1)
La proporcin poblacional de hombres es igual a la de mujeres?
H 0 : P = 0.5
Donde P es la proporcin poblacional de mujeres
. tab sexo 0:hombre | 1:mujer | Freq. Percent Cum. ------------+----------------------------------0 | 161 80.50 80.50 1 | 39 19.50 100.00 ------------+----------------------------------Total | 200 100.00 . prtest sexo=0.5 sexo: Number of obs = 200
One-sample test of proportion
-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------sexo | .195 .0280156 6.9604 0.0000 .1400904 .2499096 -----------------------------------------------------------------------------Ho: proportion(sexo) = .5 Ha: sexo < .5 z = -8.627 P < z = 0.0000 Ha: sexo ~= .5 z = -8.627 P > |z| = 0.0000 Ha: sexo > .5 z = -8.627 P > z = 1.0000
Es esta una enfermedad que afecta en proporcin 3:1 a hombres respecto de mujeres?
H 0 : P = 0.25
Donde P es la proporcin poblacional de mujeres
. prtest
sexo=0.25 sexo: Number of obs = 200
One-sample test of proportion
-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------sexo | .195 .0280156 6.9604 0.0000 .1400904 .2499096 -----------------------------------------------------------------------------Ho: proportion(sexo) = .25 Ha: sexo < .25 z = -1.796 P < z = 0.0362 Ha: sexo ~= .25 z = -1.796 P > |z| = 0.0724 Ha: sexo > .25 z = -1.796 P > z = 0.9638
Para comparar proporciones en dos muestras independientes, usamos:
Hiptesis Nula
Estadstica de Prueba Distribucin de la estadstica de prueba
px p y
H 0 : Px Py = 0
PQ (
1 1 + ) nx n y
N (0,1)
P=
nx px + ny py nx + n y
Ejemplo: Se aleatorizan 60 pacientes en dos tratamientos (0 y 1) y se registra la condicin de mejora (0: no mejora 1: mejora)
pac 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 trat 0 0 1 1 1 0 1 1 0 0 1 0 0 1 1 1 1 1 0 1 mejora 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 0 1 1 pac 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 trat 0 1 0 0 1 0 1 1 0 1 0 1 0 1 1 0 1 0 0 0 mejora 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 0 0 1 pac 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 trat 0 0 0 1 0 1 0 1 1 0 0 0 0 0 1 1 0 1 1 1 mejora 1 1 1 1 0 1 0 1 0 0 1 0 1 0 1 1 0 1 1 1
. by trat: tab mejora _______________________________________________________________________________ -> trat = 0 mejora | Freq. Percent Cum. ------------+----------------------------------0 | 12 40.00 40.00 1 | 18 60.00 100.00 ------------+----------------------------------Total | 30 100.00 _______________________________________________________________________________ -> trat = 1 mejora | Freq. Percent Cum. ------------+----------------------------------0 | 2 6.67 6.67 1 | 28 93.33 100.00 ------------+----------------------------------Total | 30 100.00
. prtest mejora, by(trat) 0: Number of obs = 1: Number of obs = 30 30
Two-sample test of proportion
-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | .6 .0894427 6.7082 0.0000 .4246955 .7753045 1 | .9333333 .045542 20.4939 0.0000 .8440726 1.022594 ---------+-------------------------------------------------------------------diff | -.3333333 .1003697 -.5300543 -.1366124 | under Ho: .1092059 -3.05234 0.0023 -----------------------------------------------------------------------------Ho: proportion(0) - proportion(1) = diff = 0 Ha: diff < 0 z = -3.052 P < z = 0.0011 Ha: diff ~= 0 z = -3.052 P > |z| = 0.0023 Ha: diff > 0 z = -3.052 P > z = 0.9989
Dcima de independencia entre dos variables nominales

Interesa averiguar si dos variables cualitativas X e Y estn vinculadas. En cada unidad de observacin se registra un par (x,y) de valores observados, en consecuencia a partir de lo obtenido en n unidades de observacin, se obtiene una Tabla de Contingencia de sr (tabla observada):
X1 Y1 Y2 ...Ys Total O11 O21 Os1 n.1 X2 O12 O22 Os2 n.2 ...Xr O1r O2r Osr n.r Total n1. n2. ns. n

Bajo la Hiptesis de independencia, estas frecuencias se pueden recalcular, crendose una Tabla Esperada:
X1 Y1 Y2 ...Ys Total E11 E21 Es1 X2 E12 E22 Es2 ...Xr E1r E2r Esr n Total

Donde :
E ij =
n. j n i. n
En estas condiciones, podemos plantear la Hiptesis Nula: H0 : X es independiente de Y Contrastada con la Hiptesis alternativa: H1 : X est asociada con Y

La estadstica de prueba es:
ij
que sigue una distribucin
(O
ij
E ij ) E ij
2 (( s 1)( r 1))
Siempre es una dcima de una cola !

Ejemplo: Se cree que la cantidad de casos con cierta infeccin intra hospitalaria est asociada al servicio hospitalario, para probar dicha hiptesis se dispone de la siguiente informacin:
Ciruja (1) 30 20 50 Medicina (2) Urgencia (3) 70 62 10 8 80 70
sin infeccin (0) con infeccin(1)
162 38 200
H0: La condicin de infectado es independiente del servicio H1: La condicin de infectado est asociado al servicio

. tab infeccion servicio [freq=frec], chi2
| infeccion | 1
servicio 2 3 | Total
-----------+---------------------------------+---------0 | 1 | 30 20 70 10 62 | 8 | 162 38
-----------+---------------------------------+---------Total | 50 80 70 | 200
Pearson chi2(2) =
19.1312
Pr = 0.000

. tab infeccion servicio [freq=frec], chi2 col | infeccion | 1 servicio 2 3 | Total
-----------+---------------------------------+---------0 | | 30 60.00 70 87.50 62 | 88.57 | 162 81.00
-----------+---------------------------------+---------1 | | 20 40.00 10 12.50 8 | 11.43 | 38 19.00
-----------+---------------------------------+---------Total | | 50 100.00 80 100.00 70 | 100.00 | 200 100.00
Pearson chi2(2) =
19.1312
Pr = 0.000

Cules de estas proporciones difieren?
. prtesti 50 0.4 80 0.125 Two-sample test of proportion x: Number of obs = y: Number of obs = 50 80
-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------x | .4 .069282 5.7735 0.0000 .2642097 .5357903 y | .125 .0369755 3.38062 0.0007 .0525294 .1974706 ---------+-------------------------------------------------------------------diff | .275 .0785314 .1210812 .4289188 | under Ho: .0759555 3.62054 0.0003 -----------------------------------------------------------------------------Ho: proportion(x) - proportion(y) = diff = 0 Ha: diff < 0 z = 3.621 P < z = 0.9999 Ha: diff ~= 0 z = 3.621 P > |z| = 0.0003 Ha: diff > 0 z = 3.621 P > z = 0.0001

-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------x | .4 .069282 5.7735 0.0000 .2642097 .5357903 y | .1143 .0380292 3.00558 0.0027 .0397641 .1888359 ---------+-------------------------------------------------------------------diff | .2857 .079033 .1307981 .4406019 | under Ho: .0783166 3.64801 0.0003 -----------------------------------------------------------------------------Ho: proportion(x) - proportion(y) = diff = 0 Ha: diff < 0 z = 3.648 P < z = 0.9999 Ha: diff ~= 0 z = 3.648 P > |z| = 0.0003 Ha: diff > 0 z = 3.648 P > z = 0.0001

-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------x | .125 .0369755 3.38062 0.0007 .0525294 .1974706 y | .1143 .0380292 3.00558 0.0027 .0397641 .1888359 ---------+-------------------------------------------------------------------diff | .0107 .0530416 -.0932596 .1146596 | under Ho: .0531856 .201182 0.8406 -----------------------------------------------------------------------------Ho: proportion(x) - proportion(y) = diff = 0 Ha: diff < 0 z = 0.201 P < z = 0.5797 Ha: diff ~= 0 z = 0.201 P > |z| = 0.8406 Ha: diff > 0 z = 0.201 P > z = 0.4203
Regresin lineal simple

Como ya hemos visto cuando se observa una causa, buscamos la o las causas que lo produjeron. Al simplificar esta estructura cognoscitiva podemos pensar que una respuesta es generada por una causa; lo que podemos representar, cuando causa y efecto son medibles numricamente, por una relacin funcional:
Y = f (X )
Respuesta Causa
Forma o tipo de asociacin

Particularmente, nos interesa modelar la respuesta cuando la relacin funcional entre la respuesta y la causa es lineal, es decir, de la forma:
Y = + X

Obviamente antes de ajustar un modelo como el propuesto es necesario saber si la variable respuesta se asocia linealmente con la variable independiente, cuando ambas se miden en n unidades de anlisis, esto es, cuando se tiene una muestra de la forma:
Observacin 1 2 3 4 ... ... ... n X x1 x2 x3 x4 ... ... ... xn Y y1 y2 y3 y4 ... ... ... yn

Para ello, definimos el Coeficiente de Correlacin entre X e Y como:
rxy =
n X 2 ( X )
n XY X Y
2
n Y 2 ( Y )
rxy mide el grado de asociacin lineal entre X e Y, puede demostrarse que:
1 rxy 1
rxy tiende a 1 la asociacin es directa rxy tiende a -1 la asociacin es inversa rxy tiende a 0 no existe asociacin lineal

5
-5
-10
-15 0 1 X 2 3
rxy 1

20 15
10
0 0 1 X 2 3
rxy 1

3
0 0 1 X 2 3
rxy 0

Para ajustar un modelo de la forma : consideramos la funcin:
Yi = + X i + i
2 ( , ) = (Yi X i )2
El procedimiento consiste en encontrar los valores de y que hagan mnima la funcin: 2
( , )
y
Estos valores se llaman estimadores mnimo cuadrticos y los denotamos por:

Interpretacin de (pendiente de la recta): Como: Y(X) = + X Se tiene: Y(X+1) = + (X+1) = + X + Luego: Y(X+1) - Y(X) =
Representa el cambio de Y por unidad de X

Mediante clculo diferencial bivariado se encuentra:
n XY X Y n X
2
( X )
= Y b X
Tambin puede demostrarse que:
=S
Sy
x
rxy

En consecuencia, ajustado el modelo, se tiene la siguiente tabla:
Si deseamos hacer inferencias relativas al modelo ajustado, es necesario agregar los siguientes supuestos:
i ~ N(0, 2)
Los Xi son independientes entre si, por lo tanto los i tambin son independientes entre si (no correlacionados).

Una vez ajustado un modelo de regresin, es necesario conocer la calidad del mismo, para ello la variabilidad total de Y, que no depende del modelo ajustado, puede descomponerse del siguiente modo:
(Y Y ) = (Y Y ) + (Y Y )
2 2
SCTotal
Varianza Total
SCError
SCRegresin
= Varianza no explicada + Varianza explicada

Notar que de la identidad algebraica: SCTotal Podemos escribir: = SCError + SCRegresin
SC Re g SCError 1= + SCTotal SCTotal

R2 =
Se define el coeficiente de determinacin como:
(Y Y )
Y )2 (Y
2
que en el caso de la regresin lineal simple coincide con r2xy.

La estimacin de la varianza del error es: Dcimas e intervalos de confianza:
S 2 = CMres =
)2 (Y Y n2
H 0 : = 0
Estadstica de prueba a 0
S 1 X + n ( X X )2
2
Intervalo de confianza
~t(n-2)
2
1 X + a t( n 2 ) S n ( X X )2
b t( n 2 ) S
H 0 : = 0
b 0 S
(X X )
~t(n-2)
(X X )
2
Intervalo de confianza para la prediccin:
(X 0 X ) 1 + Y0 t( n 2 ) S n ( X X )2

Ejemplo: Un nutrilogo, desea probar la hiptesis que afirma que la ingesta calrica diaria en nios varones no obesos entre los 5 y 15 aos de edad aumenta con esta, para probar dicha hiptesis dispone de la siguiente informacin:
id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 edad 6 11 10 11 11 6 11 5 10 13 7 5 9 13 10 cal 1628 2126 1963 2035 2112 1581 2143 1436 2009 2238 1797 1460 1867 2251 2035 id 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 edad 13 7 10 7 14 7 6 9 12 13 9 9 13 5 11 cal 2283 1684 2092 1710 2441 1633 1645 1868 2194 2243 1862 1810 2252 1472 2116

. graph7 cal edad, xlabel(5,6 to 15) ylabel(1500,1600 to 2500)
2500 2400 2300 ingesta calorica diaria 2200 2100 2000

. corr cal edad
1900 1800
(obs=30)
cal
edad
1700 1600 1500 5 6 7 8 9 10 11 edad en aos 12 13 14 15
-------------+-----------------cal | edad | 1.0000 0.9858 1.0000

. reg cal edad
Source |
SS
df
MS
Number of obs = F( 1, 28) = = =
30 961.65 0.0000 0.9717 0.9707 47.919
-------------+-----------------------------Model | Residual | 2208153.27 64294.1928 1 28 2208153.27 2296.22117
Prob > F R-squared
-------------+-----------------------------Total | 2272447.47 29 78360.2575
Adj R-squared = Root MSE =
-----------------------------------------------------------------------------cal | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------------edad | _cons | 99.42725 994.9363 3.206252 31.48555 31.01 31.60 0.000 0.000 92.85954 930.4411 105.995 1059.432
------------------------------------------------------------------------------
Calorias = 994.9363 + 99.42725Edad

Prueba de los supuestos del modelo:
. predict calhat (option xb assumed; fitted values) . gen error= cal- calhat . swilk error Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z
-------------+------------------------------------------------error | 30 0.95642 1.385 0.674 0.25031

106.073
error -79.7815 5 edad en aos 14
Si al graficar los errores versus la variable independiente (edad) no se encuentra un patrn de comportamiento los errores no estn correlacionados

error 100
50
-50
-100
Distribucin de los errores

Grfico de las observaciones, los valores predichos y sus intervalos de confianza:
. dis invttail(28, 0.025) 2.0484071 . predict es, stdp . gen li= calhat-2.0484071* es . gen ls= calhat+2.0484071* es

graph7 cal calhat li ls edad, sort c(.lss) xlabel ylabel
Fitted values ls ingesta calorica diaria li 2500
2000
Calorias = 994.9363 + 99.42725Edad

1500 5 10 edad en aos 15

Curso A

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Curso A

Uploaded by

Copyright:

Available Formats

BIOESTADISTICA Gabriel Cavada

En nuestros das Qu es estadstica?

Memoria Vulgar Fuentes del conocimiento Cientfico Percepcin sensorial Sistemtico

Mtodo estadstico: Planificacin

Mtodo estadstico: Planificacin

Mtodo estadstico: Ejecucin

Unidad de anlisis y atributos

Seres humanos Animales Clulas rganos Etctera

Unidad de anlisis y atributos

Sexo Estatura Raza Peso

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

mean of Nmedioalto mean of Nbajo

mean of Nmedio mean of Nmuybajo

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Ordenacin y representacin de datos

Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95

largo 3.0 2.0 5.0 20.0 30.0 35.0

frec.* 10.00 25.00 8.00 3.00 1.33 1.00

4.17% supera o iguala por primera vez los rdenes 1,2,3 y 4 %

4.17% supera o iguala por primera vez los rdenes 1,2,3 y 4 %

P1,P2,P3 y P4 son iguales a2

P25 P50 P95

MODA MEDIANA PROMEDIO O MEDIA

Aqu est de MODA ser de nivel social bajo !

m ean of Nmedioalto m ean of Nbajo

mean of Nm edio mean of Nm uyba jo

Promedio o media aritmtica

Promedio o media aritmtica

Promedio o media aritmtica

Promedio de Edad 61.3 aos

Promedio o media aritmtica

Promedio o media aritmtica

Promedio o media aritmtica

Promedio o media aritmtica

Promedio o media aritmtica

Promedio o media aritmtica

Promedio Mediana Moda

Promedio o media aritmtica

Aqu: Recorrido(Pedro)=4.0-4.0=0 Recorrido(Pablo)=7.0-1.0=6

Aqu: RIC(Pedro)=4.0-4.0 = 0 RIC(Pablo)=6.0-2.0 = 4

(lo mas prximo)

Graphs by 0: hombre 1: mujer

Valores OUT LAYERS

Var ( X a ) = Var ( X ) Var ( a X ) = a Var ( X )

. display r(sd)/r(mean)*100 20.126034

La edad de los hombres es mas homognea

Tener presente que:

Probabilidad de estar enfermo = 6/20