You are on page 1of 242

BIOESTADISTICA Gabriel Cavada

Un poco de historia
Qu es Estadstica?, etimolgicamente el vocablo deriva de Estado y significa "contar los bienes del Estado Los albores de esta disciplina se encuentran en la Antigedad Las autoridades del Egipto faranico contaban sus bienes y registraban la profundidad del ro Nilo en cada estacin del ao Jesucristo nace en Beln, porque un edicto del emperador romano ordena un censo, para conocer el nmero y caractersticas de los habitantes del Imperio

En nuestros das Qu es estadstica?


Estadstica es la disciplina que se ocupa de: La recoleccin, organizacin y procesamiento de datos, para obtener inferencias hacia un universo cuando se observa slo una parte de este universo Identificar la variabilidad de un fenmeno y tratar de explicarla Tomar desiciones bajo incertidumbre

Cmo conocemos?

Memoria Vulgar Fuentes del conocimiento Cientfico Percepcin sensorial Sistemtico

Mtodo Cientfico
Se sistematiza en cinco puntos: 1. Deteccin y Enunciado del Problema: Es la descripcin de una situacin problema o es el planteamiento de una pregunta. Formulacin de la Hiptesis: Es una respuesta o explicacin al problema enunciado, que se hace en base al conocimiento cientfico existente. Deduccin de una consecuencia verificable: Como la hiptesis es una explicacin general, a menudo ocurre que no se puede investigar directamente, luego se procede a deducir, lgicamente, consecuencias particulares de la hiptesis.

2.

3.

Mtodo Cientfico
4. Verificacin de la consecuencia: En ciencias exactas esto se realiza usando lgica pura, sin embargo en ciencias no exactas la verificacin se hace a travs de la recoleccin de informacin o la observacin de los fenmenos, lo que hace necesario la aplicacin de Procedimientos Estadsticos. Conclusin: Consiste en la aceptacin, modificacin o total rechazo de la hiptesis planteada.

Conocimiento cientfico

5.

Mtodo Estadstico
Mtodo Estadstico es el que proporciona las tcnicas necesarias para: Recolectar y Analizar la informacin requerida. El Mtodo Estadstico distingue dos etapas: la Planificacin y la Ejecucin.

Mtodo estadstico: Planificacin

Definicin de objetivos: es la descripcin formal del problema que da origen a la investigacin. Se debe sealar detalladamente lo que se va a investigar, el qu, cmo, dnde, cundo y por qu. Universo del estudio: es la definicin del conjunto desde el cual se extraer la informacin y hacia el que se generalizarn las conclusiones obtenidas. Diseo de la muestra: la Teora de Muestreo garantiza que la informacin que generaremos nos permita proyectar vlidamente las conclusiones al Universo de inters.

Mtodo estadstico: Planificacin


Definicin de las unidades de observacin (que objetos observaremos), las escalas de clasificacin y las unidades de medida. Preparacin del Plan de Tabulacin y Anlisis de la informacin: aqu se determinan las formas de presentar y analizar la informacin recolectada

Mtodo estadstico: Ejecucin


En la fase de Ejecucin se reconocer los siguientes aspectos:
Recoleccin de la informacin Elaboracin de la informacin Anlisis de los resultados

Unidad de anlisis y atributos


Unidad de anlisis: Una vez definido el problema que se va a investigar, se definen naturalmente los objetos que sern observados:

Seres humanos Animales Clulas rganos Etctera

Unidades de anlisis

Unidad de anlisis y atributos


Atributos: Teniendo definidas las unidades de anlisis, obviamente ellas presentan caractersticas que nos importan para nuestro estudio: Si nuestro estudio es antropomtrico, podemos consignar algunas caractersticas esenciales tales como:

Sexo Estatura Raza Peso

Variables
Variables: Cuando se han definido los atributos a estudiar, podemos ya observar unidades de anlisis especificadas y los atributos quedan consignados como caractersticas nicas del objeto que estamos estudiando. Si observamos una persona en particular podemos consignar:
Sexo: Femenino Estatura: 165 centmetros Raza: Caucsico Peso: 52 kilgramos

Cuando los atributos ya han sido evaluados, reciben el nombre de Variables del estudio.

Escalas de medida
Cuando procedemos a medir las variables del estudio, debemos tener presente que estamos consignando valores con unidades de medida y por consiguiente introduciendo escalas de medicin. Estas escalas pueden ser: Nominales, Ordinales o Intervalares (o de Razn). Estas escalas tienen diferente Poder de Clasificacin

Escalas de medida
Escala de medida Nominal Capacidad Slo es capaz de nombrar o etiquetar la unidad de anlisis. Por ejemplo: Sexo, raza, nacionalidad Es capaz de nombrar pero adems introduce una jerarqua en las unidades observadas. Por ejemplo: Grado que se cursa en el sistema escolar bsico, nivel econmico, escala analgica para el dolor Es capaz de nombrar, jerarquizar pero adems permite hacer comparaciones matemticas entre las unidades de anlisis. Por ejemplo: Temperatura en grados Celcius (intervalar). Peso, estatura (de razn). Las escalas de razn el cero indica ausencia de la variable.

Ordinal

Intervalar y de razn

Escalas de medida
Las escalas de medida se pueden bajar pero nunca subir. Es decir una variable en escala intervalar se puede dejar en escala ordinal y una en escala ordinal se puede dejar en escala nominal, pero una variable en escala nominal no se puede dejar en escala ordinal y una en escala ordinal no se puede dejar en escala intervalar

Escalas de medida
Las variables medidas en escala intervalar pueden ser: Discretas: Asociadas a los nmeros naturales, es decir slo cuentan, por ejemplo: Nmero de hijos, clulas por campo Asociadas a los nmeros reales, es decir miden, por ejemplo: Peso, temperatura, edad

Continuas:

Escalas de medida
Una variable continua se puede discretizar, pero una variable discreta no se puede continuizar.
Por ejemplo: la edad es una medida de tiempo y de naturaleza continua, sin embargo se registra en aos cumplidos que es de naturaleza discreta. Resulta poco cmodo registrar la edad de alguien como: 30.2130 aos (30 aos con 2 meses, 16 das, 16 horas y 19 minutos ) es mejor contar la cantidad de velas que apag en la torta en su ltimo cumpleaos, 30 velas = 30 aos

Escalas de medida
La precisin con que se mide una variable va de acuerdo al inters de la investigacin, como se estableci en el Mtodo Estadstico.

Poblacin y muestra

Poblacin: Llamamos Poblacin al Conjunto Universo de las unidades de anlisis, la poblacin puede ser de tamao finito o infinito:
Si se desea averiguar el volumen de la cavidad craneana en humanos adultos, la poblacin en estudio son todos los humanos vivos en este momento, esta poblacin en la prctica es infinita. Si se desea saber la edad de los sujetos VIH+ en Chile actualmente, la poblacin es finita.

Poblacin y muestra

MUESTRA:
Es un SUBCONJUNTO FINITO y FACTIBLE de la Poblacin, que debe cumplir caractersticas ineludibles para lograr que las conclusiones estadsticas sean vlidas.

Poblacin y muestra
LAS CARACTERSTICAS DE UNA "BUENA MUESTRA" SON: Aleatoria: garantiza que los elementos que componen la muestra fueron escogidos completamente al azar, es decir no hay predileccin alguna por incluir o excluir determinada unidad de anlisis (todos los sujetos de una poblacin tienen la misma probabilidad de integrar la muestra) El tamao de la muestra, que es el nmero de unidades de anlisis que se deben escoger, debe ser lo suficientemente grande como para garantizar la generalizacin de los resultados a la poblacin.
La determinacin del tamao de una muestra no es un problema trivial y constituye una especializacin de la estadstica llamada Teora del Muestreo.

Estadstica Descriptiva
Se llama estadstica descriptiva, al conjunto de tcnicas que permiten ordenar, resumir y representar la informacin recolectada. Esta slo pretende hacer una descripcin cuantitativa del fenmeno sin proyectar, an, sus resultados a la universalidad del fenmeno.

Ordenacin y representacin de datos


Obtenida la informacin que se desea analizar es necesario ordenarla, para ello utilizaremos tcnicas que dependen de la naturaleza de la variable y su escala de medida

Ordenacin y representacin de datos


Para desarrollar este captulo nos referiremos a la base de datos AURI.dta, que contiene informacin de pacientes con cncer vesicular confirmado por estudio histolgico:

Ordenacin y representacin de datos


. describe Contains data from F:\LosAndes\AURI.DTA obs: vars: size: 342 5 8,208 (99.2% of memory free) 16 Jul 2005 09:31

------------------------------------------------------------------------------storage variable name type display format value label variable label

------------------------------------------------------------------------------ident sexo edad imc nivsocie float float float float float %9.0g %9.0g %9.0g %9.0g %9.0g 1:alto 2:medio alto 3:medio 4:bajo 5:muy bajo ------------------------------------------------------------------------------Sorted by: 0: hombre 1: mujer

Ordenacin y representacin de datos

Ordenacin y representacin de datos


Sexo : Edad : Imc : Nivsocie: medida en escala nominal medida en escala de razn medida en escala de razn medida en escala ordinal

Ordenacin y representacin de datos


Representacin de la variable Sexo:
.

tab sexo

0: hombre | 1: mujer | Freq. Percent Cum. ------------+----------------------------------0 | 63 18.42 18.42 1 | 279 81.58 100.00 ------------+----------------------------------Total | 342 100.00

Ordenacin y representacin de datos


Distribucin por sexo
18.42%

81.58%

Hombres

Mujeres

Ordenacin y representacin de datos


Representacin de la variable nivel socioeconmico:
. tab nivsocie, gen(Niv) 1:alto | 2:medio | alto | 3:medio | 4:bajo | 5:muy bajo | Freq. Percent Cum. ------------+----------------------------------2 | 14 4.17 4.17 3 | 83 24.70 28.87 4 | 193 57.44 86.31 5 | 46 13.69 100.00 ------------+----------------------------------Total | 336 100.00

Ordenacin y representacin de datos


Distribucin por nivel socio econmico
.6 0 .2 .4

mean of Nmedioalto mean of Nbajo

mean of Nmedio mean of Nmuybajo

Ordenacin y representacin de datos


Variable Edad: Ordenacin en tallo y hoja
. stem edad, line(2) Stem-and-leaf plot for edad (aos cumplidos) 2* 2. 3* 3. 4* 4. 5* 5. 6* 6. 7* 7. 8* 8. | | | | | | | | | | | | | | 34 114 556666688 000011111122223333 5555566777777777888888999999999 00000000000001111111111222222222223333334444 55566666667777888888899999999 000000000011111111222223333333333333333333344444444444444 5555555555566666666777777777888888888999999999 00000000000011111112222222233333333333334444444444444 55555555555566666666777777777888889999 000123344 689

Ordenacin y representacin de datos


Variable Edad: Ordenacin tabulacin
. tab Edad

Edad | Freq. Percent Cum. ------------+----------------------------------20-30 | 2 0.58 0.58 30-40 | 12 3.51 4.09 40-50 | 49 14.33 18.42 50-60 | 73 21.35 39.77 60-70 | 103 30.12 69.88 70-80 | 91 26.61 96.49 80-90 | 12 3.51 100.00 ------------+----------------------------------Total | 342 100.00

Ordenacin y representacin de datos


Variable Edad: Histograma
Distribucin de la edad
.04 0 20 .01 Edad .02 .03

40

60 aos cumplidos

80

100

Ordenacin y representacin de datos


Frecuencias ajustadas: Para construir un histograma hay que considerar la siguiente regla: La rea de cada barra es proporcional a la frecuencia que representa

Ordenacin y representacin de datos

Cuando se desea construir un histograma en que la tabulacin presenta intervalos de clase de distinta longitud, es necesario ajustar por dichos largos usando la siguiente frmula:

fk f = lk
* k

Ordenacin y representacin de datos


Revisemos el siguiente ejemplo: La siguiente tabla muestra la frecuencia de accidentes caseros por rangos de edad (Hospital Clinic BCN Dic. 2003):
Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95 frec. 30 50 40 60 40 35

Ordenacin y representacin de datos


Histograma:
80
N de accident
Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95 frec. 30 50 40 60 40 35

60 40 20 0
0-3 30

50 40

60 40 35

3-5

5 - 10 10 - 30 30 - 60 60 - 95

Edad en aos

Ordenacin y representacin de datos


Histograma:
Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95 frec. 30 50 40 60 40 35

70 60 50 40 30 20 10 0

N de accidentes

60 50 40 30 40 35

0-3

3-5

5 - 10

10 30

30 60

60 95

Edad en aos

Ordenacin y representacin de datos


frecuencia ajusta

Histograma:

Edad 0-3 3-5 5 - 10 10 - 30 30 - 60 60 - 95

frec. 30 50 40 60 40 35

largo 3.0 2.0 5.0 20.0 30.0 35.0

frec.* 10.00 25.00 8.00 3.00 1.33 1.00

30.00 25.00 25.00 20.00 15.00 10.00 8.00 10.00 3.00 1.33 1.00 5.00 0.00
0-3 3 - 5 5 - 10 10 - 30 30 - 60 60 - 95

Edad en aos

Estadgrafos o estadsticos
Estadgrafos: llamaremos estadgrafo o estadstico, a nmeros resmenes, que nos permiten establecer conclusiones a cerca de la estructura de una muestra, estos nmeros son construidos considerando TODA la informacin que contiene dicha muestra, es decir consideran TODOS los datos que han sido recolectados.

Estadgrafos o estadsticos
Pueden construirse estadgrafos para distintos fines, sin embargo estudiaremos cuatro tipos de ellos, estadgrafos de: Posicin Tendencia central Variabilidad o dispersin Y de forma.

Estadgrafos o estadsticos
Cada vez que la muestra de datos, medidos en al menos en escala ordinal, ha sido ordenada, se establece un Ranking para cada una de las observaciones, este ranking, indica en que posicin, en direccin ascendente, se encuentra el dato respecto a la muestra.

Estadgrafos o estadsticos
Este ranking se denota por un subndice encerrado entre parntesis. Por ejemplo si se tienen los datos: 12, 7, 15 y 13 al ordenarlos se tiene: 7, 12, 13 y 15 es decir el primer dato ordenado es 7, el segundo es 12 etc. Este hecho lo anotamos simblicamente como sigue: X(1)=7, X(2)=12, X(3)=13 y X(4)=15

Estadgrafos o estadsticos
De este modo la muestra la podemos visualizar sobre un eje ordenado:

X(1)

X(2)

X(3)

X(n)

As X(1)=mn(X1,X2Xn) y X(n)=mx(X1,X2Xn)

Estadgrafos o estadsticos
Estadgrafos de posicin: son aquellos que dan informacin a cerca del orden en la estructura de una muestra. Ya hemos mencionado dos de ellos que aparecen en forma instantnea al ordenar la muestra, nos referimos al mximo, X(n), y al mnimo, X(1).

Percentiles
Llamaremos PERCENTILES, a cada uno de los nmeros que dividen la muestra en 100 partes iguales. Hay 99 percentiles, y se denotan por P(k), donde k es el orden del percentil indicado. Dado el percentil P(k), este divide la muestra en dos partes, la inferior que contiene el k% inferior de las observaciones y la superior que contiene el (100-k)% de las observaciones. Entre dos percentiles consecutivos est contenido un 1% de la muestra

Percentiles
k%

(100-k)%

1%

X(1)

P(k-1)

P(k)

X(n)

Percentiles
Clculo de los percentiles para variables medidas en escala ORDINAL o variables de RAZON DISCRETAS: Pk es el valor de la variable para el cual la frecuencia acumulada IGUALA o SUPERA por primera vez el orden del percentil buscado.

Percentiles
En la base AURI.dta tabulamos la variable nivel social:
. tab nivsocie

1:alto | 2:medio | alto | 3:medio | 4:bajo | 5:muy bajo | Freq. Percent Cum. ------------+----------------------------------2 | 14 4.17 4.17 3 | 83 24.70 28.87 4 | 193 57.44 86.31 5 | 46 13.69 100.00 ------------+----------------------------------Total | 336 100.00

Mnimo Mximo

Percentiles
En la base AURI.dta tabulamos la variable nivel social:
. tab nivsocie

1:alto | 2:medio | alto | 3:medio | 4:bajo | 5:muy bajo | Freq. Percent Cum. ------------+----------------------------------2 | 14 4.17 4.17 3 | 83 24.70 28.87 4 | 193 57.44 86.31 5 | 46 13.69 100.00 ------------+----------------------------------Total | 336 100.00

4.17% supera o iguala por primera vez los rdenes 1,2,3 y 4 %

Percentiles
En la base AURI.dta tabulamos la variable nivel social:
. tab nivsocie

1:alto | 2:medio | alto | 3:medio | 4:bajo | 5:muy bajo | Freq. Percent Cum. ------------+----------------------------------2 | 14 4.17 4.17 3 | 83 24.70 28.87 4 | 193 57.44 86.31 5 | 46 13.69 100.00 ------------+----------------------------------Total | 336 100.00

4.17% supera o iguala por primera vez los rdenes 1,2,3 y 4 %

P1,P2,P3 y P4 son iguales a2

Percentiles
Busquemos P25, P50 y P75:

. tab

nivsocie

1:alto | 2:medio | alto | 3:medio | 4:bajo | 5:muy bajo | Freq. Percent Cum. ------------+----------------------------------2 | 14 4.17 4.17 3 | 83 24.70 28.87 4 | 193 57.44 86.31 5 | 46 13.69 100.00 ------------+----------------------------------Total | 336 100.00

28.87% supera o iguala por primera vez el orden 25%, luego P25=3

Percentiles
Busquemos P25, P50 y P75:

. tab

nivsocie

1:alto | 2:medio | alto | 3:medio | 4:bajo | 5:muy bajo | Freq. Percent Cum. ------------+----------------------------------2 | 14 4.17 4.17 3 | 83 24.70 28.87 4 | 193 57.44 86.31 5 | 46 13.69 100.00 ------------+----------------------------------Total | 336 100.00

86.31% supera o iguala los rdenes 50% y 75% por primera vez, luego P50=4 y P75=4

Percentiles
Si la variable es de naturaleza continua hay que pensar menos. Por ejemplo los percentiles de la Edad en AURI.dta:
. sum edad,d edad ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453 Edad mnima Edad mxima

P25 P50 P95

Percentiles
Hay percentiles, que por la popularidad de interpretacin que tienen, reciben nombre propio: entre ellos estn:
Los Cuartiles: son tres, denotados por Q1, Q2 y Q3 , que corresponden respectivamente a los percentiles P25, P50 y P75, ellos dividen la muestra en cuatro partes iguales.
Los quintiles: son cuatro, denotados por C1, C2, C3 y C4, que corresponden respectivamente a los percentiles P20, P40, P60 y P80, ellos dividen la muestra en cinco partes iguales.

Los deciles: son nueve, denotados por D1, D2,...,D9, que corresponden respectivamente a los percentiles P10, P20,..., P90, ellos dividen la muestra en diez partes iguales.

Estadgrafos de centralizacin
Cada vez que se observa un fenmeno cuantitativo, nos interesa saber si los datos recolectados se aglutinan en torno a ciertos valores representativos que son propios del fenmeno estudiado: Por ejemplo si pensamos en la Edad de los jugadores profesionales de ftbol, la experiencia nos dice que sus edades varan entre los 17 y 35 aos, siendo raro pero no imposible, encontrar jugadores con mas de 35 aos o menores de 17 aos, adems sabemos que la gran mayora de estos jugadores tienen entre 23 y 30 aos. Ahora la pregunta general se hace obvia, dada una coleccin de datos, es posible saber a que valores tienden dichos datos?, la respuesta la entregan los llamados estadgrafos de tendencia central.

Estadgrafos de centralizacin
En consecuencia llamamos estadsticos de tendencia central a aquellos valores hacia los cuales tienden a aglomerarse los datos de una muestra. Los mas utilizados son:

MODA MEDIANA PROMEDIO O MEDIA

Moda
MODA: es el dato con mayor frecuencia de aparicin, apropiada para describir datos medidos en escala NOMINAL, ORDINAL o DE RAZON PERO DISCRETOS Moda en una variable nominal: Aqu est de MODA ser mujer !

. tab sexo 0: hombre | 1: mujer | Freq. Percent Cum. ------------+----------------------------------0 | 63 18.42 18.42 1 | 279 81.58 100.00 ------------+----------------------------------Total | 342 100.00
Distribucin por sexo

18.42%

81.58%

Hom bres

M ujeres

Moda
Moda en una variable ordinal:
. tab nivsocie

1:alto | 2:medio | alto | 3:medio | 4:bajo | 5:muy bajo | Freq. Percent Cum. ------------+----------------------------------2 | 14 4.17 4.17 3 | 83 24.70 28.87 4 | 193 57.44 86.31 5 | 46 13.69 100.00 ------------+----------------------------------Total | 336 100.00

Aqu est de MODA ser de nivel social bajo !


Distribucin por nivel socio econmico
.6 0 .2 .4

m ean of Nmedioalto m ean of Nbajo

mean of Nm edio mean of Nm uyba jo

Mediana
MEDIANA: es el punto que divide a la muestra en dos partes iguales, se trata en consecuencia del P50 o Q2 , es apropiada para describir datos medidos en escala ORDINAL o DE RAZON ya sean discretos o contnuos. La forma de calcularla ya fue revisada.
. tabstat edad, stat(n min q max) variable | N min p25 p50 p75 max -------------+-----------------------------------------------------------edad | 342 23 51 63 71 89 --------------------------------------------------------------------------

Promedio o media aritmtica


MEDIA: es el punto en donde se ubica el centro de masas de la muestra. Es el estadgrafo de tendencia central mas conocido, usado y abusado y se calcula segn la frmula:

X 1 + X 2 + .... + X n 1 n X = = Xi n n i =1
Se interpreta como el valor al cual se pueden asimilar todos y cada uno de los datos, es decir, describe bien slo si la muestra es homognea y/o simtrica. Slo puede ser calculada en variables medidas en escalas intervalares o de razn. (Jams sobre variables medidas en escala ordinal)

Promedio o media aritmtica


Ante cambios de escala, tiene las siguientes propiedades:

X a= X a aX = aX a=a

Promedio o media aritmtica


Ejemplo 1: Promedio de la Edad en AURI.dta

. sum edad, d edad ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453

Promedio de Edad 61.3 aos

Promedio o media aritmtica


Ejemplo 2: Calcular el promedio de temperatura, a partir de la siguiente tabla:
temperatura 35.0 35.5 36.0 36.5 35.5 36.0 36.5 37.0 frecuencia 100 250 300 120

En STATA ingresamos:

Promedio o media aritmtica

Promedio o media aritmtica


. gen temp=( tinf+ tsup)/2 . list +----------------------------+ | tinf tsup frec temp | |----------------------------| | 35 35.5 100 35.25 | | 35.5 36 250 35.75 | | 36 36.5 300 36.25 | | 36.5 37 120 36.75 | +----------------------------+

1. 2. 3. 4.

Percentiles Promedio

. sum temp [freq= frec],d temp ------------------------------------------------------------Percentiles Smallest 1% 35.25 35.25 5% 35.25 35.75 10% 35.25 36.25 Obs 770 25% 35.75 36.75 Sum of Wgt. 770 50% 75% 90% 95% 99% 36.25 36.25 36.75 36.75 36.75 Largest 35.25 35.75 36.25 36.75 Mean Std. Dev. Variance Skewness Kurtosis 36.03571 .4520476 .204347 -.1078049 2.234091

Promedio o media aritmtica


Ejemplo 3: Calcular el promedio hijos, a partir de la siguiente tabla:
hijos 0 1 2 3 4 5 6 7 nmujeres 300 500 700 420 250 120 80 20

Promedio o media aritmtica


Ingresamos en STATA:

Promedio o media aritmtica


. sum hijos [freq= nmujeres],d hijos ------------------------------------------------------------Percentiles Smallest 1% 0 0 5% 0 1 10% 0 2 Obs 2390 25% 1 3 Sum of Wgt. 2390 50% 75% 90% 95% 99% 2 3 4 5 6 Largest 4 5 6 7 Mean Std. Dev. Variance Skewness Kurtosis 2.251046 1.562078 2.440089 .6537613 3.110751

Promedio Mediana Moda

. tab hijos [freq= nmujeres] hijos | Freq. Percent Cum. ------------+----------------------------------0 | 300 12.55 12.55 1 | 500 20.92 33.47 2 | 700 29.29 62.76 3 | 420 17.57 80.33 4 | 250 10.46 90.79 5 | 120 5.02 95.82 6 | 80 3.35 99.16 7 | 20 0.84 100.00 ------------+----------------------------------Total | 2,390 100.00

Promedio o media aritmtica

Estadgrafos de variabilidad
Consideremos las calificaciones en bioestadstica de dos alumnos: Pedro y Pablo
Alumno Pedro Pablo 4.0 2.0 4.0 3.0 4.0 7.0 4.0 4.0 4.0 6.0 4.0 5.0 4.0 1.0 Promedio 4.0 4.0

Como es observa, tanto Pedro como Pablo tienen idntico rendimiento promedio. Sin embargo quin tiene rendimiento mas homogneo? La respuesta la encontramos en los estadgrafos de variabilidad o dispersin

Estadgrafos de variabilidad
Estudiaremos tres de ellos : Recorrido Recorrido intercuartlico Varianza y desviacin estndar

Recorrido
Se llama recorrido de una variable a la diferencia entre el MAXIMO y el MINIMO : Recorrido=X(n)-X(1)
Alumno Pedro Pablo 4.0 2.0 4.0 3.0 4.0 7.0 4.0 4.0 4.0 6.0 4.0 5.0 4.0 1.0 Promedio 4.0 4.0

Aqu: Recorrido(Pedro)=4.0-4.0=0 Recorrido(Pablo)=7.0-1.0=6

Recorrido
El recorrido se puede calcular si la variable est medida en a lo menos escala ordinal Puede ser variabilidad
Alumno Pedro Pablo 1.0 2.0 4.0 3.0 4.0 7.0 4.0 4.0 4.0 6.0 4.0 5.0 7.0 1.0

una

medida

muy

exagerada

de
Promedio 4.0 4.0

Aqu: Recorrido(Pedro)=7.0-1.0=6 Recorrido(Pablo)=7.0-1.0=6 Sin embargo Pedro sigue teniendo un rendimiento mas homogeneo

Recorrido
. sum edad,d aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453

R(Edad)=89-23=66 aos

Recorrido intercuartlico
Se llama recorrido intercuartlico de una variable a la diferencia entre los CUARTILES TERCERO y PRIMERO : Recorrido intercuartlico=Q(3)-Q(1)
Alumno Pedro Pablo 1.0 2.0 4.0 3.0 4.0 7.0 4.0 4.0 4.0 6.0 4.0 5.0 7.0 1.0 Promedio 4.0 4.0

Aqu: RIC(Pedro)=4.0-4.0 = 0 RIC(Pablo)=6.0-2.0 = 4

Recorrido intercuartlico
. sum edad,d aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453

RIC(Edad)=71-51=20 aos

Recorrido intercuartlico
Un grfico muy informativo que relaciona el concepto de cuartil y recorrido intercuartlico, es el llamado CAJON CON BIGOTES (Box plot)
100

Q3+1.5RIC
80 aos cumplidos 60

(lo mas prximo)

Q3 Q2 Q1
Q1-1.5RIC (lo mas prximo)

20

40

Recorrido intercuartlico
El CAJON con BIGOTES permite comparar una variable desagregada por otra variable nominal
0
100

aos cumplidos

60

80

Graphs by 0: hombre 1: mujer

20

Valores OUT LAYERS

40

Varianza
Llamaremos desvo del i-simo dato respecto al promedio a la expresin:

di = X i X
Es decir la distancia dirigida entre el dato y el promedio

Varianza
Llamaremos VARIANZA a la expresin:

d + d + ... + d S x = Var ( X ) = = n 1
2 2 1 2 2 2 n

(X
i =1

X)

n 1

La varianza slo se puede calcular para variables medidas en escala intervalar o de razn

Varianza
La VARIANZA ante cambios de escala tiene las siguientes propiedades:

Var ( X a ) = Var ( X ) Var ( a X ) = a Var ( X )


2

Var ( a ) = 0

Desviacin estndar
Llamamos DESVIACION ESTANDAR a la RAIZ CUADRADA de la VARIANZA:

d + d + ... + d Sx = = n 1
2 1 2 2 2 n

(X
i =1

X)

n 1

Desviacin estndar
Cuando la distribucin de los datos se acerca a una distribucin normal, la mayora de los datos (alrededor del 67%) est contenido entre: EL PROMEDIO MENOS LA DESVIACION y EL PROMEDIO MAS LA DESVIACION

Desviacin estndar
. sum edad,d aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453 Desviacin estndar Varianza

Coeficiente de variabilidad
Llamamos COEFICIENTE VARIABILIDAD a la expresin:
Sx C.V . = 100% X

de

Coeficiente de variabilidad
. sum edad,d

aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453

. display r(sd)/r(mean)*100 20.126034

20.1% de variabilidad

Coeficiente de variabilidad
El C.V. sirve para comparar descriptivamente las dispersiones de una variable desagregada por otra.
. sum edad if sexo==0

Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------edad | 63 64.95238 9.258699 38 84 . display r(sd)/r(mean)*100 14.254595 . sum edad if sexo==1

La edad de los hombres es mas homognea

Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------edad | 279 60.51971 12.81294 23 89 . display r(sd)/r(mean)*100 21.171511

Estadgrafos de forma
Son aquellos nmeros resmenes, que indican la morfologa de la distribucin de los datos, es decir de la simetra y apuntamiento que tiene el histograma de la variable en estudio. Slo se pueden calcular en variables medidas en escala intervalar y de razn. Son el SESGO y la CURTOSIS

Sesgo
Sesgo: mide el grado de asimetra, respecto de la moda (el mximo del perfil del histograma), que tienen los datos.

Sesgo = 0

Sesgo > 0

Sesgo < 0

Curtosis
Curtosis: mide el grado de apuntamiento que tienen los datos

K baja (<3)

K normal (=3)

K alta (>3)

Sesgo y Curtosis
. sum edad,d

aos cumplidos ------------------------------------------------------------Percentiles Smallest 1% 31 23 5% 40 24 10% 45 31 Obs 342 25% 51 31 Sum of Wgt. 342 50% 75% 90% 95% 99% 63 71 76 78 84 Largest 84 86 88 89 Mean Std. Dev. Variance Skewness Kurtosis 61.33626 12.34456 152.3881 -.3946809 2.615453

Sesgo Curtosis

Clculo de probabilidades
Introduccin El clculo de probabilidades tiene su origen en la poca pos renacentista, nace del estudio de los juegos de azar, del deseo de poder cuantificar las posibilidades de ganar o perder que se tienen ante una mano de naipes, el lanzamiento de un dado o lanzar una moneda al aire. Sin embargo este inters ldico inicial trascendi en la historia del pensamiento, pues un anlisis mas fino de cualquier situacin real nos lleva a considerar una porcin de azar (imponderables) que est presente en la misma.

Clculo de probabilidades
De qu estamos seguros? Slo de nuestra muerte biolgica, la mayora de las veces cuando decimos que algo ser seguro en realidad estamos diciendo que es altamente probable que ocurra.

Clculo de probabilidades
Al estudiar la realidad podemos distinguir dos tipos de experimentos: Los determinsticos y los probabilsticos. Los experimentos determinsticos son aquellos que tienen slo un resultado posible y adems este es predecible. Los experimentos probabilsticos son aquellos que tienen mas de un resultado posible y cada resultado no es predecible.

Clculo de probabilidades
Dado un experimento cualquiera, que denotaremos por E, llamamos ESPACIO MUESTRAL, denotado por , al conjunto de todos los posibles resultados de E. Como ejemplos tenemos: a) E: Se lanza una moneda al aire =cara, sello b) E: Se lanza un dado =1,2,3,4,5,6 c) E: Se juega una cartilla de Loto 1=se gana premio, no se gana premio 2=0,1,2,3,4,5,6

Clculo de probabilidades
Se llama suceso o evento a cualquier subconjunto de . Los sucesos se denotan por letras maysculas: A, B, El hecho que A sea un suceso de , lo denotamos por A . El conjunto vaco () es un suceso, pues y le llamamos suceso vaco o suceso imposible. Como , tambin es un suceso que llamamos suceso seguro.

Clculo de probabilidades
Si jugamos al Cara y Sello y previamente se nos pregunta por la probabilidad de sacar Cara, seguramente diremos que es de 50%, pues diremos que hay slo dos posibles resultados, pero adems hemos supuesto que las posibilidades de obtener Cara son idnticas a las de obtener Sello, este concepto se denomina EQUIPROBABILIDAD

Clculo de probabilidades
Se llama medida de un conjunto a algn nmero que nos indique el tamao del conjunto, la medida del conjunto A se denota por m(A). Si el conjunto es finito y se pueden contar sus elementos, la medida natural que aparece es m(A)=nmero de elementos del conjunto. Si el conjunto es un intervalo de la recta real o una porcin del plano cartesiano puede considerarse como m(A)=longitud del intervalo o m(A)=rea de la porcin del plano cartesiano segn sea el caso.

Clculo de probabilidades
Definicin clsica de probabilidad Introducido el concepto de medida, podemos dar una definicin de probabilidad del un suceso A como: medida de A dividido por medida de , en smbolos:

m( A) P( A) = m()

Clculo de probabilidades
De esta definicin aparecen dos resultados fundamentales:
P()=0, la probabilidad del suceso imposible es nula. P()=1, la probabilidad del espacio muestral es 1.

Clculo de probabilidades
Dos sucesos A y B se dicen excluyentes, si es IMPOSIBLE que ocurran juntos (al mismo tiempo), en smbolos AB=. Por ejemplo se lanza un dado y el dado muestra un nmero par e impar a la vez.

Clculo de probabilidades
Hechas las consideraciones enunciamos los AXIOMAS del probabilidades:
1. 0 P(A) 1 2. Si AB= entonces P(AB)=P(A)+P(B)

anteriores, clculo de

Clculo de probabilidades
Para enfrentar un problema de clculo de probabilidades, se debe poner especial cuidado en definir los sucesos de inters. Ejemplifiquemos con algunas situaciones elementales del experimento lanzar un dado: E: Se lanza un dado, as: =1,2,3,4,5,6 Definamos los sucesos siguientes y calculemos sus probabilidades de ocurrencia: 1. 2. A: el dado muestra as, as: A=1 y m(A)=1, con lo que:
1 B: el dado muestra un nmero impar, as B=1,3,5 y m(B)=3, P ( A) = 6 con lo que:

P( B) =

3 1 = 6 2

Clculo de probabilidades
La realidad presenta sucesos compuestos, los que se forman unindolos , intersectndolos y complementndolos. Dados los sucesos A y B se tiene: AB : sucede A y sucede B (suceden ambos a la vez) AB : sucede A B, as P(AB)=P(A) + P(B) P(AB) Ac : no sucede A, as P(Ac)=1 P(A)

Clculo de probabilidades
Decimos de los sucesos A y B son INDEPENDIENTES, si la ocurrencia de uno de ellos no altera la ocurrencia o no ocurrencia del otro, la hiptesis de independencia se expresa as: P(AB) = P(A)P(B)

Clculo de probabilidades
Adems la realidad presenta abundantemente SUCESOS CONDICIONALES, es decir sucesos que condicionan su ocurrencia a la presencia de otros, as podemos preguntarnos por la probabilidad de que ocurra un evento DADO EL HECHO que ocurri tal o cual evento.

Clculo de probabilidades
Si consideramos los sucesos A y B, de modo que B condiciona la ocurrencia de A entonces la probabilidad de que ocurra A dado el hecho que ocurri B es:

P( A B) P( A | B) = P( B)

Clculo de probabilidades
Condicionar el suceso A al suceso B, es reducir el espacio muestral a B.

AB A

Clculo de probabilidades
De la frmula:
P( A B) P( A | B) = P(B)

Tener presente que:


P(AB)=P(A|B) P(B) P(A|B) P(B|A)

Clculo de probabilidades
Ejemplo: Considerar la siguiente tabla:
Sano Mujer Hombre 6 8 14 Enfermo 2 4 6 8 12 20

Aqu se pueden distinguir cuatro sucesos, de los cuales dos son fundamentales: A : la persona es MUJER B : la persona est SANA : la persona es HOMBRE Ac Bc : la persona est ENFERMA

Clculo de probabilidades
Sano (B) Mujer (A) Hombre (Ac) 6 8 14 Enferm o (Bc) 2 4 6 8 12 20

-P(A) = 8/20= 0.40, probabilidad de ser mujer. - P(B) = 14/20=0.60, probabilidad de estar sano.

la la

-P(ABc)=2/20=0.10, la probabilidad de ser mujer y estar enfermo. -P(A|B)=6/14=0.43, la probabilidad de ser mujer dado que est sano. P(B|A)=6/8=0.75, la probabilidad de estar sano dado que es mujer.

Clculo de probabilidades
En STATA
Mujer (A) Hombre (Ac) Sano (B) 6 8 14 Enfermo (Bc) 2 4 6 8 12 20

Clculo de probabilidades
En STATA
. tab sexo enfermo [freq=n], +-------------------+ | Key | |-------------------| | frequency | | row percentage | | column percentage | | cell percentage | +-------------------+ 0:hombre | 0:sano 1:enfermo 1:mujer | 0 1 | Total -----------+----------------------+---------0 | 8 4 | 12 | 66.67 33.33 | 100.00 | 57.14 66.67 | 60.00 | 40.00 20.00 | 60.00 -----------+----------------------+---------1 | 6 2 | 8 | 75.00 25.00 | 100.00 | 42.86 33.33 | 40.00 | 30.00 10.00 | 40.00 -----------+----------------------+---------Total | 14 6 | 20 | 70.00 30.00 | 100.00 | 100.00 100.00 | 100.00 | 70.00 30.00 | 100.00 row col cell

Probabilidad de estar sano dado que se es hombre = 8/12 Probabilidad de ser hombre dado que se est sano = 8/14 Probabilidad de ser hombre y estar sano = 8/20 Probabilidad de ser mujer = 8/20

Probabilidad de estar enfermo = 6/20

Clculo de probabilidades
En mltiples oportunidades la ocurrencia de un suceso principal A se debe a la ocurrencia previa de causas, que tambin son sucesos, de modo que en el clculo de la probabilidad de la ocurrencia de A las probabilidades de los sucesos causales deben ser incluidas segn la ponderacin o influencia que tengan sobre A. Si el suceso principal A se debe a las causas E1, E2,...,En , entonces:

Clculo de probabilidades
P( A) = P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + ... + P( A | En ) P( En ) = P( A) = P( A | Ei ) P( Ei )
i =1 n

Esta frmula recibe el nombre de TEOREMA DE LA PROBABILIDAD TOTAL

Clculo de probabilidades
Ejemplo: En un hospital hay tres servicios: Urgencia, Ciruga y Medicina. El porcentaje de hospitalizados por servicio es: Urgencia 30%, Ciruga 20% y Medicina 50%. Si la mortalidad en cada servicio es 10%, 5% y 3% respectivamente. Cul es la probabilidad de que un paciente hospitalizado muera? Suceso principal, Causas A : el paciente muere : E1: el paciente est en urgencia E2: el paciente est en ciruga E3: el paciente est en medicina

P( A) = P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + P( A | E3 ) P( E3 )

P(A) = 0.10.3 + 0.050.2 + 0.030.5 = 0.055

Clculo de probabilidades
En ocasiones es necesario calcular la probabilidad de que una determinada causa haya producido el suceso principal. Es decir necesitamos saber P(Ek|A).
En el ejemplo: Si se nos comunica que ha ocurrido una muerte, Cul es la probabilidad que haya ocurrido en Urgencia? Suceso principal, A : el paciente muere. Causas:E1: el paciente est en Urgencia;E2: el paciente est en Ciruga; E3: el paciente est en Medicina Es decir se pide:

P( E1 | A) =

P( E1 A) P( A E1 ) P( A | E1 ) P( E1 ) = = P( A) P( A) P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + P( A | E3 ) P( E3 )

Clculo de probabilidades
Suceso principal, Causas A : el paciente muere : E1: el paciente est en urgencia E2: el paciente est en ciruga E3: el paciente est en medicina

P( A) = P( A | E1)P(E1) + P( A | E2 )P(E2 ) + P( A | E3 )P(E3 )

P(A) = 0.10.3 + 0.050.2 + 0.030.5 = 0.055


P( E1 | A) = P( E1 A) P( A E1 ) P( A | E1 ) P( E1 ) = = P( A) P( A) P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + P( A | E3 ) P( E3 )

0.10.3 P( E1 | A) = = 0.545 0.055

Clculo de probabilidades
Generalizando el resultado anterior
P( Ek | A) = P( Ek | A) = P( A | Ek ) P( Ek ) P( A | Ek ) P( Ek ) P( A | E1 ) P( E1 ) + P( A | E2 ) P( E2 ) + ... + P( A | En ) P( En )

P( A | E ) P( E )
i =1 i i

Frmula que es conocida como el TEOREMA DE BAYES

Variables aleatorias
Introduccin Una variable aleatoria, en general, es una codificacin numrica de los posibles resultados que contiene el espacio muestral de un experimento, dicha codificacin puede ser arbitraria, sin embargo, si el espacio muestral tiene algn orden jerrquico especfico, este mismo orden sugiere la codificacin. El empleo de variables aleatorias permite descubrir nuevas propiedades del experimento que se est estudiando.

Variables aleatorias
Como ejemplo, retomemos el experimento de lanzar un dado, para lo cual tenemos: E: Se lanza un dado =1,2,3,4,5,6 el espacio muestral, tiene seis sucesos fundamentales: A1: el dado muestra as A2: el dado muestra 2 .................................. A6: el dado muestra 6

Variables aleatorias
Sin embargo, estos sucesos pueden ser codificados por la variable X, que tal que: X=1 si ocurre A1 , X=2 si ocurre A2 etc. Hecha esta codificacin, podemos hacer una descripcin completa del experimento, pues las probabilidades asociadas con cada suceso se pueden representar por una funcin, que recibe el nombre de FUNCION DE CUANTIA DE PROBABILIDADES
X 1 2 3 4 5 6 Total P(X) 1/6 1/6 1/6 1/6 1/6 1/6 1

Observamos que la suma de las P(X) es igual a 1, pues es la probabilidad del espacio muestral completo.

Variables aleatorias
En general una Funcin de Cuanta de Probabilidades, es una funcin, cuyo dominio es un subconjunto, A, de los Naturales, que cumple las siguientes propiedades:
P( X ) : A N R P( X ) 0

P( X ) = 1
A

Se llama FUNCION DE DISTRIBUCION DE PROBABILIDADES a la expresin:

F ( X j ) = P( X X j ) =

P( X )
i min ( A )

Variables aleatorias
Dada una funcin de cuanta, podemos definir el valor promedio de ella, que llamaremos esperanza o valor esperado de la variable, que denotamos por E(X) o , y la definimos por:
E ( X ) = = X 1 P( X 1 ) + X 2 P( X 2 ) + .... + X n P( X n ) = X i P( X i )
i =1 n

Ante cambios de escala, E(X) tiene las siguientes propiedades:

E( X a) = E( X ) a E ( aX ) = aE ( X ) E (a ) = a
Generalizando este resultado, se llama MOMENTO DE ORDEN K respecto del origen a la expresin:
E ( X ) = X ik P( X i )
k i =1 n

Variables aleatorias
Tambin podemos medir la variabilidad de la variable aleatoria X, mediante el clculo de lo que llamaremos VARIANZA de X, que denotaremos por V(X), y definimos como sigue:
V ( X ) = ( X 1 ) P ( X 1 ) + ( X 2 ) P ( X 2 ) + .... + ( X n ) P ( X n ) = ( X i ) 2 P ( X i )
2 2 2 i =1 n

V ( X ) = E ( X 2 ) (E ( X ) )
2

A la raz cuadrada de la varianza se le llama desviacin estndar de X, la denotamos por y junto con tienen la misma interpretacin que en la estadstica descriptiva. Ante cambios de escala, V(X) tiene las siguientes propiedades:
V ( X a) = V ( X ) V ( aX ) = a 2V ( X ) ( aX ) = a ( X ) V (a ) = 0

La distribucin uniforme

n +1 2 n2 1 V (X ) = 12 E( X ) =

La distribucin geomtrica
El modelo geomtrico permite calcular la probabilidad de OBTENER XITO POR PRIMERA VEZ EN EL K-ESIMO INTENTO, as si X es la variable que denota el intento donde se produce el xito por primera vez, X puede tomar valores desde 1 al infinito, pues el xito podra aparecer en el primer intento o bien podramos pasarnos la vida completa esperando que se produzca el xito, as:

P ( X = k ) = q k 1 p, X = 1,2,3,.... 1 E( X ) = p q V (X ) = 2 p

Distribucin Binomial
El modelo binomial, permite calcular la probabilidad de tener k xitos en n intentos, si tenemos n intentos la cantidad de xitos que podramos obtener van desde 0 a n, es decir X=0, 1, 2, ...., n . En este contexto:

n nk k P ( X = k ) = q p , X = 0,1,2,3..., n k mx (t ) = (q + pe t ) n E( X ) = n p V (X ) = n p q

Distribucin de Poisson
El modelo probabilstico de Poisson, calcula la probabilidad de ocurrencia de fenmenos de rara ocurrencia ya sea por: unidad de tiempo, de longitud de rea etctera. Dado un fenmeno de rara ocurrencia por alguna unidad de medida, es posible, por la experiencia acumulada, establecer una tasa de ocurrencia que llamaremos . En estas condiciones la variable X es la cantidad de veces que aparece el fenmeno en un perodo, as X puede tomar valores desde 0 al infinito, con lo que:

P( X = k ) = E( X ) = V (X ) =

k
k!

e , X = 0,1,2,3....

Distribucin Hipergeomtrica
Supongamos ahora que tenemos un conjunto con N de objetos, de los cuales r son de una determinada caracterstica de inters, por lo tanto N-r no tienen la caracterstica de inters. Si de este conjunto de N objetos sacamos una muestra de tamao n, nos interesa la probabilidad de que en dicha muestra hayan k objetos de inters, as esta probabilidad est dada por:

r N r k n k P(k ) = N n nr E (k ) = N nr ( N r )( N n) V (k ) = N 2 ( N 1)

Experimentos de Bernoulli
Antes de continuar revisando otras importantes funciones de cuanta de probabilidad, definamos lo que entenderemos por EXPERIMENTOS DE BERNOULLI. En efecto es una secuencia de experimentos que tiene las siguientes caractersticas: El experimento tiene slo dos posibles resultados, que llamaremos xito y fracaso. Cada vez que se repite el experimento, la probabilidad de aparicin del xito (y de fracaso) se mantiene constante. Cada ensayo es independiente de otro.

Experimentos de Bernoulli
Si llamamos p a la probabilidad del xito, obviamente la probabilidad del fracaso es 1-p al que llamaremos q, es decir q=1-p o bien p+q=1

Distribucin de Bernoulli
En una poblacin que esta dicotomizada respecto de un determinado atributo (los elementos que poseen el atributo versus el resto de la poblacin), en que la proporcin con el atributo es p y q=1-p la proporcin que no lo posee, se realiza el experimento de extraer un elemento y se observa la presencia del atributo, podemos asumir la codificacin: X=0, si el objeto no tiene el atributo X=1, si el objeto tiene el atributo, con lo que se obtiene la siguiente funcin de cuanta:

Distribucin de Bernoulli

La distribucin normal
Introduccin Es la distribucin mas querida usada y abusada por los usuarios de la estadstica. Decimos que la variable aleatoria, X, sigue una distribucin normal con promedio (o esperanza) y varianza 2, si la funcin densidad de probabilidades (curva perfil del histograma) est dada por:

La distribucin normal

1 f ( x) = e 2

( x )2
2 2

, x R, R, > 0

La distribucin normal
f ( x) = 1 e 2

( x )2
2 2

, x R, R, > 0

.4

.3

.2

.1

0 -4 -3 -2 -1 0 X 1 2 3 4

Curva Normal con promedio 0 y varianza 1

La distribucin normal
El grfico de esta .4 curva es tal que: Tiene un mximo en x= .3 Es simtrica respecto a la .2 vertical x= Tiene puntos de .1 inflexin en x= - y x= + 0 Se aproxima -4 -3 -2 -1 0 1 2 X asintticamente al Curva Normal con promedio 0 y varianza 1 eje X, lo que se refleja en la relacin: f ( 3 ) = f ( + 3 ) = 1 f ( )
100

La distribucin normal
La probabilidad, P(X<a) est dada por:

P( X < a) =

1 e 2

( x )2
2 2

dx

La distribucin normal
La probabilidad, P(X<a) est dada por:

P( X < a) =

1 e 2

( x )2
2 2

dx

La distribucin normal
Calma, los clculos sern muy simples!

P(a < X < b) =

1 e 2

( x )2
2 2

dx

La distribucin normal
Si =0 y =1 se habla de una distribucin normal estndar, tpica o reducida. En la normal estndar a la P(Z<z)=(z) Valor que despliega STATA: P(Z<1.96)=(1.96) display norm(1.96) .9750021 P(Z<0.2)=(0.2) . display norm(0.2) .57925971 z

La distribucin normal
La probabilidad P(a<Z<b)=(b)- (a)

La distribucin normal
Ejemplo: P(1.2<Z<2.5)=(2.5)- (1.2) display norm(2.5)-norm(1.2) .10886 La probabilidad P(Z>a)=1- (a) Ejemplo: P(Z>1.5)=1-(1.5) display 1-norm(1.5) .0668072

La distribucin normal
Si X~N(,2) entonces Z=(X-)/ ~N(0,1) es decir normal estndar.

La distribucin normal
Ejemplo:Si la temperatura,T, de una persona sana sigue una distribucin normal con media de 36.5 y desviacin estndar 0.1, calcular:

La distribucin normal
P(T<36.3)=((36.3-36.5)/0.1) display norm((36.3-36.5)/0.1) .02275013 P(36.4<T<36.8)=((36.8-36.5)/0.1)- ((36.4-36.5)/0.1) display norm((36.8-36.5)/0.1)-norm((36.436.5)/0.1) .83999485 P(T>36.9)=1-((36.9-36.5)/0.1) display 1-norm((36.9-36.5)/0.1) .00003167

La distribucin normal
Cul es el percentil 75 de las temperaturas? Es decir para que valor de t se tiene: P(T<t)=0.75
display 36.5 + 0.1*invnorm(.75) 36.567449

Y el percentil 99?
display 36.5 + 0.1*invnorm(.99) 36.732635

La distribucin normal

Inferencia estadstica
Supongamos una poblacin de tamao N=10.000, de personas adultas en que se les ha medido sus estaturas en metros, los parmetros poblacionales son:
. sum X,d Estatura ------------------------------------------------------------Percentiles Smallest 1% 119.1348 86.62138 5% 131.7351 88.6692 10% 139.2241 91.11671 Obs 10000 25% 151.5324 93.84512 Sum of Wgt. 10000 50% 75% 90% 95% 99% 165.226 178.3917 190.5882 197.993 211.7315 Largest 230.2685 233.3427 234.4337 237.8318 Mean Std. Dev. Variance Skewness Kurtosis 164.988 20.01317 400.527 -.0088502 2.982042

Inferencia estadstica
El siguiente programa STATA, extraer 300 muestras de tamao 100 de la Poblacin y en cada una de ellas se calcular el promedio y la desviacin estndar:
* Programa TCL set more off local iterate = 1 while `iterate' <= 300

use "C:\Documents and Settings\Gabriel Cavada\Escritorio\LosAndes\TCL.dta", clear sample 1 sum X clear local iterate =`iterate' + 1 }

Inferencia estadstica
Al registrar el promedio en cada muestra tenemos una muestra de promedios es decir el promedio muestral es una variable aleatoria, con la siguiente distribucin:
.3

.2 Fraction

.1

0 155 160 promedios 165 170

Inferencia estadstica
Las estadsticas descriptivas de estos promedios son:
. sum promedios,d promedios ------------------------------------------------------------Percentiles Smallest 1% 160.0712 157.0182 5% 161.6588 159.0572 10% 162.374 159.708 Obs 300 25% 163.5157 160.4345 Sum of Wgt. 300 50% 75% 90% 95% 99% 164.7495 166.2547 167.4832 168.3237 169.2054 Largest 169.1602 169.2505 169.7911 170.2179 Mean Std. Dev. Variance Skewness Kurtosis 164.8657 2.004618 4.018492 -.1519181 3.343029

2/n

Hemos probado empricamente que X ~ N ( , Cuando n es muy grande

2
n

Inferencia estadstica
Este resultado permite construir un intervalo de confianza para . En la realidad no se dispone del valor de 2 y/o de muestras muy grandes, as entonces la distribucin de probabilidades no es normal sino t-Student. Basta tomar una muestra, de tamao n, en la poblacin para hacer inferencias acerca del promedio poblacional:

Inferencia estadstica
. ci X

Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------X | 100 163.7289 1.993126 159.7741 167.6837

Apostamos con 95% de certeza que el promedio poblacional est comprendido entre 157.8 y 167.7 metros

Inferencia estadstica
Lo mismo ocurre con una proporcin. En nuestra poblacin de tamao 10.000, la proporcin de enfermos es:
. tab enfermo enfermo | Freq. Percent Cum. ------------+----------------------------------0 | 8014 80.14 80.14 1 | 1986 19.86 100.00 ------------+----------------------------------Total | 10000 100.00

Inferencia estadstica
Al extraer una muestra de tamao 500, encontramos un intervalo de confianza para la prevalencia de:
. sample 5 (9500 observations deleted) . ci enfermo,bin -- Binomial Exact -Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------enfermo | 500 .202 .0179553 .1676573 .2399116

Inferencia estadstica
Ejemplo ilustrativo (diseo antes despus): A 20 mujeres obesas se les registra el peso en Kgs. Luego se les somete a una dieta hipocalrica y al cabo de un mes son evaluadas. Los datos se muestran a continuacin:

Inferencia estadstica
. list
id 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. pesoini~l 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 pesofinal 92.9 91.1 86.5 80.1 84.3 84.8 96.3 97.8 90.6 89.4 80 94.6 92.9 107.5 83 96.3 94.8 86.3 75 96.3

74.8 88 82.4 79.9 92.8 68.9 71.6 74.4 85.3 76.5 78.6 88.6 85 64.7 80.4 93.1 84.8 86.1 86 95.2

Es efectiva la dieta? Qu tan efectiva es la dieta?

Inferencia estadstica
. gen dif= pesofinal- pesoinicial . list
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 pesoini~l 92.9 91.1 86.5 80.1 84.3 84.8 96.3 97.8 90.6 89.4 80 94.6 92.9 107.5 83 96.3 94.8 86.3 75 96.3 pesofinal dif 74.8 -18.1 88 -3.099998 82.4 -4.099998 79.9 -.1999969 92.8 8.5 68.9 -15.9 71.6 -24.7 74.4 -23.4 85.3 -5.299995 76.5 -12.9 78.6 -1.400002 88.6 -6 85 -7.900002 64.7 -42.8 80.4 -2.599998 93.1 -3.200005 84.8 -10 86.1 -.2000046 86 11 95.2 -1.100006

Inferencia estadstica
. sum dif, d dif ------------------------------------------------------------Percentiles Smallest 1% -42.8 -42.8 5% -33.75 -24.7 10% -24.05 -23.4 Obs 20 25% -14.4 -18.1 Sum of Wgt. 20 50% 75% 90% 95% 99% . ci -4.699997 -1.250004 4.150002 9.75 11 dif Largest -.2000046 -.1999969 8.5 11 Mean Std. Dev. Variance Skewness Kurtosis -8.170001 12.28555 150.9349 -1.084781 4.396793

Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------dif | 20 -8.170001 2.747134 -13.91982 -2.420184

Inferencia estadstica
Ejemplo ilustrativo (diseo antes despus): A 50 hombres con dolor lumbar se les da un tratamiento anti inflamatorio, de ellos 38 mejoran. En qu porcentaje es efectivo el tratamiento?
. list mejora 0 1 0 1 1 0 1 0 1
. tab mejora mejora | Freq. Percent Cum. ------------+----------------------------------0 | 12 24.00 24.00 1 | 38 76.00 100.00 ------------+----------------------------------Total | 50 100.00
. ci mejora,bin

1. 2. 3. 4. 5. 47. 48. 49. 50.

-- Binomial Exact -Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------mejora | 50 .76 .0603987 .6183118 .8693945

Dcimas de hiptesis
Introduccin Hiptesis estadstica es una afirmacin respecto de una caracterstica poblacional (forma de ella o valor de sus parmetros); esta sentencia puede ser docimada (probada) en base a una muestra aleatoria extrada de esa poblacin.

Dcimas de hiptesis
En muchas ocasiones es necesario decidir entre una afirmacin de la forma = 0 (Hiptesis nula) u otra que puede tomar las siguientes formas 0 , > 0 < 0 (Hiptesis alternativa). En smbolos:
H 0 : = 0 H1 : 0 H1 : > 0 H1 : < 0

Dcimas de hiptesis
Necesitamos desarrollar un procedimiento que nos permita tomar una decisin acerca de H0, como esta decisin es tomada en base a informacin muestral est sujeta a errores probables, debido a que no se sabe como es realmente la naturaleza y slo tenemos una percepcin de ella. Cruzando este efecto con la decisin tenemos:

Dcimas de hiptesis

Dcimas de hiptesis
Deseamos que los errores no se cometan, pero como la decisin ser tomada bajo incertidumbre, slo podemos pedir que la probabilidad de cometerlos sea pequea. La filosofa para docimar consiste en suponer que Ho es verdadera, hasta encontrar evidencia muestral suficiente que permita decir lo contrario, si esta evidencia no existe no podemos dudar de la afirmacin contenida en Ho. As el error mas grave que se puede cometer es el Error tipo I, que es el que intentamos de controlar.

Dcimas de hiptesis
Llamamos:
=P(Rechazar Ho | Ho es Verdad) , tamao del Error tipo I =P(No rechazar Ho | Ho es Falsa) , tamao del Error tipo II
nos interesa que sea pequeo (generalmente 5% o menos).

se llama significacin de la dcima y 1- se llama potencia de la dcima, la potencia depende de la hiptesis alternativa que estemos proponiendo.

Dcimas de hiptesis
Se llama estadstica de prueba, E, a una funcin que contenga el parmetro de inters (que se desea docimar) y toda la informacin muestral. Deseablemente la estadstica de prueba, bajo la hiptesis nula, debe seguir una distribucin de probabilidades conocida.

Dcimas de hiptesis
Se llama regin crtica o de rechazo, aquella porcin de los reales para la cual la probabilidad de que E est en ella, considerando la veracidad de H0, sea menor que

Dcimas de hiptesis
Una dcima de la forma:
H0 : = 0 H1 : 0

se llama de dos colas pues la regin de rechazo, se compone de dos porciones de los reales inconexas, que se muestran en el siguiente grfico:

Dcimas de hiptesis
Una dcima de la forma:

H 0 : = 0 H1 : > 0 H1 : < 0

se llama de una cola pues la regin de rechazo, se compone de una porcin de los reales conexa, como se muestra a continuacin:

Dcimas de hiptesis

H1 : < 0

H1 : > 0

Dcimas de hiptesis
Como deseablemente la estadstica de prueba, E, tiene una distribucin de probabilidades conocida, se pueden calcular las siguientes probabilidades llamadas P-VALUES, el P-VALUE es el tamao del Error I:

P(E<-E0 U E>E0)=

P(E<-E0 )=

P(E>E0 )=

Dcimas respecto de promedios


El caso de una muestra y de dos muestras pareadas

Hiptesis Nula

Estadstica de Prueba

Distribucin de la estadstica de prueba

H 0 : = 0

X 0 S n

t(n 1)

Dcimas respecto de promedios


Ejemplo ilustrativo (diseo antes despus): A 20 mujeres obesas se les registra el peso en Kgs. Luego se les somete a una dieta hipocalrica y al cabo de un mes son evaluadas. Los datos se muestran a continuacin:

Dcimas respecto de promedios


. gen dif= pesofinal- pesoinicial . list
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 pesoini~l 92.9 91.1 86.5 80.1 84.3 84.8 96.3 97.8 90.6 89.4 80 94.6 92.9 107.5 83 96.3 94.8 86.3 75 96.3 pesofinal dif 74.8 -18.1 88 -3.099998 82.4 -4.099998 79.9 -.1999969 92.8 8.5 68.9 -15.9 71.6 -24.7 74.4 -23.4 85.3 -5.299995 76.5 -12.9 78.6 -1.400002 88.6 -6 85 -7.900002 64.7 -42.8 80.4 -2.599998 93.1 -3.200005 84.8 -10 86.1 -.2000046 86 11 95.2 -1.100006

Dcimas respecto de promedios


. sum dif, d dif ------------------------------------------------------------Percentiles Smallest 1% -42.8 -42.8 5% -33.75 -24.7 10% -24.05 -23.4 Obs 20 25% -14.4 -18.1 Sum of Wgt. 20 50% 75% 90% 95% 99% . ci -4.699997 -1.250004 4.150002 9.75 11 dif Largest -.2000046 -.1999969 8.5 11 Mean Std. Dev. Variance Skewness Kurtosis -8.170001 12.28555 150.9349 -1.084781 4.396793

Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------dif | 20 -8.170001 2.747134 -13.91982 -2.420184

Dcimas respecto de promedios


Otras preguntas relevantes Es posible afirmar que la dieta en promedio permite bajar 5 Kgs.?
. ttest dif=-5 One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------dif | 20 -8.170001 2.747134 12.28555 -13.91982 -2.420184 -----------------------------------------------------------------------------Degrees of freedom: 19 Ho: mean(dif) = -5 Ha: mean < -5 t = -1.1539 P < t = 0.1314 Ha: mean ~= -5 t = -1.1539 P > |t| = 0.2628 Ha: mean > -5 t = -1.1539 P > t = 0.8686

Dcimas respecto de promedios


Es posible afirmar que la dieta en promedio permite bajar 15 Kgs.?
. ttest dif=-15

One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------dif | 20 -8.170001 2.747134 12.28555 -13.91982 -2.420184 -----------------------------------------------------------------------------Degrees of freedom: 19 Ho: mean(dif) = -15 Ha: mean < -15 t = 2.4862 P < t = 0.9888 Ha: mean ~= -15 t = 2.4862 P > |t| = 0.0224 Ha: mean > -15 t = 2.4862 P > t = 0.0112

Dcimas respecto de promedios


La pregunta mas relevante: La dieta en promedio es efectiva?
. ttest dif=0

One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------dif | 20 -8.170001 2.747134 12.28555 -13.91982 -2.420184 -----------------------------------------------------------------------------Degrees of freedom: 19 Ho: mean(dif) = 0 Ha: mean < 0 t = -2.9740 P < t = 0.0039 Ha: mean ~= 0 t = -2.9740 P > |t| = 0.0078 Ha: mean > 0 t = -2.9740 P > t = 0.9961

Dcimas respecto de promedios


Otra forma de verlo La dieta en promedio es efectiva?
. ttest pesoinicial= pesofinal

Paired t test ---------------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] -------------+-------------------------------------------------------------------pesoiniciall | 20 90.025 1.706472 7.631574 86.45331 93.59669 pesofinall | 20 81.855 1.843459 8.244199 77.9966 85.7134 -------------+-------------------------------------------------------------------diff | 20 8.170001 2.747134 12.28555 2.420184 13.91982 ---------------------------------------------------------------------------------Ho: mean(pesoinicial - pesofinal) = mean(diff) = 0 Ha: mean(diff) < 0 t = 2.9740 P < t = 0.9961 Ha: mean(diff) ~= 0 t = 2.9740 P > |t| = 0.0078 Ha: mean(diff) > 0 t = 2.9740 P > t = 0.0039

Dcimas respecto de promedios


El caso de dos muestras independientes
Hiptesis Nula Estadstica de Prueba Distribucin de la estadstica de prueba

H0 : x y = 0
Sc =

X Y 1 1 Sc + nx ny
2 2 (n x 1) S x + (n y 1) S y

t ( n x + n y 2)

nx + n y 2

Dcimas respecto de promedios


Ejemplo: Se aleatorizan 40 nios afiebrados a causa de una gripe comn, para probar la efectividad de dos antipirticos A y B, se desea probar que el antipirtico B es mejor que A. Los datos se muestran a continuacin:

Dcimas respecto de promedios


. list id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 tratami~o B A B A B A B B A A B A B A A A B A B B tinicial 38.9 39.3 38.9 39 38.9 39 38.7 39.2 39.3 38.9 38.8 39.2 39 38.8 39.1 39.4 38.7 39.1 39.3 39 tfinal 36.7 38 36.8 37.7 36.8 37.9 37.1 36.7 37.8 37.9 36.8 38.1 37 38.2 37.9 37.8 36.7 38.1 36.8 36.6 id 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 tratami~o B B A A A A A B A B B A B B A B A A B B tinicial 39.1 39.1 39.1 38.8 38.6 38.8 38.9 38.6 39.1 39.1 39.1 39.2 39 38.9 38.5 39.1 39 38.9 38.9 38.9 tfinal 37.1 36.9 38.1 37.8 38.1 38 38.1 36.8 38 36.8 36.8 38.1 36.8 36.6 38.2 36.9 37.9 37.9 36.7 36.7

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.

21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40.

Dcimas respecto de promedios


. gen dif= tfinal- tinicial . sort . by tratamiento tratamiento: sum dif

_______________________________________________________________________________ -> tratamiento = A Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------dif | 20 -1.02 .3122079 -1.600002 -.2999992 _______________________________________________________________________________ -> tratamiento = B Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------dif | 20 -2.155 .2187883 -2.5 -1.600002

Dcimas respecto de promedios


dif 0

-1

-2

-3

Cambio de temperatura por tratamiento

Dcimas respecto de promedios


. ttest dif, by( tratamiento)

Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------A | 20 -1.02 .0698118 .3122079 -1.166118 -.8738821 B | 20 -2.155 .0489226 .2187883 -2.257396 -2.052604 ---------+-------------------------------------------------------------------combined | 40 -1.5875 .1001402 .633342 -1.790053 -1.384948 ---------+-------------------------------------------------------------------diff | 1.135 .0852473 .9624262 1.307575 -----------------------------------------------------------------------------Degrees of freedom: 38 Ho: mean(A) - mean(B) = diff = 0 Ha: diff < 0 t = 13.3142 P < t = 1.0000 Ha: diff ~= 0 t = 13.3142 P > |t| = 0.0000 Ha: diff > 0 t = 13.3142 P > t = 0.0000

Dcimas de proporciones
Dcima de una proporcin en el caso de dos muestras. Recordemos la base de datos practico1.dta, en la cual se dispone informacin de pacientes con una determinada enfermedad renal. Al recordar la variable sexo, podemos hacernos algunas preguntas:

Dcimas de proporciones
Por ejemplo: La proporcin poblacional de hombres es igual a la de mujeres? Es esta una enfermedad que afecta en proporcin 3:1 a hombres respecto de mujeres?

Dcimas de proporciones
Estas hiptesis pueden plantearse mediante la siguiente dcima:

Hiptesis Nula

Estadstica de Prueba

Distribucin de la estadstica de prueba

H 0 : P = P0

p P0 P0Q0 n

N (0,1)

Dcimas de proporciones
La proporcin poblacional de hombres es igual a la de mujeres?

H 0 : P = 0.5
Donde P es la proporcin poblacional de mujeres

Dcimas de proporciones
. tab sexo 0:hombre | 1:mujer | Freq. Percent Cum. ------------+----------------------------------0 | 161 80.50 80.50 1 | 39 19.50 100.00 ------------+----------------------------------Total | 200 100.00 . prtest sexo=0.5 sexo: Number of obs = 200

One-sample test of proportion

-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------sexo | .195 .0280156 6.9604 0.0000 .1400904 .2499096 -----------------------------------------------------------------------------Ho: proportion(sexo) = .5 Ha: sexo < .5 z = -8.627 P < z = 0.0000 Ha: sexo ~= .5 z = -8.627 P > |z| = 0.0000 Ha: sexo > .5 z = -8.627 P > z = 1.0000

Dcimas de proporciones
Es esta una enfermedad que afecta en proporcin 3:1 a hombres respecto de mujeres?

H 0 : P = 0.25
Donde P es la proporcin poblacional de mujeres

Dcimas de proporciones

. prtest

sexo=0.25 sexo: Number of obs = 200

One-sample test of proportion

-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------sexo | .195 .0280156 6.9604 0.0000 .1400904 .2499096 -----------------------------------------------------------------------------Ho: proportion(sexo) = .25 Ha: sexo < .25 z = -1.796 P < z = 0.0362 Ha: sexo ~= .25 z = -1.796 P > |z| = 0.0724 Ha: sexo > .25 z = -1.796 P > z = 0.9638

Dcimas de proporciones
Para comparar proporciones en dos muestras independientes, usamos:
Hiptesis Nula
Estadstica de Prueba Distribucin de la estadstica de prueba

px p y

H 0 : Px Py = 0

PQ (

1 1 + ) nx n y

N (0,1)

P=

nx px + ny py nx + n y

Dcimas de proporciones
Ejemplo: Se aleatorizan 60 pacientes en dos tratamientos (0 y 1) y se registra la condicin de mejora (0: no mejora 1: mejora)
pac 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 trat 0 0 1 1 1 0 1 1 0 0 1 0 0 1 1 1 1 1 0 1 mejora 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 0 1 1 pac 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 trat 0 1 0 0 1 0 1 1 0 1 0 1 0 1 1 0 1 0 0 0 mejora 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 0 0 1 pac 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 trat 0 0 0 1 0 1 0 1 1 0 0 0 0 0 1 1 0 1 1 1 mejora 1 1 1 1 0 1 0 1 0 0 1 0 1 0 1 1 0 1 1 1

Dcimas de proporciones

. by trat: tab mejora _______________________________________________________________________________ -> trat = 0 mejora | Freq. Percent Cum. ------------+----------------------------------0 | 12 40.00 40.00 1 | 18 60.00 100.00 ------------+----------------------------------Total | 30 100.00 _______________________________________________________________________________ -> trat = 1 mejora | Freq. Percent Cum. ------------+----------------------------------0 | 2 6.67 6.67 1 | 28 93.33 100.00 ------------+----------------------------------Total | 30 100.00

Dcimas de proporciones
. prtest mejora, by(trat) 0: Number of obs = 1: Number of obs = 30 30

Two-sample test of proportion

-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | .6 .0894427 6.7082 0.0000 .4246955 .7753045 1 | .9333333 .045542 20.4939 0.0000 .8440726 1.022594 ---------+-------------------------------------------------------------------diff | -.3333333 .1003697 -.5300543 -.1366124 | under Ho: .1092059 -3.05234 0.0023 -----------------------------------------------------------------------------Ho: proportion(0) - proportion(1) = diff = 0 Ha: diff < 0 z = -3.052 P < z = 0.0011 Ha: diff ~= 0 z = -3.052 P > |z| = 0.0023 Ha: diff > 0 z = -3.052 P > z = 0.9989

Dcima de independencia entre dos variables nominales


Interesa averiguar si dos variables cualitativas X e Y estn vinculadas. En cada unidad de observacin se registra un par (x,y) de valores observados, en consecuencia a partir de lo obtenido en n unidades de observacin, se obtiene una Tabla de Contingencia de sr (tabla observada):
X1 Y1 Y2 ...Ys Total O11 O21 Os1 n.1 X2 O12 O22 Os2 n.2 ...Xr O1r O2r Osr n.r Total n1. n2. ns. n

Dcima de independencia entre dos variables nominales


Bajo la Hiptesis de independencia, estas frecuencias se pueden recalcular, crendose una Tabla Esperada:
X1 Y1 Y2 ...Ys Total E11 E21 Es1 X2 E12 E22 Es2 ...Xr E1r E2r Esr n Total

Dcima de independencia entre dos variables nominales


Donde :

E ij =

n. j n i. n

En estas condiciones, podemos plantear la Hiptesis Nula: H0 : X es independiente de Y Contrastada con la Hiptesis alternativa: H1 : X est asociada con Y

Dcima de independencia entre dos variables nominales


La estadstica de prueba es:

ij
que sigue una distribucin

(O

ij

E ij ) E ij

2 (( s 1)( r 1))

Siempre es una dcima de una cola !

Dcima de independencia entre dos variables nominales


Ejemplo: Se cree que la cantidad de casos con cierta infeccin intra hospitalaria est asociada al servicio hospitalario, para probar dicha hiptesis se dispone de la siguiente informacin:
Ciruja (1) 30 20 50 Medicina (2) Urgencia (3) 70 62 10 8 80 70

sin infeccin (0) con infeccin(1)

162 38 200

H0: La condicin de infectado es independiente del servicio H1: La condicin de infectado est asociado al servicio

Dcima de independencia entre dos variables nominales

Dcima de independencia entre dos variables nominales


. tab infeccion servicio [freq=frec], chi2

| infeccion | 1

servicio 2 3 | Total

-----------+---------------------------------+---------0 | 1 | 30 20 70 10 62 | 8 | 162 38

-----------+---------------------------------+---------Total | 50 80 70 | 200

Pearson chi2(2) =

19.1312

Pr = 0.000

Dcima de independencia entre dos variables nominales


. tab infeccion servicio [freq=frec], chi2 col | infeccion | 1 servicio 2 3 | Total

-----------+---------------------------------+---------0 | | 30 60.00 70 87.50 62 | 88.57 | 162 81.00

-----------+---------------------------------+---------1 | | 20 40.00 10 12.50 8 | 11.43 | 38 19.00

-----------+---------------------------------+---------Total | | 50 100.00 80 100.00 70 | 100.00 | 200 100.00

Pearson chi2(2) =

19.1312

Pr = 0.000

Dcima de independencia entre dos variables nominales


Cules de estas proporciones difieren?

. prtesti 50 0.4 80 0.125 Two-sample test of proportion x: Number of obs = y: Number of obs = 50 80

-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------x | .4 .069282 5.7735 0.0000 .2642097 .5357903 y | .125 .0369755 3.38062 0.0007 .0525294 .1974706 ---------+-------------------------------------------------------------------diff | .275 .0785314 .1210812 .4289188 | under Ho: .0759555 3.62054 0.0003 -----------------------------------------------------------------------------Ho: proportion(x) - proportion(y) = diff = 0 Ha: diff < 0 z = 3.621 P < z = 0.9999 Ha: diff ~= 0 z = 3.621 P > |z| = 0.0003 Ha: diff > 0 z = 3.621 P > z = 0.0001

Dcima de independencia entre dos variables nominales


Cules de estas proporciones difieren?
. prtesti 50 0.4 70 0.1143 Two-sample test of proportion x: Number of obs = y: Number of obs = 50 70

-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------x | .4 .069282 5.7735 0.0000 .2642097 .5357903 y | .1143 .0380292 3.00558 0.0027 .0397641 .1888359 ---------+-------------------------------------------------------------------diff | .2857 .079033 .1307981 .4406019 | under Ho: .0783166 3.64801 0.0003 -----------------------------------------------------------------------------Ho: proportion(x) - proportion(y) = diff = 0 Ha: diff < 0 z = 3.648 P < z = 0.9999 Ha: diff ~= 0 z = 3.648 P > |z| = 0.0003 Ha: diff > 0 z = 3.648 P > z = 0.0001

Dcima de independencia entre dos variables nominales


Cules de estas proporciones difieren?

. prtesti 80 0.125 70 0.1143 Two-sample test of proportion x: Number of obs = y: Number of obs = 80 70

-----------------------------------------------------------------------------Variable | Mean Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------x | .125 .0369755 3.38062 0.0007 .0525294 .1974706 y | .1143 .0380292 3.00558 0.0027 .0397641 .1888359 ---------+-------------------------------------------------------------------diff | .0107 .0530416 -.0932596 .1146596 | under Ho: .0531856 .201182 0.8406 -----------------------------------------------------------------------------Ho: proportion(x) - proportion(y) = diff = 0 Ha: diff < 0 z = 0.201 P < z = 0.5797 Ha: diff ~= 0 z = 0.201 P > |z| = 0.8406 Ha: diff > 0 z = 0.201 P > z = 0.4203

Regresin lineal simple


Como ya hemos visto cuando se observa una causa, buscamos la o las causas que lo produjeron. Al simplificar esta estructura cognoscitiva podemos pensar que una respuesta es generada por una causa; lo que podemos representar, cuando causa y efecto son medibles numricamente, por una relacin funcional:

Regresin lineal simple

Y = f (X )
Respuesta Causa

Forma o tipo de asociacin

Regresin lineal simple


Particularmente, nos interesa modelar la respuesta cuando la relacin funcional entre la respuesta y la causa es lineal, es decir, de la forma:

Y = + X

Regresin lineal simple


Obviamente antes de ajustar un modelo como el propuesto es necesario saber si la variable respuesta se asocia linealmente con la variable independiente, cuando ambas se miden en n unidades de anlisis, esto es, cuando se tiene una muestra de la forma:
Observacin 1 2 3 4 ... ... ... n X x1 x2 x3 x4 ... ... ... xn Y y1 y2 y3 y4 ... ... ... yn

Regresin lineal simple


Para ello, definimos el Coeficiente de Correlacin entre X e Y como:

rxy =

n X 2 ( X )

n XY X Y
2

n Y 2 ( Y )

rxy mide el grado de asociacin lineal entre X e Y, puede demostrarse que:

1 rxy 1

Regresin lineal simple

rxy tiende a 1 la asociacin es directa rxy tiende a -1 la asociacin es inversa rxy tiende a 0 no existe asociacin lineal

Regresin lineal simple


5

-5

-10

-15 0 1 X 2 3

rxy 1

Regresin lineal simple


20 15

10

0 0 1 X 2 3

rxy 1

Regresin lineal simple


3

0 0 1 X 2 3

rxy 0

Regresin lineal simple


Para ajustar un modelo de la forma : consideramos la funcin:

Yi = + X i + i

2 ( , ) = (Yi X i )2

El procedimiento consiste en encontrar los valores de y que hagan mnima la funcin: 2

( , )
y

Estos valores se llaman estimadores mnimo cuadrticos y los denotamos por:

Regresin lineal simple


Interpretacin de (pendiente de la recta): Como: Y(X) = + X Se tiene: Y(X+1) = + (X+1) = + X + Luego: Y(X+1) - Y(X) =

Representa el cambio de Y por unidad de X

Regresin lineal simple


Mediante clculo diferencial bivariado se encuentra:

n XY X Y n X
2

( X )

= Y b X
Tambin puede demostrarse que:

=S

Sy
x

rxy

Regresin lineal simple


En consecuencia, ajustado el modelo, se tiene la siguiente tabla:

Regresin lineal simple

Si deseamos hacer inferencias relativas al modelo ajustado, es necesario agregar los siguientes supuestos:

i ~ N(0, 2)
Los Xi son independientes entre si, por lo tanto los i tambin son independientes entre si (no correlacionados).

Regresin lineal simple


Una vez ajustado un modelo de regresin, es necesario conocer la calidad del mismo, para ello la variabilidad total de Y, que no depende del modelo ajustado, puede descomponerse del siguiente modo:

(Y Y ) = (Y Y ) + (Y Y )
2 2

SCTotal
Varianza Total

SCError

SCRegresin

= Varianza no explicada + Varianza explicada

Regresin lineal simple


Notar que de la identidad algebraica: SCTotal Podemos escribir: = SCError + SCRegresin

SC Re g SCError 1= + SCTotal SCTotal


R2 =

Se define el coeficiente de determinacin como:

(Y Y )

Y )2 (Y
2

que en el caso de la regresin lineal simple coincide con r2xy.

Regresin lineal simple

Regresin lineal simple

Regresin lineal simple


La estimacin de la varianza del error es: Dcimas e intervalos de confianza:

S 2 = CMres =

)2 (Y Y n2

H 0 : = 0

Estadstica de prueba a 0
S 1 X + n ( X X )2
2

Intervalo de confianza

~t(n-2)
2

1 X + a t( n 2 ) S n ( X X )2
b t( n 2 ) S

H 0 : = 0

b 0 S

(X X )

~t(n-2)

(X X )
2

Intervalo de confianza para la prediccin:

(X 0 X ) 1 + Y0 t( n 2 ) S n ( X X )2

Regresin lineal simple


Ejemplo: Un nutrilogo, desea probar la hiptesis que afirma que la ingesta calrica diaria en nios varones no obesos entre los 5 y 15 aos de edad aumenta con esta, para probar dicha hiptesis dispone de la siguiente informacin:
id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 edad 6 11 10 11 11 6 11 5 10 13 7 5 9 13 10 cal 1628 2126 1963 2035 2112 1581 2143 1436 2009 2238 1797 1460 1867 2251 2035 id 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 edad 13 7 10 7 14 7 6 9 12 13 9 9 13 5 11 cal 2283 1684 2092 1710 2441 1633 1645 1868 2194 2243 1862 1810 2252 1472 2116

Regresin lineal simple


. graph7 cal edad, xlabel(5,6 to 15) ylabel(1500,1600 to 2500)

2500 2400 2300 ingesta calorica diaria 2200 2100 2000


. corr cal edad

1900 1800

(obs=30)

cal

edad

1700 1600 1500 5 6 7 8 9 10 11 edad en aos 12 13 14 15

-------------+-----------------cal | edad | 1.0000 0.9858 1.0000

Regresin lineal simple


. reg cal edad

Source |

SS

df

MS

Number of obs = F( 1, 28) = = =

30 961.65 0.0000 0.9717 0.9707 47.919

-------------+-----------------------------Model | Residual | 2208153.27 64294.1928 1 28 2208153.27 2296.22117

Prob > F R-squared

-------------+-----------------------------Total | 2272447.47 29 78360.2575

Adj R-squared = Root MSE =

-----------------------------------------------------------------------------cal | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+---------------------------------------------------------------edad | _cons | 99.42725 994.9363 3.206252 31.48555 31.01 31.60 0.000 0.000 92.85954 930.4411 105.995 1059.432

------------------------------------------------------------------------------

Calorias = 994.9363 + 99.42725Edad

Regresin lineal simple


Prueba de los supuestos del modelo:
. predict calhat (option xb assumed; fitted values) . gen error= cal- calhat . swilk error Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z

-------------+------------------------------------------------error | 30 0.95642 1.385 0.674 0.25031

Regresin lineal simple


106.073

error -79.7815 5 edad en aos 14

Si al graficar los errores versus la variable independiente (edad) no se encuentra un patrn de comportamiento los errores no estn correlacionados

Regresin lineal simple


error 100

50

-50

-100

Distribucin de los errores

Regresin lineal simple


Grfico de las observaciones, los valores predichos y sus intervalos de confianza:
. dis invttail(28, 0.025) 2.0484071 . predict es, stdp . gen li= calhat-2.0484071* es . gen ls= calhat+2.0484071* es

Regresin lineal simple


graph7 cal calhat li ls edad, sort c(.lss) xlabel ylabel
Fitted values ls ingesta calorica diaria li 2500

2000

Calorias = 994.9363 + 99.42725Edad


1500 5 10 edad en aos 15

You might also like