Professional Documents
Culture Documents
Indice
DE
A b ri l , 20 0 7 Vo lum en 1 , Nmero 6
ESTADSTICA
Sociedad Espaola Sociedad Espaola de Bioqumica Clnica y Patologa Molecular (SEQC), Calle Padilla 268, despacho 68, 08025-Barcelona, http://www.seqc.es
Cuarta Sesin Presencial 2 Evaluacin del mdulo 1, Instrucciones 2 Nombres propios: A. Kolmogorov (1903-1987) 2 El test de Kolmogorov 3 El test de Kolmogorov-Smirnov-Lilliefors en MS Excel 6 El test de Kolmogorov-Smirnov en Nuevos documentos en la web 10 11
Existe la posibilidad de concertar plazas de hotel y desplazamiento contactando con Ana Lpez Top Congress Padilla, 323 - 325 Entlo. Desp. 65 A 08025 Barcelona Tfo. +34 93 450 88 32 Fax. +34 940 46 74 79 Email. ana.lopez@topcongress.es www.topcongress.es
Fechas: 15-16 de Mayo 2007 Aula de Informtica Facultad de Econmicas Universidad de Santiago de Compostela
Coincidiendo con
CON EL FIN DE PREPARAR MEJOR ESTA SESION PRESENCIAL AGRADECEREMOS COMUNIQUEN SU INTENCIN DE ASISTIR A LAS SESIONES DEL MARTES POR LA TARDE Y MIERCOLES POR LA MAANA AS COMO AL SEMINARIO DEL MIRCOLES POR LA TARDE MEDIANTE UN CORREO (UTILIZANDO LA DIRECCIN DE CONSULTAS)
Programa
Martes 15 de Mayo, 15:00 18:00 hr
Curso de estadstica
Valor semiolgico. Anlisis de la decisin mdica. Sensibilidad, especificidad y eficiencia clnica. Valor predictivo. Cociente de verosimilitud. (JMP) Curvas y anlisis ROC (JMQ) Mircoles 16 de Mayo, 9:30 13:00 hr
Seminario de lenguage
Obtencin de Operaciones bsicas (calculaora, grficos, asignacin de variables, procedimientos estndar) Lenguage (expresiones, objetos, funciones, vectores, matrices, etc.) Entrada de datos Grficos Programacin Probabilidad Estadstica descriptiva Estadstica Inferencial Regresin Correlacin ANOVA
Curso de estadstica
Utilizacin
El KS se utiliza para decidir si una muestra procede de una poblacin con una distribucin especfica. El test KS puede ser utilizado para responder a las siguientes cuestiones: Proceden los datos de una distribucin normal? Proceden los datos de una distribucin lognormal? Proceden los datos de una distribucin de Weibull? Proceden los datos de una distribucin exponencial? Proceden los datos de una distribucin logstica? Relevancia Muchos tests y procedimientos estadsticos se basan en suposiciones de distribucin. As muchos test clsicos se basan en la suposicin de normalidad. Muchos modelos de fiabilidad se basan en la suposicin de que los datos siguen una distribucin de Weibull. Existen muchas pruebas no paramtricas y robustas que no se basan en fuertes suposiciones distribucionales, como el test de los signos. Sin embargo, las tcnicas paramtricas, basadas en suposiciones distribucionales son ms potentes que sus equivalentes no paramtricas o robustas. Potencia significa la capacidad de detectar una diferencia cuando sta existe en la realidad. Por tanto, cuando se pueden confirmar las suposiciones distribucionales, se preferirn las tcnicas paramtricas. Si se va a utilizar una tcnica que requiere una suposicin de normalidad (o algn otro tipo de distribucin) es importante confirma que esta suposicin est justificada. Si lo est, puede usarse la tcnica paramtrica, ms potente. Si no est justificada, pude ser necesario recurrir una tcnica no paramtrica o robusta.
A lo largo de su vida recibi numerosas distinciones y premios. En su pas natal fue elegido acadmico a los 36 aos, y se le otorg el Premio del Estado (1941), el Premio Lenin (1965), el premio Lobachevsky (1987) y se le distingui con la orden de Lenin hasta en seis ocasiones. Fuera de la Unin Sovitica recibi honores como ser elegido acadmico en Estados Unidos, Rumana, Reino Unido, Holanda, Francia, India y doctorados honorarios en las universidades de Pars, Estocolmo, Varsovia
El test de Kolmogorov
Introduccin
El test de Kolmogorov-Smirnov (KS) forma parte de la familia de test de bondad de ajuste. Fue propuesto originalmente en 1935 en artculos de A. Kolmogorov (1) y de N. Smirnov (2). Al contrario del test de que puede ser utilizado frente a distribuciones continuas y discretas, el test KS slo es apropiado para distribuciones continuas como la distribucin normal o la de Weibull. En el test de KS para la normalidad, cuando no se conoce la media y la desviacin estndar (es
2
Fundamentos
El KS se basa en la funcin de distribucin emprica (DFE). Dados n puntos ordenados
{x , x
1
Curso de estadstica
n (i ) es el nmero de puntos menores que x (i ) .
Se trata de una funcin escalonada (step) que aumenta en
ordenado: El siguiente grfico es una representacin de la DFE con una funcin de distribucin acumulativa normal para 100 nmeros aleatorios normales. El test KS se basa en obtener la mayor distancia entre estas dos curvas.
Hiptesis H 0 : La muestra
{x , x
1
, x n } procede de
una poblacin que se distribuye de forma especfica. H1 : La distribucin de la que procede la muestra
{x
, x2 ,
, x n } no es la especificada.
Curso de estadstica
= .05
= .02
= .01
n
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 > 30
= .20
.300 .285 .265 .247 .233 .223 .215 .206 .199 .190 .183 .177 .173 .169 .166 .163 .160 .149 .131
= .15
.319 .299 .277 .258 .244 .233 .224 .217 .212 .202 .194 .187 .182 .177 .173 .169 .166 .153 .136
= .10
.352 .315 .294 .276 .261 .249 .239 .230 .223 .214 .207 .201 .195 .189 .184 .179 .174 .165 .144
= .05
.381 .337 .319 .300 .285 .271 .258 .249 .242 .234 .227 .220 .213 .206 .200 .195 .190 .180 .161
= .01
.417 .405 .364 .348 .331 .311 .294 .284 .275 .268 .261 .257 .250 .245 .239 .235 .231 .203 .187
.900 .684 .565 .493 .447 .410 .381 .358 .339 .323 .308 .296 .285 .275 .266 .258 .250 .244 .237 .232 .226 .221 .216 .212 .208 .204 .200 .197 .193 .190 .187 .184 .182 .179 .177 .174 .172 .170 .168 .165
.950 .776 .636 .565 .509 .468 .436 .410 .387 .369 .352 .338 .325 .314 .304 .295 .286 .279 .271 .265 .259 .253 .247 .242 .238 .233 .229 .225 .221 .218 .214 .211 .208 .205 .202 .199 .196 .194 .191 .189
.975 .842 .708 .624 .563 .519 .483 .454 .430 .409 .391 .375 .361 .349 .338 .327 .318 .309 .301 .294 .287 .281 .275 .269 .264 .259 .254 .250 .246 .242 .238 .234 .231 .227 .224 .221 .218 .215 .213 .210
.990 .900 .785 .689 .627 .577 .538 .507 .480 .457 .437 .419 .404 .390 .377 .366 .355 .346 .337 .329 .321 .314 .307 .301 .295 .290 .284 .279 .275 .270 .266 .262 .258 .254 .251 .247 .244 .241 .238 .235
.995 .929 .829 .734 .669 .617 .576 .542 .513 .489 .468 .449 .432 .418 .404 .392 .381 .371 .361 .352 .344 .337 .330 .323 .317 .311 .305 .300 .295 .290 .285 .281 .277 .273 .269 .265 .262 .258 .255 .252
.736 n
.768 n
.805 n
.886 n
1.031 n
Alternativas
Test de bondad de ajuste jicuadrado; Test de normalidad de Shapiro-Francia; Test de normalidad de DAgostinoPearson; Test de normalidad de Anderson Darling. Test de normalidad de Stephens.
Referencias
1. Kolmogorov AN. Sobre la determinacin emprica de una funcin de distribucin (traduccin del italiano. Giornale dell'Instituto Italiano degli attuari 1933;4(83-91). 2. Smirnov NV. Sobre la estimacin de la discrepancia entre curvas de distribucin emprica para dos muestras independientes (traduccin del ruso). Bull Moscow Univ 1939;2:3-16. 3. Massey FJJ. The Kolmogorov-Smirnov test of goodness of fit. J Am Stat Assoc 1951;46(235):6878. 4. Lilliefors HW. On the Kolmogorov-Smirnov test for normality with mean and variance unknown. J Am Stat Assoc 1967;62(318):399-402.
1.07 n
1.22 n
1.36 n
1.52 n
1.63 n
Ref. http://home.ubalt.edu/ntsbarsh/statdata/SPSSSAS.htm#rksltfn
Curso de estadstica
Ejemplo
Se han simulado 500 observaciones con una media 100 y desviacin tpica 10 utilizando las funciones de Excel que se indican a continuacin.
en la que debe seleccionarse la opcin pulsando El aspecto de los primeros casos es:
1. Programacin
Esta forma de proceder es tediosa pero sirve para ilustrar el proceso. (b) Para hallar la frecuencia acumulada de la distribucin a comprobar, en la celda E2 se entra
Curso de estadstica
una cifra aproximadamente 2 desviaciones tpicas por debajo de la media: en este caso 80 y en la E3 un nmero algo superior, por ejemplo 82. Marcando con el cursor ambas celdas se arrastra hasta la posicin E22. De esta forma se definen un nmero razonable (40) de intervalos (cestos) para construir la distribucin acumulativa. El resultado es el siguiente:
Para obtener la frecuencia acumulada se pulsa en la Barra de herramientas de Excel la opcin: que despliega el men:
En que hay que entrar el intervalo de celdas que contienen los datos ($C$2:$C$502), el intervalo de clases definidas anteriormente ($E$2:$E:$22) y una celda en donde aparecern los clculos, por ejemplo la celda $F$1. Basta con solicitar la opcin
aparece en F1 el
Curso de estadstica
En la pestaa Nmero se puede seleccionar las propiedades de cada una de las celdas. Por ejemplo, Nmero con 4 cifras decimales. El intervalo H2:H22 contiene en formato texto los porcentajes de cada intervalo de la distribucin acumulativa. Para transformarlos en nmeros debe copiarse, por ejemplo al intervalo I2-:I22 y , marcado todo este intervalo pulsar en l barra de herramientas de Excel la opcin despliega el siguiente men: El resultado es una columna como la siguiente:
(b) Para obtener las frecuencias acumulativas de la distribucin terica (normal) se entra en la celda H1 la siguiente expresin: =DISTR.NORM(F2;100;10;VERDADERO) cuyos parmetros corresponden a la marca de clase respectiva (F2=80), la media (100), la desviacin tpica de la distribucin terica (10), y se indica que se desea la distribucin acumulativa (VERDADERO). El resultado es:
Curso de estadstica
2. En Analyse it
Seleccionando en la barra de herramientas de Excel la opcin despliega el men: se
(c) Para obtener el estadstico D deber obtenerse la mxima diferencia entre las distribuciones acumuladas. Para ello, en la celda K2 se introduce la expresin =I2-J2 que se copia al intervalo K2:K22 con el resultado siguiente:
. El resultado es
3. Calculadoras
La diferencia mxima es 0,0267. Por encima de 35 datos, los valores crticos son: Existen varias calculadoras on line. Por ejemplo, en Error!Marcador no definido. se puede encontrar una pgina que permite entrar datos y frecuencias para calcular el tests KS. Para realizar el test KSL, en la misma web est la pgina: http://home.ubalt.edu/ntsbarsh/zero/LilliExpon.h tm
Curso de estadstica
El test de KolmogorovSmirnov en
En el paquete nortest existe la funcin lillie.test cuya sintaxis ms simple sera:
Alternativamente puede utilizarse la funcin ks.test en la que debe mencionarse la disteribucin (pnorm) y sus parmetros (en el ejemplo, 100 y 10):
Curso de estadstica
ficheros existentes
Mdulo 1
ANOVA INFERENCIA NO PARAMETRICA REGRESION TAMAO MUESTRAL Probabilidad Probabilidad ejercicios Probabilidad historia Probabilidad teora Variable aleatoria Variable ejercicios Variable notas Distribuciones Distribuciones teora Distribuciones ejercicios resueltos Distribucin ejercicios propuestos Distribucin ejercicios propuesto solucin Muestreo Muestreo ejercicios Muestreo notas Muestreo. Literatura (carpeta) Correlacin Correlacin notas Corr-Regr ej resueltos Corr-Regr ej propuestos Regresin Regresin notas Anlisis exploratorio de los EDA notas Anlisis exploratorio de los datos. Literatura (carpeta) datos Descriptivo Descriptivo-ejercicios propuestos- solucin Descr ej resueltos Descr ej propuestos Descr notas SPSS: DESC_ej1prop_SOLUCION.spo DESC_ej1prop_SOLUCION.SPS Ej1_PROP.xls EjA_Desc_prop_SOLUCION.spo EjA_Desc_prop_SOLUCION.SPS SPSS SPSS_ejemplo2.xls CORRELACION Y REGRESION ejemplo.xls coronari.xls cigarrete.xls CHb.xls BreastCancerSurvival.xls SyntaxEj_reg_Corr.SPS MODULO1.SPS CHB.SPS CHb.spo carboxiHb.sav SPSS.pdf
Curso de estadstica
carpetas
Mdulo 2
subcarpetas
Bondad de ajuste Estadstica robusta
Bondad de ajuste_notas_04_2007 Estadstica robusta_notas_03_2007 Tamao muestral_notas_04_2007 Tamao muestral Tamao muestral_ ejercicios resueltos__04_2007 Tamao muestral_ ejercicios propuestos_04_2007 Anlisis datos cualitativos_notas_03_2007 Anlisis de datos cualitativos Anlisis datos cualitativos_ejercicios resueltos_03_2007 Inferencia_notas_03_2007 Inferencia_ejercicios resueltos_04_2007 Inferencia_ejercicios propuestos_04_2007 Inferencia estadstica SPSS_Inferencia1_notas_03_2007 SPSS_Inferencia2_notas_03_2007 SPSS_Inferencia3_notas_03_2007 Contraste de variables Contraste de variables cuantitativas_notas_04_2007 Contraste de variables cuantitativas_ejercicios_04_2007 cuantitativas ANOVA Ejemplos de ANOVA con SPSS (Carpeta) del Boletin 1 Boletn 2 Boletin 3 Boletn 4 Boletn 5 Boletn 6 Mdulo 1
Ejercicios de evaluacin