You are on page 1of 12

C URSO

Indice

DE

A b ri l , 20 0 7 Vo lum en 1 , Nmero 6

ESTADSTICA
Sociedad Espaola Sociedad Espaola de Bioqumica Clnica y Patologa Molecular (SEQC), Calle Padilla 268, despacho 68, 08025-Barcelona, http://www.seqc.es

Cuarta Sesin Presencial 2 Evaluacin del mdulo 1, Instrucciones 2 Nombres propios: A. Kolmogorov (1903-1987) 2 El test de Kolmogorov 3 El test de Kolmogorov-Smirnov-Lilliefors en MS Excel 6 El test de Kolmogorov-Smirnov en Nuevos documentos en la web 10 11

Existe la posibilidad de concertar plazas de hotel y desplazamiento contactando con Ana Lpez Top Congress Padilla, 323 - 325 Entlo. Desp. 65 A 08025 Barcelona Tfo. +34 93 450 88 32 Fax. +34 940 46 74 79 Email. ana.lopez@topcongress.es www.topcongress.es

TERCERA SESIN PRESENCIAL TERCERA SESIN PRESENCIAL

Fechas: 15-16 de Mayo 2007 Aula de Informtica Facultad de Econmicas Universidad de Santiago de Compostela
Coincidiendo con

CON EL FIN DE PREPARAR MEJOR ESTA SESION PRESENCIAL AGRADECEREMOS COMUNIQUEN SU INTENCIN DE ASISTIR A LAS SESIONES DEL MARTES POR LA TARDE Y MIERCOLES POR LA MAANA AS COMO AL SEMINARIO DEL MIRCOLES POR LA TARDE MEDIANTE UN CORREO (UTILIZANDO LA DIRECCIN DE CONSULTAS)

Programa
Martes 15 de Mayo, 15:00 18:00 hr

JORNADAS DEL COMIT CIENTIFICO DE LA SEQC

Presentacin del Mdulo 3.


Determinacin del nmero de individuos necesario. Diseo experimental (JMQ). Valores de referencia. Muestreo. Estimacin. Comparacin. (JMP) Validacin y evaluacin de mtodos e instrumentos. Calibracin. Limites de deteccin y cuantificacin. Selectividad. Precisin. Veracidad. Exactitud. Linealidad. Incertidumbre. Contaminacin. (BPG) Comparacin de mtodos. (JMQ) Control de la calidad analtica. Estudios multicntricos (JMP)

JORNADA DE TOXICOLOGIA Memorial Margarita Engel

III SYPOSIUM INTERNACIONAL FESTEM

Curso de estadstica
Valor semiolgico. Anlisis de la decisin mdica. Sensibilidad, especificidad y eficiencia clnica. Valor predictivo. Cociente de verosimilitud. (JMP) Curvas y anlisis ROC (JMQ) Mircoles 16 de Mayo, 9:30 13:00 hr

Vol. 1, nm. 6, Pg. 2


(c) Lea cuidadosamente los enunciados, seleccione el nmero de cuestiones y afirmaciones que desea y resuelva segn su criterio. (d) Enve el resultado por correo electrnico, utilizando el correo de consulta, haciendo constar su nombre; por correo ordinario (sin olvidar incluir su nombre) , a la secretara de la SEQC: Padilla, 323-325 Despacho 65 08025 Barcelona

Ejercicios y repaso del Mdulo 2.


Mircoles 16 de Mayo, 15:00 18:00 hr

Seminario de lenguage
Obtencin de Operaciones bsicas (calculaora, grficos, asignacin de variables, procedimientos estndar) Lenguage (expresiones, objetos, funciones, vectores, matrices, etc.) Entrada de datos Grficos Programacin Probabilidad Estadstica descriptiva Estadstica Inferencial Regresin Correlacin ANOVA

Nombres propios: A. Kolmogorov (1903-1987)


Andrey Nikolaevich Kolmogorov fue un matemtico de la antigua repblica socialista sovitica que realiz destacadas aportaciones en la teora de la probabilidad y estadstica, pero tambin a la teora de conjuntos, mecnica, teora de la complejidad y a la geometra. Nacido ocasionalmente en Tambov, 500 km. al sudoeste de Mosc, cerca de Crimea, en una familia aristocrtica. Recibi su nombre de su abuelo materno, Yakov Stepanovich Kolmogorov, y no el de su padre, Nikolai Kataev. Su madre muri al darle a luz y su padre desapareci en combate durante la guerra civil rusa, cuando l tena 16 aos recibiendo su educacin por parte de sus tos, maestros. Desde la infancia dio pruebas de un notable talento matemtico. A los siete aos se traslad a Mosc, y a los 17 aos ingres en el Instituto Universitario de Tecnologa Qumica. Sus primeras publicaciones, antes de cumplir los veinte aos le empezaron a granjear el reconocimiento internacional. Se gradu en 1922 y doctor en matemticas en 1929 por la Universidad Estatal de Mosc, de la que en 1931 fue nombrado profesor. En este ao public en alemn un famoso trabajo (Sobre los mtodos analticos de la teora de probabilidades). A los treinta aos public las bases tericas de la probabilidad (Fundamentos de la Teora de la Probabilidad) y dos aos despus fue nombrado primer profesor de teora de la probabilidad en la Universidad de Mosc. Kolmogorov realiz una aportacin decisiva a la formulacin axiomtica de la teora de la probabilidad, el sexto problema planteado por Hilbert. Pero adems resolvi totalmente el 13 demostrando que no es posible probar la existencia de funciones continuas de tres variables que no puedan ser representadas por funciones continuas de dos variables.

Cuarta Sesin Presencial

Fecha: 17-18 Octubre 2007, Sevilla (CONGRESO DEL LABORATORIO CLNICO)

Evaluacin del mdulo 1, Instrucciones


(a) Esta evaluacin se realiza a efectos de cumplir los requerimientos de acreditacin de formacin continuada. Abarca los temas incluidos en el mdulo 1 del Curso. Se completar con un ejercicio semejante del contenido del mdulo 2. (b) En el archivo hay 30 cuestiones y 31 afirmaciones que pueden ser verdaderas o falsas. El ejercicio consiste en identificar la respuesta o resolver correctamente 15 cuestiones y detectar la veracidad o falsedad de 15 de las afirmaciones propuestas.

Curso de estadstica

Vol. 1, nm. 6, Pg. 3


decir, que ambas se han de estimar a partir de la muestra de datos), los valores de probabilidad tabulados por Massey (3) no son vlidos. En su lugar deben utilizarse las probabilidades de Lilliefors (4) para saber si la diferencia es significativa.

Utilizacin
El KS se utiliza para decidir si una muestra procede de una poblacin con una distribucin especfica. El test KS puede ser utilizado para responder a las siguientes cuestiones: Proceden los datos de una distribucin normal? Proceden los datos de una distribucin lognormal? Proceden los datos de una distribucin de Weibull? Proceden los datos de una distribucin exponencial? Proceden los datos de una distribucin logstica? Relevancia Muchos tests y procedimientos estadsticos se basan en suposiciones de distribucin. As muchos test clsicos se basan en la suposicin de normalidad. Muchos modelos de fiabilidad se basan en la suposicin de que los datos siguen una distribucin de Weibull. Existen muchas pruebas no paramtricas y robustas que no se basan en fuertes suposiciones distribucionales, como el test de los signos. Sin embargo, las tcnicas paramtricas, basadas en suposiciones distribucionales son ms potentes que sus equivalentes no paramtricas o robustas. Potencia significa la capacidad de detectar una diferencia cuando sta existe en la realidad. Por tanto, cuando se pueden confirmar las suposiciones distribucionales, se preferirn las tcnicas paramtricas. Si se va a utilizar una tcnica que requiere una suposicin de normalidad (o algn otro tipo de distribucin) es importante confirma que esta suposicin est justificada. Si lo est, puede usarse la tcnica paramtrica, ms potente. Si no est justificada, pude ser necesario recurrir una tcnica no paramtrica o robusta.

A lo largo de su vida recibi numerosas distinciones y premios. En su pas natal fue elegido acadmico a los 36 aos, y se le otorg el Premio del Estado (1941), el Premio Lenin (1965), el premio Lobachevsky (1987) y se le distingui con la orden de Lenin hasta en seis ocasiones. Fuera de la Unin Sovitica recibi honores como ser elegido acadmico en Estados Unidos, Rumana, Reino Unido, Holanda, Francia, India y doctorados honorarios en las universidades de Pars, Estocolmo, Varsovia

Andrey Nikolaevich Kolmogorov falleci en Mosc a la edad de 83 aos.

El test de Kolmogorov
Introduccin
El test de Kolmogorov-Smirnov (KS) forma parte de la familia de test de bondad de ajuste. Fue propuesto originalmente en 1935 en artculos de A. Kolmogorov (1) y de N. Smirnov (2). Al contrario del test de que puede ser utilizado frente a distribuciones continuas y discretas, el test KS slo es apropiado para distribuciones continuas como la distribucin normal o la de Weibull. En el test de KS para la normalidad, cuando no se conoce la media y la desviacin estndar (es
2

Fundamentos
El KS se basa en la funcin de distribucin emprica (DFE). Dados n puntos ordenados

{x , x
1

, , x n } , la DFE se define como:


E ( n) = n (i ) n

donde: x ( i ) son valores ordenados de X ; y

Curso de estadstica
n (i ) es el nmero de puntos menores que x (i ) .
Se trata de una funcin escalonada (step) que aumenta en

Vol. 1, nm. 6, Pg. 4


i 1 i , F (Yi ) D = max F (Yi ) 1 i N N N donde: F ( ) es la distribucin acumulada terica
de la distribucin estudiada que debe ser una distribucin continua (no distribuciones como la binomial o la de Poisson) y debe estar completamente especificada (es decir, los parmetros de localizacin y de escala no debe estimarse a partir de los datos). Las hiptesis referentes a la forma de la distribucin se rechaza si el estadstico del test, D , es mayor que el valor crtico obtenido de la tabla. En la literatura se encuentran diversas variaciones de la tabla: hay que asegurarse de que sea consistente con la forma de clculo.

ordenado: El siguiente grfico es una representacin de la DFE con una funcin de distribucin acumulativa normal para 100 nmeros aleatorios normales. El test KS se basa en obtener la mayor distancia entre estas dos curvas.

al valor de cada punto

Caractersticas y limitaciones del test KS


Caractersticas Una caracterstica atractiva del test es que la propia distribucin del estadstico no depende de la funcin de distribucin acumulada que se est estudiando; Por otra parte, se trata de un test exacto (el test de bondad de ajuste depende de un tamao muestral adecuado para que la aproximacin sea vlida). Limitaciones Slo es aplicable a distribuciones continuas; Tiende a ser ms sensible en el centro de la distribucin que en los extremos; Puede que la limitacin ms importante es que la distribucin debe ser explicitada por completo. Es decir, si los parmetros de localizacin, escala y forma son estimados a partir de los datos, la regin crtica del test KS deja de ser vlida. Tpicamente debe ser determinado por simulacin. Las dos primeras limitaciones hacen que haya estadsticos que prefieran utilizar otros tests, como el de Anderson-Darling, aunque ste ltimo slo sirva para algunas distribuciones especficas.
2

Realizacin del test


Para aplicar el test KS se debe calcular la frecuencia la frecuencia acumulativa (normalizado por el tamao muestral) de las observaciones en funcin de la clase. Seguidamente debe calcularse la frecuencia acumulada para una distribucin verdadera. Una vez hallada la discrepancia mxima entre las frecuencias acumuladas esperadas y observadas, el estadstico D , se compara con el valor crtico de D . Si el D calculado es mayor que el crtico, se rechaza la hiptesis nula de que la distribucin sea de la forma esperada. (3). El test KSL se contrasta con la tabla de Lilliefors (4).

Hiptesis H 0 : La muestra

{x , x
1

, x n } procede de

una poblacin que se distribuye de forma especfica. H1 : La distribucin de la que procede la muestra

{x

, x2 ,

, x n } no es la especificada.

Clculo del estadstico D


El estadstico del test KS se define como:

Curso de estadstica

Vol. 1, nm. 6, Pg. 5

Valores crticos para el test KS para dos poblaciones


n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 >40
= .20 = .10

Valores crticos para el test KSL

= .05

= .02

= .01

n
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 > 30

= .20
.300 .285 .265 .247 .233 .223 .215 .206 .199 .190 .183 .177 .173 .169 .166 .163 .160 .149 .131

= .15
.319 .299 .277 .258 .244 .233 .224 .217 .212 .202 .194 .187 .182 .177 .173 .169 .166 .153 .136

= .10
.352 .315 .294 .276 .261 .249 .239 .230 .223 .214 .207 .201 .195 .189 .184 .179 .174 .165 .144

= .05
.381 .337 .319 .300 .285 .271 .258 .249 .242 .234 .227 .220 .213 .206 .200 .195 .190 .180 .161

= .01
.417 .405 .364 .348 .331 .311 .294 .284 .275 .268 .261 .257 .250 .245 .239 .235 .231 .203 .187

.900 .684 .565 .493 .447 .410 .381 .358 .339 .323 .308 .296 .285 .275 .266 .258 .250 .244 .237 .232 .226 .221 .216 .212 .208 .204 .200 .197 .193 .190 .187 .184 .182 .179 .177 .174 .172 .170 .168 .165

.950 .776 .636 .565 .509 .468 .436 .410 .387 .369 .352 .338 .325 .314 .304 .295 .286 .279 .271 .265 .259 .253 .247 .242 .238 .233 .229 .225 .221 .218 .214 .211 .208 .205 .202 .199 .196 .194 .191 .189

.975 .842 .708 .624 .563 .519 .483 .454 .430 .409 .391 .375 .361 .349 .338 .327 .318 .309 .301 .294 .287 .281 .275 .269 .264 .259 .254 .250 .246 .242 .238 .234 .231 .227 .224 .221 .218 .215 .213 .210

.990 .900 .785 .689 .627 .577 .538 .507 .480 .457 .437 .419 .404 .390 .377 .366 .355 .346 .337 .329 .321 .314 .307 .301 .295 .290 .284 .279 .275 .270 .266 .262 .258 .254 .251 .247 .244 .241 .238 .235

.995 .929 .829 .734 .669 .617 .576 .542 .513 .489 .468 .449 .432 .418 .404 .392 .381 .371 .361 .352 .344 .337 .330 .323 .317 .311 .305 .300 .295 .290 .285 .281 .277 .273 .269 .265 .262 .258 .255 .252

.736 n

.768 n

.805 n

.886 n

1.031 n

Ref.: http://courses.wcupa.edu/rbove/eco252/252KSte st.doc

Alternativas
Test de bondad de ajuste jicuadrado; Test de normalidad de Shapiro-Francia; Test de normalidad de DAgostinoPearson; Test de normalidad de Anderson Darling. Test de normalidad de Stephens.

Referencias
1. Kolmogorov AN. Sobre la determinacin emprica de una funcin de distribucin (traduccin del italiano. Giornale dell'Instituto Italiano degli attuari 1933;4(83-91). 2. Smirnov NV. Sobre la estimacin de la discrepancia entre curvas de distribucin emprica para dos muestras independientes (traduccin del ruso). Bull Moscow Univ 1939;2:3-16. 3. Massey FJJ. The Kolmogorov-Smirnov test of goodness of fit. J Am Stat Assoc 1951;46(235):6878. 4. Lilliefors HW. On the Kolmogorov-Smirnov test for normality with mean and variance unknown. J Am Stat Assoc 1967;62(318):399-402.

1.07 n

1.22 n

1.36 n

1.52 n

1.63 n

Ref. http://home.ubalt.edu/ntsbarsh/statdata/SPSSSAS.htm#rksltfn

Curso de estadstica

Vol. 1, nm. 6, Pg. 6


(a) Para realizar la generacin de las 500 observaciones (de media 100 y desviacin tpica 10 se entra la funcin ALEATORIO( ) en A2 y con el cursor se arrastra hasta A501. Esto genera 500 nmeros aleatorios de la distribucin uniforme comprendidos en el intervalo [0,1]. Seguidamente, en la celda B1 se entra la funcin =DISTR.NORM.INV(A2;100;10) que genera un valor aleatorio de la distribucin normal de media 100 y desviacin tpica 10: N(100,10). Con el fin de estabilizar estos datos, ya que cada vez que se pulsa

E cambian, se copia el contenido de la

columna B a la C utilizando la opcin

Ejemplo
Se han simulado 500 observaciones con una media 100 y desviacin tpica 10 utilizando las funciones de Excel que se indican a continuacin.

del men contextual. Esta funcin abre la ventana:

El test de KolmogorovSmirnov-Lilliefors en MS Excel


El complemento Anlisis de datos de Excel 97 no dispone de ninguna funcin especfica para realizar ni el test KS ni el KSL. Para poder realizarlo se puede recurrir a varias posibilidades: 1. Programar el clculo; 2. Utilizar una calculadora on line; 3. Utilizar un complemento ad hoc, como Analyse it!.

en la que debe seleccionarse la opcin pulsando El aspecto de los primeros casos es:

1. Programacin
Esta forma de proceder es tediosa pero sirve para ilustrar el proceso. (b) Para hallar la frecuencia acumulada de la distribucin a comprobar, en la celda E2 se entra

Curso de estadstica
una cifra aproximadamente 2 desviaciones tpicas por debajo de la media: en este caso 80 y en la E3 un nmero algo superior, por ejemplo 82. Marcando con el cursor ambas celdas se arrastra hasta la posicin E22. De esta forma se definen un nmero razonable (40) de intervalos (cestos) para construir la distribucin acumulativa. El resultado es el siguiente:

Vol. 1, nm. 6, Pg. 7

donde debe seleccionarse la funcin y siguiente men: para abrir el

Para obtener la frecuencia acumulada se pulsa en la Barra de herramientas de Excel la opcin: que despliega el men:

En que hay que entrar el intervalo de celdas que contienen los datos ($C$2:$C$502), el intervalo de clases definidas anteriormente ($E$2:$E:$22) y una celda en donde aparecern los clculos, por ejemplo la celda $F$1. Basta con solicitar la opcin

Al pulsar cuadro siguiente:

aparece en F1 el

Donde debe seleccionarse la opcin: que abre la ventana:

Curso de estadstica

Vol. 1, nm. 6, Pg. 8

En la pestaa Nmero se puede seleccionar las propiedades de cada una de las celdas. Por ejemplo, Nmero con 4 cifras decimales. El intervalo H2:H22 contiene en formato texto los porcentajes de cada intervalo de la distribucin acumulativa. Para transformarlos en nmeros debe copiarse, por ejemplo al intervalo I2-:I22 y , marcado todo este intervalo pulsar en l barra de herramientas de Excel la opcin despliega el siguiente men: El resultado es una columna como la siguiente:

del que debe seleccionarse la opcin

para llegar al siguiente men:

(b) Para obtener las frecuencias acumulativas de la distribucin terica (normal) se entra en la celda H1 la siguiente expresin: =DISTR.NORM(F2;100;10;VERDADERO) cuyos parmetros corresponden a la marca de clase respectiva (F2=80), la media (100), la desviacin tpica de la distribucin terica (10), y se indica que se desea la distribucin acumulativa (VERDADERO). El resultado es:

Curso de estadstica

Vol. 1, nm. 6, Pg. 9


Ya que D max = 0, 0267 es inferior a D ( ) se concluye que la hiptesis de normalidad no puede rechazarse (como era de esperar porque los casos fueron obtenidos de una distribucin normal).

2. En Analyse it
Seleccionando en la barra de herramientas de Excel la opcin despliega el men: se

(c) Para obtener el estadstico D deber obtenerse la mxima diferencia entre las distribuciones acumuladas. Para ello, en la celda K2 se introduce la expresin =I2-J2 que se copia al intervalo K2:K22 con el resultado siguiente:

del que se selecciona la opcin para acceder al men:

y se acepta pulsando el siguiente:

. El resultado es

3. Calculadoras
La diferencia mxima es 0,0267. Por encima de 35 datos, los valores crticos son: Existen varias calculadoras on line. Por ejemplo, en Error!Marcador no definido. se puede encontrar una pgina que permite entrar datos y frecuencias para calcular el tests KS. Para realizar el test KSL, en la misma web est la pgina: http://home.ubalt.edu/ntsbarsh/zero/LilliExpon.h tm

= 0, 20 = 0,15 = 0,10 = 0, 05 = 0, 01 0, 736 0, 768 0,805 0,886 1, 031 n n n n n


0,03291 0,03434 0,03600 0,03963 0.04611

Curso de estadstica

Vol. 1, nm. 6, Pg. 10

El test de KolmogorovSmirnov en
En el paquete nortest existe la funcin lillie.test cuya sintaxis ms simple sera:

que da como resultado:

Alternativamente puede utilizarse la funcin ks.test en la que debe mencionarse la disteribucin (pnorm) y sus parmetros (en el ejemplo, 100 y 10):

para obtener el resultado siguiente:

Curso de estadstica

Vol. 1, nm. 5, Pg. 11

Nuevos documentos en la web


carpetas subcarpetas
Presentaciones (Primera sesin, Bilbao)
EDA Descriptivo Muestreo Corelacin Regresin Variables Pres-curso Pres-Prob Pres-Muest Pres-Corr Pres-Regr Pres-EDA Pres-SPSS

ficheros existentes

(Segunda sesin, Madrid)

Mdulo 1

ANOVA INFERENCIA NO PARAMETRICA REGRESION TAMAO MUESTRAL Probabilidad Probabilidad ejercicios Probabilidad historia Probabilidad teora Variable aleatoria Variable ejercicios Variable notas Distribuciones Distribuciones teora Distribuciones ejercicios resueltos Distribucin ejercicios propuestos Distribucin ejercicios propuesto solucin Muestreo Muestreo ejercicios Muestreo notas Muestreo. Literatura (carpeta) Correlacin Correlacin notas Corr-Regr ej resueltos Corr-Regr ej propuestos Regresin Regresin notas Anlisis exploratorio de los EDA notas Anlisis exploratorio de los datos. Literatura (carpeta) datos Descriptivo Descriptivo-ejercicios propuestos- solucin Descr ej resueltos Descr ej propuestos Descr notas SPSS: DESC_ej1prop_SOLUCION.spo DESC_ej1prop_SOLUCION.SPS Ej1_PROP.xls EjA_Desc_prop_SOLUCION.spo EjA_Desc_prop_SOLUCION.SPS SPSS SPSS_ejemplo2.xls CORRELACION Y REGRESION ejemplo.xls coronari.xls cigarrete.xls CHb.xls BreastCancerSurvival.xls SyntaxEj_reg_Corr.SPS MODULO1.SPS CHB.SPS CHb.spo carboxiHb.sav SPSS.pdf

Curso de estadstica
carpetas
Mdulo 2

Vol. 1, nm. 6, Pg. 12


ficheros existentes

subcarpetas
Bondad de ajuste Estadstica robusta

Bondad de ajuste_notas_04_2007 Estadstica robusta_notas_03_2007 Tamao muestral_notas_04_2007 Tamao muestral Tamao muestral_ ejercicios resueltos__04_2007 Tamao muestral_ ejercicios propuestos_04_2007 Anlisis datos cualitativos_notas_03_2007 Anlisis de datos cualitativos Anlisis datos cualitativos_ejercicios resueltos_03_2007 Inferencia_notas_03_2007 Inferencia_ejercicios resueltos_04_2007 Inferencia_ejercicios propuestos_04_2007 Inferencia estadstica SPSS_Inferencia1_notas_03_2007 SPSS_Inferencia2_notas_03_2007 SPSS_Inferencia3_notas_03_2007 Contraste de variables Contraste de variables cuantitativas_notas_04_2007 Contraste de variables cuantitativas_ejercicios_04_2007 cuantitativas ANOVA Ejemplos de ANOVA con SPSS (Carpeta) del Boletin 1 Boletn 2 Boletin 3 Boletn 4 Boletn 5 Boletn 6 Mdulo 1

Mdulo 3 Mdulo 4 Boletn Curso

Ejercicios de evaluacin

You might also like