You are on page 1of 122

Apuntes de Bioestadstica

Dr. Jos A. Garca


Laboratorio de Biologa Terica
Posgrado e Investigacin
Universidad La Salle, Mxico
jgarcia@ci.ulsa.mx
31 de mayo de 2005
ndice general
ndice de Figuras 8
ndice de Cuadros 10
1. Introduccin a R 11
1.1. Ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.1. Ayuda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2. Vectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1. Redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.2. Comparacin de vectores . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.1. Renglones y columnas en matrices . . . . . . . . . . . . . . . . . . . . . . 16
1.3.2. Ecuaciones lineales con matrices . . . . . . . . . . . . . . . . . . . . . . . 16
1.4. Factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5. Data frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6. Importar y exportar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.1. Importar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.2. Exportar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2. Bioestadstica 20
1
2.1. Conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Tipos de estudios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3. Diseo experimental 23
3.1. Mtodos estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2. Hiptesis y experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3. Mxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4. Principio de parsimonia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5. Replicacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4. Tablas de Frecuencia 27
4.1. Datos discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2. Datos continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2.1. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2.2. Tablas de tronco y hojas . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2.3. Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5. Estadstica Descriptiva 33
5.1. Tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.1. La media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.1.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2. Variacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2
5.2.1. El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2.2. Suma de cuadrados (SS) . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.3. La varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.4. Desviacin Estndar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2.5. Error estndar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2.6. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2.7. Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6. Anlisis Grco 39
6.1. QQ-plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.2. Stripcharts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.3. Barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.4. Dotcharts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.5. Grcas con condiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7. Muestreo 46
7.1. Potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8. Probabilidad 48
8.1. Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.2. Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.3. Determinacin de resultados posibles . . . . . . . . . . . . . . . . . . . . . . . . 49
8.3.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
8.3.2. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3
8.4. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
8.5. Axiomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
8.6. Mxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
8.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
9. Distribucin Normal 55
9.1. reas bajo la curva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
9.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
9.3. Funcin de densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
9.4. Funcin de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
9.5. Cuantiles normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
9.6. Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
9.7. Teorema del lmite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
9.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
10. Estimacin 61
10.1. Intervalos de Conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
10.2. Distribucin t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
10.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
11. Bootstrap 63
11.1. Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
11.2. Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
11.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
12. Prueba de Hiptesis 66
12.1. Pruebas de una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4
12.2. Dos varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
12.3. Dos medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
12.3.1. Medias con varianzas diferentes . . . . . . . . . . . . . . . . . . . . . . . 70
12.3.2. Prueba de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . 71
12.4. Muestras pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
13. ANOVA 75
13.1. ANOVA sobre la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
13.2. Comparacin entre grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
13.2.1. Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
13.2.2. Comparacin por pares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
13.3. Pruebas no-paramtricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
13.3.1. Pruebas multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
14. Distribuciones discretas 80
14.1. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
14.2. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
14.2.1. Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
14.2.2. Riesgo reltativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
14.2.3. Relacin de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 82
14.2.4. Pruebas de
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
15. Regresin y Correlacin Lineal 85
15.1. Regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
15.1.1. Regresin en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
15.2. Correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5
16. Ajuste de modelos 89
16.1. Modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
16.1.1. Criterios de Informacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
16.1.2. Intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
16.1.3. Predicciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
16.2. Modelos No Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
16.2.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
17. Modelos matemticos 96
17.1. Modelos continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
17.1.1. Enfermedades infecciosas . . . . . . . . . . . . . . . . . . . . . . . . . . 96
17.1.2. Modelo Presa Depredador . . . . . . . . . . . . . . . . . . . . . . . . . 97
17.2. Modelos Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
17.2.1. Crecimiento y decaimiento exponencial . . . . . . . . . . . . . . . . . . . 99
17.2.2. Ecuacin logstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
17.2.3. Caos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
18. Anlisis de Sobrevivencia 104
18.1. Funciones de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
18.1.1. Funcin de densidad de muerte . . . . . . . . . . . . . . . . . . . . . . . . 105
18.1.2. Funcin de muerte acumulada . . . . . . . . . . . . . . . . . . . . . . . . 106
18.1.3. Funcin de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
18.1.4. Funcin de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
18.2. Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
18.2.1. Ejemplo con datos censurados . . . . . . . . . . . . . . . . . . . . . . . . 108
18.3. Modelo de Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6
18.3.1. Anlisis sin datos censurados . . . . . . . . . . . . . . . . . . . . . . . . . 110
18.3.2. Anlisis con datos censurados sin riesgo proporcional . . . . . . . . . . . . 111
19. Anlisis de Series de Tiempo 113
19.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
19.2. Anlisis preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
19.2.1. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
19.3. ACF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
19.4. FFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
19.4.1. Periodograma acumulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
19.4.2. Espectro de Potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
19.5. Mapas de retorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7
ndice de guras
4.1. Distribucin de grupos sanguneos . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2. Distribucin de concentraciones de hemoglobina . . . . . . . . . . . . . . . . . . 31
5.1. Boxplot de las concentraciones de hemoglobina. . . . . . . . . . . . . . . . . . . . 38
6.1. Grcas de alturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.2. Stripcharts del gasto energtico de mujeres . . . . . . . . . . . . . . . . . . . . . . 41
6.3. Tasas de mortalidad de Virginia en 1940 . . . . . . . . . . . . . . . . . . . . . . . 43
6.4. Tasas de mortalidad en Virgina por grupo etreo. . . . . . . . . . . . . . . . . . . 43
6.5. Coplot de contaminacin, temperatura y lluvia . . . . . . . . . . . . . . . . . . . . 44
9.1. Distribuciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
13.1. Spaghetigrama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
14.1. Capacidad vital baja en fumadores y no fumadores. . . . . . . . . . . . . . . . . . 84
16.1. Comparacin de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . . 90
16.2. Registro de tiempo de luz solar en Boston. . . . . . . . . . . . . . . . . . . . . . . 93
16.3. Efecto de las transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
17.1. Simulacin del modelo SIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
17.2. Modelo Lotka-Volterra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8
17.3. Simulacin de ecuacin exponencial discreta . . . . . . . . . . . . . . . . . . . . 100
17.4. Simulacin de la ecuacin logstica . . . . . . . . . . . . . . . . . . . . . . . . . . 102
17.5. Mapas de retorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
17.6. Mapa de bifurcacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
18.1. Funciones de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
18.2. Anlisis de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
19.1. ACF de series estudiadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
19.2. FFT de series estudiadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
19.3. Periodograma acumulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
19.4. Espectros de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
19.5. Mapas de retorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9
ndice de cuadros
1.1. Funciones para vectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1. Pruebas sugeridas, segn tipo de variables . . . . . . . . . . . . . . . . . . . . . . 24
4.1. Tabla de frecuencias de grupos sanguneos en el saln 491 de QFB. . . . . . . . . 27
4.2. Concentracin de hemoglobina de mineros (g/cc). . . . . . . . . . . . . . . . . . . 29
4.3. Tabla de frecuencias de concentraciones de hemoglobina de mineros (g/cc). . . . . 30
5.1. Presin sistlica de varones adultos jvenes (mmHg) . . . . . . . . . . . . . . . . 38
6.1. Gasto energtico de mujeres por complexin. . . . . . . . . . . . . . . . . . . . . 40
8.1. Probabilidad de muerte por dcadas. . . . . . . . . . . . . . . . . . . . . . . . . . 52
12.1. Estadsticas de Mann-Whithney . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
13.1. Anlisis de varianza de cuatro dietas experimentales . . . . . . . . . . . . . . . . . 76
14.1. Asociacin entre fumadores y capacidad vital baja . . . . . . . . . . . . . . . . . . 82
18.1. Muertes por ebre escarlata por grupo etreo. . . . . . . . . . . . . . . . . . . . . 105
18.2. Tiempo de sobrevivencia (meses) de un estudio clnico . . . . . . . . . . . . . . . 107
18.3. Clculo de la sobrevivencia acumulada para los primeros meses del Cuadro 18.2 . . 108
10
Captulo 1
Introduccin a R
1.1. Ambiente
La ltima versin de R se puede bajar de Internet de la pgina web del CRAN. Existen dos tipos
de distribuciones del software, la binaria (binaries) y las fuentes (source). Si se va a instalar en un
ambiente de Windows se recomienda la binaria (ejecutable).
R es un software cientco que provee de un ambiente para poder hacer diferentes operaciones
matemticas incluidas las estadsticas. Dado que es un ambiente de programacin de distribucin
gratuita, su interaccin es a travs de lnea de comando en lugar de mens (como suele usarse en
programas comerciales como Excel). Este tipo de interaccin, aunque es menos amigable, suele
ser ms rpida una vez que se conocen los diferentes comandos.
El objetivo de este captulo es dar una pequea introduccin de R para que su uso sea ms ptimo
en la implementacin de las tcnicas estadsticas que se presentan en captulos posteriores.
Cuando se abre R, buscar archivos (cuando as se le requiera) en el folder en que fue instalado.
En este sentido, es recomendable tener todos los archivos de datos que se vayan a emplear en un
directorio especial e indicar a R que ese ser nuestro directorio de trabajo. Supongamos que crea-
mos un folder llamado biostat donde se guardarn todos nuestros archivos. En R existe una funcin
dentro del men que permite cambiar el directorio de trabajo; esta funcin es Change working
directory. Es muy importante inicializar cada sesin con esta funcin para evitar confusiones
posteriores.
Hay ocasiones en que se pueden estar usando muchas variables. Para ver las variables que se han
asignado puede teclearse ls(). Cuando se quiere borrar una variable en concreto (e.g. la variable x)
se usa el comando rm(x). Para evitar confusiones, puede ser conveniente eliminar todas las varia-
bles de la memoria. Para hacer esto se puede buscar la funcin Clear workspace que se encuentra
disponible en el men, o bien se puede teclear rm(list = ls()).
11
1.2. VECTORES CAPTULO 1. INTRODUCCIN A R
1.1.1. Ayuda
Para ver algunas demostraciones de cmo funciona R se puede escribir demo() con lo cual se
abrir una ventana con las demostraciones disponibles. Para ver una en concreto, slo es necesario
escribir el nombre correspondiente dentro del parntesis, por ejemplo: demo(graphics)
La ayuda sobre los comandos o funciones se puede obtener con: hel p( f un) o bien con: ? fun
donde f un es la funcin sobre la que se quiere obtener ayuda. Por ejemplo: hel p(mean)
Cuando se quiere introducir un comando que se ha escrito recientemente, es posible ahorrar
tiempo usando la tecla que permite ir retrocediendo en la historia de lo que se ha escrito.
1.2. Vectores
R puede usarse como una simple calculadora. La jerarqua de las operaciones algebraicas es la
misma (por ejemplo, la multiplicacin precede a la adicin). Para la asignacin de una variable se
utiliza una echa en lugar del signo de igual. Esta echa se escribe con el signo de menor que
con un signo menos junto a l. Es importante que no existan espacios entre estos dos signos. A
manera de ejemplo, si queremos establecer que x = 5 entonces escribimos:
x < 5
y damos enter. Los nombres de las variables pueden ser de cualquier longitud; no deben tener
espacios ni guiones; deben comenzar siempre con una letra; pueden contener nmeros y puntos.
Hay que hacer nfasis en que las variables minsculas son diferentes a las maysculas, es decir, a
es diferente de A. Debe procurase asignar variables que tengan sentido para el trabajo que se est
desarrollando, para evitar confusiones posteriores (por ejemplo: pesos.mujeres).
Existen ciertos caracteres que tienen un valor preasignado, por lo que debe evitarse su uso como
variable. Los que no son obvios son: c, q, t,C, D, F, I, T. Los dems describen funciones como:
log, di f f , d f , etc.
El poder de este tipo de paquetes reside en su capacidad para realizar operaciones vectoriales
(adems de las escalares). Para la generacin de vectores suele usarse la concatenacin que se
establece con el comando c:
alturas < c(1.71, 1.75, 1.8, 1.65, 1.74, 1.91)
En caso de que en el vector se quieran guardar valores no numricos (de caracteres), estos deben
escribirse entre comillas. Pueden usarse comillas sencillas o dobles, sin embargo, en el caso de
los teclados en espaol, no suele estar disponible la comilla sencilla, ya que se utiliza el acento
(que no es el mismo caracter). En este sentido, es preferible utilizar las comillas dobles para evitar
problemas. Ejemplo:
12
1.2. VECTORES CAPTULO 1. INTRODUCCIN A R
nombres < c(miriam,marcela,karen,carlos,enrique)
Existen ocasiones, en que se quieren generar secuencias de nmeros. En estos casos es ms
rpido generarlas como se muestra en los siguientes ejemplos:
1:10 es la secuencia 1, 2, 3, ..., 10
seq(1,10,0.1) es la secuencia 1, 1.1, 1.2, 1.3, ...,10
numeric(10) genera un vector con 10 ceros
character(10) genera un vector con 10 espacios ( )
rep(1,10) genera un vector con 10 unos
El nmero de elementos que tiene un vector puede obtenerse con la funcin length(x) donde x
representa la variable aleatoria que contiene al vector. Cuando se utilizan operaciones algebraicas,
estas afectan a cada uno de los elementos que contiene el vector, lo que puede simplicar los
clculos. Un ejemplo clsico en estadstica es la suma de cuadrados (SS). Esta operacin est
denida como:
SS =
n

i=1
(x
i
x)
2
(1.1)
x representa la media aritmtica (promedio) de x. La eq. 1.1 indica que a cada elemento del vector
x hay que restarle su media y su resultado elevarlo al cuadrado y nalmente sumar cada uno de
los valores obtenidos. Dado que esta frmula es de suma importancia en estadstica, se explicar a
continuacin, paso a paso, siguiendo un ejemplo.
Suponga que usted tiene el vector:
pesos <c(55,32, 66,27, 64,25, 59,48, 44,32, 72,8, 66,36, 55,23)
El nmero de elementos n del vector es: n <length(pesos) y su media aritmtica es: media <
mean(pesos) cuyo valor numrico es 60.50. La operacin que se requiere hacer es:
(55.3260.5)
2
+(66.2760.5)
2
+ +(55.2360.5)
2
Esta operacin puede hacerse en un paso de la siguiente manera: sum((pesos-media)2). En
el Cuadro 1.1 se presenta una pequea lista de las principales funciones que pueden aplicarse a
vectores.
En ocasiones es necesario seleccionar ciertos valores del vector original que cumplan con cierta
condicin lgica. Por ejemplo, podramos querer saber qu valores tienen un peso mayor a 60 kg.
13
1.2. VECTORES CAPTULO 1. INTRODUCCIN A R
Cuadro 1.1. Funciones para vectores.
Funcin Operacin
max(x) valor mximo en el vector x
min(x) valor mnimo en el vector x
sum(x) sumatoria de valores en x
mean(x) media aritmtica de x
median(x) mediana de x
range(x) rango de x (valor menor y valor mayor)
round(x) valores redondeados de x
var(x) varianza de x
sd(s) desviacin estndar de x
sort(x) el vector x ordenado de menor a mayor
summary(x) cuartiles, media, valor mnimo y mximo
sample(x, y) muestra aleatoria de tamao y n de x
En este caso se pueden hacer dos preguntas, la primera sobre qu valores son mayores a 60 y la otra
sobre cules son esos valores. En el primer caso tendramos las posiciones de los valores y en el
segundo el valor numrico. Para saber las posiciones (primer caso) se escribe: which(pesos > 60)
y para tener los valores (segundo caso) se escribe: pesos[pesos > 60]
1.2.1. Redondeo
Existen 3 funciones de redondeo en R. La ms clsica es round, donde la regla de redondeo es
dar el valor entero original cuando el primer decimal es menor a 5 o el valor entero superior si el
primer decimal es igual o mayor a 5. La funcin f loor redondea olvidndose de los decimales,
mientras que la funcin ceiling redondea al entero siguiente.
1.2.2. Comparacin de vectores
Existen diversas funciones que nos permiten comparar los elementos de dos vectores. Primero
vamos a generar dos vectores con nmeros aleatorios enteros, distribuidos de manera uniforme
entre 1 y 10. A estos vectores les vamos a asignar las variables x1 y x2. Dado que se generarn
nmeros aleatorios, los resultados sern diferentes en cada caso.
x1 <round(runi f (7, min = 1, max = 10))
x2 <round(runi f (9, min = 1, max = 10))
En nuestro caso, x1 contiene los siguientes valores: (6, 10,2, 4, 8, 10, 8) mientras que x2 contiene
14
1.3. MATRICES CAPTULO 1. INTRODUCCIN A R
a: (6, 5, 8, 8, 3, 2, 5, 4, 1). Si se quiere saber cules valores se encuentran en ambos vectores se
escribe: intersect(x1, x2), que en nuestro caso da los valores 6, 2, 4, 8. Note que se obtienen valores
nicos.
Para saber los valores que estn en x1 y no en x2 se escribe: setdi f f (x1, x2), mientras que para
saber los que estn en x2 y no en x1 se escribe setdi f f (x2, x1)
1.3. Matrices
Las matrices son arreglos de nmeros en dos dimensiones. Aunque en R es posible realizar ope-
raciones aritmticas sobre matrices, su utilidad en estadstica radica en su capacidad para contener
tablas de datos de una manera ordenada. Existen diferentes maneras de poder construir matrices.
Una es mediante la funcin dim que establece las dimensiones (renglones,columnas) de una matriz.
Por ejemplo, si se quiere hacer una matriz de 3 x 4 con los primeros 12 nmeros enteros se teclea:
x <1 : 12
dim(x) <c(3, 4)
x
Otra manera es mediante la funcin matrix donde se introducen primero los datos, despus el
nmero de renglones y nalmente si los datos se estn introduciendo por renglones o por columnas.
Para esta ltima opcin, se utiliza el comando byrow = al que se le asigna el valor lgico de
TRUE o FALSE (debe escribirse en maysculas), el cual puede denirse usando slo la primera
letra. Por ejemplo, para generar la misma matriz que en el caso anterior, se teclea: z <matrix(1 :
12, nrow = 3, byrow = F). En este caso el valor de FALSE es el default, por lo que puede omitirse
de la instruccin.
La tercera opcin es mediante la unin de varios vectores previamente asignados, para lo cual
pueden usarse las funciones cbind (por columnas) o rbind (por renglones). Siguiendo el mismo
ejemplo:
x1 <1 : 3
x2 <4 : 6
x3 <7 : 9
x4 <10 : 12
matriz.x <cbind(x1, x2, x3, x4)
Para obtener la matriz traspuesta del ejemplo anterior se teclea: transp.x < t(matriz.x).
15
1.3. MATRICES CAPTULO 1. INTRODUCCIN A R
1.3.1. Renglones y columnas en matrices
Una vez que se tiene una matriz, es posible que se desee hacer alguna operacin sobre slo
algunas columnas, o menos frecuente, sobre algunos renglones. En estos casos, es importante saber
como se identican cada uno de ellos.
Siguiendo los ejemplos anteriores, se crearon 4 matrices, que estn contenidas en las variables x,
z, matriz.x y transp.x. En los primeros 3 casos, los nombres de cada rengln son iguales. Regre-
sando al ejemplo de dim, recordemos que las dimensiones de una matriz estn dadas en renglones
x columnas. En este sentido, si se quiere saber el valor que se encuentra en el segundo rengln,
tercera columna se puede teclear, por ejemplo: z[2, 3] que corresponde al 8. Cuando se quieren
tener todos los valores, se teclea una coma. De esta manera, si se quieren saber todos los valores de
la segunda columna se puede teclear: z[, 2], mientras que si se quieren todos los valores del tercer
rengln, se puede teclear z[3, ].
En los ejemplos que presentamos, las columnas de matriz.x ya estn nombradas, por lo que si se
quieren todos los valores de la primera columna, simplemente se teclea: matriz.x[x1].
Para asignar nombres a renglones y columnas que no estn previamente identicadas (se ver su
importancia en las tablas de contingencia), se utilizan las funciones rownames y colnames respec-
tivamente. Por ejemplo: rownames(z) < c(ren1,ren2,ren3). Debe tenerse precaucin, de
que en este caso, a pesar de que se asignaron nombres a los renglones, no se encuentra denida la
variable z[ren1] como en el caso anterior.
1.3.2. Ecuaciones lineales con matrices
R tiene la capacidad de resolver sistemas de ecuaciones lineales usando matrices. Esta es una
capacidad que no ser utilizada en el curso de bioestadstica, pero que se presenta para su posible
uso.
Suponga que tiene el siguiente sistema de ecuaciones:
3x +4y = 12 (1.2)
x +2y = 8 (1.3)
Para resolver este sistema de ecuaciones, primero es necesario ordenar cada ecuacin, como se
presenta en las Ec. 1.2 y 1.3. Posteriormente se denen dos matrices. La primera a contiene a los
coecientes de las variables, mientras que la segunda vc contiene los valores conocidos. Finalmente
se utiliza la funcin solve, como se presenta a continuacin:
16
1.4. FACTORES CAPTULO 1. INTRODUCCIN A R
a <matrix(c(3, 1, 4, 2), nrow = 2)
vc <matrix(c(12, 8), nrow = 2)
solve(a, vc)
1.4. Factores
Como se mencionar posteriormente, existen variables de tipo categrico. Este tipo de variables,
aunque no son numricas, tienen jerarqua entre ellas. Por ejemplo, supongamos que queremos
cuanticar el dolor de alguna manera. Una manera sera por los trminos: nada, poco, medio
y mucho.
Este tipo de variables deben especicarse en R como factores. Existen diversos tipos de an-
lisis, donde es indispensable identicar que las variables son factores. Dentro de R, los factores
contienen niveles (levels). Siguiendo el ejemplo anterior, si la variable dolor contiene los ele-
mentos descritos anteriormente, entonces, contiene 4 niveles. A continuacin se presenta la manera
en que se denen los factores, as como la manera en que se les puede asignar niveles ordenados:
dolor <c(0, 3, 2, 2, 1)
dolor. f ac <f actor(dolor, levels = 0 : 3)
levels(dolor. f ac) <c(nada, poco, medio , mucho)
El primer comando genera el vector numrico dolor que contiene los niveles de dolor en la escala
que denimos, para cinco pacientes. Mediante el segundo comando se dene que estas variables
son categricas y que contienen 4 niveles. Mediante el ltimo comando se indica el orden al que
corresponde, en nuestra escala, cada nivel.
1.5. Conjuntos de datos (Data frames)
Los conjuntos de datos o data frames en R son listas de vectores o factores de la misma longitud
que se encuentran relacionados entre ellos (se dicen que estn pareados), de tal manera que
provienen del mismo individuo experimental.
Este tipo de listas es muy usado en R, dada su frecuencia en los anlisis estadsticos. Por ejemplo,
cuando se importan datos de otras fuentes (ver ms adelante), estos quedan asignados a variables
de tipo data frame.
Suponga que quiere estudiar el efecto de un nuevo hipoglucemiante en un modelo experimental.
En su diseo inicial, slo quiere saber si su frmaco es capaz de disminuir las concentraciones
sanguneas de glucosa en ratones, por lo que Ud. la mide antes y digamos 3 horas despus de
17
1.6. IMPORTAR Y EXPORTAR CAPTULO 1. INTRODUCCIN A R
aplicar el frmaco. Vamos a suponer que las concentraciones normales de glucosa en sangre en el
ratn son similares a las del humano. En su experimento Ud. utiliza ratones de la cepa NOD (non
obese diabetic) que bajo condiciones normales tienen concentraciones altas de glucosa. Con estos
antecedentes, vamos a suponer que los resultados corresponden a los valores que presentamos a
continuacin, donde primero asignamos los datos a las variables hipo.antes e hipo.despues, para
nalmente denir el conjunto de datos en la variable exp:
hipo.antes <c(143, 161, 115, 200, 180, 167)
hipo.despues <c(127, 138, 80, 175, 172, 133)
exp <data. f rame(hipo.antes, hipo.despues)
En el caso de data frames el acceso a cada vector es mediante el signo de pesos, de tal manera
que si se quieren los valores de la primera columna, debe teclearse exp$hipo.antes. Por ejemplo,
si se quieren obtener los valores de la diferencia entre los dos vectores (que en este caso pueden
ser atribuibles a la accin del medicamento), se teclea: exp$hipo.antes exp$hipo.despues.
1.6. Importar y exportar
1.6.1. Importar
Suele ser muy frecuente que la gente desee conservar una base de datos en hojas de clculo (como
Excel) y que sobre estos datos desee realizar ciertas estadsticas. Aunque hay muchas operaciones
estadsticas que pueden realizarse directamente en Excel, hay que recordar que Excel no es un
paquete estadstico, sino una hoja de clculo.
Si se quieren importar bases de datos en R, estos tienen que estar guardados en formato de texto
delimitado por tabulaciones, lo cual puede hacerse desde Excel o mediante un editor de texto (e.g.
Notepad). Se recomienda que ni el nombre del archivo, ni el de las columnas contenga: nombres
muy largos; espacios; acentos; smbolos diferentes al punto. Esto puede evitar muchos problemas
posteriores.
Si se trabaja en Excel para Windows, es necesario hacer notar que por default, al salvar el docu-
mento en formato de texto con tabulaciones, se le anexa la terminacin txt, aunque sta no es
visible para el usuario. Por ejemplo, supongamos que metemos los datos correspondientes a los
experimentos con el hipoglucemiante en un archivo de Excel al que llamaremos: hipo. Suponga-
mos, tambin, que la primera columna se llama antes y que la segunda se llama despues. Al
guardar el archivo en formato texto denimos el nombre hipo, con lo que quedar guardado
como hipo.txt. En el caso de ambiente Macintosh esto no ocurre, por lo que resulta ms exible
y accesible la denicin de los nombres a los archivos.
Una vez guardada, se puede cargar este archivo en la variable exp mediante el comando
read.table. En este caso, dado que nombramos a las columnas, se indica de manera explcita que
18
1.6. IMPORTAR Y EXPORTAR CAPTULO 1. INTRODUCCIN A R
nuestro archivo contiene encabezados:
exp <read.table(hipo.txt, header = T)
Mediante names(exp) podemos ver los nombres de nuestras columnas, sin embargo, dado que
exp es de tipo data frame, los nombres de las variables son: exp$antes y exp$despues. Si se quie-
re declarar como variables a nuestros nombres de columnas, entonces se usa el comando attach,
en este caso, attach(exp), con lo que quedan denidas las variables antes y despues.
En caso de que no se hayan incluido los encabezados, el archivo se carga con: exp < read.table
(hipo.txt) que contiene a los vectores: V1 yV2. Por tanto, el nombre de las variables son: exp$V1
y exp$V2.
1.6.2. Exportar
Tambin es posible exportar tanto datos como grcas de R. En el caso de grcas lo ms comn
es seleccionar la ventana de la grca, y posteriormente buscar en el men la opcin de Save as
que en el caso de Windows presenta las opciones tanto de formato jpg como de formato pdf. En
el caso de Windows se recomienda el primero por su facilidad para ser insertado en documentos,
aunque su calidad no sea buena. Cuando se quiere una grca de excelente calidad, se recomienda
generar un archivo tipo eps, del que se pueden obtener archivos pdf (ver ms adelante en el Captulo
4). Para publicaciones, suelen preferirse este tipo de archivos.
Tambin es posible exportar vectores (datos) en formato de texto. Para esto, es necesario ex-
portar la transpuesta de la matriz, e indicar el nmero de columnas que se desean exportar. Por
ejemplo, supongamos que la variable guela es un data frame con 10 columnas que se quiere ex-
portar en el archivo guela.txt la instruccin correspondiente es: write(t(guela), le=guela.txt,
ncolumns=10). Este archivo se generar en el directorio en el que estemos trabajando (working
directory).
19
Captulo 2
Introduccin a la Bioestadstica
2.1. Conceptos
Estadstica descriptiva: proporciona herramientas para el anlisis y comprensin de datos.
Estadstica inferencial: busca obtener conclusiones que puedan ser aplicadas a otros casos
(prediccin).
Al proponer un modelo conceptual del proceso de una enfermedad, se deben considerar los si-
guientes periodos:
Induccin o incubacin: tiempo que transcurre entre la causa de la enfemedad y la aparicin
de la misma.
Latencia: tiempo entre el comienzo de una enfermedad y su diagnstico.
Tratamiento: usualmente comienza una vez diagnosticada la enfermedad.
Enfermedad: abarca los perodos de latencia y tratamiento.
Para hacer un buen diseo experimental, debe estimarse el nmero de personas con el factor de
riesgo o la enfermedad. En este sentido, surgen estos dos conceptos epidemiolgicos:
Prevalencia: proporcin de personas en una poblacin que presentan la enfermedad.
Tasa de incidencia: nmero de nuevos casos que presentan una enfermedad en un tiempo
determinado (usualmente anual), entre la suma del total del tiempo en que cada individuo de
la poblacin se encuentra libre de enfermedad.
20
2.2. TIPOS DE ESTUDIOS CAPTULO 2. BIOESTADSTICA
Por otra parte, el reporte de las variables medidas requiere de los siguientes conceptos:
Exactitud. Hace referencia a la cercana con la que se encuentra la medicin realizada con el
valor real de la variable medida.
Precisin. Hace referencia a la cercana con que se encuentran un conjunto de mediciones
realizadas sobre la misma variable.
Cifras signicativas. Es el nmero de cifras (decimales) que deben considerarse al reportar
un dato o medicin. Por convencin el valor que se reporta representa el punto medio de un
rango implcito cuyo tamao esta dado por el ltimo decimal. Por ejemplo, 8 cm implica un
rango de 1 cm; 8.3 cm implica un rango de 0.1 cm; 8.32 cm implica un rango de 0.001cm
2.2. Tipos de estudios biomdicos
1. Encuestas o estudios transversales. La observacin o medicin se realiza una sla ocasin,
por lo que los resultados corresponden a un perodo de tiempo.
2. Experimentos. Implica la manipulacin de variables independientes para determinar su efec-
to en variables dependientes, bajo una situacin de control. De manera tpica, una muestra
se divide en por lo menos dos grupos, el experimental y el control. El grupo control pue-
de no llevar tratamiento, un tratamiento placebo o un tratamiento estndar, que es til para
propsitos de comparacin. La asignacin a cualquiera de los grupos debe ser aleatoria.
3. Estudios clnicos (clinical trials). Es un tipo de experimentos en donde los sujetos de estudio
son pacientes (padecen alguna enfermedad). Usualmente se evala la ecacia y/o toxicidad
de un tratamiento determinado.
4. Estudios de campo (eld trials). Se realizan con sujetos que no son pacientes, lo que requiere
frecuentemente reclutar voluntarios en una comunidad especca. Un ejemplo clsico son los
estudios de Fase III de las vacunas.
Tanto en los estudios clnicos como en los de campo, se busca que el sujeto desconozca lo
que se le est aplicando, y que de ser posible, la persona que est en contacto directo con los
sujetos tambin lo desconozca. Esto disminuye un error, que en estadstica se conoce como
sesgo (bias). Estos estudios se conocen como doble ciego.
5. Estudios prospectivos. En estos estudios, no se aplica tratamiento. Los ms comunes son
del tipo de panel donde se toman mediciones repetidas sobre los mismos individuos en un
determinado perodo de tiempo.
6. Estudio de casos. Se estudian casos de pacientes que ya fueron diagnosticados con la enfer-
medad, y se busca encontrar la causas probables que la pudieron ocasionar.
21
2.3. TIPOS DE DATOS CAPTULO 2. BIOESTADSTICA
2.3. Tipos de datos biolgicos
1. Datos en una escala de relacin. Independientemente de las unidades que se utilicen para
estos datos numricos, deben tener las siguientes dos caractersticas:
a) Existe un tamao constante entre intervalos idnticos de medicin.
b) La escala contiene un cero con signicado fsico.
2. Datos en una escala de intervalo. En estos casos, se mantiene el intervalo constante, pero la
escala carece de un cero verdadero. El ejemplo clsico, son las escalas de temperatura en
grados Celsius o Fahrenheit.
3. Datos en una escala ordinal. Las mediciones son relativas entre los datos, de modo que se
establece un orden: pequeos, medianos, altos.
4. Datos en una escala nominal. Son datos que se clasican con base a un parmetro cualitativo
en lugar de cuantitativo. La variable suele llamrsele atributo
Asimismo, los datos o variables pueden ser:
1. Continuos. Si existe siempre un valor posible entre otros dos valores.
2. Discretos.
2.4. Problemas
1. Proponga un ejemplo del rea de ciencias biomdicas, para cada uno de los tipos de estudios.
Considere la pertinencia de grupos control en sus ejemplos.
2. Calcule la prevalencia y tasa de incidencia de una enfermedad en una comunidad en parti-
cular.
22
Captulo 3
Diseo experimental
Existen libros completos dedicados slo al diseo experimental. En este captulo se presenta una
breve introduccin de tipo conceptual, mientras que en el Captulo 13 se presentan algunas tcnicas
para su implementacin.
3.1. Mtodos estadsticos
La estadstica proporciona un conjunto de herramientas matemticas muy poderosas que nos
permiten obtener conclusiones concretas de nuestras hiptesis experimentales. Lamentablemente,
es necesario saber el tipo de prueba que es apropiado tanto para el tipo de datos que se tienen,
como para contestar la pregunta original. Es posible obtener conclusiones diferentes si las tcnicas
empleadas no son las adecuadas.
Existen algunas guas tiles para determinar el tipo de prueba que se debe aplicar. Primero es
necesario que se contesten este tipo de preguntas:
Cules son las variables de respuesta (dependientes)?
Cules son las variables que explican (independientes)?
Las variables que explican son continuas, categricas o una mezcla de ambas?
Qu clase de variable de respuesta se tiene? Es una medicin continua, una cuenta, una
proporcin, tiempo, tiempo de muerte o una categora?
Las respuestas a estas preguntas pueden guiarnos a seleccionar el tipo de mtodo. El siguiente
paso consiste en determinar si se puede utilizar alguna prueba clsica, o si se requiere llevar a
cabo una modelacin estadstica ms complicada. Hay que hacer nfasis en que no tiene caso llevar
a cabo un anlisis ms elaborado del que se requiere. Dentro de las pruebas clsicas se tienen:
23
3.2. HIPTESIS Y EXPERIMENTOS CAPTULO 3. DISEO EXPERIMENTAL
Pruebas de una muestra sobre la media (e.g. t de Student)
Pruebas de dos muestras sobre la media (e.g. Mann-Withney)
Pruebas de dos muestras sobre la varianza (e.g. Fisher)
Pruebas de correlacin (e.g. Spearman)
Tablas de contingencia (e.g.
2
)
Comparacin de distribuciones (e.g. Kolmogorov-Smirnov)
Es de suma importancia identicar los tipos de variables que se tienen. En el Cuadro 3.1 se
presenta una gua breve que puede ser muy til en la identicacin de las tcnicas que se seguirn,
y que se explican en los captulos correspondientes.
Cuadro 3.1. Pruebas sugeridas, segn tipo de variables
Var. dependiente Var. independiente Prueba
1 continua 1 categrica Pruebas de 2 muestras sobre la media
2 o ms continuas 1 categrica ANOVA
2 o ms continuas 2 o ms categricas Anlisis multivariado
proporcin o cuenta proporcin o cuenta Tablas de contingencia
1 continua 1 continua Regresin
2 continuas Correlacin
Tiempo Anlisis de series de tiempo
Tiempo de un evento Anlisis de sobrevivencia
3.2. Hiptesis y experimentos
Vamos a considerar como un experimento verdadero a la manipulacin de variables indepen-
dientes, bajo una situacin de control, para determinar su efecto sobre las variables dependientes.
A lo largo del curso se ver la importancia de contar con los controles adecuados para poder llegar
a conclusiones vlidas. En el diseo experimental es indispensable contar con un buen control
negativo. En ocasiones, tambin ser conveniente considerar algn tipo de control positivo.
Dado que para ser considerado un experimento verdadero se requiere de por lo menos un grupo
control y un grupo experimental, tanto la eleccin de los sujetos de estudio, como su asignacin a
cada grupo, debe ser totalmente aleatoria. Estos conceptos se vern con ms detalle en el Captulo
7.
24
3.3. MXIMA VEROSIMILITUD CAPTULO 3. DISEO EXPERIMENTAL
En el caso de las hiptesis, el planteamiento adecuado de sta representa un paso relevante del
diseo experimental. De hecho, es tan importante este aspecto que se le dedica un captulo a la
prueba de hiptesis. Aqu solo se dar una pequea introduccin al concepto de hiptesis nula.
Karl Popper fue un lsofo de la ciencia que estableci que una buena hiptesis es aquella que
puede ser rechazada. En sus trminos, las mejores hiptesis son f alseables. Para aclarar esto,
considere las siguientes dos hiptesis:
1. Hay vboras en el parque de la colonia.
2. No hay vboras en el parque de la colonia.
Ambas involucran esencialmente la misma idea, sin embargo, una es falseable y la otra no lo
es. Supongamos que trata de rechazar la primera hiptesis, y desarrolla un recorrido por el parque
buscando vboras. El hecho de que no vea a ninguna, no implica que no estn por algn lado es-
condidas. Recuerde que una de los principios ms importante en ciencia establece que la ausencia
de evidencia no es evidencia de ausencia.
El caso de la segunda hiptesis es completamente diferente. Esta hiptesis se puede rechazar en
el momento en que Ud. vea a la primera vbora en el parque. Es decir, se trabaja bajo el supuesto de
esta hiptesis es verdadera, hasta que se demuestre lo contrario. Este tipo de hiptesis se conocen en
estadstica como hiptesis nula, y las tcnicas han sido desarrolladas para ver si se puede rechazar
o no a estas hiptesis. Note que es muy probable, que Ud. est ms familiarizado con las otras
hiptesis (alternas).
3.3. Mxima verosimilitud
El objetivo de la modelacin estadstica es determinar los valores de los parmetros en un modelo
especco, que nos permitan realizar el mejor ajuste de ste a los datos experimentales. Las tcnicas
empleadas deben llevar a la determinacin de estimadores insesgados (sin sesgo) que minimicen
la varianza. En estos casos, el concepto mejor se dene en trminos de la mxima verosimilitud
(maximum likelihood).
La mxima verosimilitud opera de la siguiente manera: dados una serie de datos y un modelo
de eleccin, cules son los valores de los parmetros del modelo que pueden predecir con mayor
probabilidad los datos observados?
3.4. Principio de parsimonia
El principio de parsimonia se le atribuye al lsofo ingls William de Occam, por lo que a
este principio, tambin se le conoce coloquialmente como la rasuradora de Occam, dado que
25
3.5. REPLICACIN CAPTULO 3. DISEO EXPERIMENTAL
se dice que se afeitan las explicaciones al mnimo. Occam insista en que, dadas un conjunto
de explicaciones posibles para un fenmeno dado, la correcta es la ms simple. En modelacin
estadstica el principio de parsimonia implica que:
los modelos deben tener el menor nmero de parmetros posible
se deben preferir los modelos lineales a los modelos no lineales
se deben preferir los experimentos basados en pocas suposiciones, a los experimentos basa-
dos en muchas
los modelos deben llevarse hasta un mnimo adecuado
se deben preferir las explicaciones simples a las explicaciones complejas
3.5. Replicacin
El requerimiento de replicacin surge debido a que si se realiza el mismo experimento en indivi-
duos diferentes, es muy probable que se tengan repuestas diferentes. La causa de la heterogeneidad
es muy variada e incluye: genotipo, edad, sexo, clima, historia, etc. El objetivo de la replicacin
es, por tanto, aumentar la conabilidad de los parmetros estimados y permitirnos cuanticar la
variable de estudio. Para ser considerado como una rplica, las mediciones deben:
ser independientes
no deben formar parte de una serie de tiempo (datos colectados del mismo lugar, en dife-
rentes ocasiones)
no deben estar agrupados en el mismo lugar (en cuyo caso no seran espacialmente indepen-
dientes)
Cuntas rplicas son necesarias? La respuesta ms comn es todas las que se puedan obtener.
Una respuesta alternativa son 30. Sin embargo, esta regla no siempre opera. Dados los costos que
puede implicar procesar un nmero de muestras muy grande, se han desarrollado herramientas
estadsticas que permiten establecer el nmero mnimo de muestras que se requieren para poder
rechazar una hiptesis en concreto. Estas herramientas se presentan en el Captulo 7.
26
Captulo 4
Tablas de Frecuencia
4.1. Datos discretos
Cuando se recolecta una catidad relativamente grande de datos, suele ser ms sencillo, presentar-
lo en forma de una tabla de frecuencias. Cuando se tienen datos ordinales o nominales, se muestran
todas las variables observadas con el nmero correspondiente de observaciones. Estos datos pue-
den presentarse tambin en grcas de barras, donde la altura de cada barra es proporcional a la
fecuencia de la clase (grupo) representada. El grosor de las barras debe ser el mismo para todos los
casos, de modo tal que el rea de cada barra tambin es proporcional a su frecuencia. Debe hacerse
notar que la escala de las frecuencias en el eje vertical debe comenzar siempre en cero para evitar
aumentar diferencias aparentes entre las barras.
A manera de ejemplo se gracan los datos del Cuadro 4.1 en la Fig. 4.1. Note la estructura y
formalismo tanto de la tabla como de la gura. Dado que se trata de datos discretos, las barras
deben estar separadas entre ellas.
Cuadro 4.1. Tabla de frecuencias de grupos sanguneos en el saln 491 de QFB.
Grupo sanguneo Nmero Frecuencia relativa Frecuencia acumulada
O 27 0.61 0.61
A 10 0.23 0.84
B 5 0.11 0.95
AB 2 0.05 1.00
Para generar la grca del panel (a) en R se escribieron los siguientes comandos:
x < c(0,A,B,AB)
27
4.1. DATOS DISCRETOS CAPTULO 4. TABLAS DE FRECUENCIA
O A B AB
(a)
Grupo
C
u
e
n
t
a
0
5
1
0
1
5
2
0
2
5
A AB B O
(b)
Grupo
F
r
e
c
u
e
n
c
i
a
0
.
0
0
.
2
0
.
4
0
.
6
Figura 4.1. Distribucin de grupos sanguneos en el grupo 491 de QFB. En (a) se muestran los
datos totales y en (b) se muestra su frecuencia relativa.
y < c(27,10,5,2)
ds < darksalmon
par(mfrow=c(1,2))
barplot(y,names.arg=x,col=ds,main=(a),xlab=Grupo,ylab=Cuenta)
En R se pueden utilizar un total de 657 colores diferentes, cuyos nombres se pueden accesar
tecleando colors(). Cuando se dene un color por su nombre, es necesario escribirlo entre comillas
(pueden ser dobles o sencillas). En este ejemplo, se asigna a la variable dg el nombre darksalmon
para no tener que reescribirlo en la siguiente grca. Note que es posible organizar varias grcas
en una sola gura. Para hacer esto, es necesario utilizar la funcin par(mf row = c(x, y)) donde x
representa el nmero de renglones y y el nmero de columnas. En este caso, se deni un rengln
con 2 columnas, con el objetivo de tener las dos grcas juntas y poder hacer comparaciones.
La segunda grca se puede generar de manera similar, deniendo los valores de las frecuencias.
A continuacin se presenta una manera alternativa de generar la grca, usando la funcin f req
que se encuentra dentro del archivo funciones.txt en la pgina de Archivos. Para poder utilizar
esta funcin, o cualquiera de las que se encuentran ah denidas, solo se requiere abrir el archivo,
copiar la funcin completa y pegarla en la sesin de R. Slo es necesario pegarla una vez por sesin,
a menos que se borren todas las variables de la memoria. Con esta funcin es posible obtener el
vector tanto de las frecuencias relativas como de frecuencias absolutas. Note que en este caso,
las variables quedan ordenadas alfabticamente, por lo que es necesario generar un vector con los
nombres ordenados.
28
4.2. DATOS CONTINUOS CAPTULO 4. TABLAS DE FRECUENCIA
x2 < c(A,AB,B,O)
gpo < c(rep(O,27),rep(A,10),rep(B,5),rep(AB,2))
gpo.fq < freq(gpo)
barplot(gpo.fq$rel,col=ds,names.arg=x2,xlab=Grupo,ylab=Frecuencia,main=(b))
Para generar el archivo eps que se utiliz en este documento se escriben los siguientes comandos:
postscript(gblood.eps,height=1.9,width=3.3,pointsize=7)
par(mfrow=c(1,2),mex=0.8)
barplot(y,names.arg=x,col=color,main=(a),xlab=Grupo,ylab=Cantidad)
barplot(gpo.fq$rel,col=ds,names.arg=x2,xlab=Grupo,ylab=Frecuencia,main=(b))
dev.off()
4.2. Datos continuos
4.2.1. Tablas de frecuencias
Cuando los datos son continuos, lo primero que se recomienda es ordenarlos de manera crecien-
te, para que despus puedan agruparse por clases. En el Cuadro 4.2 se muestra la concentracin
de hemoglobina en sangre en mineros. Los datos se encuentran ordenados. En el Cuadro 4.3 se
muestran estos datos organizados por clases. En esta ltima tabla se sacrica informacin con el
n de poder analizar mejor esta informacin.
Cuadro 4.2. Concentracin de hemoglobina de mineros (g/cc).
12.2 16.4 17.8 18.4 19.0 19.5 20.0 20.9 23.0
13.1 16.8 17.8 18.4 19.1 19.5 20.0 20.9 23.0
14.3 16.9 17.8 18.4 19.1 19.7 20.2 21.0 23.2
15.5 17.1 17.8 18.4 19.2 19.7 20.3 21.1 23.3
15.5 17.2 18.0 18.5 19.2 19.7 20.3 21.4 23.5
15.6 17.3 18.1 18.5 19.3 19.7 20.5 21.6 23.5
15.9 17.4 18.2 18.5 19.3 19.7 20.6 21.7 24.1
16.1 17.6 18.3 18.5 19.4 19.8 20.6 22.0 24.2
16.2 17.8 18.3 18.8 19.4 19.9 20.8 22.4 24.8
16.2 17.8 18.3 19.0 19.5 19.9 20.8 22.7 26.2
Para construir el Cuadro 4.3 se decide primero el nmero de clases en que se van a organizar los
datos. Se trata que no sean tan pocas clases que los datos estn poco representados, pero tampoco
29
4.2. DATOS CONTINUOS CAPTULO 4. TABLAS DE FRECUENCIA
Cuadro 4.3. Tabla de frecuencias de concentraciones de hemoglobina de mineros (g/cc).
Clase Punto medio Frecuencia relativa Frecuencia absoluta
x x f (x) F(x)
12.012.9 12.45 0.01 0.01
13.013.9 13.45 0.01 0.02
14.014.9 14.45 0.01 0.03
15.015.9 15.45 0.04 0.07
16.016.9 16.45 0.07 0.14
17.017.9 17.45 0.12 0.26
18.018.9 18.45 0.17 0.43
19.019.9 19.45 0.23 0.66
20.020.9 20.45 0.13 0.79
21.021.9 21.45 0.05 0.85
22.022.9 22.45 0.03 0.88
23.023.9 23.45 0.07 0.95
24.024.9 24.45 0.03 0.98
25.025.9 25.45 0.00 0.98
26.026.9 26.45 0.01 0.99
demasiadas, en cuyo caso carecera de sentido la tabla. Un buen nmero puede ser entre 8 y 20.
En este caso se escogieron 15 y se establecen las clases de modo que todos los datos se encuentren
contenidos. En principio, el rango debe ser mayor a los valores frontera de los datos (en este caso,
menor a 12.2 y mayor a 26.2).
Este tipo de tablas tambin pueden generarse con ayuda de R mediante la funcin hist. Esta
funcin graca el histograma de un vector (ver ms adelante), pero si se asigna a una variable
nueva, entonces, adems, se tiene acceso a las cuentas (counts), los puntos medios (mids), los
puntos de corte (breaks) y las frecuencias relativas (density). Supongamos que se tienen cargados
los datos del Cuadro 4.2 en la variable hg, para obtener los datos se pude emplear el siguiente
algoritmo:
hg.hist < hist(hg,prob=T,breaks=15)
hg.new < rep(hg.hist$mids,hg.hist$counts)
n < length(hg.hist$density)
hg.abs < numeric(n)
hg.abs[1] < hg.hist$density[1]
for(i in 2:n) hg.abs[i] <- hg.abs[i-1] + hg.hist$density[i]
En la variable hg.hist$counts se encuentran las cuentas (el nmero de casos en cada clase);
en la variable hg.hist$breaks se encuentran los puntos de corte de cada clase; en la variable
hg.hist$density se encuentran las frecuencias relativas para cada clase y en la variable hg.abs se
30
4.2. DATOS CONTINUOS CAPTULO 4. TABLAS DE FRECUENCIA
encuentra la frecuencia absoluta de cada clase.
4.2.2. Tablas de tronco y hojas
Otra manera de organizar y presentar datos continuos es haciendo tablas de tronco y hojas (stem
and leaf). Para hacer estas tablas, se tabulan en la primera columna los primeros dgitos de los
datos (en el ejemplo de hemoglobina, los primeros 2) y en la segunda columna se pone el ltimo
dgito, sin importar el nmero de veces que se repita. Estas tablas dan una idea de la distribucin
de los datos y contienen toda la informacin.
Para hacer estas tablas con R se escriben los siguientes comandos (se parte de un archivo que en
este ejemplo llamamos hemog.txt; el archivo debe guardarse en formato ASCII - text tabulated
en Excel- y supone que el archivo no tiene encabezados, o bien estn comentados con #):
hg < read.table(hemog.txt)
stem(hg$V1,scale=2)
4.2.3. Histogramas
A diferencia de los datos discretos, los continuos se gracan en histogramas, es decir, las barras
se encuentran continuas y representan a cada una de las clases.
En la Fig. 4.2 se presenta el histograma correspondiente al Cuadro 4.3 as como la grca de la
frecuencia acumulada.
(a)
Conc. (g/cc)
F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
15 20 25
0
.
0
0
0
.
1
0
0
.
2
0
12 16 20 24
0
.
0
0
.
4
0
.
8
(b)
Conc. (g/cc)
F
r
e
c
u
e
n
c
i
a

a
b
s
o
l
u
t
a
Figura 4.2. Distribucin de concentraciones de hemoglobina. En (a) se muestran el histograma y
en (b) se muestra la frecuencia acumulada.
31
4.3. PROBLEMAS CAPTULO 4. TABLAS DE FRECUENCIA
Para hacer la Fig. 4.2 en R, se escriben los siguientes comandos (en este ejemplo, no se incluyen
por comodidad de escritura las deniciones de color ni de ttulos):
hg < read.table(hemog.txt)
hg < hg$V1
x < hg
m < mean(x)
s < sd(x)
par(mfrow=c(1,2))
hist(hg,prob=T,breaks=15)
curve(dnorm(x,mean=m,sd=s),add=T,col=darkgreen,lwd=2)
plot(hg.hist$mids,hg.abs,type=l)
En el Captulo 9 se presenta la explicacin sobre como ajustar una distribucin normal a un
histograma.
4.3. Problemas
1. Recolecte la estatura de por lo menos 50 adultos diferentes, del mismo sexo y de edades
similares (rango de 5 aos).
a) Organize sus datos en una tabla de frecuencia.
b) Haga una tabla de troncos y hojas.
c) Graque el histograma correspondiente.
d) Compare la frecuencia acumulada con la distribucin normal correspondiente.
32
Captulo 5
Estadstica Descriptiva
A los nmeros que pueden describir una poblacin se les conoce como parmetros, si describen
una muestra entonces, se les conoce como estadsticas. La convencin es que los parmetros se
escriben con letras griegas, mientras que las estadsticas con letras latinas.
Existen dos tipos de medidas para describir una poblacin o una muestra: las medidas de ten-
dencia central y las medidas de variacin.
5.1. Tendencia central
5.1.1. La media
El nmero mas usado para describir el centro de una poblacin es el promedio o media aritmtica
y se utiliza la en caso de poblaciones y x para muestras. Su frmula es muy conocida:
x =
n

i=1
x
n
(5.1)
donde n representa el tamao de la muestra: x < sum(x)/length(x) que se obtiene de manera
directa mediante la funcin mean(x)
En las reas de ecologa y economa, suele preferirse la media geomtrica ya que resulta ms
representativa. Esta se dene como la raiz n de los productos:
x =
n
_

x =
_

x
_
1/n
(5.2)
que se puede obtener con: prod(x) (1/length(x)). Para comprender el uso de esta media, se
33
5.2. VARIACIN CAPTULO 5. ESTADSTICA DESCRIPTIVA
utilizar el siguiente ejemplo. Suponga que se tienen los siguientes salarios mensuales de 5 me-
xicanos en miles de pesos: salario < c(10, 1, 1, 10, 100). La media aritmtica se obtiene con:
mean(salario) que da $24,400.00 que dista mucho de ser un descriptor de la muestra. Este re-
sultado se debe a la presencia de un dato fronterizo que llamaremos outlier, y que corresponde a
$100,000.00. Si ahora consideramos la media geomtrica: prod(salario) (1/length(salario)) el
resultado es de: $6,309.57 que es ms representativo.
5.1.2. La mediana
La mediana es el nmero que divide el total de las obersvaciones ordenadas en dos. Cuando el
nmero de observaciones length(x) es impar, entonces, la mediana corresponde a la observacin
(n +1)/2. Cuando n es par, entonces la mediana corresponde al promedio de las observaciones
n/2 y (n/2) +1. El valor puede obtenerse de manera directa (sin necesidad de ordenar) con la
instruccin median(x)
La mediana provee el valor numrico del caso ms tpico, por lo que en ocasiones se preere a
la media. De hecho en el rea de ciencias biomdicas, y de qumica es muy utilizado el concepto
de la mediana, algunos ejemplos son el tiempo de vida media, la dosis letal media, etc.
5.1.3. La moda
La moda corresponde al valor de la variable que ocurre con mayor frecuencia. Si los datos se
encuentran organizados por intervalos de clases, entonces la moda representa la clase con mayor
frecuencia. Si los datos tienen una distribucin cercana a la normal, los datos ms frecuentes se
encontrarn en el centro y el valor de la moda estar cerca del de la mediana y la media.
Puden presentarse muestras o poblaciones donde existen dos o ms clases cuya frecuencia es
mayor a las dems. En esos casos, se presentarn muestras multimodales.
5.2. Variacin
Las medidas de variacin suelen ser las ms importantes en los anlisis estadsticos, ya que nos
permiten conocer la naturaleza de nuestros datos, as como su distribucin.
5.2.1. El rango
Representa la medida de variacin ms simple de obtener, pero a la vez la menos til, ya que es
muy susceptible a la presencia de outliers. Se obtiene por la diferencia del valor ms alto menos el
34
5.2. VARIACIN CAPTULO 5. ESTADSTICA DESCRIPTIVA
valor ms bajo. Cuando se escribe la funcin range(x), R da como resultado un vector con el valor
mnimo y el valor mximo de la muestra. El resultado del rango puede obtenerse con la instruccin:
max(x) min(x).
5.2.2. Suma de cuadrados (SS)
Se quiere saber que tan lejos se encuentra cada observacin del valor de la media. Si se suman
todas las diferencias: (x x), el resultado dar cero, ya que por denicin, la media aritmtica
pasa por enmedio de todos los puntos. Una manera de evitar la presencia de nmeros negativos en
la sumatoria es elevando cada diferencia al cuadrado:
SS
x
=

(x x)
2
(5.3)
A este trmino se le conoce como suma de cuadrados y es usado en varias tcnicas estadsticas
como pruebas de hiptesis, regresin, correlacin, etc. Cuando se realizan varios clculos, y no se
tiene acceso a una computadora, es posible calcular la suma de cuadrados mediante otra frmula,
que resulta ms sencilla:
SS =

y
2

[y]
2
n
(5.4)
5.2.3. La varianza
Es la medida de variacin ms importante de la estadstica. Su valor representa el promedio de
la suma de cuadrados:

2
x
=
(x x)
2
N
(5.5)
s
2
x
=
(x x)
2
n1
(5.6)
Ntese que en la Ec. 5.6, que se utiliza para las muestras, a diferencia de la Ec. 5.5, se divide entre
n1, que representan los grados de libertad () de la muestra. Los grados de libertad equivalen al
tamao de la muestra n menos el nmero de parmetros p estimados de los datos. Dado que en este
caso slo se ha determinado un parmetro de la muestra (la media), entonces lo grados de libertad
se calculan como n1. En R se puede obtener con: var(x).
Para ilustrar la importancia de la varianza, se toma el siguiente ejemplo. Se supone que los
siguientes vectores contienen los valores de las concentraciones de ozono (en partes por cien mi-
llones pphm) mximas alcanzadas en 10 das de verano en tres jardines pblicos diferentes:
35
5.2. VARIACIN CAPTULO 5. ESTADSTICA DESCRIPTIVA
A <- c(3,4,4,3,2,3,1,3,5,2)
B <- c(5,5,6,7,4,4,3,5,6,5)
C <- c(3,3,2,1,10,4,3,11,3,10)
Los promedios correspondientes son:

A = 3,

B = 5,

C = 5 y sus respectivas varianzas: s
2
A
= 1.33,
s
2
B
= 1.33, s
2
C
= 14.22. Note que a pesar de que las muestras de B y C tienen la misma media, su
varianza es muy diferente. No deben compararse muestras con varianzas diferentes. Se sabe
que existe posibilidad de dao fsico cuando la concentracin de ozono rebasa las 8 pphm. La
media indica que los 3 jardines son seguros y que el jardn B tiene el mismo comportamiento que
C, sin embargo, en este ltimo caso, se rebasa la norma ms del 30 % de las veces (3 de 10 das).
Dado que en varias aplicaciones es posible calcular directamente la varianza y se conocen los
grados de libertad, entonces puede calcularse la suma de cuadrados despejando de la Ec. 5.6:
SS
x
= s
2
x
(5.7)
5.2.4. Desviacin Estndar
Cuando se calcula la varianza las unidades corresponden al cuadrado de las originales. En ese
sentido, surge el concepto de la desviacin estndar, que es la raiz cuadrada de la varianza:

x
=
_
(x x)
2
N
(5.8)
s
x
=

(x x)
2
n1
(5.9)
La desviacin estndar se obtiene de manera directa con: sd(x).
5.2.5. Error estndar
Representa una estadstica similar a la desviacin estndar, pero que es ms representativa cuan-
do se buscan obtener inferencias a partir de los datos de una muestra. El error estndar de la media
se calcula como:
SE
x
=
_
s
2
x
n
=
s
x

n
(5.10)
36
5.2. VARIACIN CAPTULO 5. ESTADSTICA DESCRIPTIVA
Se puede obtener con la instruccin: sqrt(var(x)/length(x))
5.2.6. Cuantiles
Suponga que divide el total de observaciones en cuatro grupos de la misma proporcin. Cada
grupo representa, entonces, el 25 % de la poblacin. A cada uno de estos grupos se le conoce como
cuartil, siendo el segundo cuartil igual a la mediana.
A travs de los cuartiles es posible obtener un tipo de rango que es menos susceptible a la
presencia de outlier. El rango de intercuartiles (IQR) se dene como: IQR = Q
3
Q
1
. Para ob-
tener los cuartiles en R, simplemente se escribe quantile(x). Asimismo, recuerde que la funcin
summary(x) da como resultado los cuartiles, los valores mnimo y mximo (rango) asi como el
valor de la media.
5.2.7. Boxplots
Una de las maneras ms usadas para gracar variaciones son las grcas de cajas conocidas
como boxplots (antes box and whisker plots). Estas grcas se construyen a partir de los datos de
los cuartiles.
La longitud de la caja abarca el IQR, es decir, desde Q
1
hasta Q
3
. Se cruza una linea justo en la
mediana (Q
2
). Las lineas verticales por arriba y por abajo de la caja se conocen como las barbas
y para establecer los bordes de stas se toman las siguientes consideraciones:
El borde superior se coloca ya sea en Q
3
+1,5(IQR) o en la observacin mayor; se escoge
el nmero menor de estas dos cantidades.
El borde inferior se coloca ya sea en Q
1
1,5(IQR) o en la observacin menor; se escoge el
nmero mayor de estas dos cantidades.
Para obtener estas grcas en R simplemente se utiliza la instruccin boxplot(x). Por ejemplo,
para hacer la Fig. 5.1 correspondiente al boxplot de los datos de hemoglobina se dan las siguientes
instrucciones:
hg < read.table(hemog.txt)
boxplot(hg$V1,col=darksalmon,ylab=Hemoglobina (g/cc),notch=T)
Cuando existen observaciones por fuera de los bordes, stas se indican con crculos vacos;
estos datos pueden representar outliers. En el caso de la Fig. 5.1 puede observarse la presencia
de 3 posibles outliers. La opcin notch=T se utiliza para gracar con diagonales los intervalos de
conanza al 95 % de la mediana.
37
5.3. PROBLEMAS CAPTULO 5. ESTADSTICA DESCRIPTIVA
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
H
e
m
o
g
l
o
b
i
n
a

(
g
/
c
c
)
Figura 5.1. Boxplot de las concentraciones de hemoglobina.
5.3. Problemas
1. Los datos del Cuadro 5.1 corresponden a la presin sistlica en mmHg de 48 varones adultos
jvenes.
a) Haga una estadstica descriptiva de estos datos.
b) Graque el histograma y un boxplot.
c) Establezca si los datos siguen una distribucin simtrica.
d) Establezca los datos que Ud. vericara para detectar outliers.
Cuadro 5.1. Presin sistlica de varones adultos jvenes (mmHg)
87 106 114 120 129 140 155 183
93 107 116 122 133 141 155 194
101 107 117 122 133 146 162 197
104 109 118 125 134 146 167 204
105 110 118 125 135 148 173 212
105 114 119 128 138 152 176 230
38
Captulo 6
Anlisis Grco
En este captulo se presentan algunas de las capacidades de R para hacer grcas y Tablas.
Comenzamos generando los datos. Se van a generar 100 datos de altura y de peso. Para generarlos,
se utilizar la funcin rnorm(n, mean = x, sd = y). Por ejemplo suponemos que la media de los
pesos est en 67 kg con una desviacin estndar de 5 kg:pesos <rnorm(100, mean =67, sd =5).
Con summary(pesos) se obtienen los cuartiles, el valor mnimo y mximo as como la mediana.
Se puede generar un vector de 100 alturas de la misma manera: alturas < rnorm(100, mean =
1,65, sd = 0,08). Estos datos, como fueron generados al azar no estn correlacionados, lo cual se
puede observar al gracar: plot(alturas, pesos). Note que en este comando se escribe primero x y
luego y. En la Fig. 6.1 (a) se presenta esta grca, la cual se gener con: plot(pesos, alturas, main =
(a), xlab = Pesos (Kg), ylab = Alturas (m), pch = 20) (previa denicin de las 3 grcas
con: par(mf row = c(1, 3)).
55 60 65 70 75 80
1
.
5
1
.
6
1
.
7
1
.
8
(a)
Pesos (Kg)
A
l
t
u
r
a
s

(
m
)
(b)
Alturas (m)
D
e
n
s
i
d
a
d
1.4 1.5 1.6 1.7 1.8 1.9
0
1
2
3
4
5
2 1 0 1 2
1
.
5
1
.
6
1
.
7
1
.
8
(c)
Cuantiles Tericos
C
u
a
n
t
i
l
e
s

m
u
e
s
t
r
e
a
d
o
s
Figura 6.1. Grcas de alturas. (a) Scatterplot de alturas y pesos. (b) Histograma de las alturas. (c)
QQ-plot de las alturas.
Para generar el histograma de la Fig. 6.1 (b) se escribieron las siguientes instrucciones:
39
6.1. QQ-PLOTS CAPTULO 6. ANLISIS GRFICO
x <- alturas
hist(x,freq=F,main=(b), xlab=Alturas (m), ylab=Densidad, col=gray)
curve(dnorm(x,mean=1.65,sd=0.08),add=T)
La asignacin de alturas a x es importante para la funcin dnorm ya que requiere que el nombre
de la variable contenga x.
6.1. QQ-plots
Uno de los propsitos de calcular la distribucin emprica acmulada es tratar de determinar si los
datos se encuentran distribuidos de manera normal. Para realizar una mejor pruba, puede gracarse
la observacin k ms pequea en contra del valor esperado k ms pequeo de una observacin de n
datos en una distribucin normal. Esto quiere decir, que si los datos originales estuvieran distribui-
dos normalmente, se esperara obtener una lnea recta. El QQ-plot de la Fig. 6.1 (c) se obtuvo con:
qqnorm(x, main = (c), xlab = Cuantiles Tericos, ylab = Cuantiles muestreados, pch = 20)
6.2. Stripcharts
Para explicar estas grcas, se utilizarn los datos del archivo energy.txt que puede encontrarse
en la librera (paquete) ISwR. Los datos se traducen en el Cuadro 6.1.
Cuadro 6.1. Gasto energtico de mujeres por complexin.
gasto complex gasto complex
9.21 obesa 7.53 delgada
7.48 delgada 8.08 delgada
8.09 delgada 10.15 delgada
8.40 delgada 10.88 delgada
6.13 delgada 7.90 delgada
11.51 obesa 12.79 obesa
7.05 delgada 11.85 obesa
9.97 obesa 7.48 delgada
8.79 obesa 9.69 obesa
9.68 obesa 7.58 delgada
9.19 obesa 8.11 delgada
Los datos se cargan con: energy <read.table(energy.txt, header = T), para saber los nom-
bres de las columnas: names(energy) y nalmente, para tener disponibles como variables, los nom-
bres de las columnas: attach(energy). Si se gracan los datos en un boxplot: boxplot(gasto
40
6.2. STRIPCHARTS CAPTULO 6. ANLISIS GRFICO
complex), se podr percibir que uno de los grupos tiene un intervalo de cuartiles mayor que el
otro, dicultando la comparacin. Note que en este caso la tilde se utiliza para poner una frmu-
la que equivale a decir: gracar los datos del vector gasto de acuerdo a las categoras del vector
complex.
Una mejor opcin pude ser gracar ambos grupos en un srtipchart. En este tipo de grcas,
las observaciones de cada grupo se ubican horizontalmente, dependiendo de su valor numrico
(ver Fig. 6.2). Estas grcas representan una alternativa a los boxplots cuando las muestras son
relativamente pequeas.
6 7 8 9 10 11 12 13
d
e
l
g
a
d
a
o
b
e
s
a
(a)
6 7 8 9 10 11 12 13
d
e
l
g
a
d
a
o
b
e
s
a
(b)
6 7 8 9 10 11 12 13
d
e
l
g
a
d
a
o
b
e
s
a
(c)
6 7 8 9 10 11 12 13
d
e
l
g
a
d
a
o
b
e
s
a
(d)
Figura 6.2. Stripcharts del gasto energtico de mujeres segn su complexin. (a) Stripchart con
datos sobrepuestos. (b) Stripchart con datos apilados. (c) Stripchart con opcin jitter. (d) Stripchat
con opcin jitter= 0.03
Para generar la grca de la Fig. 6.2 (a) simplemente se escribe: stripchart(gasto complex).
Existen diferentes mtodos para gracar los datos, el default es sobrepuestos, donde observaciones
con el mismo valor no son distinguibles. En la Fig. 6.2 (b) se presenta la versin gracando los
datos apilados: stripchart(gasto complex, method = stack

), mientras que en la Fig. 6.2 (c) y


(d) se aplic inestabilidad a los datos (jitter). La diferencia entre estas ltimas dos guras estriba
en el grado de inestabilidad aplicado (0.1 y 0.03 respectivamente).
41
6.3. BARRAS CAPTULO 6. ANLISIS GRFICO
6.3. Barras
Las grcas de barras ya se explicaron en captulos anteriores. Aqu slo se mostrar como
agregar a las barras lneas que establezcan el error estndar sobre la media. Supongamos que
tenemos los datos de la tasa de mortandad en Virginia por sexo y localizacin. Los datos originales
pueden cargarse con la funcin: data(VADeaths) y posteriormente pueden verse simplemente con:
VADeaths. Con estos datos se puede generar otro archivo, donde en la primera columna (muerte)
contendr las tasas de mortalidad y la segunda columna (gpo) el grupo al que pertenece cada tasa
(RM, RF, UM, UF). Suponemos que nombramos a este nuevo archivo virginia2.txt.
Primero se carga el archivo en una variable y se declara que gpo es un factor:
vir < read.table(virginia2.txt,header=T)
attach(vir)
gpo < factor(gpo)
Se calculan las medias y errores estndar sobre la media de cada grupo con la funcin tapply:
med < tapply(muerte, gpo, mean)
desv < tapply(muerte, gpo, sd)
n < tapply(muerte, gpo, length)
sem < desv/sqrt(n)
Para gracar los errores estndar, se utiliza la funcin arrow, para lo cual se requiere dar las
coordenadas (x
1
, y
1
) de donde se comienza el trazo, as como las coordenadas (x
2
, y
2
) donde se
termina. Para tener las coordenadas en x asignamos la grca a una variable, donde se obtendrn
los centros de cada barra y posteriormente se aaden las lneas:
x <- barplot(med,ylim=c(0,55),col=gray)
arrows(x,med+sem,x,med-sem,length=0.1,angle=90,code=3)
Note que, en este caso, para hacer la grca de barras se deni la longitud del eje de las or-
denadas. Cuando se hace de manera directa, al agregar las lneas, algunas de ellas no alcanzan a
gracarse completamente, por lo que es necesario reescalar el eje. En la Fig. 6.3 se compara el
boxplot contra la grca de barras de las medias.
6.4. Dotcharts
Las grcas de puntos (dotcharts) representan una alternativa a las grcas de barras. Para ejem-
plicar, se tomarn los datos originales (completos) de las tasas de mortalidad en Virginia en 1940:
42
6.4. DOTCHARTS CAPTULO 6. ANLISIS GRFICO
RF RM UF UM
1
0
3
0
5
0
7
0
(a)
RF RM UF UM
(b)
0
1
0
2
0
3
0
4
0
5
0
Figura 6.3. Tasas de mortalidad de Virginia en 1940. (a) Boxplot. (b) Grca de barras ( x s
x
).
data(VADeaths). En la Fig. 6.4 se muestra el dotchart que se obtiene con las siguientes instruccio-
nes:
data(VADeaths)
dotchart(VADeaths)
5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054
5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559
6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064
6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569
7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074
5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054
5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559
6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064
6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569
7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074
5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054
5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559
6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064
6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569
7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074
5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054 5054
5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559 5559
6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064 6064
6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569 6569
7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074 7074
Rural Male
Rural Female
Urban Male
Urban Female
10 20 30 40 50 60 70
Figura 6.4. Tasas de mortalidad en Virgina por grupo etreo.
43
6.5. GRFICAS CON CONDICIONES CAPTULO 6. ANLISIS GRFICO
6.5. Grcas con condiciones
En ocasiones se tienen datos multivariados, donde la relacin entre dos variables puede verse
afectada por los efectos de otros procesos. La funcin coplot permite obtener grcas condicio-
nadas de manera automtica como se muestran en la Fig. 6.5. Para hacer la gura, se baja el
archivo Pollute.txt de la pgina del Crawley; se asigna a una variable x, se carga en memoria con
attach(x) y nalmente se graca con: coplot (Pollution Temp|Rain).
2
0
4
0
6
0
8
0
1
0
0
45 50 55 60 65 70 75
45 50 55 60 65 70 75 45 50 55 60 65 70 75
2
0
4
0
6
0
8
0
1
0
0
Temp
P
o
l
l
u
t
i
o
n
10 20 30 40 50
Given : Rain
Figura 6.5. Niveles de contaminacin contra temperatura, segn la precipitacin pluvial.
La Fig. 6.5 est descrita por la frmula: la contaminacin (Pollution) est en el eje de las or-
denadas, la tempertatura (Temp) est en el eje de las abscisas en 6 grcas condicionadas por los
valores de lluvia (Rain) mostrados en el panel superior. Los pneles se encuentran ordenados del
inferior de la izquierda, en sentido de renglones, hasta el superior de la derecha segn su preci-
pitacin pluvlial (de menor a mayor). Note que el rango de la precipitacin pluvial vara por panel,
de tal manera que el rango mayor (833) se encuentra en el panel inferior izquierdo, mientras que
el rango menor (3539) se encuentra en el panel medio inferior.
6.6. Problemas
1. Obtenga o genere una serie de datos (en cualquier caso, indique la procedencia) en la cual
estn involucradas 3 variables numricas (1 dependiente y 2 independientes).
44
6.6. PROBLEMAS CAPTULO 6. ANLISIS GRFICO
2. Establezca grcamente, para una de las variables, si su distribucin es normal.
3. Obtenga la grca con condiciones correspondiente.
45
Captulo 7
Muestreo
Dado que los datos son muestreados aleatoriamente, existe siempre el riesgo de llegar a conclu-
siones erroneas al probar una hiptesis. En estadstica su pueden cometer 2 tipos de errores:
Tipo I. A pesar de que la hiptesis nula es correcta, la prueba estadstica la rechaza.
Tipo II. A pesar de que la hiptesis nula es falsa, la prueba estadstica la acepta.
El riesgo de cometer un error Tipo I se conoce como el nivel de signicancia . El riesgo de
cometer un error Tipo II, , depender del tamao y la naturaleza de la diferencia que se est
tratando de detectar.
Los aspectos ms importantes en un diseo experimental son la aleatorizacin, la reproducibi-
lidad y los grupos control. La seleccin del tamao de muestra para probar la hiptesis de inters
depende de los siguientes puntos:
La varianza de la variable dependiente: entre mayor sea la varianza, mayor ser la muestra
necesaria.
La diferencia entre el grupo experimental y el grupo control, que se quiere determinar.
El riesgo de cometer un error Tipo I (rechazar una hiptesis nula verdadera)
El riesgo de cometer un error Tipo II (aceptar una hiptesis nula falsa)
En la prctica, el tamao de la muestra suele depender de cuestiones prcticas como los recursos,
las personas disponibles para hacer el experimento, el espacio disponible, el nmero de animales,
etc. Sin embargo, cabe hacer mencin que no vale la pena realizar un experimento si el tamao
de la muestra no es suciente para poder probar la hiptesis nula. Una prueba estadstica no
ser capaz de detectar una diferencia verdadera, si la muestra es muy pequea, comparada con la
magnitud de la diferencia.
46
7.1. POTENCIA CAPTULO 7. MUESTREO
7.1. Potencia
Se conoce como potencia de la prueba a la probabilidad de que un estudio rechase la hiptesis
nula cuando sta es falsa. Es decir, la potencia estadstica est relacionada con los errores Tipo II.
La probabilidad de aceptar una hiptesis nula falsa se denomina , luego la potencia se calcula
como 1 . En general se recomienda trabajar con una =0.05 (probabilidad de cometer error
Tipo I); una =0.2, y por tanto una potencia de 0.8.
La diferencia que se quiere determinar no siempre es evidente. En la prctica, algunos investi-
gadores disean sus pruebas para encontrar diferencias del 25 % o del 50 % entre las medias de
alguna variable. Entonces si la media de un grupo es digamos 16 g, y se quiere encontrar una
diferencia del 25 %, entonces la media mnima ser de 16 x 1.25 = 20, por lo tanto la diferencia,
= 4.
Para calcular el tamao de la muestra n, se utiliza la siguiente frmula:
n =
_
s(z

+z
1
)

_
2
(7.1)
Los valorez de z provienen de las tablas de la distribucin normal para los parmetros y (1).
Estos valores, considerando una prueba de dos colas (ver ms adelante en distribucin normal) y
los valores tradicionales de = 0.05 y = 0.2 se obtienen con la instruccin: qnorm(10.025) y
qnorm(10.2) obtenindose 1.959964 y 0.8416212 respectivamente. En este sentido, puede sim-
plicarse la Ec. 7.1 quedando como:
n 8
s
2

2
(7.2)
Este clculo se facilita en R con la funcin power.t.test que se encuentra en la librera ctest. A
continuacin se indica el procedimiento con un ejemplo:
library(ctest)
power.t.test(delta=0.5, sd=2, sig.level=0.05,power=0.8)
(7.3)
cuyo resultado da un tamao de muestra (para cada grupo) de mnimo 253 (252.1281). Con este
comando puede preguntarse el tamao de la muestra, la , o bien la potencia de la prueba; si se
escriben las dems variables, se calcula la faltante.
47
Captulo 8
Probabilidad
8.1. Eventos
El resultado de una observacin simple o medicin se conoce generalmente como evento. Algu-
nos eventos pueden descomponerse en eventos ms simples. Por ejemplo, si se dice que una mujer
es adolescente, este evento incluye a mujeres de diversas edades, o bien si se encuentra que una
persona es hiperglucmica, se esta reriendo a un evento compuesto.
Dos eventos simples no pueden ocurrir al mismo tiempo. Se dice que se excluyen uno al otro,
es decir, son mutuamente excluyentes. Por otra parte, eventos compuestos pueden presentarse de
manera simultnea.
Al conjunto de todos los eventos posibles que pueden presentarse en un experimento determi-
nado, se le conoce como espacio de resultados. En teora de conjuntos, un evento simple es un
miembro del espacio de resultados, es decir, es un subconjunto. Cuando no se tiene certidumbre
sobre el resultado del experimento (e.g. lanzar una moneda), entonces se habla de experimentos
aleatorios o estocsticos.
8.2. Concepto de Probabilidad
Vamos a considerar el caso de la ocurrencia en los nacimientos de varones {H} y mujeres {M}.
Si no se consideran a los hermafroditas, entonces el conjunto de resultados es simplemente {H, M}.
Sea n el nmero total de descendientes y k el nmero de descendientes varones. Se conoce a k
como la frecuencia absoluta o simplemente frecuencia del evento varn. Debido a que este es
un evento estocstico, la frecuencia puede ser cualquier nmero entero entre 0 y n, esto es:
48
8.3. DETERMINACIN DE RESULTADOS POSIBLES CAPTULO 8. PROBABILIDAD
0 k n (8.1)
Con base a lo anterior, es posible acercarse al concepto de probabilidad mediante el clculo de
la frecuencia relativa h, de la cual se habl anteriormente:
h =
k
n
(8.2)
Mientras que k puede ir de 0 a n, h comprende el rango de 0 a 1, aunque tambin puede repor-
tarse como porcentaje. Conforme n tiende a innito la frecuencia relativa tiende a alcanzar cierto
valor, es decir, se estabiliza. Podemos asumir que existe un nmero jo p al que se aproxima h al
aumentar el tamao de n. Este nmero hipottico se conoce como la probabilidad del evento bajo
consideracin, en este caso, la probabilidad de nacimiento varn. Aunque no se conoce el valor
numrico exacto de p, para este ejemplo, se tiene registrado, mediante observaciones, que este
valor es cercano a 0.53.
En estadstica, la frecuencia relativa de un evento puede emplearse para estimar la probabilidad
del mismo. Si E es un evento proveniente de un espacio de resultados, entonces la probabilidad de
E es un nmero asociado con E y que se denota por: P(E).
Con el objetivo de determinar el espacio de resultados, es indispensable cuanticar todos los
eventos posibles, de modo que sean adems de excluyentes, exhaustivos. A continuacin se pre-
sentan los principales casos de conteo.
8.3. Determinacin de resultados posibles
Suponga que algo puede ocurrir en cualquiera de k
1
maneras diferentes y que otra cosa puede
presentarse en cualquiera de k
2
maneras diferentes. En este caso el nmero en que ambas cosas
pueden presentarse es k
1
k
2
. Por ejemplo, si se lanza una moneda existen 2 resultados posibles,
mientras que si se tira un dado hay 6 resultados posibles. En el caso de que se hagan ambas cosas,
entonces se presentaran 26 = 12 resultados posibles.
Esta forma de conteo puede generalizarse para n nmero de eventos que ocurren de manera
simultnea esto es: (k
1
)(k
2
)(k
3
) (k
n
). Cuando se trata del mismo evento, que se realiza en ms
de una ocasin, entonces simplemente se eleva al nmero de veces n los resultados diferentes k
1
,
en que puede presentarse el evento dado.
49
8.3. DETERMINACIN DE RESULTADOS POSIBLES CAPTULO 8. PROBABILIDAD
8.3.1. Permutaciones
Se conoce como permutacin a un arreglo de objetos en una secuencia especca. Por ejemplo,
suponga que existen 3 cepas diferentes de rinovirus (responsable de la gripe) y que no existe
respuesta cruzada entre ellos. Bajo estas circunstancias un individuo se puede infectar con las 3
cepas de 6 maneras diferentes: 123, 132, 213, 231, 312, 321.
La frmula para calcular el nmero de permutaciones lineales de n objetos que ocupan X posi-
ciones es:
n
P
X
=
n!
(nX)!
(8.3)
Por ejemplo, para calcular el nmero de permutaciones posibles de 4 objetos en 2 posiciones se
escriben las siguientes instrucciones en R:
n <4
x <2
prod(n : 2)/prod(nx : 2)
Note que para calcular el factorial se utiliza la funcin prod y que en este caso slo se calcula
hasta 2, ya que carece de sentido calcularlo hasta 1 (aunque da el mismo resultado).
8.3.2. Combinaciones
En el caso de las permutaciones el orden de los eventos es importante. En algunas ocasiones, sin
embargo, no importa el orden sino ms bien los integrantes del grupo. Por ejemplo, si una persona
se va a infectar con 2 cepas de hepatitis de 4 existentes, el nmero de permutaciones es:
4
P
2
= 12.
Si escribe todas las posibilidades, notar que existen varias combinaciones repetidas. El nmero
de combinaciones de n objetos, tomando X a la vez se calcula por:
n
C
X
=
n!
X!(nX)!
(8.4)
En R se calcula de manera directa con: choose(n, x).
50
8.4. MUESTREO ALEATORIO CAPTULO 8. PROBABILIDAD
8.4. Muestreo aleatorio
En el captulo de muestreo se habl de la importancia de la aleatorizacin y de cmo calcular
el tamao de muestra. El concepto de procesos aleatorios o estocsticos es muy importante para
introducir al captulo de probabilidad. En R puede simularse la seleccin de una muestra aleatoria
con la funcin sample(u, m) donde x representa el vector con toda la poblacin (universo), mientras
que m es el tamao que se desea de la muestra.
Si por otra parte, lo que se quiere es generar nmeros aleatorios entre dos valores, pueden obte-
nerse con la funcin: runi f (n, min = x
1
, max = x
2
). En este caso, los nmeros aleatorios podrn
ser decimales, ya que la funcin es continua y no discreta como en el caso de sample.
8.5. Axiomas
1. Para cada evento perteneciente a un espacio existe, de manera asociada, un nmero deno-
minado probabilidad del evento. Este nmero se encuentra restringido en el intervalo de 0 a
1.
2. Para el evento imposible existe asociado la probabilidad 0 y para el evento certero la proba-
bilidad 1. En smbolos:
P(/ 0) = 0, P() = 1
3. Regla de la adicin. Sean E
1
y E
2
dos eventos mutuamente exclusivos pertenecientes al
espacio . Sea p
1
= P(E
1
), p
2
= P(E
2
) y p = P(E
1
E
2
), entonces:
p = p
1
+ p
2
Cuando los eventos no son mutuamente exluyentes, es decir: E
1
E
2
= / 0, entonces es nece-
sario restar los eventos comunes (interseccin):
p = p
1
+ p
2
p
1
p
2
4. Probabilidad condicionada. Considere que la distribucin de los gentotipos AA, Aa, aa en
una poblacin de individuos seleccionados aleatoriamente es: P(AA) = 0.36; P(Aa) = 0.48
y P(aa) = 0.16. Ahora bien, supongamos que el genotipo aa esta asociado a una enfermedad
grave, por lo que se presenta slo en individuos jvenes. Bajo esta circunstancia, si ahora se
quieren saber las probabilidades de los genotipos restantes, es necesario hacer un ajuste.
En este caso se habla de probabilidad condicionada. Llamemos P(E) a la probabilidad del
evento donde ya no existe el genotipo aa, es decir, que siguiendo el axioma anterior: P(E) =
P(AA) +P(Aa). Bajo esta nueva circunstancia, las probabilidades condicionadas se calculan
por:
P(AA|E) =
P(AA)
P(E)
, P(Aa|E) =
P(Aa)
P(E)
51
8.5. AXIOMAS CAPTULO 8. PROBABILIDAD
Ahora bien, para el caso en que los eventos no fueran mutamente excluyentes, como en el
ejemplo anterior, se puede considerar lo siguiente. Dado un espacio determinado, sean A y
B dos eventos cualquiera pertenecientes a este espacio. La probabilidad del evento B dado
que el evento A ha ocurrido es la probabilidad de que de manera simultnea ocurra A y B,
dividido por la probabilidad de A (para toda P(A) > 0):
P(B|A) =
P(AB)
P(A)
Es importante no confundir P(B|A) con P(AB). Esta ltima se reere al espacio original
, mientras que la primera est denida por el espacio restringido de A.
5. Regla de la multiplicacin. La probabilidad de la ocurrencia simultnea de dos eventos A y
B es el producto de la probabilidad del evento A y la probabilidad condicionada del evento B
dado A:
P(AB) = P(A) P(B|A)
Un caso especial ocurre cuando el evento A no tiene inuencia en el evetno B, es decir son
eventos independientes, lo que quiere decir que P(B|A) = P(B) y por tanto: P(A B) =
P(A) P(B).
Para claricar los ltimos dos axiomas se utilizarn los siguiente ejemplos. Considere la probabi-
lidad de muerte en cierto pas, dada por los datos del Cuadro 8.1.
Cuadro 8.1. Probabilidad de muerte por dcadas.
Edad (aos) Probabilidad de muerte ( %)
0 x < 10 3.23
10 x < 20 0.65
20 x < 30 1.21
30 x < 40 1.84
40 x < 50 4.31
50 x < 60 9.69
60 x < 70 18.21
70 x < 80 27.28
80 x 33.58
Total 100.00
Cul es la probabilidad de que una persona que actualmente tiene 20 aos muera antes de que
cumpla 30? Para contestar esta pregunta no se puede simplemente tomar el dato de 1.21 correspon-
diente a la tercera dcada. Debe emplearse la probabilidad condicionada. Sabemos que la persona
ha sobrevivido 2 dcadas, por lo que es necesario restringir el espacio, de modo que el evento
muerte despus de la segunda dcada A tiene una probabilidad: P(A) = 1.21 + 1.84 + +
33.58 = 96.12. Si B denota al evento muerte antes de la cuarta dcada, entonces:
52
8.6. MXIMA VEROSIMILITUD CAPTULO 8. PROBABILIDAD
P(B|A) =
P(AB)
P(A)
=
1.21
96.12
= 0.0126
es decir, el 1.26 %.
Ahora presentamos otro ejemplo. Dado que un hombre celebra su cumpleaos 70 cul es la
probabilidad de que alcance los 72 aos? Suponga que la tabla de vida presenta las siguientes
probabilidades condicionadas para la sobrevivencia de los hombres:
Edad (aos) (x) p
x
70 0.9492
71 0.9444
72 0.9391
En este caso p
70
es la probabilidad de que un hombre de 70 aos viva hasta los 71, y as sucesi-
vamente. Entonces, se concluye que la probabilidad de que un hombre alcance su cumpleaos 71
y 72 es simplemente 0.9492 0.9444 = 0.8964.
8.6. Mxima verosimilitud
Cuando se quieren hacer predicciones, es necesario utilizar modelos matemticos que se adecan
a datos experimentales. Aunque no existe el modelo perfecto, si existen mejores modelos que otros.
Una de las manera de denir mejor consiste en seleccionar aqul modelo que haga a los datos ms
probables. A esto se le ha llamado mxima verosimilitud (maximum likelihood).
Para explicar este concepto se partir de un ejemplo relativamente sencillo y se realizarn los
experimentos correspondientes en R (note que al ser experimentos estocsticos, los resultados se-
rn diferentes cada vez que se realicen). Suponga que Ud. tira 3 dados y quiere saber cual es el
nmero ms probable para la suma de ellos. Para simular el tiro de un dado se puede emplear:
round(runi f (1, 1, 6)). La funcin runi f proporciona nmeros uniformemente distribuidos, en este
caso, de 1 a 6.
Para tener la suma de 3 dados se escribe: sum(round(runi f (3, 1, 6))). El valor mnimo de la suma
es 3 y el mximo es 18. A continuacin calculamos la media terica de muchas realizaciones, es
decir el valor que nosotros esperaramos que fuera el ms frecuente para una distribucin normal.
A este concepto le denominaremos esperanza o valor esperado, que se dene por la siguiente
ecuacin:
E(x) =
n

i=1
p
i
x
i
(8.5)
La Ec. 8.5 implica multiplicar cada valor por su probabilidad o frecuencia relativa. Ntese que si
la distribucin de frecuencias es uniforme, entonces se simplica la Ec. 8.5, ya que simplemente,
53
8.7. PROBLEMAS CAPTULO 8. PROBABILIDAD
se suman todos los valores de x y posteriormente se dividen entre n, el tamao de la muestra, que
es la frmula que previamente se introdujo para calcular la media aritmtica.
En el ejemplo que se tiene de los dados, comenzaremos con el caso ms simple, es decir, cuando
se tiene un solo dado. La probabilidad de cada cara es de 1/6 y la suma de todas las caras es 21, por
lo que el valor esperado de un dado es 21/6 = 3.5. Por lo tanto, el valor esperado para tres dados
(la suma de las tres caras) es de (213)/6 = 10.5.
En este caso sabemos que la probabilidad de cada nmero en los dados es de 1/6. Vamos a
suponer que este es un parmetro desconocido al que llamaremos p y que vamos a estimar a partir
de datos experimentales. El objetivo es encontrar el valor de p que haga los datos ms probables.
Para obtener los datos experimentales, se partir inicialmente de un vector al que se le irn
asignando los resultados de 1000 experimentos:
vc < numeric(1000)
for (i in 1:1000) vc[i] < sum(round(runif(3,1,6)))
hist(vc, col=gray)
exp.4 < sample(vc,4)
Con numeric se gener un vector con 1000 espacios (ceros) al que despus se le asignaron los
valores de las sumas en el ciclo. En la variable exp,4 tenemos una muestra de 4 resultados, tomados
aleatoriamente. Se puede probar con diferentes estimados de p, por ejemplo 1/4, 1/6 y 1/8. Con
cada uno de estos se calcula el valor esperado usando la Ec. 8.5.
Para determinar cual de los tres valores propuestos hace a los datos ms probables, se puede,
por ejemplo, calcular la suma de cuadrados (SS) usando el valor de la esperanza para cada caso en
lugar de la media aritmtica. La SS cuyo valor sea ms pequeo hace a que los valores sean ms
probables y, por lo tanto, favorecen ese estimado de p sobre los otros.
8.7. Problemas
1. Determinar el valor de p ms probable para el ejemplo de los dados, empleando un tamao
de muestra n
1
= 5 y n
2
= 50.
54
Captulo 9
Distribucin Normal
Si se toma una muestra aleatoria relativamente grande de las alturas de los hombres, se colectan
los datos en una tabla de distribucin de frecuencias y se graca el histograma correspondiente,
ste ser semejante al de una funcin matemtica conocida como la distribucin normal y que tiene
la siguiente frmula:
Y =
1

2
e
(X)
2
2
2
(9.1)
La distribucin normal tiene las siguientes propiedades:
1. El rea bajo la curva de una distribucin normal es igual a una unidad cuadrada.
2. La curva es simtrica alrededor del punto X = y tiene forma de campana.
3. Para cada par de nmeros y , se puede gracar una curva de distribucin normal. Esto
es, hay muchas curvas de distribucin normal, cada una caracterizada por su media y su
desviacin estndar.
9.1. reas bajo la curva
Cuando una poblacin sigue una distribucin normal, la proporcin de valores que se encuentra
entre dos cantidades X
1
y X
2
es igual al rea bajo la curva entre estos dos puntos. Dado que no
resulta prctico tener tablas para cada una de las posibles distribuciones normales, se han tabulado
los valores para la curva normal estndar, que tiene una media = 0 y una desviacin estndar
= 1.
55
9.1. REAS BAJO LA CURVA CAPTULO 9. DISTRIBUCIN NORMAL
Para poder utilizar los datos de la curva normal estndar, es necesario transformar los datos
originales. El clculo se obtiene con la siguiente frmula:
z =
X

(9.2)
Para explicar el tipo de clculos que se realizan con la distribucin normal, se seguir el siguiente
ejemplo. Suponga que se mide la estatura de 100 personas y que su media es 170 cm con una
desviacin estndar de 8 cm. Pueden formularse 3 tipos de preguntas: Cul es la probabilidad de
que un individuo seleccionado aleatoriamente sea:
ms pequeo que una altura en particular?
ms grande que una altura en particular?
se encuentre entre dos alturas especcas?
Suponga que se quiere saber la probabilidad (proporcin) de que un individuo tomado al azar de
esta poblacin tenga una altura menor a 160 cm. Lo primero que se requiere es convertir este valor
a su correspondiente z:
z =
(160170)
8
=1.25
Dado que la curva normal es simtrica, slo se requieren los datos correspondientes a la mitad
de la curva, esto es, a los valores positivos. Para cada valor de z positivo, se da la proporcin
(probabilidad) de valores que se encuentran por debajo de ese valor. Por ejemplo, para un valor de
z = 0 la probabilidad es: 0.5000 (recuerde que la media es 0). Para un valor de z =1.25 se tiene una
probabilidad igual a 0.8943502, por lo que la probabilidad para z =1.25 es igual a 1 0.8943502
= 0.1056498. El valor puede obtenerse directamente con la funcin: pnorm(1.25) en R.
Regresando a la pregunta original, la probabilidad de que un individuo tomado aleatoriamente
mida menos de 160 cm es de 10.56 %.
La segunda pregunta que se quiere contestar es saber la probabilidad de que un individuo to-
mado al azar mida ms de 185 cm. El valor de z para esta altura es de 1.875. Si se pide el valor
pnorm(1.875) se obtiene la probabilidad de tener menos de 1.875 cm. Para responder la pregunta,
mayor a 1.875, simplemente se resta de 1: 1 pnorm(1.875), obtenindose una probabilidad de
3.04 %.
Finalmente, suponga que se quiere saber la probabilidad de que un individuo tomado al azar
mida entre 165 y 180 cm. Primero se obtienen los dos valores de z: z
1
=0.625 y z
2
= 1.25. Para
obtener el rea entre los dos valores, se resta la menor probabilidad de la mayor: pnorm(1.25)
pnorm(0.625) que da como resultado una probabilidad de 62.84 %.
56
9.2. MOMENTOS CAPTULO 9. DISTRIBUCIN NORMAL
9.2. Momentos
En estadstica la sumatoria de potencias: (X
i
)
p
/N se conoce como el p momento alrededor
de la media. Para cualquier distribucin, el primer momento alrededor de la media es cero. El
segundo momento alrededor de la media es la varianza. El tercer momento alrededor de la media
nos indica la simetra de una distribucin. Una estadstica para este parmetro es:
k
3
=
n(X
i


X)
3
(n1)(n2)
(9.3)
Dado que k
3
tiene unidades cbicas, la siguiente estadstica adimensional suele ser ms emplea-
da:
g
1
=
k
3
s
3
=
k
3
_
(s
2
)
3
(9.4)
Un valor de g
1
que no diere signicativamente de 0 indica que la muestra proviene de una
poblacin que se distribuye de manera simtrica alrededor de la media y por lo tanto el valor de sta
es igual al de la mediana. Un valor de g
1
signicativamente menor a 0 indica que la poblacin est
cargada a la izquierda, presentando por tanto, un valor de la media menor a la mediana. Finalmente,
un valor de g
1
signicativamente mayor a 0 implica una poblacin cargada a la derecha con una
media mayor a su mediana.
Puesto que no todas las distribuciones simtricas son normales, es necesario tener otro indicador
de normalidad. El cuarto momento alrededor de la media se conoce como curtosis y nos indica la
forma de la curva de distribucin. Formalmente, puede calcularse con la siguiente estadstica:
k
4
=
(X
i


X)
4
n(n+1)/(n1) 3
_
(X
i


X)
2

2
(n2)(n3)
(9.5)
Como en el caso de la simetra, para la curtosis suele usarse la siguiente estadstica adimensional:
g
2
=
k
4
s
4
(9.6)
La curtosis puede describirse como la dispersin alrededor de los valores y +. Para el
caso de muestras con un valor de g
2
que no diere signicativamente de 0, se dice que provienen
de una poblacin mesocrtica (normal). Cuando el valor de g
2
es signicativamente menor a 0, se
dice que proviene de una poblacin platicrtica (achatada). Finalmente, cuando el valor de g
2
es
signicativamente mayor a 0, entonces la poblacin es leptocrtica (picuda).
57
9.3. FUNCIN DE DENSIDAD CAPTULO 9. DISTRIBUCIN NORMAL
9.3. Funcin de densidad
La probabilidad de densidad se obtiene especicando los valores de z, la media y la desviacin
estndar. Si se omiten los ltimos 2, se asume que la z pertenece a la curva normal estndar. Su-
ponga que se quiere obtener la probabilidad de tener z = 1 de una curva normal estndar, entonces
se escribe: dnorm(1) obtenindose un valor de 0.2419707. Esta funcin puede emplearse para gra-
car una curva normal, para valores especcos de z (por ejemplo de 2.5 a 2.5 en pasos de 0.05).
La grca correspondiente se presenta en la Fig. 9.1 (a).
2 1 0 1 2
0
.
1
0
.
2
0
.
3
0
.
4
(a)
z
D
e
n
s
i
d
a
d
2 1 0 1 2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
(b)
z
P
r
o
b
a
b
i
l
i
d
a
d
0.0 0.2 0.4 0.6 0.8 1.0

1
0
1
2
(c)
Probabilidad
z
Figura 9.1. Grcas asociadas a la distribucin normal. (a) Funcin de densidad. (b) Funcin de
probabilidad. (c) Cuantiles.
Para generar la Fig. 9.1 (a) primero se dene el rango de z: z <seq(-2.5,2.5,0.05); se asigna la
funcin de densidad a una variable: y <dnorm(z) y nalmente se graca la funcin de densidad:
plot(z, y, main = (a), ylab = Densidad, type = l).
9.4. Funcin de probabilidad
En la prctica se requiere saber ms la funcin de probabilidad que la de densidad, ya que se
necesitan calcular probabilidades, sobre todo, cerca de las colas de la distribucin. La probabi-
lidad acumulada utiliza la funcin pnorm. La curva de esta funcin se muestra en la Fig. 9.1
(b), que se obtiene asignando la funcin a una variable: y2 < pnorm(z) y luego gracando:
plot(z, y2, main = (b), ylab = Probabilidad, type = l). La funcin pnorm se emplea para
pruebas de hiptesis, cuando se quiere saber si un valor en particular de z es extremo. Para las pro-
babilidades en la cola derecha, se requiere el valor de 1pnorm(z) como se mostr anteriormente.
58
9.5. CUANTILES NORMALES CAPTULO 9. DISTRIBUCIN NORMAL
9.5. Cuantiles normales
Los cuantiles de una distribucin normal representan el inverso de la probabilidad de densidad.
Esta funcin calcula el valor de z asociado al valor de probabilidad que se introduce. La Fig. 9.1
(c) muestra la curva correspondiente. Note que, dado que se trata de la curva normal estndar, para
un valor de p = 0.5 se tiene un valor de z = 0. Para obtener esta grca se dene primero el rango
de probabilidades: p <seq(0,1,0.01) y luego se gracan: plot(p, qnorm(q), main =(c), xlab =
Probabilidad, ylab = z, type = l).
9.6. Normalidad
En ocasiones es importante determinar si una poblacin determinada tiene un comportamiento
normal. Una manera es a travs de la simetra y curtosis. Aqu se presenta un anlisis comparando
los datos observados con una curva normal que posee la misma media y la misma desviacin
estndar. La secuencia de pasos es la siguiente (suponemos que los datos han sido cargados en la
variable x):
m <- mean(x)
s <- sd(x)
hist(x,prob=T,col=gray)
curve(dnorm(x,mean=m,sd=s),add=T)
Con respecto a este algoritmo, son pertinentes las siguientes observaciones:
Debe denirse la probabilidad como verdadera al hacer el histograma.
Deben calcularse previamente los valores de la media y la desviacin estndar antes de
gracar la funcin de densidad.
Para gracar la funcin de densidad, la variable debe llamarse x.
9.7. Teorema del lmite central
Una de las razones por la cual la distribucin normal es tan importante, es por su capacidad de
englobar a otras distribuciones (bajo ciertas circunstancias), cuando el nmero de observaciones es
lo sucientemente grande.
El conjunto de medias provenientes de muestras aleatorias de tamao n tiende a una distribucin
normal. Entre ms grande sean las muestras, mayor ser la aproximacin de sus medias a la nor-
59
9.8. PROBLEMAS CAPTULO 9. DISTRIBUCIN NORMAL
malidad. El teorema del lmite central establece que para cualquier distribucin con varianza nita,
la media de una muestra aleatoria tiende a estar normalmente distribuida.
La varianza de la distribucin de las medias decrece conforme aumenta n; de hecho, la va-
rianza de la poblacin de todas las posibles medias de muestras de tamao n provenientes de una
poblacin con varianza
2
es:

2
x
=

2
n
(9.7)
A esta cantidad se le conoce como la varianza de las medias y dado que tiene unidades cuadradas,
su raiz cuadrada tendr las mismas unidades que la media y la desviacin estndar. Este nuevo
valor
x
es la desviacin estndar de las medias, usualmente conocido como error estndar de las
medias (abreviado sem) o simplemente como error estndar (abreviado se).
9.8. Problemas
1. Se tiene una poblacin de pesos normalmente distribuida con media de 63.5 g y una desvia-
cin estndar de 12.2 g.
a) Qu proporcin de esta poblacin pesa 78.0 g o ms?
b) Qu proporcin de esta poblacin pesa 64.0 g o menos?
c) Si la poblacin es de 1000 observaciones, cuntos pesan entre 62 y 75 g?
2. Comprobar grcamente el teorema del lmite central:
a) Genere 500 valores aleatorios con: rbinom(500,10,0.3).
b) Graque el histograma correspondiente y pruebe normalidad.
c) Genere una nueva poblacin que contenga 500 medias provenientes de muestras alea-
torias de tamao 50.
d) Graque el histograma correspondiente y pruebe normalidad.
60
Captulo 10
Estimacin
10.1. Intervalos de Conanza
Cuando se trabaja con muestras, se obtienen estadsticas de stas con el n de tener un valor
estimado del parmetro original (el de la poblacin). Tomemos como ejemplo la media. El valor
de la media x es una estimacin de la media de la poblacin.
Sin embargo, dado que la muestra es aleatoria, realmente no sabemos si nuestro valor estimado
sea realmente representativo para toda la poblacin. Dado que estamos en un problema de estads-
tica, realmente no podemos tener la certidumbre total sobre el valor real, aunque podemos calcular
un rango que nos de el 95 % de seguridad en el valor de la media. A esto le llamamos intervalo de
conanza.
El intervalo de conanza nos indica el rango de valores en el que nosotros encontraramos el 95 %
de las ocasiones a nuestra estadstica. Esto es, si se habla de la media, el intervalo de conanza da
el rango en el que se encuentra la media de la poblacin con una p=0.95.
Cuando se conoce el valor de la desviacin estndar de la poblacin, y sta sigue una distribucin
normal, entonces el intervalo de conanza se calcula empleando el valor de z = 0.975 (dado que
se trata de una prueba de 2 colas). Este valor es aproximadamente 1.96 (puede obtenerse de tablas
o bien con qnorm(0.975). El intervalo de conanza para una media, se calcula con la siguiente
frmula:
x 1.96
x
= x
1.96

n
(10.1)
donde
x
es el error estndar sobre la media. Suponga que estudia el efecto de un nuevo suple-
mento alimenticio para infantes en la ganancia de peso. Asimismo, suponga que Ud. sabe que la
desviacin estndar de la ganancia de pesos en infantes es de 120 g. De 16 observaciones suponga
61
10.2. DISTRIBUCIN T CAPTULO 10. ESTIMACIN
que obtiene una media de 311.9 g en la muestra de su dieta. Para calcular el intervalo de conanza,
primero es necesario el valor del error estndar:

x
= 120g/

16 = 30g
Luego, el intervalo de conanza es:
311.91.96(30g) = 311.958.8g
Esto quiere decir que tenemos el 95 % de certidumbre de que la media se encuentra entre 253.1g y
370.7g.
10.2. Distribucin t
La mayor parte de las ocasiones se desconoce la desviacin estndar de la poblacin. En estos
casos, es necesario estimarla a partir de las observaciones de la muestra. Dado que se estiman 2
estadsticas a partir de la muestra, la distribucin normal ya no es vlida, y es necesario emplear
otra distribucin que se conoce como t de Student.
La distribucin t aunque es simtrica y tiene forma de campana, no es un tipo de distribucin
normal ya que tiene las colas ms anchas. Esta distribucin vara con el tamao de la muestra: si
la muestra es pequea, la curva tiene ms rea en la zona de las colas en comparacin a cuando la
muestra es grande (que se acerca a una distribucin normal).
El clculo de los intervalos de conanza con la distribucin t es similar al caso de la normal. Una
diferencia importante, es que dado que la distribucin t es dependiente del tamao de muestra n,
es necesario buscar en las tablas el valor de t correspondiente para 2 colas, una = 0.05 y n 1
grados de libertad.
Siguiendo el ejemplo anterior, se requiere buscar el valor de t
0.05(2),15
, que es de 2.131. Algunas
tablas slo consideran los valores de t para una cola. En estos casos se busca el valor de t
0.975(2),15
que da el mismo resultado. Este valor se obtiene en R con: qt(0.975, 15)
10.3. Problemas
1. Calcular el intervalo de conanza de la media, para una muestra proveniente de una pobla-
cin terica de 1000 observaciones, donde Ud. suponga que la desviacin estndar no diere
signicativamente del de la poblacin.
2. Calcular el intervalo de conanza de la media, para una muestra experimental o terica de
menos de 30 observaciones.
3. Compare grcamente la distribucin normal y la distribucin t. Demuestre que al aumentar
el tamao de la muestra, la distribucin t se aproxima mejor a la normal.
62
Captulo 11
Bootstrap
El desarrollo de tcnicas estadsticas computacionales intensivas, ofrece una alternativa a la teo-
ra clsica sobre la distribucin Normal, en el sentido de que son relativamente ms sencillas y ms
robustas. Con estas tcnicas, el mismo modelo puede ser ajustado a datos remuestreados 10 000
veces en pocos segundos. Las pruebas que se pueden hacer, son bsicamente:
1. Bootstrap. Los datos son remuestreados con reemplazo, de manera repetitiva, con el objetivo
de estimar intervalos de conanza para diferentes parmetros.
2. Jackknife. Cada dato es eliminado de la muestra para determinar su inuencia particular en
la prueba.
Para el desarrollo simple de estas pruebas en R se recomienda que se baje la librera bootstrap
de Internet.
11.1. Bootstrap
El fundamento de esta tcnica es el muestreo con reemplazo. Cuando se aplica un muestreo,
usualmente se realiza sin reemplazo, lo que implica que cada observacin tiene la misma probabi-
lidad de salir elegida al inicio, sin embargo, conforme avanza la seleccin, la probabilidad de las
observaciones restantes (an no muestreadas) aumenta de manera progresiva. Cuando se realiza
un muestreo con reemplazo, la observacin que es muestreada vuelve a colocarse en la poblacin
original, de tal manera que la probabilidad de seleccin es constante a lo largo de todo el mues-
treo. El efecto de esta tcnica es que en un muestreo de tamao n (donde n es tambin el tamao
de la poblacin) algunas observaciones podrn ser muestreadas en ms de una ocasin y algunas
observaciones no sern muestreadas.
63
11.2. JACKKNIFE CAPTULO 11. BOOTSTRAP
Para realizar un muestreo con reemplazo en R se utiliza la funcin: sample(x, replace = T). Por
ejemplo, suponga que se tiene una serie de nmeros del 0 al 9 (se encuentran distribuidos de manera
uniforme): x < 0 : 9. La media de este vector es 4.5, sin embargo, si se obtienen diferentes
muestras con reemplazo, cada una tendr su propio valor de media, y que se encontrar alrededor
de 4.5. A continuacin se desarrollar la tcnica de bootstrap, para determinar los intervalos de
conanza de la media de esta poblacin:
xmeans < numeric(10000) # Se genera el vector
for(i in 1:10000) xmeans[i]<-mean(sample(x,replace=T)) # Ciclo de remuestreo
mean(xmeans) # media
hist(xmeans) # histograma
quantile(xmeans,c(0.025,0.975)) # intervalo de conanza del 95 %
Otra manera de realizar esta operacin, sin la necesidad del ciclo, es con la funcin bootstrap:
x.boot < bootstrap(x,1000,mean) # bootstrap con 1000 replicaciones
hist(x.boot$thetastar,freq=F) # histograma
quantile(x.boot$thetastar,c(0.025,0.975)) # intervalo de conanza
Finalmente, de manera directa, se puede obtener el intervalo de conanza con la instruccin:
boott(x, mean, nboott = 1000). Note que los valores son muy semejantes.
11.2. Jackknife
Jackknife es una prueba que determina la inuencia de las observaciones individuales de la va-
riable dependiente, en la estimacin de parmetros. Se diferencia del bootstrap en que slo se
recalculan los parmetros de inters n veces (donde n es el tamao de la muestra) en lugar de,
por ejemplo, 1000 veces. Primero se presenta el clculo por partes (para entender la lgica de la
operacin) y posteriormente en un paso.
Los resultados muestran el valor de la media cuando se elimina cada uno de los valores. En el
ejemplo que se ha utilizado, la secuencia de pasos es:
jk < numeric(10) # genera el vector del tamao de la muestra
for(i in 1:10) jk[i]< mean(x[-i]) # hace el ciclo
jk # se observa el resultado
En un slo paso, simplemente se escribe: jackkni f e(x, mean) que da como resultado el error es-
tndar, el sesgo, as como los valores de la media cuando se elimina cada una de las observaciones.
64
11.3. PROBLEMAS CAPTULO 11. BOOTSTRAP
11.3. Problemas
1. Obtenga los intervalos de conanza por bootstrap para una muestra terica o experimental
donde haya presencia de valores extremos (outliers).
2. Determine el efecto de los valores extremos sobre el clculo de la media mediante un anlisis
de Jackknife.
3. Vuelva a obtener los intervalos de conanza por bootstrap, eliminando a los valores extremos
de la muestra y compare los valores con el intervalo anterior.
65
Captulo 12
Prueba de Hiptesis
Las estrategias clsicas para probar a la hiptesis nula incluyen:
Comparar dos medias muestrales con errores normales (t de Student)
Comparar dos medias muestrales con errores no-normales (Wilcoxon)
Comparar dos varianzas (Fisher)
Correlacionar dos variables (Pearson o Spearman)
Independencia en tablas de contingencia (
2
)
Comparar dos proporciones (binomial)
12.1. Pruebas de una muestra
En estos casos, se quiere probar si la media de una determinada muestra es signicativamente
difererente de una media estndar o terica. Comenzaremos con un ejemplo, para aclarar el con-
cepto de la hiptesis nula y de la hiptesis alterna. Hay que recordar que las pruebas estadsticas
estn hechas para aprobar o rechazar a la hiptesis nula.
Supongamos que se est trabajando en una industria farmacutica y que se requiere que cierto
medicamento contenga 500 mg de principio activo. Durante el proceso de produccin se toman
digamos 15 muestras aleatorias, y se calcula la concentracin real del principio activo en cada
tableta. Primero se hace el planteamiento de las hiptesis. Al conjunto de nuestras muestras le
llamaremos x.
H
0
: x = 500mg
H
A
: x = 500mg
66
12.1. PRUEBAS DE UNA MUESTRA CAPTULO 12. PRUEBA DE HIPTESIS
Note que la hiptesis nula tambin pudo establecerse como: H
0
: x500 = 0 mg, es decir, que la
hiptesis nula esta igualada a cero (de ah el nombre nula). Para realizar el ejemplo en R, generamos
primero los valores; obtenemos sus principales 2 estadsticas (media y error estndar); calculamos
el valor de t experimental y nalmente comparamos el valor absoluto de t experimental con el t
terico. Si el valor absoluto de t experimental es menor al terico, la hiptesis nula no se puede
rechazar:
x < rnorm(15,mean=500,sd=0.5)
m < mean(x)
se < sd(x)/sqrt(15)
texp < (m-500)/se
tteo < qt(0.975,14)
abs(texp) <tteo
que en este caso da un resultado verdadero, es decir, no se puede rechazar la hiptesis nula. Note
que para el clculo de la t experimental se utiliza el error estndar y que, dado que esta es una
prueba de 2 colas, el valor que se busca es para 0.975. Si se usan tablas que contengan los valores
de para 1 o 2 colas, entonces se busca: t
0.05(2),14
que corresponde a 2.144787. Este es el algoritmo
para hacer pruebas de hiptesis. Se recomienda hacer un esquema de lo que se quiere probar, para
facilitar la interpretacin de los resultados.
Para hacer la prueba de manera directa, primero se carga la librera de las pruebas estadsticas:
library(ctest) (slo es necesario cargarla una vez por sesin). La prueba se hace simplemente con
la funcin: t.test(x, mu = 500). En este caso se prueba la hiptesis de si la media es igual a 500
mg. El resultado incluye el valor de t, el intervalo de conanza sobre la media, la hiptesis alterna
as como el valor de p obtenido. Cuando este valor es menor a 0.05, entonces se puede rechazar
la hiptesis nula. En el ejemplo mencionado, se obtuvo un valor de p = 0.4208, por lo que no se
puede rechazar la hiptesis nula (existe un 42 % de error al rechazarla).
Ahora presentamos un ejemplo para una prueba de una cola. Suponga que se est desarrollando
un nuevo antipirtico, y Ud. quiere evaluar la ecacia de ste en un lapso de 1 hr. En su experimento
Ud. consigue elevar la temperatura corporal de 10 conejos a 40

C, les administra su antipirtico y
vuelve a tomar la temperatura de cada conejo 1 hr despus. Supongamos que estas observaciones se
encuentran en la variable temp, entonces nuestro planteamiento de hiptesis queda de la siguiente
manera:
H
0
: x
temp
40
H
A
: x
temp
< 40
es decir, que slo podremos rechazar la hiptesis nula si efectivamente hay una disminucin en
la media de las temperaturas. Ahora simulamos el experimento en R y probamos la hiptesis nula
siguiendo el algoritmo descrito anteriormente:
temp < rnorm(10,mean=37,sd=0.1)
mt < mean(temp)
set < st/sqrt(10)
ttemp.exp < (mt-40)/set
ttemp.teo < qt(0.05,9)
ttemp.exp <ttemp.teo
67
12.2. DOS VARIANZAS CAPTULO 12. PRUEBA DE HIPTESIS
que en este ejemplo sale como verdadero, por lo que se puede rechazar la hiptesis nula, es decir,
el antipirtico efectivamente disminuye signicativamente la temperatura corporal en el lapso de
1 hr. Para hacer la prueba en un paso, debe indicarse no slo el valor de la media, sino tambin la
hiptesis alterna, ya que el dafault es de dos colas: t.test(temp, alternative = c(less), mu = 40).
El resultado nos da un valor de p = 2.110e-15 que es claramente menor a 0.05, por lo que se puede
rechazar la hiptesis nula.
12.2. Diferencia entre dos varianzas
Si se tienen dos muestras de observaciones, cada una tomada aleatoriamente de poblaciones
normales, es posible preguntarse si sus varianzas son iguales o diferentes. Esta pregunta es impor-
tante, entre otras cosas, porque inuye en el tipo de prueba que se puede aplicar para comparar dos
medias. En principio, debe tenerse cuidado cuando se comparan las medias de poblaciones con
varianzas diferentes. El planteamiento de la igualdad es de dos colas y es como sigue:
H
0
: s
2
A
= s
2
B
H
A
: s
2
A
= s
2
B
Se muestra el algoritmo correspondiente mediante un ejemplo concreto. Suponga que se desea
saber si la varianza entre 2 equipos de produccin es la misma. Generamos los datos (a, b) y
obtenemos la varianza (s2) de cada una:
a < rnorm(11,mean=35,sd=4.6)
b < rnorm(8,mean=55,sd=4)
s2a < var(a)
s2b < var(b)
En este caso se utiliza una distribucin diferente, que corresponde a la F (de Fisher), que se
obtiene del cociente de las dos varianzas. Como esta es una prueba de 2 colas, la varianza mayor
se coloca en el numerador y la menor en el denominador:
F =
s
2
A
s
2
B
(12.1)
En nuestro ejemplo, A tiene una mayor varianza por lo que: F < s2a/s2b que da un valor de
1.485445. Este valor se compara con el correspondiente terico (F
0.05(2),10,7
), es decir, se requiere
buscar los grados de libertad tanto del numerador (10), como los del denominador (7). En R el
valor se obtiene con: qf (0.975,10,7) que es: 4.761116. Como el valor experimental es menor al
terico, no existen razones para rechazar a la hiptesis nula.
El clculo directo se realiza una vez cargada la librera ctest con la funcin: var.test(a, b) que da
68
12.3. DOS MEDIAS CAPTULO 12. PRUEBA DE HIPTESIS
como resultado una p = 0.6159 que es mayor a 0.05, por lo que no se puede rechazar la hiptesis
nula.
Cuando se hacen pruebas de 1 cola, la hiptesis alterna determina el valor de la varianza que
debe ir en el numerador y la que debe ir en el denominador (segn el signo correspondiente).
12.3. Diferencia entre dos medias
Cuando se comparan dos medias que no dieren signicativamente en sus varianzas, se sigue
el algoritmo del ejemplo que se pone a continuacin. Suponga que se quiere probar si existe di-
ferencia signicativa en el tiempo de coagulacin que se tiene tras ingerir el medicamento A o el
medicamento B. El planteamiento es el siguiente:
H
O
: x
A
= x
B
H
A
: x
A
= x
B
Primero generamos los datos (a, b), suponiendo la misma varianza y calculamos media (m), nmero
de observaciones (n), grados de libertad (d f ) y suma de cuadrados (ss):
a < rnorm(6,mean=8.7,sd=0.6)
b < rnorm(7,mean=9.7,sd=0.6)
ma < mean(a)
mb < mean(b)
na < length(a)
nb < length(b)
dfa < na1
dfb < nb1
ssa < sum((ama)2)
ssb < sum((bmb)2)
Note que si realiza estas operaciones en su calculadora, resulta ms cmodo calcular la suma de
cuadrados multiplicando el valor de la varianza por sus correspondientes grados de libertad, es
decir: ss = (sd)
2
d f .
Ahora procedemos a calcular la varianza global:
s
2
p
=
SS
1
+SS
2

1
+
2
(12.2)
Siguiendo con la sesin en R: sp2 < (ssa +ssb)/(d f a +d f b). Con este valor se calcula el
error estndar de la diferencia entre las medias:
s
x
1
x
2
=

s
2
p
n
1
+
s
2
p
n
2
(12.3)
69
12.3. DOS MEDIAS CAPTULO 12. PRUEBA DE HIPTESIS
Que puede calcularse con: se < sqrt(sp2/na +sp2/nb). Este resultado se emplea, a su vez,
para obtener el valor de t
exp
:
t
exp
=
x
1
x
2
s
x
1
x
2
(12.4)
Que se obtiene con: texp <(mamb)/se. Finalmente se compara este valor con el correspon-
diente terico (t
0.05(2),11
). En el presente ejemplo se obtuvo una t
exp
= 2.996303, por lo que debe
compararse con el valor de t que se encuentra del lado izquierdo de la curva: qt(0.025, 11) que da
un valor de 2.200985 (compruebe que en las tablas obtiene el mismo valor). Dado que en este
caso, el valor absoluto de t
exp
es mayor al valor absoluto de t
teo
, se rechaza la hiptesis nula sobre
la igualdad de las medias.
Para hacer el mismo anlisis en R en un slo paso, una vez cargada la librera ctest simplemen-
te se hace la prueba indicando que no existe diferencia entre las varianzas de las dos muestras:
t.test(a, b, var.equal = T). El resultado de la prueba indica una p = 0.01216 que es menor a 0.05,
por lo que se rechaza la hiptesis nula.
12.3.1. Medias con varianzas diferentes
La comparacin entre dos medias provenientes de poblaciones con distribucin normal, pero con
varianzas diferentes, puede hacerse con la t aproximada de Welch que se obtiene con la siguiente
frmula:
t
W
=
x
1
x
2
_
s
2
1
n
1
+
s
2
2
n
2
(12.5)
Este valor se compara con el correspondiente t terico que tiene los siguientes grados de libertad:

W
=
_
s
2
1
n
1
+
s
2
2
n
2
_
2
_
s
2
1
n
1
_
2
n
1
1
+
_
s
2
2
n
2
_
2
n
2
1
(12.6)
Dado que los grados de libertad calculados no dan un nmero entero, se utiliza el siguiente entero
menor. Este clculo es muy simple en R, ya que por default asume diferencia entre las varianzas y
por tanto hace una prueba de Welch. Si se usaran los datos del ejemplo anterior, simplemente se
escribe t.test(a, b) para hacer la prueba.
70
12.3. DOS MEDIAS CAPTULO 12. PRUEBA DE HIPTESIS
12.3.2. Prueba de Mann-Whitney
La teora en la que se basa la prueba de t requiere que las dos muestras provengan de poblaciones
normales con la misma varianza. Cuando esta ltima no es igual puede hacerse la aproximacin de
Welch (ver atrs).
Se han desarrollado una serie de pruebas que no requieren la estimacin de parmetros a partir
de las muestras y que tampoco hacen suposiciones sobre la naturaleza de la distribucin de las po-
blaciones. A estos mtodos se les conoce como no-paramtricos. Un ejemplo de estos mtodos, lo
constituye la prueba de Mann-Whitney (tambin llamada de Wilcoxon) para comparar dos medias
que no provienen de una distribucin normal (slo considera una distribucin continua).
Para esta prueba, no se utilizan los datos originales, sino ms bien el orden de las observaciones.
Este orden puede ser de menor a mayor o de mayor a menor. Por ejemplo, si se ordenan las
observaciones del mayor al menor, la observacin con el valor ms alto recibe la calicacin de 1,
el que le sigue la calicacin de 2 y as sucesivamente. Cuando se tienen 2 o ms observaciones con
el mismo valor, se dice que estn empatados y se les asigna la misma calicacin, correspondiente
al promedio de las calicaciones que obtendran si no fuesen iguales. La estadstica que se calcula
es U y se obtiene con la siguiente frmula:
U = n
1
n
2
+
n
1
(n
1
+1)
2
R
1
(12.7)
donde n
1
y n
2
representan el nmero de observaciones en las muestras 1 y 2 respectivamente y
R
1
es la suma de los rangos de las observaciones correspondientes a la muestra 1. Esta estadstica
tambin puede calcularse como:
U

= n
2
n
1
+
n
2
(n
2
+1)
2
R
2
= n
1
n
2
U (12.8)
donde R
2
es la suma de los rangos en las observaciones de la muestra 2.
Pruebas de 2 colas
Cuando la prueba de hiptesis es de dos colas, se deben calcular tanto U como U

y el valor ms
grande se compara con el valor crtico de las tablas U
0.05(2),n
1
,n
2
(la tabla asume que n
1
< n
2
si
ocurre lo contrario, debe utilizarse U
0.05(2),n
2
,n
2
como valor crtico).
Para aclarar los clculos, se utilizar un ejemplo. Suponga que se quiere saber si existe diferencia
en el tamao de una especie determinada, entre machos (m) y hembras ( f ). A continuacin se
presenta la asignacin de las variables correspondientes, el clulo de los rangos y de las estadsticas
71
12.3. DOS MEDIAS CAPTULO 12. PRUEBA DE HIPTESIS
(para facilitar la comprensin, se incluyen pequeos comentarios despus del signo #):
m < c(19.3,18.8,18.5,18.3,18,17.8,17) # los machos
f < c(17.5,17.3,16.8,16.5,16.3) # las hembras
nm < length(m) # num. de machos
nf < length(f) # num. de hembras
mf < c(m,f) # vector con machos y hembras
rmf < rank(mf) # vector con los rangos correspondientes
n < nm+1 # valor que se usa para calculos posteriores
nt < length(mf) # num. de observaciones totales
rm < sum(rmf[1:nm]) # suma de rangos para machos
rf < sum(rmf[n:nt]) # suma de rangos para hembras
U < nm*nf+(nm*n)/2-rm # calc. de U
U2 < nm*nf-U # calc. de U
El valor que se obtiene de U es de 2 y de U

es de 33. Este ltimo se compara con el de las tablas


que en R se obtiene con: qwilcox(0.975, nm, n f ) y es de 29, por lo que se rechaza la hiptesis nula.
La prueba en un slo paso se hace con wilcox.test(m, f ) que da una p = 0.01010 que es menor
a 0.05, por lo que se rechaza la hiptesis nula.
Pruebas de 1 cola
Para hacer pruebas de 1 cola se requiere declarar el extremo de la distribucin de Mann-Whitney
que es de inters, ya que ste determina si debe calcularse U o U

. En el Cuadro 12.1 se presenta


la estadstica apropiada para cada caso.
Cuadro 12.1. Estadsticas apropiadas para pruebas de Mann-Whitney de 1 cola.
Orden H
0
: a b H
0
: a b
(Rango) H
A
: a < b H
A
: a > b
Menor a mayor U U

Mayor a menor U

U
Como referencia, R coloca los rangos con la funcin rank(x), ordenando los valores individuales
de menor a mayor.
Suponga que desea saber si en promedio una persona que estudi taquigrafa puede escribir ms
palabras por minuto, que una sin estudios. Al primer grupo le llamaremos a y al segundo b. Ahora
bien, supongamos que los resultados correspondientes fueron: a <c(44, 48, 36, 32, 51, 45, 54, 56)
y b <c(32, 40, 44, 44, 34, 30, 26). En la variable ab concatenamos ambas variables: ab <c(a, b).
Asignamos los rangos correspondientes a la variable rab: rab <rank(ab). Debido que la hipte-
sis alterna establece que a >b la estadstica adecuada es U

que se calcula como en el caso anterior,


72
12.4. MUESTRAS PAREADAS CAPTULO 12. PRUEBA DE HIPTESIS
y cuyo valor es 47.5. Para realizar la prueba en un paso escribimos: wilcox.test(a, b, alternative =
c(g)) que nos da una p = 0.01360, menor a 0.05, por lo que se rechaza la hiptesis nula.
12.4. Muestras pareadas
Las pruebas de la seccin anterior se aplican para muestras independientes, es decir, que los da-
tos de una muestra no se encuentran asociados de ninguna manera con los datos de la otra muestra.
Sin embargo, existen circunstancias en las que las observaciones de la muestra 1 se encuentran
correlacionadas con las observaciones de la muestra 2, por lo que se dice que son muestras parea-
das.
Cuando se tienen muestras pareadas, cada dato en la muestra 1 tiene su correspondiente en la
muestra 2, por lo que ambas muestras tienen el mismo nmero de datos, y estos estn correlacio-
nados. Para las muestras pareadas suele utilizarse el promedio de las diferencias en las medias, de
tal modo que:
x
d
= x
1
x
2
(12.9)
En este sentido, en una prueba de 2 colas se podra establecer como hiptesis nula que: H
0
: x
d
=
0. La estadstica t se calcula dividiendo la media de las diferencias ( x
d
) entre el error estndar de
las diferencias.
Para el caso de pruebas de 1 cola, el planteamiento de la hiptesis depende de la pregunta que
se quiera contestar, y el algoritmo que se sigue es el mismo. Supongamos, por ejemplo, que se
quiere probar si un nuevo fertilizante (n) es capaz de incrementar la produccin de un cultivo en
250 kg/ha con respecto a un fertilizante viejo (o). Para el experimento, se dividen 9 parcelas en 2,
de tal manera que en una mitad se coloca el nuevo fertilizante y en la otra el viejo. Dado que la
parcela es la misma, los datos estarn pareados. El planteamiento de la prueba sera como sigue:
H
O
: x
d
250kg/ha
H
A
: x
d
250kg/ha
A continuacin se presentan los clculos comentados:
73
12.4. MUESTRAS PAREADAS CAPTULO 12. PRUEBA DE HIPTESIS
n < c(2250,2410,2260,2200,2360,2320,2240,2300,2090) # fert. nuevo
o < c(1920,2020,2060,1960,1960,2140,1980,1940,1790) # fert. viejo
d < n-o # vector con las diferencias (pareadas)
md < mean(d) # media de las diferencias
nd < length(d) # num. observaciones pareadeas
sed < sd(d)/sqrt(nd) # error estndar de las diferencias
texp < (md-250)/sed # calc. de t exp.
tteo < qt(0.95,8) # calc. de t teor.
texp >tteo # comparacin de las t
que en este caso da falso, por lo que no se puede rechazar la hiptesis nula. Para hacer la prueba
en un paso en R, simplemente se escribe: t.test(n, o, alternative = c(g), mu = 250, paired = T).
Note que se indican de manera explcita la hiptesis alterna, el valor de 250 que se quiere probar
es mayor y que las muestras son pareadas.
74
Captulo 13
ANOVA
Cuando se comparan ms de dos variables independientes (que explican) de tipo categrico, no
se recomienda que se hagan varias pruebas de hiptesis para determinar posibles diferencias entre
ellas, ya que se aumenta considerablemente el error tipo I por cada variable que sea considerada
(para dos variables es slo 0.05). En estos casos debe realizarse un anlisis de varianza (ANOVA)
sobre la media o sobre la varianza, dependiendo de lo que se quiera comparar.
Para realizar un ANOVA es recomendable que todos los grupos (variables) tengan el mismo
nmero de observaciones. Para explicar el procedimiento, se presenta el siguiente ejemplo terico.
13.1. ANOVA sobre la media
Supongamos que estamos probando 4 dietas diferentes en grupos de 10 ratones. A cada grupo
se le administra su dieta respectiva desde el destete hasta cierto tiempo, cuando todos los ratones
son pesados. La hiptesis nula es que la media de los pesos, de todos los grupos es la misma.
Comenzemos generando los datos:
a < rnorm(10,mean=15.7,sd=1)
b < rnorm(10,mean=23.1,sd=1)
c < rnorm(10,mean=20.3,sd=1)
d < rnorm(10,mean=18.5,sd=1)
peso < c(a,b,c,d) # pesos concatenados
gpo < rep(c(a,b,c,d),each=10) # grupos concatenados
exp < data.frame(peso,gpo) # tabla con todos los datos
attach(exp)
A continuacin deben realizarse los clculos para hacer la tabla de ANOVA. Este procedimiento
es relativamente complicado, por lo que se debe tener cuidado. Primero pondremos las frmulas
generales para obtener la suma de cuadrados del total (SS
tot
), del grupo (SS
gpo
) y del error (SS
err
):
75
13.1. ANOVA SOBRE LA MEDIA CAPTULO 13. ANOVA
SS
tot
=

j
x
2
i j
C (13.1)
SS
gpo
=

i
_

j
x
i j
_
2
n
i
C (13.2)
SS
err
= SS
tot
SS
gpo
(13.3)
C =
_

j
x
i j
_
2
N
=
_

j
x
i j
_
2

k
i=1
n
i
(13.4)
Explicando un poco, para calcular C se requiere la suma de todos los valores, luego se eleva al
cuadrado y nalmente se divide entre el nmero total de observaciones (N). Para calcular SS
tot
se
resta C de la suma de los cuadrados de todas las observaciones. El clculo de SS
gpo
es un poco ms
complicado: se calcula la sumatoria de las observaciones por grupo, se eleva este valor al cuadrado
y se divide el resultado entre el nmero de observaciones en ese grupo (n); se suman estos valores
obtenidos para cada grupo, y nalmente a este resultado se le resta C.
Para construir la tabla del ANOVA se requiere adems saber los grados de libertad () tanto del
grupo como del error. Los grados de libertad se calculan con las siguientes frmulas:

tot
= N1 (13.5)

gpo
= k 1 (13.6)

err
= Nk =
tot

gpo
(13.7)
donde N representa el nmero total de observaciones y k representa el nmero total de grupos. La
media de los cuadrados (MS) se obtiene dividiendo las sumas de cuadrados SS entre sus respec-
tivos grados de libertad . De esta manera, para el ejemplo que se mencion, la tabla de ANOVA
correspondiente, se presenta en el Cuadro 13.1.
Cuadro 13.1. Anlisis de varianza de cuatro dietas experimentales
SS MS
Grupo 249.237 3 83.079
Error 35.234 36 0.979
La estadstica que se calcula en un ANOVA es la F, que se obtiene por:
F =
MS
gpo
MS
err
(13.8)
En nuestro ejemplo, F = 84.86. Este valor se compara con el valor terico (de tablas) que es:
F
0.05,(1),3,36
= 2.866. Este valor se obtiene en R con: q f (0.95,3,36)
76
13.2. COMPARACIN ENTRE GRUPOS CAPTULO 13. ANOVA
La prueba de ANOVA en R es relativamente sencilla, simplemente se escribe la funcin: anova
(lm(pesogpo, data=exp)), que produce como resultado la tabla del ANOVA con el valor obtenido
de F y de p, que si es menor a 0.05, se puede rechazar la hiptesis nula (como ocurre en nuestro
ejemplo).
Otra manera de realizar el ANOVA en R es mediante la instruccin: model aov(pesogpo,
data=exp) para posteriormente ver el resultado con summary(model). Aunque en este caso se rea-
lizan dos pasos, es ms recomendable que el anterior, ya que se pueden gracar los resultados del
anlisis y se puede hacer la comparacin entre grupos (ver a continuacin).
13.2. Comparacin entre grupos
13.2.1. Tukey
Una vez que se ha rechazado la hiptesis nula, es deseable saber dnde se encuentra la diferencia
entre los grupos. Una primera aproximacin, consiste en comparar al primer grupo, contra los otros
restantes (suponemos que el primer grupo es el control).
Mediante la prueba de Tukey se pueden obtener las diferencias entre las medias de cada grupo,
con respecto al control, con sus respectivos intervalos de conanza: TukeyHSD(model, order =T).
La grca correspondiente se obtiene con la funcin: plot(TukeyHSD(model, order = T)).
13.2.2. Comparacin por pares
La tcnica pairwise prueba si existe diferencia estadstica entre medias por pares de grupos.
Se realiza con la funcin: pairwise.t.test(peso, gpo, data = exp). Los resultados proporcionan el
valor de p para cada comparacin.
Finalmente con la funcin: sort(tapply(peso, gpo, mean)) visualizamos las medias de cada gru-
po, lo cual, en conjunto con el anlisis de Tukey, nos permite ordenar los grupos por diferencia
estadstica.
Otra opcin es deniendo un modelo lineal (como en el caso de la regresin), y obteniendo los
coecientes correspondientes con summary:
mod < lm(pesogpo,data=exp)
summary(mod)
Los resultados de los coecientes, no corresponden, en este caso, a la ordenada al origen y a la
pendiente. El valor de Intercept indica la media del primer grupo, mientras que los otros estimados
corresponden a la diferencia de la media de cada grupo, con respecto al primero. En cada rengln
77
13.3. PRUEBAS NO-PARAMTRICAS CAPTULO 13. ANOVA
se agrega tambin la p sobre la diferencia signicativa entre las medias. En nuestro ejemplo, todos
los grupos son signicativamente diferentes del primero, siendo el de mayor diferencia el grupo b.
13.3. Pruebas no-paramtricas
La prueba de ANOVA contempla las siguientes consideraciones:
Muestreo aleatorio
Igualdad de varianzas
Independencia de los errores
Distribucin normal de los errores
Aditividad de los efectos del tratamiento
Cuando alguna o ms de una de stas no se cumple, entonces se recomienda realizar una prueba
no-paramtrica, siendo la ms conocida, la prueba de Kruskal-Wallis.
Como un primer paso, se puede probar la hiptesis nula sobre la homogeneidad de las varianzas.
Esto se realiza con la prueba de Bartlett: bartlett.test(peso gpo, data = exp). Si se rechaza la
hiptesis nula, entonces, se puede aplicar la prueba de Kruskal-Wallis con: kruskal.test(peso
gpo, data = exp).
Si se encuentra diferencia signicativa en esta prueba, se rechaza la hiptesis nula, con lo que
se sabe que por lo menos el grupo cuya media es mayor, pertenece a una poblacin estadstica-
mente diferente de la del grupo cuya media es menor. Para hacer un anlisis ms detallado, hay
que recordar que la prueba de Pairwise as como la de Tukey, implican que la distribucin de
los errores es normal, por lo que no pueden utilizarse en estos casos. Haciendo algo similar a la
prueba de Tukey, es posible calcular los intervalos de conanza por bootstrap para cada grupo, para
posteriormente, detectar los posibles traslapes entre los grupos que se estn comparando, y poder
llegar a una conclusin ms detallada.
13.3.1. Pruebas multivariadas
En los casos anteriores, aunque existan ms de 2 muestras, slo se estaban relacionando 2 va-
riables, una que explica (independiente, de tipo categrica) y otra de respuesta (dependiente, de
tipo continua). Aunque es mucho ms complicado, desde el punto de vista estadstico, tambin es
posible probar hiptesis que involucren a ms de una variable que explica. En estos casos, se dice
que se realiza un anlisis multivariado.
78
13.3. PRUEBAS NO-PARAMTRICAS CAPTULO 13. ANOVA
Ejemplos de este tipo de pruebas, se han mencionado brevemente cuando se presentaron las
grcas condicionadas (coplot) y los dendrogramas (grcas de rbol).
Para este tipo de pruebas, se propone como ejemplo la base de datos heart.rate que se encuen-
tra en la librera ISwR. Este archivo, contiene las mediciones, a diferentes tiempos, de la frecuencia
cardaca de nueve pacientes a los cuales se les administra enalprilato. Es decir, que podra esta-
blecerse, como hiptesis alterna, que la frecuencia cardaca depende tanto del paciente, como del
tiempo en que se est midiendo. La prueba se realiza mediante la denicin de la ecuacin en R:
library(ISwR)
data(heart.rate)
attach(heart.rate)
model aov(hr subj +time, data = heart.rate)
summary(model)
plot(model)
f riedman.test(hr time|subj, data = heart.rate)
interaction.plot(time, subj, hr, col = 1 : 9, lty = 1, lwd = 2, trace.label =

Su j.

)
Con la ltima instruccin se graca el spaghetigrama que se presenta en la Fig. 13.1. La prueba
de Friedman es cuando se requiere un anlisis no paramtrico.
7
0
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
Tiempo (min)
F
r
e
c
u
e
n
c
i
a

c
a
r
d
i
a
c
a

(
m
e
d
i
a
)
0 30 60 120
Suj.
5
2
9
6
1
3
4
8
7
Figura 13.1. Frecuencia cardaca (media) contra tiempo en sujetos (Suj.) tratados con enalprilato.
79
Captulo 14
Distribuciones discretas
Estas distribuciones suelen emplearse para datos categricos, es decir, ordinales o nominales. En
R a este tipo de variables se les conoce como factores, que presentan diferentes niveles.
14.1. Bernoulli
En este tipo de distribucin slo existen 2 posibles resultados, que generalmente se traducen en
xito o fracaso. En el caso de estudios en bioestadstica, la variable sexo sera un ejemplo. Otro
ejemplo es cuando se analizan los resultados de un tratamiento (por ejemplo ciruga), en donde lo
que se manejan son proporciones.
Usualmente se le da el valor de 1 al xito y de 0 al fracaso. Ahora bien, la probabilidad de xito
se denomina p, mientras que la probabilidad de fracaso es q = 1p.
Las estadsticas ms importantes en una distribucin de Bernoulli, se describen en las siguientes
ecuaciones:
x = p (14.1)
s
2
= pq (14.2)
s
2
x
=
_
pq
n
(14.3)
Suponga, a manera de ejemplo, que se analizan en un hospital las complicaciones de una ope-
racin determinada. En el estudio clnico se tienen los resultados de 20 pacientes, de los cuales
slo 5 presentaron complicaciones. Entonces, p = 15/20 = 0.75 y q = 5/20 = 0.25. Por lo tanto la
media de esta muestra es de 0.75 con desviacin estndar de 0.433.
80
14.2. BINOMIAL CAPTULO 14. DISTRIBUCIONES DISCRETAS
14.2. Binomial
Es un caso ms general de la distribucin de Bernoulli, donde se toman muestras de tamao n y se
investiga la probabilidad de obtener un nmero determinado de casos exitosos. Una consideracin
importante de la distribucin binomial es que supone que el muestreo se lleva a cabo con remplazo.
Esto quiere decir, que cada vez que se toma un elemento de la muestra, este se regresa a la poblacin
original, de modo que la probabilidad de xito o fracaso es constante en todo el proceso. Si las
muestras son pequeas esta consideracin es de suma importancia, sin embargo, si la muestra es
relativamente grande, entonces no hay un efecto signicativo. La funcin de probabilidad de la
distribucin binomial est dada por:
f (x) =
n
C
x
p
x
q
nx
=
_
n
x
_
p
x
q
nx
(14.4)
En el caso de la distribucin binomial, las principales estadsticas son:
x = np (14.5)
s
2
= npq (14.6)
Para muestras relativamente grandes, la distribucin binomial puede aproximarse a la normal.
Para poder aproximar a la distribucin normal debe haber ms de 5 observaciones exitosas y ms
de 5 observaciones no exitosas.
Si x representa el nmero de observaciones exitosas, entonces la prueba de que p = p
0
est
basada en:
u =
x Np
0
_
Np
0
(1p
0
)
(14.7)
que tiene una distribucin aproximada a la normal con media cero y desviacin estndar de 1 y
que en u
2
tiene una distribucin aproximada a
2
con 1 grado de libertad.
14.2.1. Tablas de contingencia
Un tipo de tabla, relativamente comn, se basa en datos de una sla muestra que incluye dos
variables categricas. Por ejemplo, se puede tener una muestra de personas a las cuales se les
encuesta para saber tanto si son fumadores, como su capacidad vital (una medida de la funcin
pulmonar). En este estudio, se quiere saber si la gente que fuma tiene menor capacidad vital (en
promedio) que una que no fuma. Supongamos que el total de encuestados es n = 120 y que los
datos obtenidos fueran los del Cuadro 14.1.
Con estos datos haremos varias pruebas, que se describen a continuacin.
81
14.2. BINOMIAL CAPTULO 14. DISTRIBUCIONES DISCRETAS
Cuadro 14.1. Asociacin entre fumadores y capacidad vital baja. Se indican el nmero de obser-
vaciones con su respectiva observacin esperada en parntesis.
Fumador
Capacidad vital baja Si No Total
Si 11 (5.25) 10 (15.75) 21
No 19 (24.75) 80 (74.25) 99
Total 30 90 120
14.2.2. Riesgo reltativo
Cuando se compara el riesgo relativo de un estudio observacional, se compara el riesgo de en-
fermedad del grupo expuesto contra el riesgo de enfermedad del grupo control (no expuesto). En
el caso de los datos del Cuadro 14.1, el riesgo relativo es:
RR =
11/30
10/90
=
0.3667
0.1111
= 3.30
Es decir, el hecho de fumar, aumenta 3.30 veces el riesgo relativo de tener una capacidad vital
baja.
Cuando el valor numrico del riesgo relativo es menor a 1, se dice que el riesgo es negativo y
cuando es mayor a 1 se dice que es positivo.
14.2.3. Relacin de probabilidades
De los datos del Cuadro 14.1 se puede estimar la probabilidad (odds) de la muestra, de adquirir
la enfermedad. Esta probabilidad se estima como:
odds =
total enfermos
total muestra total enfermos
Es decir, odds = 21/(12021) = 0.212. En este sentido, se podra decir que la probabilidad de
que un individuo de nuestra muestra tenga capacidad vital baja es de 21.2 %. Ahora que se puede
calcular esta probabilidad por grupos, de modo tal que se pueda determinar si por el hecho de
pertenecer a un grupo, se tenga mayor probabilidad de desarrollar la enfermedad. A este concepto
se le conoce como relacin de probabilidades (odds ratio). Para el caso que se ha estado manejando
este valor es:
82
14.2. BINOMIAL CAPTULO 14. DISTRIBUCIONES DISCRETAS
OR =
11/(3011)
10/(9010)
=
11/19
10/80
= 4.63
El resultado se interpreta de la siguiente manera: la probabilidad de que una persona que fume
desarrolle capacidad vital baja es 4.63 veces mayor que el de una persona que no fuma.
14.2.4. Pruebas de
2
En el ejemplo que se ha manejado, este test puede probar si existe o no existe asociacin entre
el hecho de fumar y desarrollar una capacidad vital baja. Es decir, que la hiptesis nula establece
que estas dos variables categricas son independientes.
Para hacer esta prueba, se deben calcular primero las frecuencias esperadas para cada grupo.
El razonamiento es como sigue: si las variables fuesen independientes, entonces sus frecuencias
de desarrollar enfermedad seran las mismas. Por ejemplo, para el primer valor, se tiene que 11
fumadores tienen capacidad vital baja, si las frecuencias fuesen las mismas entonces esta cantidad
a guardara la siguiente relacin:
a
30
=
21
120
Por lo que a = 30 21/120 = 5.25. Siguiendo el mismo razonamiento se pueden calcular los
valores esperados para cada combinacin. Los resultados correspondientes, se incluyen entre pa-
rntesis en el Cuadro 14.1.
La estadstica que utilizamos para probar la hiptesis nula se calcula con la siguiente frmula:

2
=
n

(observados esperados)
2
esperados
(14.8)
donde n es el nmero de celdas con datos (en este caso, 4). Al sustituir los valores respectivos del
Cuadro 14.1 en la frmula anterior, se obtiene que
2
= 10.178. Este valor se tiene que comparar
con el terico que viene en las tablas. Para poder saber el valor terico, es necesario saber con
anticipacin los grados de libertad de la prueba:
grados de libertad = = (num. columnas 1)(num. renglones 1) (14.9)
En este ejemplo, se tiene, por tanto, un grado de libertad, con lo que:
2
0.05,1
= 3.841, que es
menor al experimental, por lo que se puede rechazar la hiptesis nula. Este valor de tablas se puede
obtener en R con: qchisq(0,95, 1).
83
14.2. BINOMIAL CAPTULO 14. DISTRIBUCIONES DISCRETAS
Para hacer la prueba en 1 paso es necesario que los datos estn en forma de matriz. La manera
ms sencilla de hacer la matriz es mediante la funcin cbind como se muestra a continuacin:
Fuma < c(11,19)
No.Fuma < c(10,80)
vital < cbind(Fuma,No.Fuma)
rownames(vital) < c(Enfermo,Sano)
chisq.test(vital,correct=F)
Note que para la prueba se utiliz la opcin de correccin como falsa, con el objetivo de
hacer el anlisis clsico. Dado que se trata de variables categricas, se recomiendas las grcas de
barras como se muestra en la Fig. 14.1 donde se puede detectar fcilmente que la distribucin de
proporciones en los no fumadores es muy diferente a la de los fumadores.
Fuma No.Fuma
N

m
e
r
o

d
e

S
u
j
e
t
o
s
0
2
0
4
0
6
0
8
0
Enfermo
Sano
Figura 14.1. Capacidad vital baja en fumadores y no fumadores.
La grca anterior se realiz con las siguientes instrucciones:
barplot(vital,beside=T,col=c(darkgreen,darksalmon),ylab=Nmero de Sujetos)
legend(1,80,rownames(vital),ll=c(darkgreen,darksalmon))
84
Captulo 15
Regresin y Correlacin Lineal
La relacin entre dos variables puede implicar la dependencia de una de ellas con respecto a
la otra. Esto es, la magnitud de la variable dependiente, se asume que est dada por la magnitud
de la variable independiente. Lo contrario no ocurre. Por ejemplo, en la relacin entre la presin
arterial y la edad en humanos, la primera es funcin de la segunda. Cabe hacer mencin que en
estos casos, el trmino dependencia no implica una relacin causa-efecto entre las dos variables.
A esta relacin de dependencia se le conoce como regresin, siendo la regresin simple el caso en
que slo dos variables se consideran.
En otras ocasiones, la relacin entre dos variables determinadas no es de dependencia, aunque es
posible que el cambio en una variable est relacionada, de alguna manera, con el cambio en la otra.
En estos casos, se deben realizar anlisis de correlacin. Por ejemplo, la longitud de los brazos est
correlacionada con la longitud de las piernas en un mismo individuo, pero eso no implica que haya
dependencia entre ellas.
Estos anlisis (regresin y correlacin) se utilizan cuando las dos variables analizadas son con-
tinuas. Cuando la variable independiente (la que explica) es de tipo categrica, entonces se realiza
otro tipo de anlisis como las pruebas de hiptesis vistas en captulos anteriiores, o bien un anlisis
de varianza si ms de dos variables independientes estn involucradas.
15.1. Regresin lineal simple
Una de los pasos ms importantes en este tipo de anlisis, es el de seleccionar un modelo entre los
posibles, que sea ms adecuado para ajustarse a los datos observados. El principio de parsimonia
nos dice que debemos ajustar con el modelo ms simple posible. En la prctica, esto signica que
se debe ajustar con el modelo que contenga el menor nmero de parmetros. En el modelo nulo no
existe relacin entre la variable y y la variable x, por ejemplo, y puede ser constante:
85
15.1. REGRESIN CAPTULO 15. REGRESIN Y CORRELACIN LINEAL
y = a (15.1)
Si existe relacin entre y y x, el modelo ms simple es el suponer que dicha relacin es lineal:
y = a+bx (15.2)
donde la variable de respuesta y es una funcin lineal de la variable que explica x, el parmetro a
es la ordenada al origen o intercepto y el parmetro b es la pendiente de la lnea. Los objetivos del
anlisis lineal son los siguientes:
Estimar los valores de los parmetros a y b
Estimar los errores estndar de esos parmetros
Utilizar los errores estndar para determinar si estos valores son estadsticamente diferentes
de cero
Predecir valores de y tericos, para diferentes valores de x
Para establecer un anlisis de regresin lineal simple, el primer paso consiste en gracar los
datos. Una vez gracados, es posible tener una primera aproximacin mediante una regresin
grca. Esta tcnica, poco precisa, consiste en trazar una recta que pasa por en medio de todas las
observaciones.
Con base al principio anterior, si una recta terica pasa por en medio de todos los datos, entonces
las distancias de los datos por arriba de la recta ser igual a la suma de las distancias por abajo de
ella. Matemticamente se trata de minimizar estas distancias. A este procedimiento se le conoce
como mnimos cuadrados. La deduccin de la frmula no se presenta en estos apuntes, slo se
presentan las frmulas resultantes para los dos parmetros:
b =
SS
xy
SS
xx
(15.3)
a = y b x (15.4)
Para la Ec. 15.3, las sumas de cuadrados se obtienen, a su vez, de las siguientes ecuaciones:
SS
xy
=

x
i
y
i

x
i y
i
n
=

(x x)(y y) (15.5)
SS
xx
=

x
2
i

[x
i
]
2
n
=

(x x)
2
(15.6)
Dado que la mejor recta pasa por el punto de los promedios ( x, y), el parmetro a se obtiene
despejando de la Ec. 15.2 usando esta coordenada, como se muestra en la Ec. 15.4.
86
15.1. REGRESIN CAPTULO 15. REGRESIN Y CORRELACIN LINEAL
Una vez estimados los parmetros, se pueden obtener los valores de los errores estndar, consi-
derando dos grados de libertad (debido al nmero de parmetros estimados) y se puede emplear
la ecuacin para poder predecir valores de y. La desviacin estndar del error se obtiene de la
suma de cuadrados entre los valores tericos (teo) que se obtienen de la ecuacin y los valores
experimentales (exp):
s =
_
SS
err
n2
=

(y
exp
y
teo
)
2
n2
(15.7)
Con este valor se calcula el error estndar dividiendo entre la raz cuadrada de la suma de cua-
drados en x:
se =
s

SS
xx
=
s
_
(x x)
2
(15.8)
Un indicador de ajuste se obtiene con el coeciente de regresin o de determinacin que se
calcula como:
r
2
=
SS
yy
SS
err
SS
yy
(15.9)
15.1.1. Regresin en R
Para ilustrar la regresin lineal simple en R, se utilizarn los datos del archivo regression.txt
de la pgina web del Crawley:
reg < read.table(regression.txt,header=T) # se cargan los datos
attach(reg)
reg.lm < lm(growthtannin) # regresion lineal
reg.lm # valores de los parametros
summary(reg.lm) # analisis lineal
Con la ltima instruccin se obtienen no slo los valores de los parmetros, sino que adems sus
errores estndar y la prueba de hiptesis de si son diferentes de cero. Esta prueba es importante
en el caso de la pendiente, ya que si no es distinta de cero, entonces no existe relacin entre las
variables. Asimismo, se proporciona el valor del coeciente de regresin (r
2
) que es uno de los
indicadores estadsticos importantes del modelo. Cuando el ajuste es muy bueno, se tienen valores
cercanos a uno; valores cercanos a cero, indican un mal ajuste. Para trazar la recta de la ecuacin,
una vez gracados los datos originales, se escribre la funcin: abline(reg.lm).
Para obtener predicciones, puede usarse R como calculadora y sustituir en la ecuacin original,
o bien puede usarse la funcin predict. Por ejemplo, si se quiere saber el crecimiento para un
87
15.2. CORRELACIN CAPTULO 15. REGRESIN Y CORRELACIN LINEAL
porcentaje de tanina de 3 se escribe: predict(reg.lm, list(tannin = 3)); si se quieren ms valores se
utiliza la concatenacin: predict(reg.lm, list(tannin = c(5.5,6.8))).
15.2. Correlacin lineal simple
Mediante este anlisis se quiere establecer la posible relacin o correlacin entre dos variables
continuas. A diferencia de la regresin, la relacin slo es supuesta. Se parte de la hiptesis nula
de que no hay correlacin, por lo que, en un modelo lineal, la pendiente no es signicativamente
diferente de cero. El coeciente de correlacin tiene valores entre -1 y 1. Valores cercanos a cero
implican no-correlacin. La frmula es la siguiente:
r =
SS
xy
_
SS
xx
SS
yy
=
(x x)(y y)
_
(x x)
2
(y y)
2
(15.10)
En R esta es una funcin directa que se realiza con: cor(x, y). Si se desea realizar un anlisis ms
formal, entonces se puede probar la hiptesis nula de la no correlacin mediante cor.test(x, y) de
la librera ctest. Con esta prueba se obtiene el coeciente de correlacin de Pearson (el default),
que depende de la distribucin normal de las diferencias entre las variables. Si se desea realizar
pruebas no paramtricas, se puede escoger el mtodo de Spearman o de Kendall, por ejemplo:
cor.test(growth, tannin, method = c(spearman)).
88
Captulo 16
Ajuste de modelos
En el captulo anterior se present brevemente el anlisis de regresin lineal. En este captulo se
realiza un anlisis ms profundo sobre como ajustar los modelos a un conjunto de datos (observa-
ciones).
16.1. Modelos lineales
Hay que hacer notar, que en ocasiones, el modelo lineal no es el modelo que mejor se ajusta a
los datos, aunque si es el ms simple. Tambin hay que hacer nfasis en que dado que los datos son
experimentales, es posible que tengan error y por tanto, modiquen considerablemente un modelo
determinado. En este sentido, hay que recordar que al aplicar un modelo, slo se tienen estimados
gruesos sobre los valores de los parmetros y que hay que reexionar sobre el resultado que se
reporta.
Para tratar de aclarar lo anterior, se presenta un caso concreto, basada en un principio de astrono-
ma conocido como ley de Bode que trata de establecer una relacin lineal en la distancia de los
planetas de la va lactea con respecto al sol. Estos datos se encuentran en el archivo bode.txt, que
se encuentra en la seccin de Archivos, de la pgina web del curso. Comenzamos con el modelo
inicial que considera todos los datos:
bode < read.table(bode.txt, header=T)
attach(bode)
plot(x,y,pch=16,col=2)
model1 < lm(yx)
abline(model1)
summary(model1)
Como se observa en la Fig. 16.1a, pese a lo que indica el coeciente de regresin (0.93), el
89
16.1. MODELOS LINEALES CAPTULO 16. AJUSTE DE MODELOS
ajuste no es muy bueno, ya que el modelo no sigue adecuadamente a los datos. De hecho, si se es
observador, se puede notar que el ltimo valor sugiere una ligera curvatura en el modelo.
0 20 40 60 80
0
1
0
2
0
3
0
4
0
(a)
x
y
0 10 20 30 40
0
5
1
0
1
5
2
0
2
5
3
0
(b)
x2
y
2
Figura 16.1. Comparacin de modelos lineales. (a) Modelo lineal considerando todas las observa-
ciones (model1). (b) Modelo lineal que no considera la ltima observacin (model2).
Dado lo anterior, es posible plantear la hiptesis que las variables slo siguen una relacin lineal
hasta un valor de x =40, y que despus, la relacin es no lineal. En este sentido, se puede proponer
un segundo modelo donde se descarta la ltima observacin, como se muestra a continuacin:
x2 < x[-10]
y2 < y[-10]
model2 < lm(y2x2)
plot(x2,y2,pch=16,col=2
abline(model2,col=4)
summary(model2)
El resultado de este ajuste se presenta en la Fig. 16.1b, donde se puede observar un mejor ajuste
del modelo. Ahora se puede realizar una comparacin ms detallada de ambos modelos. En primer
trmino, se pueden comparar algunos criterios de informacin sobre los modelos. El ms conocido
se present en el captulo anterior y corresponde al coeciente de regresin.
90
16.1. MODELOS LINEALES CAPTULO 16. AJUSTE DE MODELOS
16.1.1. Criterios de Informacin
Existen otros criterios de informacin, que no slo evalan que tanto se acercan los valores te-
ricos a los experimentales, sino que adems castigan de acuerdo al nmero de parmetros que se
estn estimando (en el caso lineal son dos: el intercepto y la pendiente). De este tipo de criterios,
los ms usados son el de Akaike y el Bayesiano. Entre ms pequeos sean estos valores, mejor es
el modelo. En el archivo funciones.txt se encuentra un concentrado de las funciones ms impor-
tantes que se han ido utilizando en el curso, y que no estn denidas en R. De este archivo podemos
copiar la funcin akaike para calcular los principales criterios de informacin. Esta funcin requie-
re que se introduzcan los valores experimentales, los valores tericos y el nmero de parmetros.
Suponiendo que ya se tenga cargada la funcin, se presenta a continuacin su uso para el caso del
primer modelo:
theo1 < tted.values(model1)
akaike(y,theo1,2)
Como se pude observar, con la funcin tted.values se obtienen los valores tericos correspon-
dientes al ajuste con el modelo propuesto. Si se realiza la misma operacin para el segundo modelo,
se encontrar que el valor de r
2
es ms grande, y que los de AIC y BIC son ms pequeos, por lo
que se puede concluir que el modelo es mejor.
16.1.2. Intervalos de conanza
Dado que los valores de los parmetros son slo estimaciones, es conveniente calcular el interva-
lo de conanza que se tiene sobre estos valores. Obviamente, entre ms pequeo sea este intervalo,
mayor certidumbre se tiene sobre su valor. Una manera de calcular el intervalo de conanza puede
ser a travs de la tcnica de bootstrap. Para aplicar esta tcnica se requiere que los valores expe-
rimentales se encuentren cargados en una matriz y posteriormente, se puede usar la funcin bst.t
que se encuentra en el archivo de funciones.txt. A continuacin se presenta el procedimiento
para calcular los intervalos de conanza del primer modelo (recuerde que requiere copiar y pegar
primero las funciones bst.t y ci para poder llevarlo a cabo):
bode1.mat < cbind(x,y)
bst.t(bode1.mat)
ci(-0.003,4.674)
En el clculo que se realiz, del bootstrap se encontr que el intervalo de conanza para el
intercepto fue de -0.003432224 a 4.674105818. Recuerde a que en cada realizacin el valor ser
diferente, aunque muy parecido. Una manera de reportar el intervalo de conanza es indicando el
valor de la media ms menos su intervalo. Esto se puede calcular con la funcin ci, la cual requiere
que se introduzcan los valores mnimo y mximo del intervalo de conanza (en este caso -0.003
91
16.2. MODELOS NO LINEALES CAPTULO 16. AJUSTE DE MODELOS
y 4.674), como se muestra arriba. Si se realiza el mismo procedimiento para el segundo modelo,
se encontrar que los intervalos de conanza son ms pequeos, lo cual denota que se tiene mayor
certidumbre sobre los parmetros estimados.
16.1.3. Predicciones
Como se mencion en el captulo anterior, uno de los objetivos importantes de un anlisis de
regresin es el poder hacer predicciones tericas. Supongamos que se quisiera saber el valor de la
distancia (y) que se tendra para un valor de x = 30. Este valor se encuentra dentro del rango de x
donde es posible hacer predicciones en ambos modelos.
El valor que se obtiene con el primer modelo: predict(model1,list(x=30)) de 18.77, es diferente
al que se obtiene con el segundo modelo predict(model2,list(x2=30)) y que es de 24.70. Con esto
se quiere hacer nfasis en la necesidad de seleccionar al mejor modelo, ya que las predicciones
pueden cambiar dramticamente.
16.2. Modelos No Lineales
En ocasiones no es posible ajustar un modelo lineal a un conjunto de datos. En el rea de ciencias
biomdicas los fenmenos que se tienen siguen, en general, una dinmica no lineal.
Cuando se ajusta un modelo no lineal, a diferencia del caso lineal, es necesario establecer un va-
lor aproximado de los parmetros que se estn estimando. El algoritmo comienza con esos valores,
y posteriormente trata de converger en la bsqueda de los mnimos cuadrados. En ocasiones, es po-
sible que se pueda llegar a la convergencia con valores triviales (por ejemplo, hacer que todos los
parmetros sean 1), pero en la mayora de las veces es necesario tener una del valor del parmetro
que se est estimando, el cual, adems, hay que recordar que puede tener un signicado fsico.
Como ejemplo, se presenta el anlisis de los datos del archivo daytime.txt (de la pgina web de
Archivos), que contiene el tiempo en minutos que se observ de luz solar en la ciudad de Boston,
en el transcurso de 3 aos.
Como es de suponer, esta funcin es cclica, lo cual se verica al gracar los datos. En la Fig.
16.2 se presentan los datos con el modelo ajustado.
Estos datos pueden ajustarse con una funcin seno del tipo:
y = asin(2bx +c) +d (16.1)
En este caso, el parmetro a corresponde a la amplitud de la onda seno. Para tener un valor
aproximado de este, hay que imaginar una linea horizontal que cruza por la mitad de los datos
92
16.2. MODELOS NO LINEALES CAPTULO 16. AJUSTE DE MODELOS
0 200 400 600 800 1000
6
0
0
7
0
0
8
0
0
9
0
0
Da
T
i
e
m
p
o

(
m
i
n
)
Figura 16.2. Registro de tiempo de luz solar en Boston.
(aproximadamente en y = 700) y a partir de esta lnea se calcula la distancia al valor mximo
(aproximadamente en y = 900), por lo que a 200. El parmetro b corresponde a la frecuencia de
la onda. La frecuencia es el inverso del perodo, por lo que b 1/365. El parmetro c corresponde
a la fase de la onda seno. Esta es ms difcil de estimar, pero en este caso es aproximadamente
/2. Finalmente, el parmetro d es el tiempo promedio, por lo que d 700. Dado que R utiliza
la letra c para concatenar, es mejor no utilizarla como variable. En este sentido, se cambiar esta
letra por la variable cc como se muestra en el algoritmo para realizar el ajuste del modelo no lineal:
daytime < read.table(daytime.txt,header=T)
attach(daytime)
plot(day,time,pch=16,col=2,xlab=Da,ylab=Tiempo (min))
model < nls(time a*sin(2*pi*b*day+cc)+d,start=list(a=200,b=1/365,cc=-pi/2,d=750))
summary(model)
theo < tted.values(model)
lines(day,theo,col=4)
Como se mostr en la seccin anterior, pueden calcularse los criterios de informacin para eva-
luar la parsimonia del modelo, as como los intervalos de conanza para cada parmetro. Para este
ltimo caso, la funcin que se requiere copiar es bst.nls, la cual tiene denida la funcin seno.
En caso de que se quisiera ajustar otro tipo de modelos, sera necesario hacer las correcciones
pertinentes.
93
16.2. MODELOS NO LINEALES CAPTULO 16. AJUSTE DE MODELOS
16.2.1. Transformaciones
En ocasiones, es posible que mediante alguna transformacin matemtica, un conjunto de ob-
servaciones que siguen una dinmica no lineal, puedan ajustarse con un modelo lineal. El ejemplo
ms clsico es cuando al gracar en escala semilogartmica o logartmica se detecta una correlacin
lineal entre las variables. En estos casos, aunque el modelo lineal es ms simple de implementar,
no es estadsticamente el ms adecuado.
A manera de ejemplo, se presenta el anlisis de los datos contenidos en el archivo regmod.txt
que contiene un conjunto de datos tericos que se generaron introduciendo algo de ruido gaussiano
a una funcin exponencial. En la Fig.16.3a se presentan los datos originales con el ajuste no lineal,
mientras que en la Fig. 16.3b se presentan lo datos transformados con el ajuste lineal.
0 50 100 150
0
2
4
6
8
1
0
1
2
(a)
x
y
0 50 100 150

1
0
1
2
(b)
x
l
o
g
(
y
)
Figura 16.3. Efecto de las transformaciones. (a) Ajuste del modelo no lineal sobre los datos origi-
nales. (b) Ajuste del modelo lineal sobre los datos transformados.
De esta grca se puede estimar que el intercepto aproximadamente es 14 y la pendiente aproxi-
madamente es de -0.03. A continuacin se presenta el algoritmo para el anlisis de los modelos:
regmod < read.table(regmod.txt,header=T)
attach(regmod)
plot(x,y,pch=16,col=2)
y2 < log(y)
model.nls < nls(y a*exp(b*x),start=list(a=14,b=-0.03))
theo.nls < tted.values(model.nls)
94
16.2. MODELOS NO LINEALES CAPTULO 16. AJUSTE DE MODELOS
lines(x,theo.nls,col=4)
plot(x,y2,pch=16,col=2,ylab=log(y))
model.lm < lm(y2x)
coefcients(model.nls)
coefcients(model.lm)
Si se comparan los criterios de informacin para cada modelo, se encontrar que se tienen me-
jores valores para el caso del modelo no lineal que para el caso del modelo lineal.
95
Captulo 17
Modelos matemticos
En este captulo se presentan algunos ejemplos de modelacin matemtica en biologa. Para
evaluar estos modelos matemticos, se recomienda el empleo de software desarrollado especca-
mente para simulacin. El ms conocido es Matlab y es de tipo comercial. Una alternativa ms
econmica es Berkeley Madonna, el cual suele ser ms rpido en sus clculos, a la vez que la im-
plementacin de los modelos es ms sencilla. Tambin es posible hacer simulaciones con software
libre (gratuito), como es el caso de Octave, SciLab y XPPAUT (o WinPP en plataforma Windows).
Aunque R no es un software de simulacin, tambin es posible resolver ecuaciones diferenciales o
en diferencia. Con el objetivo de mantener la consistencia con el resto del texto, se presentan las
simulaciones implementadas en R.
17.1. Modelos continuos
Los modelos continuos se establecen a travs de la denicin de ecuaciones diferenciales or-
dinarias (ODEs). Para resolver estas ecuaciones numricamente, hay que establecer, adems del
sistema de ODEs, las condiciones iniciales, el tiempo, el paso de integracin y el valor de los pa-
rmetros. En el caso de R, es necesario cargar primero a la librera odesolve. A continuacin, se
presentan dos ejemplos muy conocidos en biologa.
17.1.1. Enfermedades infecciosas
Este modelo fue inicialmente propuesto por Kermack y McKendrick en 1927 y se conoce como
modelo SIR. Se tiene un grupo de personas susceptibles (S) que entran en contacto con un pequeo
nmero de personas infectadas (I). El modelo sigue la ley de accin de masas la cual supone
que cada vez que un individuo S entra en contacto con un individuo I se infecta con una cierta
probabilidad (el contacto se modela matemticamente mediante una multiplicacin). A su vez
96
17.1. MODELOS CONTINUOS CAPTULO 17. MODELOS MATEMTICOS
los individuos I, despus de cierto tiempo, pasan a un estado de recuperados (R) o inmunes (a una
tasa ), con lo cual no pueden volver a padecer la infeccin. En el caso ms simple, no se incluye
una dinmica vital, es decir, se asume que la tasa de natalidad es igual a la de mortalidad en todos
los casos. El sistema de ODEs est denido por:
dS
dt
=IS (17.1)
dI
dt
= ISI (17.2)
dR
dt
= I (17.3)
Una vez cargada la librera odesolve, establecemos valores de los parmetros en la variable
parms y denimos las ecuaciones en la funcin sir como se muestra a continuacin:
library(odesolve)
parms < c(beta=1e-4, nu=1/8)
sir < with(as.list(parms), function(t,x,parms){ds < -beta*x[i]*x[s]
di < beta*x[i]*x[s] - nu*x[i]
dr < nu*x[i]
res < c(ds,di,dr)
list(res) })
Posteriormente, establecemos el tiempo y paso de integracin en la variable times y varias con-
diciones iniciales en la variable init. El sistema de ODEs se resuelve con la funcin lsoda:
times < seq(0,90,0.2)
init1 < c(s=2000,i=10,r=0)
out1 < as.data.frame(lsoda(init1,times,sir,parms))
plot(out1$time,out1$s,type=l,col=2,xlab=Tiempo (das),ylab=Suceptibles)
plot(out1$time,out1$i,type=l,col=3,xlab=Tiempo (das),ylab=Infectados)
plot(out1$time,out1$r,type=l,col=4,xlab=Tiempo (das),ylab=Removidos)
En la Fig.17.1 se presentan los resultados de la simulacin numrica de este modelo bajo 3 condi-
ciones iniciales diferentes. Como puede observarse, al aumentar el nmero de personas infectadas
al inicio del estudio, la epidemia aparece ms pronto y alcanza valores ms altos.
17.1.2. Modelo Presa Depredador
Este modelo inicialmente propuesto, de manera independiente por Lotka y Volterra es uno de
los ms conocidos en biologa y en modelacin matemtica. El modelo asumen que las presas
97
17.1. MODELOS CONTINUOS CAPTULO 17. MODELOS MATEMTICOS
0 20 40 60 80
5
0
1
0
0
1
5
0
2
0
0
2
5
0
Tiempo (das)
I
n
f
e
c
t
a
d
o
s
I(0) = 10
I(0) = 20
I(0) = 100
Figura 17.1. Resultados de la simulacin del modelo SIR bajo distintas condiciones iniciales.
(pre) se reproducen a una tasa a y se mueren debido a que son cazadas por los depredadores a una
tasa b. Note que este contacto presadepredador se modela siguiendo la ley de accin de masas,
descrita anteriormente. Por otro lado, los depredadores (dep) slo se pueden reproducir cuando
han cazado, y lo hacen a una tasa d y se mueren a una tasa c, de esta manera el sistema de ODEs
se dene de la siguiente manera:
dpre
dt
= a pre b dep pre (17.4)
ddep
dt
= d dep pre c dep (17.5)
El algoritmo en R es el siguiente:
parms < c(a=0.1, b=0.005/60, cc=0.04, d=4e-5)
lvmodel < with(as.list(parms), function(t, x, parms){
dpre < a*x[pre] - b*x[pre]*x[dep]
ddep < d*x[pre]*x[dep] - cc*x[dep]
res < c(dpre, ddep)
list(res)})
times < seq(0,360,0.5)
init1 < c(pre=2000,dep=600)
out1 < as.data.frame(lsoda(init1,times,lvmodel,parms))
plot(out3$time,out3$pre,type=l,col=4,xlab=Tiempo (das),ylab=Depredador)
98
17.2. MODELOS DISCRETOS CAPTULO 17. MODELOS MATEMTICOS
Dado que los depredadores dependen del nmero de presas que hay disponibles, para vivir, se
llega a un estado estacionario, donde tanto la dinmica de presas como de depredadores es cclica.
En la Fig. 17.2 se presenta la relacin de las dos dinmicas para diferentes condiciones iniciales en
el nmero de depredadores.
0 1000 2000 3000 4000
5
0
0
1
0
0
0
1
5
0
0
2
0
0
0
2
5
0
0
3
0
0
0
3
5
0
0
Presa
D
e
p
r
e
d
a
d
o
r
dep(0)=600
dep(0)=1200
dep(0)=3000
Figura 17.2. Dinmicas del modelo Lotka-Volterra para distintas condiciones iniciales.
17.2. Modelos Discretos
Los modelos en tiempo discreto, se simulan utilizando ecuaciones en diferencia, es decir, el
estado de una variable x en el tiempo t va depender, esencialmente, del estado que guardaba en el
tiempo anterior (es decir, t 1), con lo que: x
t
= f (x
t1
).
17.2.1. Crecimiento y decaimiento exponencial
En el caso ms sencillo, podemos suponer que el nmero de individuos (poblacin) de una
determinada especie, en un tiempo discreto determinado, depende del nmero que se encontraba
vivo en el tiempo anterior. Esta es una relacin directamente proporcional que se puede establecer
con la siguiente ecuacin:
x
t
= rx
t1
(17.6)
99
17.2. MODELOS DISCRETOS CAPTULO 17. MODELOS MATEMTICOS
Se pueden obtener 6 diferentes tipos de dinmicas, de acuerdo al valor del parmetro r, las cuales
se muestran en la Fig. 17.3.
5 10 15 20
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
(a)
Tiempo
x
1
5 10 15 20
0
2
0
0
0
4
0
0
0
6
0
0
0
8
0
0
0
1
0
0
0
0
1
2
0
0
0
1
4
0
0
0
(b)
Tiempo
x
2
5 10 15 20

0
.
0
5
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
(c)
Tiempo
x
3
5 10 15 20
1
5
0
0
0

1
0
0
0
0

5
0
0
0
0
5
0
0
0
(d)
Tiempo
x
4
5 10 15 20
0
.
1
5
0
.
2
0
0
.
2
5
(e)
Tiempo
x
5
5 10 15 20

0
.
2

0
.
1
0
.
0
0
.
1
0
.
2
(f)
Tiempo
x
6
Figura 17.3. Simulacin de ecuacin exponencial discreta. (a) Crecimiento exponencial para r =
0.3. (b) Decaimiento exponencial para r = 1.8. (c) Decaimiento alternativo para r = 0.3. (d)
Crecimiento alternativo para r =1.8. (e) Estado estacionario para r = 1. (f) Ciclo peridico para
r =1. En todos los casos, la condicin inicial es x(0) = 0.2.
De las 6 dinmicas anteriores, slo 3 tienen signicado biolgico, ya que r, la tasa de crecimien-
to, no puede tener un valor negativo. Para valores de 0 <r <1 se tiene un decaimiento exponencial
(si se graca el logaritmo de x1, se obtiene una lnea recta) como en la Fig. 17.3a; para valres de
r >1, se tiene un crecimiento exponencial como en la Fig. 17.3b. Finalmente, para el caso de r =1
o el caso trivial de r = 0, se tiene un estado estacionario, como en la Fig. 17.3e. En otras palabras,
para valores de r mayores a uno se tiene crecimiento y para valores menores a 1 (pero positivos)
se tiende a la extincin.
Para resolver la ecuacin diferencial en R, se genera primero un vector vaco, posteriormente,
se establece una condicin inicial, y nalmente se resuelve la ecuacin mediante un ciclo, por
ejemplo:
100
17.2. MODELOS DISCRETOS CAPTULO 17. MODELOS MATEMTICOS
r1 < 0.3
x0 < 0.2
x1 < numeric(20)
x1[1] < x0
for(t in 2:20) x1[t] < r1*x1[t-1]
17.2.2. Ecuacin logstica
El problema del crecimiento exponencial es que aunque en principio la tasa de reproduccin
debe ser mayor a uno para asegurar el crecimiento, existen limitantes dadas, principalmente, por la
cantidad de recursos disponibles (tanto de espacio, como de alimento). En este sentido, es de es-
perarse, que conforme va aumentando una poblacin, comienzan a escasear los recursos, aumenta
la competencia entre los individuos de la especie, y por tanto dejan de crecer, ya sea quedndose
en un estado estacionario, o bien comienzan a decaer para comenzar un nuevo ciclo (como se ob-
serv en el modelo de presa-depredador). Para modelar este efecto, la ecuacin ms utilizada es la
ecuacin logstica, que es una ecuacin de tipo no lineal como se muestra a continuacin:
x
t
= rx
t1
(1x
t1
) (17.7)
Es decir, que si se parte de una condicin inicial decimal (por tanto menor a 1), al comienzo de la
dinmica el segundo trmino del parntesis es despreciable y se tiene un crecimiento exponencial,
sin embargo, conforme va creciendo la poblacin en el tiempo, este trmino se hace ms grande,
con lo que, eventualmente, el crecimiento de la poblacin cambia su dinmica. En la Fig. 17.4 se
presenta el resultado de varias dinmicas de x para diferentes valores de r, en todos los casos, la
condicin inicial fue de x(0) = 0.01.
Como puede observarse, en el caso del panel (a) de la Fig. 17.4, se alcanza un estado estacionario,
mientras que en los paneles (b) y (c) se presenta un comportamiento cclico de perodo dos y cuatro
respectivamente. Finalmente, en el caso del panel (d) de la misma gura, la dinmica es catica.
Ms adelante se dene el concepto de caos.
Por otra parte, si se graca la poblacin en el tiempo t contra la misma poblacin, pero en un
tiempo anterior (es decir, t 1), entonces se puede observar la formacin de una parbola, como
se muestra en la Fig. 17.5, para los mismos valores de r de la Fig. 17.4. A este tipo de grcas se
les conoce como de empotramiento, mapas de retorno o mapas de Poincar y pueden obtenerse en
R con la funcin embed(x, 2), que implica empotrar al vector x en dos dimensiones. Como puede
observarse en la Fig. 17.5, en general, al ir aumentando el valor de r se dene mejor la parbola. De
hecho, esto ocurre conforme se va uno adentrando en la zona de caos. Sin embargo, existe algunas
ventanas en la zona de caos donde es posible volver a distinguir ciclos lmite.
101
17.2. MODELOS DISCRETOS CAPTULO 17. MODELOS MATEMTICOS
0 10 20 30 40 50
0
.
0
0
.
2
0
.
4
(a)
Tiempo
x
1
0 10 20 30 40 50
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
(b)
Tiempo
x
2
0 10 20 30 40 50
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
(c)
Tiempo
x
3
0 10 20 30 40 50
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
(d)
Tiempo
x
4
Figura 17.4. Dinmicas de la ecuacin logstica para diferentes valores del parmetro r. (a) Din-
mica para r = 2.3. (b) Dinmica para r = 3.3. (c) Dinmica para r = 3.5. (d) Dinmica para r =
3.6. En todos los casos, la condicin inicial es x(0) = 0.01.
0.0 0.2 0.4 0.6 0.8 1.0
0
.
1
0
.
3
0
.
5
(a)
x
t1
x
t
0.0 0.2 0.4 0.6 0.8 1.0
0
.
2
0
.
4
0
.
6
0
.
8
(b)
x
t1
x
t
0.0 0.2 0.4 0.6 0.8 1.0
0
.
2
0
.
4
0
.
6
0
.
8
(c)
x
t1
x
t
0.0 0.2 0.4 0.6 0.8 1.0
0
.
2
0
.
4
0
.
6
0
.
8
(d)
x
t1
x
t
Figura 17.5. Mapas de retorno correspondientes a las mismas condiciones descritas en la Fig. 17.4.
102
17.2. MODELOS DISCRETOS CAPTULO 17. MODELOS MATEMTICOS
17.2.3. Caos
Se pude denir caos en matemticas como la dinmica aperidica acotada de un sistema deter-
minstico, con alta sensibilidad a las condiciones iniciales. A continuacin se presentan con ms
detalle estas caractersticas:
1. Aperidica. No se vuelve a presentar el mismo resultado dos veces. Esto puede observarse
parcialmente en el panel (d) de la Fig. 17.4. Si uno revisa los nmeros, de hecho, ninguno se
repite.
2. Acotada. A pesar de que se hagan numerosas iteraciones, los valores obtenidos se encuentran
dentro de un rango nito de nmeros, por lo que nunca se alcanza .
3. Determinstico. Es decir, que sigue una ecuacin que no contiene elementos estocsticos o
probabilsticos. Se puede resolver la ecuacin con precisin para cualquier valor inicial de x
y del parmetro r.
4. Sensible a condiciones iniciales. Cuando se resuelve la ecuacin para dos valores iniciales
muy cercanos, el resultado en el tiempo x(t) es muy diferente.
Es posible visualizar la ruta al caos en un mapa de bifurcacin. En este mapa se gracan los
ltimos valores obtenidos en la variable x (digamos, los ltimos 50 valores) para diferentes valores
del parmetro r como se muestra en la Fig. 17.6.
2.5 3.0 3.5 4.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
r
x
t
Figura 17.6. Mapa de bifurcacin.
103
Captulo 18
Anlisis de Sobrevivencia
Hay varios estudios estadsticos cuya variable de respuesta es el tiempo en el que ocurre un
evento, como una muerte o una falla. Estos estudios no siguen una distribucin normal, por lo que
su anlisis requiere de tcnicas estadsticas especiales que se incluyen en el llamado anlisis de
sobrevivencia.
En el caso de ciertos estudios clnicos, como en el caso de cncer, la eciencia de un nuevo tra-
tamiento se evala en estudios de Fase II y Fase III. En el ltimo caso, los pacientes son asignados
de manera aleatoria a un tratamiento y son seguidos hasta su muerte, o bien hasta que termine el
estudio. Esto quiere decir, que al nal del estudio, habrn algunos pacientes que no hayan muerto,
por lo que el tiempo en que ocurre el evento (en este caso muerte) no es preciso, aunque se conoce
el tiempo que, por lo menos, permanecen vivos. En bioestadstica este tipo de datos se dice que
son censurados y representan un tiempo mnimo de sobrevivencia.
Idealmente debemos utilizar toda la informacin del estudio con la que se cuenta, es decir, con-
siderar tanto los datos de muerte real como los datos censurados. El mtodo ms usado en estudios
clnicos para este tipo de anlisis es el de Kaplan-Meier.
18.1. Funciones de sobrevivencia
Para explicar las diferentes funciones de sobrevivencia se partir de los datos del Cuadro 18.1
que contiene el nmero de muertes debido a la ebre escarlata, por ao. Ninguno de estos datos es
censurado.
Primero se asignan los datos del Cuadro 18.1 a dos variables, digamos age y death:
age < 0:13
death < c(0,18,43,50,60,36,22,21,6,5,1,1,1,1)
104
18.1. FUNCIONES DE SOBREVIVENCIACAPTULO 18. ANLISIS DE SOBREVIVENCIA
Cuadro 18.1. Muertes por ebre escarlata por grupo etreo.
Edad (aos) Muertes Edad (aos) Muertes
0 0 7 21
1 18 8 6
2 43 9 5
3 50 10 1
4 60 11 1
5 36 12 1
6 22 13 1
18.1.1. Funcin de densidad de muerte
Esta funcin corresponde a la funcin de probabilidad (pdf = probability density function) para
datos de muerte, donde el rea bajo la curva es 1 como en el caso de todas las distribuciones (ver
Captulo 9). Esta funcin de densidad, f (t), se obtiene de las frecuencias relativas para cada tiempo.
En nuestro ejemplo, se puede obtener con: freq < death/sum(death). La Fig. 18.1a presenta la
distribucin de esta funcin, con la curva de distribucin normal correspondiente.
0 2 4 6 8 10 12
0
.
0
0
0
.
1
0
0
.
2
0
(a)
Edad (aos)
f
(
x
)
0 2 4 6 8 10 12
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
(b)
Edad (aos)
F
(
x
)
0 2 4 6 8 10 12
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
(c)
Edad (aos)
S
(
x
)
0 2 4 6 8 10 12
0
.
0
0
.
4
0
.
8
1
.
2
(d)
Edad (aos)
h
(
x
)
Figura 18.1. Funciones de sobrevivencia para los datos del Cuadro 18.1. (a) Funcin de densidad
de muerte. (b) Funcin de muerte acumulada. (c) Funcin de sobrevivencia. (d) Funcin de riesgo.
Como se observa en la Fig. 18.1a, se obtiene una distribucin que dista de ser normal. Esta
grca permite identicar el tiempo pico de muerte (en este caso, 4 aos).
105
18.1. FUNCIONES DE SOBREVIVENCIACAPTULO 18. ANLISIS DE SOBREVIVENCIA
18.1.2. Funcin de muerte acumulada
Esta funcin equivale a la frecuencia acumulada F(t) de muertos para cada tiempo y representa
la proporcin de muertos en el tiempo t, por lo que al principio F(0) = 0 y al nal F(13) = 1. Esta
funcin se muestra en la Fig. 18.1b. Para obtener el vector acum, con las frecuencias acumuladas,
se pueden escribir las siguientes instrucciones:
acum < numeric(14)
for(i in 1:14) acum[i] < acum[i]+sum(freq[1:i])
A travs de esta funcin, se puede decir, por ejemplo, que aproximadamente a los 3.5 aos, ha
muerto la mitad de la poblacin estudiada.
18.1.3. Funcin de sobrevivencia
La funcin de sobrevivencia S(t) mide la probabilidad de estar vivo en un tiempo determinado,
por lo que se obtiene con la operacin: sob < 1acum. En este caso, S(0) = 1 y S(13) = 0. Esta
funcin, nos permite decir, por ejemplo, que aproximadamente el 77 % de la poblacin sobrevive
2 aos. La funcin de sobrevivencia para los datos del Cuadro 18.1 se presenta en la Fig.18.1c.
18.1.4. Funcin de riesgo
Otra funcin importante en el anlisis de sobrevivencia es la funcin de riesgo. Con el objetivo
de conocer el riesgo de muerte que los pacientes tienen con respecto al tiempo, se debe examinar
el riesgo de muerte dado que el paciente ha sobrevivido hasta ese tiempo. Por ejemplo, despus de
un tratamiento severo debe de haber un mayor riesgo de morir pronto, o bien, como en el caso de
algunos cnceres, puede haber un mayor riesgo de morir 2 o 3 aos despus de la operacin y la
quimioterapia.
La funcin de riesgo h(t) establece la probabilidad condicional de morir entre el tiempo t y el
tiempo t + est dada por la Ec. 18.1, que es la denicin de la derivada.
lm
0
t + t

(18.1)
Esta funcin, a diferencia de las otras, no es una probabilidad, sino ms bien, una tasa cuyo valor
mximo puede ser mayor a 1. Matemticamente se obtiene con la Ec. 18.2.
h(t) =
f (t)
S(t)
(18.2)
106
18.2. KAPLAN-MEIER CAPTULO 18. ANLISIS DE SOBREVIVENCIA
La funcin de riesgo, para los datos del Cuadro 18.1 se presenta en la Fig. 18.1d. Mientras que la
funcin de sobrevivencia siempre decrece con respecto al tiempo, la funcin de riesgo puede tener
muchas formas diferentes, que permiten describir el riesgo de muerte de un paciente con respecto
al tiempo.
Por ejemplo, si se tiene una h(t) con pendiente 0 (una linea horizontal), implicara que el riesgo
de morir es el mismo para todos los tiempos. Una h(t) que disminuye puede interpretarse como
resultado de un tratamiento exitoso, donde el riesgo de morir disminuye con respecto al tiempo
(los que se mueren, se mueren pronto tras el tratamiento). Si h(t) aumenta, se puede interpretar
como un tratamiento deciente, donde el riesgo de morir aumenta progresivamente.
18.2. Kaplan-Meier
Este anlisis es relativamente simple de realizar en R usando los comandos de la librera survival.
Primero se presentar el fundamento de la tcnica, para despus mostrar su implementacin en R.
Partimos de los datos del Cuadro 18.2 que contiene el tiempo de muerte de un estudio clnico
imaginario. En este cuadro, los datos censurados se indican con un signo +.
Cuadro 18.2. Tiempo de sobrevivencia (meses) de un estudio clnico
1 7+ 17 26
2 9 18+ 28
4+ 11 24 31+
6 15+ 24+ 32+
6 16 25+ 35+
Cuando se hace un anlisis de sobrevivencia, el primer paso es ordenar los tiempos de muerte de
menor a mayor, como se muestra en el Cuadro 18.2. Posteriormente se va calculando la sobrevi-
vencia acumulada para cada tiempo en que ocurre un evento, usando el concepto de probabilidad
condicionada (es decir, suponemos una unin de eventos y se calcula como una multiplicacin de
probabilidades, como se mencion en el Captulo 8). Los clculos de sobrevivencia acumulada
para los primeros meses se presentan en el Cuadro 18.3.
Para obtener el valor de la sobrevivencia acumulada se multiplica el valor de los sobrevivientes
en ese tiempo por la sobrevivencia acumulada del tiempo anterior. Por ejemplo, para los 6 meses
se multiplica: (15/17) 0.9 = 0.794.
Como en otros estudios en bioestadstica, cuando se tienen este tipo de dinmicas, se suele
utilizar como valor de referencia la mediana. Es decir, se determina el valor al cual el 50 % de la
poblacin sobrevive.
107
18.2. KAPLAN-MEIER CAPTULO 18. ANLISIS DE SOBREVIVENCIA
Cuadro 18.3. Clculo de la sobrevivencia acumulada para los primeros meses del Cuadro 18.2
Tiempo Nmero Nmero Nmero Sobrevivientes Sobrevivencia
(meses) en riesgo de muertes de censurados este tiempo acumulada
1 20 1 0 19/20 0.95
2 19 1 0 18/19 0.90
4 18 0 1 18/18 0.90
6 17 2 0 15/17 0.794
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Para realizar los clculos en R, primero se carga la librera survival. Para asignar los valores, a las
variables, se considera que el estado 0 proviene de un dato censurado, y el estado 1 proviene
de un dato real (en este caso muerte). Por lo que la asignacin se realiza con:
time < c(1,2,4,6,6,7,9,11,15,16,17,18,24,24,25,26,28,31,32,35)
status < c(1,1,0,1,1,0,1,1,0,1,1,0,1,0,0,1,1,0,0,0)
Posteriormente se declara el algoritmo del mtodo Kaplan-Meier (en este caso en la variable
model). El tiempo de vida media se obtiene de manera directa; la tabla correspondiente (slo con
eventos reales), se obtiene con summary; y nalmente, la grca clsica se obtiene con plot y
puede observarse en la Fig. 18.2:
model < survt(Surv(time,status))
model
summary(model)
plot(model)
Las grcas de anlisis de sobrevivencia, como las de la Fig. 18.2 son escalonadas. La lnea con-
tinua representa los datos del modelo de Kaplan-Meier, mientras que las lneas punteadas corres-
ponden a los intervalos de conanza. Los datos censurados se indican con lneas verticales en el
tiempo correspondiente.
18.2.1. Ejemplo con datos censurados
En esta seccin se utilizarn los datos del archivo roaches.txt de la pgina web del Crawley.
Este archivo contiene datos sobre experimentos de sobrevivencia de cucarachas a tres diferentes
tipos de insecticidas. Se registra el tiempo de muerte en das, el grupo, as como el peso inicial de
cada cucaracha (en gramos) al inicio del experimento. Primero se asignan las variables y se graca
el anlisis de sobrevivencia usando el modelo ms simple:
108
18.2. KAPLAN-MEIER CAPTULO 18. ANLISIS DE SOBREVIVENCIA
0 5 10 15 20 25 30 35
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Tiempo (meses)
S
o
b
r
e
v
i
v
e
n
c
i
a
Figura 18.2. Anlisis de sobrevivencia para los datos del Cuadro 18.2.
rm(list=ls())
cuca < read.table(roaches.txt, header=T)
attach(cuca)
names(cuca)
plot(survt(Surv(death,status)group), col=2:4, xlab=Tiempo (das), ylab=Sobrevivencia)
legend(40,0.95,c(A,B,C),lty=c(1,1,1),col=2:4)
La regresin paramtrica en los modelos de sobrevivencia utilizan la funcin survreg para la
cual se pueden especicar un amplio rango de diferentes distribuciones del error. En este caso, se
asumir una distribucin exponencial. Se comienza ajustando con un anlisis completo de cova-
rianza, para, posteriormente, ir simplicando el modelo, hasta tener slo a las variables relevantes.
La simplicacin se hace eliminando variables, poco a poco, y comparando con el modelo anterior
(mediante un ANOVA), de tal modo que si no existen diferencias signicativas, entonces la varia-
ble estudiada no es relevante, y si existen diferencias estadsticas, entonces la variable estudiada es
relevante:
109
18.3. MODELO DE COX CAPTULO 18. ANLISIS DE SOBREVIVENCIA
model < survreg(Surv(death,status)weight*group, dist=exponential)
summary(model)
model2 < survreg(Surv(death,status)weight+group, dist=exponential)
anova(model,model2,test=Chi)
model3 < survreg(Surv(death,status)group, dist=exponential)
anova(model2,model3,test=Chi)
model4 < survreg(Surv(death,status)1, dist=exponential)
anova(model3,model4,test=Chi)
summary(model3)
Es decir, dado que en el ltimo ANOVAla diferencia fue signicativa, se considera que el modelo
mnimo es el tercer modelo que considera nicamente a los grupos, ya que no existe evidencia de
que el peso inicial tenga algn tipo de inuencia sobre la sobrevivencia. Finalmente, se comparan
los promedios de muerte entre el tercer modelo y los datos crudos, donde pude observarse el efecto
que tienen la presencia de los datos censurados en los primeros dos grupos:
tapply(predict(model3,type=response), group, mean)
tapply(death,group,mean)
18.3. Modelo de Cox
El modelo de riesgo proporcional de Cox es el modelo de regresin, ms ampliamente usado
para datos de sobrevivencia. Asume que el riesgo es de la forma:
(t; Z
i
) =
0
(t)r
i
(t)
donde Z
i
(t) es el conjunto de variables que explican (independientes) para el individuo i al tiempo
t. El escore de riesgo para el sujeto i es:
r
i
(t) = e
Z
i
(t)
donde es un vector de parmetros proveniente del predictor lineal y
0
(t) es una funcin de
riesgo basal inespecca que se cancela en el transcurso del algoritmo.
18.3.1. Anlisis sin datos censurados
A continuacin se presenta un ejemplo del anlisis de sobrevivencia, usando el modelo de Cox,
para conjuntos que no incluyen datos censurados. Para este ejemplo, se utilizar el archivo seed-
lings.txt de la pgina web del Crawley. Este archivo contiene datos referentes a unos experimentos
110
18.3. MODELO DE COX CAPTULO 18. ANLISIS DE SOBREVIVENCIA
de ecologa, donde se probaron dos tratamientos diferentes de germinacin: en uno se germinaron
las plantas a principios de septiembre, y en el otro se germinaron a mediados de octubre. Se registra
el tiempo de muerte de la semilla en semanas, la cohorte (tratamiento) y el lapso entre el sembrado
y la germinacin para cada semilla (gapsize).
Primero, se limpia la memoria, se asignan las variables, y se aplica un modelo para comparar
entre los dos tratamientos:
rm(list=ls())
seed < read.table(seedlings.txt, header=T)
attach(seed)
status < rep(1,60)
model1 < survt(Surv(death,status)cohort)
Como en la seccin anterior, se pueden obtener los tiempos de vida media para cada tratamien-
to, as como la grca correspondiente, donde la primera lnea en gracarse corresponde a la de
octubre (se gracan por orden alfabtico), para distinguir a quien corresponde cada una, se pueden
gracar con colores diferentes (col = c(2, 3)), o con tipos de lneas diferentes (lty = c(1, 2)). Al
comparar los intervalos de conanza para cada tratamiento, se puede observar como existe un tras-
lapo en las medianas (tiempo de vida media). Para hacer la prueba de hiptesis formal, se puede
usar: survdiff(Surv(death, status)cohort), donde se demuestra que la lnea basal de sobrevivencia
no diere signicativamente entre los dos tratamientos.
Para hacer un anlisis completo de covarianza, ajustando el intervalo de tiempo (gapsize), sepa-
radamente para cada tratamiento, se utiliza la opcin strata en la frmula del modelo con riesgo
proporcional: model2 < coxph(Surv(death, status) strata(cohort)*gapsize), donde se demuestra
que el intervalo de tiempo no tiene ningn efecto en la sobrevivencia de cada cohorte. Finalmente,
para probar si los coecientes son una funcin del tiempo, se utiliza la funcin cox.zph:
model3 < cox.zph(coxph(Surv(death, status)strata(cohort)*gapsize))
model3
plot(model3)
18.3.2. Anlisis con datos censurados sin riesgo proporcional
Para este ejemplo, se usar el archivo cancer.txt de la pgina web del Crawley. El archivo
contiene datos de un estudio que involucr a 4 grupos de pacientes con cncer, a los cuales se
les administr un determinado tratamiento. Se registr el tiempo de muerte, y algunos pacientes
dejaron el estudio antes de que se conociera su edad de muerte (datos censurados con status = 0).
Primero se asignan las variables y se graca el anlisis de sobrevivencia:
111
18.3. MODELO DE COX CAPTULO 18. ANLISIS DE SOBREVIVENCIA
cancer < read.table(cancer.txt, header=T)
attach(cancer)
names(cancer)
plot(survt(Surv(death,status)treatment), col=2:5, xlab=Tiempo (aos), ylab=Sobrevivencia)
legend(30,0.95,c(A,B,C,Placebo), lty=rep(1,4), col=2:5)
Se aplican dos modelos, el primero asume una distribucin exponencial de los errores, mientras
que el otro utiliza una distribucin de valores extremos:
model < survreg(Surv(death,status)treatment, dist=exponential)
summary(model)
model2 < survreg(Surv(death,status)treatment, dist=extreme)
summary(model2)
Como puede observarse, en el primer modelo no se observan diferencias signicativas, mientras
que en el segundo, claramente se identica la diferencia, as como el mejor tratamiento (en este
caso el que usa el medicamento A). Se pueden comparar las medias de los valores predichos por
el segundo modelo, con las medias de los datos crudos:
tapply(predict(model2,type=response), treatment, mean)
tapply(death, treatment, mean)
112
Captulo 19
Anlisis de Series de Tiempo
19.1. Introduccin
Cuando se lleva a cabo un experimento, o bien se realizan observaciones, existe limitacin tanto
en la cantidad como en la precisin de las mediciones que pueden hacerse. Estas mediciones son
aproximaciones que reejan la dinmica real de las variables. La diferencia entre estos se conoce
como error de medicin. Este error puede provenir de diferentes fuentes:
1. Sesgo sistemtico. Resultado de una o ms deciencias en el proceso de medicin.
2. Ruido en la medicin. Hace referencia a uctuaciones en las mediciones que surgen de
manera aleatoria.
3. Ruido en la dinmica. Representa una fuente importante de ruido en los datos. Dado que los
sistemas reales no se encuentran aislados, se ven inuenciados por numerosas inuencias
del entorno en que se encuentran. Una manera de incluir estas inuencias en los modelos
matemticos es considerando a estas inuencias como ruido aleatorio que afecta a las varia-
bles dinmicas. Al ruido caracterizado por contener valores completamente independientes
se le conoce como ruido blanco, dado que el espectro de este color, no contiene ninguna
frecuencia dominante.
Las series de tiempo son vectores de nmeros que se encuentran regularmente espaciados en el
tiempo. Algunos ejemplos son las cuentas anuales de ciertas especies, promedios mensuales de
temperatura o IMECAS, etc. En algunas ocasiones el inters se encuentra en la serie en s (e.g.
para saber si es cclica) y, en otras ocasiones, en que tan bien un modelo terico se ajusta a los
datos experimentales.
113
19.2. ANLISIS PRELIMINARES CAPTULO 19. ANLISIS DE SERIES DE TIEMPO
19.2. Anlisis preliminares
Algunos anlisis de series de tiempo, asumen que los datos no tienen tendencia, que la serie
es estacionaria (i.e. con una varianza caracterstica) y que su media es igual al origen. Cuando se
observa una tendencia en la serie, es necesario eliminarla previa al anlisis.
La presencia de una tendencia puede determinarse mediante el ajuste de un modelo lineal, donde
se determine si el valor de la pendiente es estadsticamente distinto de cero (que es cuando no
tiene tendencia). Si se rechaza la hiptesis nula sobre la pendiente, entonces es necesario restar
el modelo (los valores tericos) de la serie para poder continuar con los anlisis subsecuentes.
Cuando no se puede rechazar la hiptesis nula, y el promedio es estadsticamente distinto de cero,
entonces, la operacin preliminar que se realiza es la sustraccin del promedio a la serie original.
Para aclarar estos conceptos, se parte del siguiente ejemplo. El archivo lynx.txt de la base
de datos de R, contiene el nmero de linces canadienses atrapados por ao de 1821 a 1934. Este
archivo se encuentra en formato de series de tiempo (ts), por lo que, para hacer el anlisis de
tendencia, se utilizarn los datos en forma de vector. La posible presencia de tendencia se puede
detectar rpidamente con la funcin lowess, como se muestra a continuacin:
data(lynx)
lince < as.vector(lynx)
time < 1821:1934
plot(time,lince,type=l,xlab=Tiempo,ylab=Linces)
lines(lowess(lincetime),col=4)
La grca sugiere la presencia de ciclos y los datos parecen presentar una ligera tendencia al
nal de la serie. Aunque no se detecta la tendencia, se presenta de cualquier manera el clculo
para reforzar el procedimiento, tanto para la serie completa, como para la parte nal de la serie. El
punto de quiebre, se determina previamente con la funcin locator(1).
model < lm(lincetime)
n < length(lince)
lince2 < lince[63:n]
time2 < time[63:n]
model2 < lm(lince2time2)
summary(model)
summary(model2)
Como puede observarse con summary la pendiente no es estadsticamente distinta de cero en
ninguno de los dos casos. Cuando ocurre lo contrario, es necesario restar el modelo lineal a los
datos originales. En este caso, lo nico que se hara sera quitar al promedio. Si se realizan las dos
grcas que se muestran a continuacin, podr percatarse de que no existe diferencia, en este caso,
entre restar el modelo y restar el promedio.
114
19.3. ACF CAPTULO 19. ANLISIS DE SERIES DE TIEMPO
lynx1 < lince predict(model)
lynx2 < lince mean(Lynx)
plot(lynx1,type=l)
plot(lynx2,type=l)
Con el objetivo de que los anlisis queden ms claros y puedan hacerse comparaciones, se tra-
bajar, al mismo tiempo, con series de tiempo conocidas. Se propone trabajar con las siguientes
series de tiempo:
1. Ruido blanco gaussiano. Valores aleatorios que siguen la distribucin normal. Los datos son
totalmente independientes. A este vector se le llamar ruido.
2. Serie cclica. Serie determinstica que sigue una funcin seno. A este vector se le llamar
ciclo.
3. Serie experimental. Se utilizar el vector lynx1.
4. Serie catica. Se utilizar el atractor de Lorentz en la variable lorentz.
Los archivos se encuentran en la seccin de AST de la pgina web.
ruido < rnorm(2000)
e3 < read.table(E3.txt)
lorentz < e3$V1
e7 < read.table(E7.txt)
ciclo < e7$V1
19.2.1. Prueba de independencia
Con el objetivo de determinar si los datos son estocsticos (aleatorios), se pude realizar una
prueba estadstica sobre la independencia entre los datos. Cuando los datos son independientes
(hiptesis nula), entonces es que son estocsticos, en cambio, si se rechaza la hiptesis nula (con
un a p < 0.05) entonces es que existe algn tipo de dependencia y que, por tanto, los datos no son
aleatorios. Esta prueba se realiza con la funcin Box.test(x). Si se aplica esta funcin a las series
propuestas, se encontrar que solo en el caso del ruido no se puede rechazar la hiptesis nula.
19.3. Funcin de autocorrelacin (ACF)
La funcin de autocorrelacin (ACF) calcula la correlacin entre una serie de tiempo, con sigo
misma, pero con diferentes retardos. Mediante la ACF es posible detectar la presencia de ciclos.
115
19.3. ACF CAPTULO 19. ANLISIS DE SERIES DE TIEMPO
La grca muestra el intervalo de conanza del cero con lineas punteadas de color azul. Cuando
los valores se encuentran dentro de esta banda, no hay presencia de autocorrelacin estadstica.
La primera linea vertical corresponde al retardo 0, por lo que la autocorrelacin siempre es uno,
independientemente de la serie. Dado que se graca slo hasta un nmero predeterminado de
retardos, en ocasiones estos no son sucientes para detectar los ciclos. En estos casos, hay que
aumentar el nmero de retardos con lag.max=x, donde x es el nmero de retardos que se quieren
gracar:
par(mfrow=c(2,2))
acf(ruido)
acf(ciclo,lag.max=70)
acf(lorentz)
acf(lynx1)
Como puede observarse en la Fig. 19.1 la presencia de ciclos es evidente para la serie ciclo y
lynx1 con un periodo aproximado de 63 y 10 unidades de tiempo, respectivamente.
0 5 10 15 20 25 30
0
.
0
0
.
4
0
.
8
Retardo
A
C
F
(a) Ruido
0 10 20 30 40 50 60 70

1
.
0
0
.
0
0
.
5
1
.
0
Retardo
A
C
F
(b) Ciclo
0 5 10 15 20 25 30
0
.
0
0
.
4
0
.
8
Retardo
A
C
F
(c) Lorentz
0 5 10 15 20

0
.
5
0
.
0
0
.
5
1
.
0
Retardo
A
C
F
(d) Linces
Figura 19.1. Funcin de autocorrelacin (ACF) para las series estudiadas. (a) ACF para ruido
blanco gaussiano. (b) ACF para funcin seno. (c) ACF para el atractor de Lorentz. (d) ACF para
nmero de linces atrapados en Canad de 1821 a 1934.
116
19.4. FFT CAPTULO 19. ANLISIS DE SERIES DE TIEMPO
19.4. Transformada rpida de Fourier (FFT)
Fourier estableci que cualquier seal puede descomponerse en una suma de senos y cosenos.
Al transformar una serie del dominio del tiempo, al dominio de la frecuencia, es posible detectar
las frecuencias dominantes de la serie, y visualizarlas separadas del ruido. Dado que al calcular
la FFT se obtiene un nmero complejo, con la funcin abs (absoluto) es posible extraer slo el
componente real. Finalmente, al realizar la grca slo debe considerarse la mitad de la serie,
dado que se obtiene una imagen en el espejo de la FFT, por lo que debe ajustarse el eje de las
abscisas como se muestra a continuacin:
ruido.fft < abs(fft(ruido))
ciclo.fft < abs(fft(ciclo))
lorentz.fft < abs(fft(lorentz))
lynx.fft < abs(fft(lynx1))
plot(ruido.fft,type=l,xlim=c(0,1000))
plot(ciclo.fft,type=l,xlim=c(0,1000))
plot(lorentz.fft,type=l,col=2,xlim=c(0,1000))
plot(lynx.fft,type=l,col=2,xlim=c(0,n/2))
Como puede observarse en la Fig. 19.2 el ruido blanco no presenta ninguna frecuencia caracte-
rstica (de ah su nombre), la funcin seno, presenta una sola frecuencia caracterstica (adems no
se observa presencia de ruido), el atractor de Lorentz no presenta tampoco frecuencia caractersti-
ca, pero su espectro es claramente distinto al ruido (observe la diferencia en las escalas del eje de
las ordenadas) y, nalmente, la serie de Linces presente varias frecuencias dominantes.
19.4.1. Periodograma acumulado
Otra manera de visualizar las frecuencias dominantes es a travs del periodograma acumulado.
Cuando no existen frecuencias dominantes, entonces el periodograma acumulado resultante es una
diagonal de 45

C. Cuando hay presencia de frecuencias dominantes, estas aparecen como lineas


verticales. El periodograma acumulado se obtiene en R con la funcin cpgram(x).
En la Fig. 19.3 se presenta el periodograma acumulado para las series propuestas.Como puede
observarse en el panel (a) el ruido se presenta dentro de los intervalos de conanza del cero; en
el panel (b) se detecta claramente la nica frecuencia dominante presente en la serie senoidal. Por
su parte, el atractor de Lorentz, no presenta frecuencias dominantes pero se aleja claramente del
ruido, como se observa en el panel (c). Finalmente, para el caso de la serie de linces, en el panel
(d) se pueden detectar la presencia de varias frecuencias dominantes.
117
19.4. FFT CAPTULO 19. ANLISIS DE SERIES DE TIEMPO
0 200 400 600 800
0
4
0
8
0
1
2
0
(a) Ruido
F
F
T
0 200 400 600 800
0
4
0
0
8
0
0
(b) Ciclo
F
F
T
0 200 400 600 800
0
1
0
0
0
2
5
0
0
(c) Lorentz
F
F
T
0 10 20 30 40 50
0
4
0
0
0
0
8
0
0
0
0
(d) Linces
F
F
T
Figura 19.2. Transformada rpida de Fourier (FFT) para las series estudiadas. (a) FFT para ruido
blanco gaussiano. (b) FFT para funcin seno. (c) FFT para el atractor de Lorentz. (d) FFT para
nmero de linces atrapados en Canad de 1821 a 1934.
0.0 0.2 0.4
0
.
0
0
.
4
0
.
8
frequency
(a) Ruido
0.0 0.2 0.4
0
.
0
0
.
4
0
.
8
frequency
(b) Ciclo
0.0 0.2 0.4
0
.
0
0
.
4
0
.
8
frequency
(c) Lorentz
0.0 0.2 0.4
0
.
0
0
.
4
0
.
8
frequency
(d) Linces
Figura 19.3. Periodograma acumulado para las series estudiadas. (a) Ruido blanco gaussiano. (b)
Funcin seno. (c) Atractor de Lorentz. (d) Nmero de linces atrapados en Canad de 1821 a 1934.
118
19.4. FFT CAPTULO 19. ANLISIS DE SERIES DE TIEMPO
19.4.2. Espectro de Potencias
Una manera amplicar el efecto de la transformada de Fourier, es mediante el espectro de poten-
cias. Este se puede obtener directamente en R con la funcin spectrum(x) y existen dos mtodos
de visualizacin. El ms comn es el periodograma (dado por default) y el otro, que suele ser ms
claro y ms parecido al espectro de Fourier, el autorregresivo (AR). En la Fig. 19.4 se presentan los
espectros de potencias para todas las series estudiadas usando ambos mtodos AR. En los paneles
superiores se utiliza el mtodo AR, mientras que en los inferiores se utiliza el periodograma (PG).
0.0 0.1 0.2 0.3 0.4 0.5
0
.
9
4
0
.
9
8
1
.
0
2
1
.
0
6
Frecuencia
E
s
p
e
c
t
r
o
(a) Ruido (AR)
0.0 0.1 0.2 0.3 0.4 0.5
1
e

0
4
1
e

0
2
1
e
+
0
0
1
e
+
0
2
Frecuencia
E
s
p
e
c
t
r
o
(b) Ciclo (AR)
0.0 0.1 0.2 0.3 0.4 0.5
1
e

0
1
1
e
+
0
1
1
e
+
0
3
Frecuencia
E
s
p
e
c
t
r
o
(c) Lorentz (AR)
0.0 0.1 0.2 0.3 0.4 0.5
1
e
+
0
5
5
e
+
0
5
5
e
+
0
6
5
e
+
0
7
Frecuencia
E
s
p
e
c
t
r
o
(d) Linces (AR)
0.0 0.1 0.2 0.3 0.4 0.5
5
e

0
3
5
e

0
2
5
e

0
1
5
e
+
0
0
Frecuencia
E
s
p
e
c
t
r
o
(e) Ruido (PG)
bandwidth = 0.000144
0.0 0.1 0.2 0.3 0.4 0.5
1
e

1
5
1
e

0
7
1
e
+
0
1
Frecuencia
E
s
p
e
c
t
r
o
(f) Ciclo (PG)
bandwidth = 0.000144
0.0 0.1 0.2 0.3 0.4 0.5
1
e

0
7
1
e

0
4
1
e

0
1
1
e
+
0
2
Frecuencia
E
s
p
e
c
t
r
o
(g) Lorentz (PG)
bandwidth = 0.000144
0.0 0.1 0.2 0.3 0.4 0.5
5
e
+
0
3
5
e
+
0
4
5
e
+
0
5
5
e
+
0
6
5
e
+
0
7
Frecuencia
E
s
p
e
c
t
r
o
(h) Linces (PG)
bandwidth = 0.00241
Figura 19.4. Espectros de potencias para las series estudiadas. Los paneles superiores muestran el
mtodo autorregresivo (AR), mientras que los paneles inferiores muestran el periodograma (PG).
En la parte superior de cada panel, se indica la serie analizada.
Como era de esperarse, en el caso del ruido blanco no hay frecuencias dominantes (Fig. 19.4
panel (e)), mientras que para la serie cclica se detecta una sola frecuencia (Fig. 19.4 panel (b)).
Como en este caso se tiene la frecuencia y dado que el periodo es el inverso de sta, es posible
calcular matemticamente la duracin de los ciclos en esta serie. Primero se asigna a una variable
el espectro de potencias, posteriormente se pregunta por la localizacin del valor ms alto del
espectro, para detectar la frecuencia correspondiente, y nalmente se calcula el inverso, como se
muestra a continuacin:
ciclo.spec <- spectrum(ciclo,method=ar)
which(ciclo.spec$spec==max(ciclo.spec$spec))
ciclo.spec$freq[17]
1/ciclo.spec$freq[17]
119
19.5. MAPAS DE RETORNO CAPTULO 19. ANLISIS DE SERIES DE TIEMPO
Al realizar este algoritmo, se obtiene que el valor mayor del espectro se encuentra en la posicin
17 con una frecuencia correspondiente de 0.01603206, por lo que el periodo es de aproximada-
mente 62 unidades de tiempo.
El atractor de Lorentz, presenta un periodograma muy caracterstico de las seales caticas o
con una distribucin 1/ f , tambin conocida como ruido rosa (Fig. 19.4 panel (g)). En este perio-
dograma se detecta una linea recta con una pendiente a 270

.
Finalmente, para el caso de la serie de linces, en la Fig. 19.4 panel (d) son claras la presencia de
tres frecuencias. La mayor puede determinarse como en el caso de la serie cclica, y las otras dos
pueden aproximarse usando la funcin locator(2) como se ha indicado anteriormente.
19.5. Mapas de retorno
Una manera de visualizar la dinmica de una serie es a travs de los mapas de retorno o mapas de
Poincar. En estos mapas se graca la serie contra ella misma pero con cierto retardo (generalmente
el primer retardo), lo que da un indicio de la zona a la que estn siendo atrados los puntos.
Para realizar los mapas de retorno, pueden usarse dos funciones. Con la funcin embed(x, n) se
generan los vectores de x, hasta el retardo n. Posteriormente se tendran que gracar los vectores
correspondientes a los retardos que se requieren. Por otra parte, con la funcin lag.plot(x, n) se
gracan directamente todos los mapas de retorno, de la serie x, hasta el retardo n.
En la Fig. 19.5 se presentan los mapas de retorno para las series propuestas. Como se puede
observar en el panel (a), en el ruido blanco gaussiano, los puntos son atrados hacia el origen
(donde se encuentra el valor de la media). La presencia del ciclo es ms que evidente en la serie
senoidal que se encuentra en el panel (b). Por su parte, el atractor de Lorentz se reconstruye con
esta tcnica y se presenta en el panel (c). Finalmente, en el caso de la serie de linces, no se observa
ningn patrn claro, aunque los puntos estn siendo atrados hacia el vrtice inferior izquierdo.
120
19.5. MAPAS DE RETORNO CAPTULO 19. ANLISIS DE SERIES DE TIEMPO
3 2 1 0 1 2 3

1
1
3
(a) Ruido
ruido.em[, 2]
r
u
i
d
o
.
e
m
[
,

1
]
1.0 0.5 0.0 0.5 1.0

1
.
0
0
.
0
0
.
5
1
.
0
(b) Ciclo
ciclo.em[, 2]
c
i
c
l
o
.
e
m
[
,

1
]
15 5 0 5 10

1
5

5
5
1
5
(c) Lorentz
lorentz.em[, 2]
l
o
r
e
n
t
z
.
e
m
[
,

1
]
1000 1000 3000 5000

1
0
0
0
2
0
0
0
5
0
0
0
(d) Linces
lynx.em[, 2]
l
y
n
x
.
e
m
[
,

1
]
Figura 19.5. Mapas de retorno para las series estudiadas. (a) Ruido blanco gaussiano. (b) Funcin
seno. (c) Atractor de Lorentz. (d) Nmero de linces atrapados en Canad de 1821 a 1934.
121

You might also like