Li Broest Adi Stica

CURSO DE ESTADISTICA UNIVERSITARIA
DR. MAURICIO CANALS LAMBARRI
FACULTAD DE CIENCIAS UNIVERSIDAD DE CHILE
RPI N:153541
2
Prologo
Este libro ha sido diseado como un curso de estadstica general de acuerdo a los
programas vigentes en diferentes universidades. Est escrito en una forma general con
ejemplos aplicables a diferentes mbitos. Tiene un nfasis en las bases conceptuales y
metodolgicas de los distintos temas, sin perder el rigor matemtico de sus
fundamentos. En general se evitan las demostraciones matemticas dificultosas que
distraen del objetivo general.
El libro est dividido en seis unidades, de las cuales las primeras cuatro
corresponden a los programas habituales de los cursos de pre-grado en todas las carreras
donde el anlisis de datos es relevante.
La primera unidad corresponde a Estadstica descriptiva, donde se sientan las

bases de la descripcin de la informacin. La segunda unidad corresponde a Estadstica
matemtica, donde se aportan los aspectos ms relevantes de la teora de probabilidades.
Las unidades tres y cuatro son las ms importantes en un curso bsico, donde se
encuentran los principales mtodos usados en inferencia estadstica. Se separan en una
unidad especial el anlisis de varianza y la regresin. Para los lectores poco avezados en
matemticas, se puede pasar directamente desde la unidad 1 a la 3.
La unidad 5 corresponde a una serie de tpicos, habitualmente no tratados en los

cursos bsicos, pero que frecuentemente son usados en diversas reas como las
estadsticas vitales en los estudios poblacionales, el muestreo en poblaciones finitas en
el rea industrial, las series temporales y la regresin logstica. En esta unidad los temas
son tratados con menor profundidad, haciendo hincapi en las bases conceptuales, pero
sin perder rigurosidad de tratamiento del tema.
La ltima unidad introduce el anlisis multivariado, ya que cada da se toma

mayor conciencia del origen multicausal de muchos fenmenos, por lo que es necesario
una mayor comprensin y utilizacin de esta metodologa.
Este libro es el resultado de varios aos dictando cursos bsicos de estadstica. El

tratamiento en todos los captulos intenta ser claro pero conciso, sin redundar en largas
explicaciones ni repeticiones de ejemplos. Cuando se ha considerado necesario, se
apoyan las explicaciones con ejemplos didcticos aplicables en cualquier disciplina.
3
ndice general
INTRODUCCIN: CIENCIA Y ESTADISTICA 8

I UNIDAD: ESTADISTICA DESCRIPTIVA 10
I.- ESTADSTICA 11
I.1.- Bases e historia 11

I.2.- Definicin 11
II.- ESTADSTICA DESCRIPTIVA 14
II.1.- Observaciones, variables y escalas 14

II.2.- Representacin de la informacin 14
II.3.- Medidas de resumen 16
Ejercicios de estadstica descriptiva 22
II UNIDAD: ESTADISTICA MATEMATICA 24
III.- PROBABILIDADES 25
III.1.- Experimento Aleatorio, Espacio Muestral 25

III.2.- Probabilidades y Conjuntos 27
III.3.- Propiedades de las Probabilidades 28
III.4.- Independencia Estocstica y Probabilidad Condicional 29
III.5.- Probabilidades en Medicina 33
Ejercicios de Probabilidades 41
IV.- VARIABLES ALEATORIAS 46
IV.1.- Distribucin de una variable aleatoria 46

IV.2.- Distribucin de Bernoulli 50
IV.3.- Distribucin binomial 50
IV.4.- Distribucin de Poisson 52
IV.5.- Variables aleatorias continuas 54
4
IV.6.- Distribucin uniforme 55

IV.7.- Distribucin exponencial 55
IV.8.- DISTRIBUCIN NORMAL 55
IV.9.- Otras distribuciones importantes 59
Ejercicios de variables aleatorias 63
III UNIDAD: INFERENCIA ESTADISTICA 66
V.- ESTIMACIN 67
V.1.- Estimadores 67
V.2.- Estimaciones 69
V.2.1 Intervalo de confianza para una proporcin P y para la diferencia P1-P2 69
V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2 70
V.3.- El tamao muestral 71
V.2.3.- Estimaciones en Medicina 72
Ejercicios de estimacin 74
VI.- DOCIMASIA O PRUEBA DE HIPTESIS 76
VI.1.- Bases 76
VI.2.- Dcimas para una muestra 80
VI.3.- Dcimas para dos muestras 82
VI.4.- Supuestos de las dcimas 86
Ejercicios de Pruebas de Hiptesis para una y dos muestras 89
VII.- ANLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS 93
VII.1.- La distribucin 2 93
VII.2.- Bondad de ajuste de 2 98
VII.3. El 2 para proporciones 100
VII.4.- La prueba G 101
5
Ejercicios de anlisis de datos enumerativos 103
VIII.- ESTADSTICA DE DISTRIBUCIN LIBRE O NO-PARAMTRICA 105
VIII.1.- Alternativas no paramtricas a las dcimas para dos muestras 106
Ejercicios de estadstica no-paramtrica 112
IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION Y REGRESION 114
IX.- ANLISIS DE LA VARIANZA (ANOVA o ANDEVA) 115
IX.1.-El Problema de Bonferroni 115

IX.2.- Diseo experimental 116
IX.3.- Anlisis de la varianza de 1 va o factor (ANOVA de 1 va). 117
IX4.- Comparaciones mltiples 121
IX.5.- ANOVA de dos vas: la interaccin 124
IX.6.- Otros diseos 127
IX.7.- Alternativas no paramtricas al ANOVA 129
Ejercicios de anlisis de la varianza 131
X.- CORRELACIN Y REGRESIN 134
X.1.- Correlacin 134

X.2.- Regresin 135
X.3.- Regresin y ANOVA 137
X.4.- Predicciones 140
X.4.- Supuestos y alternativas no paramtricas 141
X.5.- Anlisis de Covarianza (ANCOVA) 142
Ejercicios de correlacin y regresin 144
V UNIDAD.- TOPICOS ESPECIALES 145

6
XI.- BASES DE MUESTREO 146
XI.1.- Muestreo en poblaciones finitas e infinitas 146

XI.2.- Tamao muestral, potencia y precisin 147
XII.- ESTADISTICAS VITALES 150
XII.1.- Tablas de vida 150

XII.2.- Comparacin de curvas de supervivencia 152
Ejercicios de estadsticas vitales 154
XIII.- REGRESION LOGISTICA 155
XIII.1.- Bases 155

XIII.2.- Pruebas de hiptesis 155
XIII.3.- La razn de chances (odds ratio) 156
XIV.- SERIES DE TIEMPO 158
XIV.1.- Bases 158

XIV.2.- Autocorrelacin y autocorrelacin parcial 158
XIV.3.- Algunos modelos 159
UNIDAD VI: INTRODUCCION AL ANALISIS MULTIVARIADO 160
XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA) 161
XV.1.- Anlisis multivariado o univariado? 161

XV.2.- MANOVA 162
XVI.- REGRESION MULTIPLE 163
XVI.- Expresin matricial de una regresin 163

XVI.2.- Regresin mltiple 163
XVI.3.- El aporte de cada variable 165
7
XVI.4.- Correlacin mltiple, simple y parcial 166

XVI.5.- Seleccin de variables 167
XVI.6.- Anlisis de vas (o sendas) 169
XVI.7.- Regresin logstica mltiple 170
XVII.- ANALISIS DISCRIMINANTE 173
XVII.1.- Fundamento 173

XVII.2.- Clasificacin 174
XVIII.- ANALISIS DE COMPONENTES PRINCIPALES 176
XVIII.1.- Fundamentos 176
XIX.- CORRELACION CANONICA Y ANALISIS DE CORRESPONDENCIA 180
XIX.1.- Correlacin cannica 180

XIX.2.- Anlisis de correspondencia o Reciprocal averaging 181
XX.- ANALISIS DE CONGLOMERADOS (CLUSTER) 184
XX.1.- Fundamentos 184

XX.2.- Medidas de similitud y distancia 184
XX.2.- Mtodos de agrupacin 186
Bibliografa 190
ANEXO I.- FORMULAS UTILES 192
ANEXO II.- TABLAS SIMPLIFICADAS 211

8
INTRODUCCIN: CIENCIA Y ESTADISTICA
El objetivo de la ciencia es captar el orden de los fenmenos para hacerlos

comprensibles dando una explicacin racional de ellos, determinando sus causas y
hacindolos previsibles.
Esta captacin del orden pasa primero por la eleccin e identificacin del
fenmeno y decidiendo el enfoque de inters. Este puede ser de tipo sistmico u holista
en el que el inters esta concentrado en la totalidad y no en las partes (el todo es mas
que la suma de las partes), o bien de tipo reduccionista en el que se estudian las
partes para entender el todo. En general ambos enfoques conducen a la construccin de
modelos, sean stos formales o de simple palabra, que representen el fenmeno. Estos
reducen la complejidad del fenmeno, hacindolo comprensible.
La ciencia, segn Kuhn (1962), puede ser entendida como una coleccin de datos
en el contexto de una forma de entender como funciona la naturaleza (paradigma). En
su conjunto, evoluciona saltando de paradigma en paradigma (revoluciones cientficas)
en la medida que se acumulan evidencias contradictorias a la luz del paradigma
existente. Esta acumulacin de evidencias obedece a un proceso constante de
proposicin de explicaciones y causalidades de fenmenos naturales que puede ir de lo
general a lo particular (deduccin) o desde lo particular a lo general (induccin).
La deduccin es una forma de generacin de proposiciones lgicas. Estas

proposiciones lgicas que tienen un valor de verdad desconocido las conocemos como
hiptesis y pueden ser entendidas como enunciados que contienen proposiciones
verificables y que anteceden a otras en el proceso continuo de la ciencia.
La induccin por el contrario, genera proposiciones generales a partir de la

repetitividad de hechos particulares.
El proceso del conocer requiere de un mtodo. Este es conocido como mtodo

cientfico, que bsicamente contiene varias etapas:
i) eleccin del sistema,

ii) enunciado del problema,
iii) planteamiento de la hiptesis y deduccin de consecuencias verificables de ella
(si p, entonces q),
iv) diseo experimental,
v) prueba de la hiptesis, y
vi) interpretacin de los resultados, generando nuevas hiptesis.
9
Para Popper (1979) el mtodo consiste en una confrontacin de los datos con una
hiptesis, pudiendo sta ser solamente rechazada y no probada. As, en el mtodo de
Popper, hipottico-deductivo-refutacionista, existe una hiptesis de nulidad que
cuando es rechazada, nos permite proponer nuevas hiptesis (falsificacin de la
hiptesis).
En el mtodo de Popper convergen la deduccin y la induccin, estando

relacionada la primera con la generacin de hiptesis y la segunda con la refutacin.
Para este segundo proceso, la refutacin, son necesarios mtodos rigurosos y eficientes
que permitan una adecuada toma de decisiones. Aqu es donde es relevante la
metodologa de la inferencia estadstica. Esta, en su base fundamental consiste en
plantear una dicotoma entre la hiptesis de nulidad (Ho) y un alternativa (H 1), de tal
manera que a travs de la repetitividad de resultados experimentales (induccin) en una
muestra, sea posible el rechazo de Ho y por tanto la inferencia de H 1 a la poblacin
completa.
10
I UNIDAD: ESTADISTICA DESCRIPTIVA

11
I.- ESTADSTICA
I.1.- Bases e historia
El trmino estadstica proviene de la palabra estado, y se refiere al origen

histrico de esta disciplina relacionado con la descripcin cuantitativa de asuntos del
estado. Tambin se llam aritmtica poltica. Su objetivo inicial era describir
cuantitativamente diversos hechos de inters. En tiempos de Cesar Augusto el
estadstico era el recaudador de impuestos y en tiempos de Guillermo el conquistador se
edit el primer censo de Inglaterra (Domesday Book). En el siglo XVII J. Graunt (1620-
1674) y W. Petty (1623-1687) desarrollaron la estadstica vital.
En esta misma poca, en forma independiente naci la rama matemtica de las

probabilidades a raz del inters en el juego de Antoine Gombaud (el caballero de Mer:
1610-1685) y de los matemticos B. Pascal (1623-1662) y P. Fermat (1601-1665).
Posteriormente, J Bernouilli (1654-1705), A. De Moivre (16671754), P.S. Laplace
(1749-1827) y K.F. Gauss (1777-1855) contribuyeron a fortalecer las probabilidades,
combinndola con los datos estadsticos. A. Quetelet (1796-1874) y finalmente F.
Galton (1822-1911) aplicaron la estadstica al anlisis de la variabilidad biolgica.
El desarrollo definitivo de la estadstica, uniendo sus races descriptivas y

matemticas viene con K. Pearson (1857-1936), W.S. Gosset Student (1876-1937), J.
Neyman (1894), E.S. Pearson (1895), A. Wald (1902-1950) y R.A. Fisher (1890-1962).
Tal vez las figuras mas destacadas que relacionaron la estadstica y la biologa, dando
origen a la biometra, son K. Pearson (fundador de la revista Biometrika) y R.A.
Fisher (Statistical methods for research workers, 1925).
En paralelo, la estadstica matemtica ha sido enriquecida con las contribuciones

de Maxwell, Boltzman y Gills (mecnica estadstica) y por Kolmogorov (probabilidades
axiomticas) y Lebesgue (teora de la medida).
I.2.- Definicin
La estadstica actual se puede definir de muchas formas, por ejemplo conjunto

de mtodos que permiten recolectar presentar y analizar informacin o anlisis
cientfico de datos basados en fenmenos naturales (Sokal & Rholf, 1969). Sin
embargo una definicin til en el contexto de su aplicacin en las ciencias es:
12
La estadstica es la ciencia, pura y aplicada, que crea, desarrolla y aplica
tcnicas para la descripcin de datos y la evaluacin de la incertidumbre de
inferencias inductivas (modificada de Steel & Torrie, 1985).
Esta definicin hace nfasis en dos aspectos:
i) la estadstica no es slo un conjunto de mtodos o recetas para aplicar ante

determinados problemas, sino que tambin incluye la creacin y el
desarrollo de la teora y mtodos.
ii) la estadstica en ciencias se basa en la evaluacin de la incertidumbre
(probabilidad) de ciertas proposiciones (hiptesis) inferidas mediante un
proceso de induccin (de lo particular a lo general)
La estadstica tiene tres captulos claramente diferentes que se correlacionan con

el desarrollo histrico:
I) Estadstica Descriptiva: cuyo fin es describir datos.

II) Estadstica Matemtica: que constituye la base terica de toda la
estadstica.
III) Inferencia Estadstica: que tiene dos sub-captulos con objetivos
diferentes:
a) Estimacin: cuyo fin es aproximar el valor de ciertos parmetros
b) Docimasia o prueba de Hiptesis: cuyo objetivo es probar
hiptesis.
La estadstica en investigacin ha enriquecido el mtodo cientfico, dndole

sentido y un marco terico a sus diversas etapas. Este ltimo se puede describir
detalladamente como:
i) eleccin del sistema a estudiar y su enfoque,

ii) enunciado del problema,
iii) definicin de objetivos,
iv) planteamiento de la hiptesis,
v) deduccin de consecuencias verificables de ella,
vi) dicotoma de la hiptesis (Ho vs. H1),
vii) diseo experimental:
a) decidir tipo de investigacin:
1) Recopilacin de datos ya registrados (estudio retrospectivo) u
obtener nuevos datos (estudio prospectivo).
2) Un estudio instantneo (estudio transversal) o un seguimiento
(estudio longitudinal).
3) Ser slo un estudio descriptivo o explicativo?
13
4) Ser experimental o no-experimental?
b) definir el Universo,
c) diseo de la muestra,
d) definicin de grupo control,
e) definicin de unidades de observacin,
f) definicin de las fuentes de informacin,
g) unidades de medidas y escalas
viii) eleccin de estadgrafos para la prueba de la hiptesis,
ix) eleccin del nivel de significacin
x) docimasia de hiptesis
xi) toma de decisin (rechazo Ho?)
xii) representacin de la informacin
xiii) interpretacin de los resultados,
xiv) gnesis de nuevas hiptesis
14
II.- ESTADSTICA DESCRIPTIVA
II.1.- Observaciones, variables y escalas
La estadstica trabaja con datos u observaciones, que en general son valores

numricos de una variable en una unidad de observacin particular. Por ejemplo, si
estamos interesados en la edad de los individuos, la unidad de observacin es el
individuo, la variable de inters es la edad, la unidad de medida puede ser aos y un
dato puede ser 5 aos en un individuo.
Las variables pueden ser cuantitativas cuando miden cantidad o contenido de

algn atributo, o bien cualitativas cuando se refieren a calidad. Por ejemplo masa, peso,
longitud, cantidad son cuantitativas y color, olor y textura son cualitativas. Las variables
pueden ser tambin continuas cuando se puede establecer correspondencia biunvoca
con los nmeros reales, o discretas cuando establecen relacin con los nmeros
naturales.
Las escalas de medidas pueden ser nominales, ordinales, discretas, continuas o

por intervalos. Por ejemplo, nominal: negro o blanco; ordinal: corto, mediano, largo;
continua: gramos; por intervalos: menor que 10 aos, mayor o igual que diez aos.
II.2.- Representacin de la informacin
Los datos u observaciones se representan de diversos modos, que en general se

pueden resumir en dos: i) grficos, e ii) tablas. Entre stos, son de inters las tablas de
distribucin de frecuencias y los histogramas y polgonos de frecuencia
Tablas de distribucin de frecuencias.
Las tablas de distribucin de frecuencias de n datos u observaciones

corresponden bsicamente a la representacin en columnas del conjunto de valores de
una variable (niveles de una variable: yi) y sus frecuencias absolutas (ni).
En el caso de variables cualitativas adquiere una representacin muy simple:
Variable Frecuencia absoluta (ni) %

Y1 n1 (n1 /n)100
Y2 n2 (n2 /n)100
....... ....... .........
Yk nk (nk /n)100
n =ni 100
15
En el caso de las variables discretas, si consideramos una variable X, donde X i

son las observaciones e yi los k niveles de la variable. Entonces podemos definir:
i) frecuencia relativa hi ni / n
i j
ii) frecuencia acumulada N j ni

i 1
i j
iii) frecuencia acumulada relativa H j hi

i 1
En este caso la tabla incluye las columnas: yi, ni, hi, Ni, y Hi.
En el caso de las variables continuas muchas veces es necesario agrupar datos

(series agrupadas) por intervalos llamados intervalos de clase. Estos se anotan como
[yi-1, yi], donde yi-1 representa el lmite inferior del intervalo e y i, el lmite superior.
La amplitud de cada intervalo es ci = yi- yi-1.
Si definimos recorrido o rango de la variable X como la diferencia entre los

valores mximo y mnimo, R = xmax xmin, y se agrupa en k intervalos iguales,
entonces ci = R/k.
En estas tablas de distribucin de frecuencias se define marca de clase como el

valor promedio entre los lmites del intervalo: yi = (yi- yi-1)/2.
La tabla incluye las columnas: yi-1, yi, ci, yi, ni, hi, Ni, y Hi
Histograma y polgono de frecuencias
La tabla de distribucin de frecuencias tiene una expresin grfica natural en el

histograma y el polgono de frecuencias. El histograma de frecuencias corresponde a un
grfico de barra de X vs hi, donde cada barra es un intervalo. El polgono de frecuencias
corresponde a la grfica de yi vs hi.
Ejemplo 1.-
La variable X con la siguiente tabla de distribucin de frecuencias:

16
yi-1 Yi yi ci ni hi Ni hi
2 4 3 2 20 0.2 20 0.2
4 6 5 2 25 0.25 45 0.45
6 8 7 2 30 0.3 75 0.75
8 10 9 2 10 0.1 85 0.85
10 12 11 2 12 0.12 97 0.97
12 14 13 2 3 0.03 100 1.00
En esta figura, el histograma corresponde al grfico de barras y el polgono a la

lnea poligonal que une los puntos medios de cada barra.
II.3.- Medidas de resumen
La informacin se puede representar en grficos o tablas, sin embargo stas no

son tiles a la hora de tomar decisiones estadsticas. Es mejor caracterizar las variables
por ciertas medidas que describen su distribucin o histograma. Estas se denominan
medidas de resumen y se pueden dividir en cuatro:
a) medidas de posicin: cuyo fin es representar la posicin

central de la distribucin u otras posiciones de inters.
17
b) medidas de dispersin: cuyo fin es representar la

dispersin de los datos en torno a alguna medida de
posicin.
c) medidas de simetra o sesgo: cuyo fin es representar el

tipo de asimetra de la distribucin.
d) medidas de apuntamiento o curtosis: cuyo fin es medir la

elevacin de las frecuencias relativas.
Medidas de posicin
La medida de posicin ms usada es el promedio, que podemos definir

preliminarmente como una medida central que se relaciona el valor de una variable con
su frecuencia relativa de presentacin. Corresponde a la media aritmtica y se puede
expresar como:
x
x i
Si la serie ha sido agrupada, entonces y

ni yi
hi yi
n
Algunas propiedades den promedio son:
i) La suma de las desviaciones de los valores en torno al promedio es nula.

Si definimos zi = xi -x, entonces zi = 0.
ii) Dado zi = xi u, con u un valor cualquiera, entonces zi es mnima si
u = x.
El promedio entonces es una medida central en donde se equilibra la

distribucin completa, es decir es su centro de masas.
Una segunda medida de posicin es la mediana que corresponde a un valor bajo

el cual se encuentra el 50% de las observaciones. Es decir si ordenamos en orden
ascendente la serie de n observaciones, la mediana corresponde al valor Me = x (n+1)/2 si n
es impar y al valor Me = (xn/2+xn/2 +1)/2 si n es par.
18
Si la serie se encuentra agrupada la mediana se calcula como:
c L ( n / 2 N L 1 )
Me y ' L 1
nL
Donde L es el subndice del intervalo que contiene a la mediana, y ste intervalo
es aquel cuya frecuencia acumulada sobrepasa la mitad de la cantidad de observaciones
(cuya Nj sobrepasa a n/2).
Una medida de posicin asociada a la mediana es el percentil Pp que

corresponde al valor bajo el cual se encuentra el p% de las observaciones. En una
serie agrupada, se puede calcular como:
c L ( np / 100 N L 1 )
Pp y ' L 1
nL
Es fcil ver que P50 es la mediana. A los percentiles P25, P50 y P75 se les denomina
primer, segundo y tercer cuartl (Q1, Q2 y Q3). Del mismo modo se pueden definir los
deciles, por ejemplo P10 es el primer decl.
La tercera medida de inters es la moda. Esta se define como el valor que tiene
una mayor frecuencia relativa. En el caso de series agrupadas la moda corresponde a un
intervalo, aunque se ha propuesto una frmula que en cierta manera hace perder sentido
a la definicin.
nL 1
Md y ' L 1 c L
n L 1 n L 1
Observaciones
i) Si la distribucin de frecuencias es simtrica, entonces X Me Md .

ii) Si la distribucin de frecuencias es asimtrica, se puede reconocer una
asimetra negativa en que X Me Md , y una asimetra positiva en que
X Me Md .
Medidas de dispersin
Las medidas de dispersin son aquellas que evalan la variabilidad de las

observaciones. La ms importante es la varianza (V(x) o S2) que podemos definir como
la desviacin cuadrtica media de los valores en torno al promedio, es decir:
19
S2 = (xi-x)2/n
Observamos que (xi-x)2 = (xi2 +x2 2xix) = xi2 +x2 2xix) =
= xi2 +nx2 2nx2 = xi2 -nx 2 , y entonces:
xi2
s x2
2
ni yi2
En una serie agrupada s 2 y 2 hi yi2 y 2
n
Algunas propiedades de la varianza son: Si a y b son constantes, entonces:
V(a) = 0; V(ax) = a2V(x); V(a+x) = V(x) y V(ax+b) = a2V(x).
Un problema de la varianza como medida de dispersin es que se expresa en

unidades cuadrticas. Por ejemplo, si la variable se mide en metros, su varianza se mide
en metros cuadrados.
Una medida de dispersin an ms usada que la varianza y que corrige el

problema de las unidades, es la desviacin estndar (s) que corresponde a la raz
cuadrada de la varianza:
s s2
Por su estructura, la desviacin estndar corresponde aproximadamente a una

distancia: la distancia media desde las observaciones individuales al promedio.
Las desviaciones estndar dependen del valor del promedio, siendo ms grandes
cuanto mas grande es este ltimo, lo que hace difcil su comparacin. El coeficiente de
variacin (CV) corrige este problema y corresponde a una desviacin estndar
normalizada dividida por el promedio:
CV s / x
Otra medida de dispersin es el error estndar (Es): Es s / n
Sin embargo, esta tiene un sentido diferente. Corresponde a la desviacin

estndar del promedio, es decir si de un conjunto de observaciones tomamos varias
20
sub-muestras y en cada una de ellas calculamos un promedio y a continuacin
calculamos la desviacin estndar de stos promedios, obtenemos Es. Esta medida
adquiere sentido en inferencia estadstica.
Otras medidas de dispersin son el rango (R) R = xmx- xmn y el recorrido

intercuartlico (Q): Q = P75-P25 = Q3-Q1.
Medidas de simetra o sesgo
Las medidas de simetra se basan en las relaciones entre la moda, mediana y

promedio en las distribuciones simtricas y asimtricas. Existe una relacin emprica
que relaciona stas medidas: x Md 3( x Me) . A partir de sta se usan los coeficientes
de asimetra de Pearson:
x Md 3( x Me)
3
s
y 5
s
Si cualquiera de los > 0 se habla de sesgo positivo, o distribucin sesgada a la

derecha. Si el cambio < 0 el sesgo es negativo o la distribucin es sesgada a la
izquierda.
Medidas de apuntamiento o curtosis
El apuntamiento o curtosis se mide en referencia a una distribucin muy habitual

denominada distribucin normal (ver ms adelante). Esta distribucin se puede
caracterizar a travs de un coeficiente =4/S4 = [ (xi-x)4/n]/S4. En esta distribucin
= 3. Esto permite clasificar las distribuciones como:
i) Leptocrticas o ms apuntadas que la normal, si > 3,

ii) Mesocrticas o igualmente apuntadas, si = 3, y
iii) Platicrticas o menos apuntadas que la normal, si < 3.
Ejemplo 2.-
Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de
posicin:
a) Promedio: y 0.2 3 0.25 5 0.3 7 0.1 9 0.12 11 0.03 13 6.56

b) Intervalo de moda: (6; 8)
21
c) Mediana: el intervalo que contiene la mediana es aqul que por primera vez
sobrepasa la mitad de la cantidad total de observaciones, es decir 50. En este
caso es el intervalo (6; 8). Entonces yL-1= 6. y la mediana es:
Me = 6 + 2((50-45)/30) = 6.33.
d) Primer cuartl: el intervalo que contiene Q1 es aqul que por primera vez
sobrepasa el 25% de la cantidad total de observaciones, es decir 25. En este
caso es el intervalo (4; 6). Entonces yL-1= 4. y Q1 es:
Q1 = 4 + 2((25-20)/25) = 4.4.
e) Tercer cuartl: en forma anloga al clculo anterior:
Q3 = 8 + 2((75-75)/10) = 8.
Tambin podemos calcular las siguientes medidas de dispersin:
a) Varianza: en este caso lo ms simple es calcular primero hiyi2:
h yi
2
i
0.2 9 0.25 25 0.3 49 0.1 81 0.12 121 0.03 169 50.44
Y, ahora se puede calcular fcilmente la varianza:
s 2 hi yi2 y 2 50.44 (6.56) 2 7.41
b) Rango: 14-2= 12.

c) Desviacin estndar: s = (s2) = 2.74
d) Coeficiente de variacin: CV = 2.74/6.56 = 0.41
e) Error estndar: Es = 2.74/(100) = 0.27.
f) Recorrido intercuartlico: Q3-Q1 = 8-4.4 = 3.6.
Adems en ocasiones es til cuantificar la simetra, en ste caso a travs de:

5 = 3(6.56-6.33)/2.74 = 0.25. Esto indica un pequeo sesgo o asimetra a la derecha.
22
Ejercicios de Estadstica descriptiva
1.a. Pesos de nacimiento de nios (en kg)
Rango Marca de Frecuenci Frec. Frec. Frec.

clase (yi) a (ni) acumulada relativa relativa
(Ni) (hi) acumulada
(Hi)
02 2
24 6
46 18
68 12
8 10 7
10 12 3
1.b. Datos de mg de glicina por mg de creatinina en la orina de 20 chimpancs

(tomadas de Gartler, Firchein y Dobzhansky, 1956)
0.008 0.018 0.056 0.055 0.135 0.052 0.077 0.026 0.440 0.300
0.025 0.036 0.043 0.100 0.120 0.110 0.100 0.350 0.100 0.300
Para los dos conjuntos de datos presentados arriba:

i) Calcular: promedio, mediana, moda, percentil 30, desviacin estndar y
coeficiente de variacin.
ii) Son simtricas las distribuciones? Comprubelo haciendo histogramas de
frecuencia.
iii) Realice histogramas de frecuencia acumulada para cada grupo de datos.
R: i) a) promedio: 6.04; mediana: 5.78; Moda [4;6]; P 30: 4.71; desviacin estndar: 2.39;
CV: 0.395; b) promedio: 0.123; mediana: 0.089; Moda 0.1; P 30: 0.0475; desviacin
estndar: 0.120; CV: 0.979.
23
2. Se ha realizado el estudio de dos medicamentos utilizando ratas. Se midi el

porcentaje cambio de una variable X en la sangre arterial tras la administracin de
dosis idnticas de distintos medicamentos.
% de cambio en X
Compuesto I Compuesto
II
26.0 31.7 55.1 65.8 63.6
30.0 32.0 56.3 58.3 64.0
30.5 28.6 60.0 57.1 65.3
26.2 29.2 63.5 55.4 62.8
30.7 33.0 64.9 56.5 59.5
31.3 32.0 62.7 55.1
30.5 32.6 60.5 57.0
30.1 28.2 59.2 59.3
29.6 29.1 63.7 60.7
30.2 30.7 64.1 62.1
i) Calcular la media y la mediana muestral.

ii) Calcular la varianza y la desviacin estndar de la muestra.
iii) Calcular rango y el rango intercuartlico.
iv) Cul compuesto produjo una respuesta ms variable?
R: i) Compuesto I: media 30.11, mediana: 30.55; Compuesto II: media 60.5, mediana
60.5; ii) CI: V 3.52, ds 1.87; CII: V 12.04, ds 3.47; iii) CI: Rango 7, RIQ 2.35; CII:
Rango 10.7, RIQ 6.5; iv) el primero (ver coeficiente de variacin)
24
II UNIDAD: ESTADISTICA MATEMATICA

25
III.- PROBABILIDADES
III.1.- Experimento Aleatorio, Espacio Muestral
Definiciones Llamaremos experimento determinstico, a aquel que repetido en

las mismas condiciones, da siempre el mismo resultado, en caso contrario lo
llamaremos aleatorio.
Llamaremos espacio muestral () al conjunto de todos los posibles resultados de

un experimento aleatorio. Un punto muestral ser un resultado posible, es decir, un
elemento de omega.
Llamaremos sigma-lgebra en omega a un conjunto - formado por

subconjuntos de que cumple con:
i) Si P (subconjunto de ) , entonces P -.
ii) Si P y Q - entonces P Q -.
iii) Si P y Q - entonces P Q - .
Es decir, - es cerrada bajo complementacin, unin e interseccin. Una -

es el conjunto de todos los subconjuntos de ( ()).
Llamaremos suceso o evento a los elementos de -, o de otra forma, a cualquier

subconjunto de . En este sentido - es el conjunto de los sucesos.
Ejemplo1.-
Sea el experimento aleatorio tiro un dado Su espacio muestral es = {1, 2, 3,

4, 5, 6} Son posibles sucesos (1)= que salga 1; (1,2) = que salga 1 o 2; (1, 2, 3, 4, 5, 6)
= que salga 1 o 2 o 3 o 4 o 5 o 6.
Del ejemplo anterior es evidente que hay sucesos ms posibles o probables

que otros. Es necesario definir entonces probabilidad de un suceso.
Existen varias definiciones de probabilidad, cada una de las cuales tiene cierta
utilidad.
Definicin clsica: Llamaremos probabilidad des suceso A al cuociente entre el

nmero de resultados o casos favorables a A y el nmero de resultados o casos
posibles.
26
casosfavorables
P ( A)
casosposibles
As, en nuestro ejemplo, la probabilidad de sacar un dos en una tirada de un dado

(A = 2) es P(A) = 1/6, la probabilidad de sacar un uno o un tres (B = (1,3)) es P(B) = 2/6
y la probabilidad de sacar cualquier nmero (C = (1, 2, 3, 4, 5, 6)) es P(C) = 6/6 = 1.
Definicin de Frechet: Si un experimento aleatorio se realiza n veces, es posible

estimar la probabilidad del suceso A como la frecuente relativa de ocurrencia de A, es
decir, el cuociente entre el nmero de veces en que dio como resultado A (nA) y el
nmero de veces en que se repiti el experimento.
nA
P ( A)
n
Se debe hacer notar que al contrario de la definicin clsica, esta es una

definicin a posteriori, es decir, exige que el experimento se haya realizado repetidas
veces, antes de estimar la probabilidad de un suceso. En nuestro ejemplo, habra que
haber tirado el dado en varias oportunidades para luego calcular las probabilidades.
La crtica ms importante a la definicin de Frechet, es que no responde a la

pregunta cuantas veces hay que repetir el experimento? La respuesta es: un nmero
suficientemente grande de veces; y es esto lo que quiso corregir Von Mises.
Definicin de Von Mises: La probabilidad del suceso A corresponde a la

frecuencia relativa de ocurrencia de A, es decir, el cuociente entre el nmero de veces en
que dio como resultado A (nA) y un nmero suficientemente grande de veces en que se
repiti el experimento: El lmite al que tiende la frecuencia relativa, cuando n tiende a
infinito.
P ( A) lim (nA / n)
n
Un problema bsico con esta definicin, es que no es posible repetir un

experimento infinitas veces.
Definicin axiomtica (Kolmogorov): Una probabilidad es una funcin:
P: - -----------------------> {0,1}
A ----------------------------> P(A), tal que:
i) P () = 1
27
ii) P (A) > 0 A -
iii) si A B = , entonces P (A B) = P(A) +P(B) (teorema de la o)
Definicin Al triplete (,-, P) se le denomina Espacio de probabilidades.
III.2.- Probabilidades y Conjuntos
Es posible establecer analogas entre los conjuntos y las probabilidades:
Conjunto universo: .
Conjunto vaco (): suceso imposible.
Elemento de -: suceso.
A B: sucede A o sucede B o ambos.
A B: sucede A y sucede B.
AC: no sucede A.
Definicin Dos sucesos A y B sern mutuamente excluyentes si la ocurrencia

de A que no ocurre B. As, si A B = entonces A y B son mutuamente
excluyentes.
Definicin Dos sucesos A y B son complementarios si la no ocurrencia de A

la ocurrencia de B y a la inversa. Es decir AC = B. Notemos que A B = , es decir,
constituyen una particin de omega. Observemos tambin que los sucesos
complementarios son mutuamente excluyentes, pero no todos los sucesos excluyentes
son complementarios.
Una definicin de probabilidad de un suceso, asociada a la nocin conjuntista, es

P(A) = m(A) / m(), en que m(A) y m() representan alguna medida del suceso y del
espacio muestral respectivamente. Un ejemplo de esta medida es el cardinal de A y
de omega (P(A) / #(A) / #())
III.3.- Propiedades de las Probabilidades

28
I) P () = 0
Demostracin Sea A = y B = , como A B = , entonces usando las propiedades 1

y 3 de la definicin axiomtica, P (A B) = P( ) = 1 = P(A) + P(B) = 1 + P(B),
entonces P(B) = P( ) = 0.
Ejemplo 2.-
La probabilidad que salga 0 al tirar un dado es P(0) = P() = 0.
II) Aditividad finita: Si Ai Bi = , para cualquier i, j, entonces P ( Ai) = P (Ai)
Demostracin por extensin directa de la propiedad 3.
Ejemplo 3.-
Si tiro una vez un dado, la probabilidad que salga 5 o 6 es P(5 o 6) = P(5) + P(6)
= 1/6 +1/6 = 2/6, pues los sucesos sale 5 y sale 6 son excluyentes.
IV) Probabilidad del Complemento: P (AC) = 1 P(A)
Demostracin P() = 1 = P(AC A) = P(AC) + P(A).
Ejemplo 4.-
Si la probabilidad de que un individuo lea el diario es p = 0.2, entonces la

probabilidad que no lo lea es q = 1-p = 1-0.2 = 0.8.
IV) Monotona: Si A B, entonces P(A) < P(B)
Demostracin Si A B, #A #B, entonces P(A) < P(B)
Ejemplo 5.-
La probabilidad de encontrar un gato negro es menor que la de encontrar un gato,

pues los gatos negros son un sub-conjuto del conjunto de los gatos.
V) Probabilidad Compuesta: P(A B) = P(A) + P(B) P(A B)

29
Demostracin P(A B) = #(A B)/#() =[#(A) + #(B) - #(A B)]/ #() = #(A)/
#() + #(B)/ #() - #(A B)/ #() = P(A) + P(B) P(A B).
Es posible extender este teorema a ms de 2 conjuntos, por ejemplo: P(A B C)=

P(A) + P(B) + P(C) P(A B) P(A C) P(B C)+ P(A B C)
Ejemplo 6.-
Si se tienen 60 alumnos, entre los cuales 15 slo toman un curso de matemticas

(M); 20 slo de fsica (F); 10 slo de qumica (Q); 4 M y F; 5 F y Q; 6 M y Q y ninguno
M F y Q. Entonces la probabilidad que un alumno tome matemticas o fsica es : P(M
F) = P(M) + P(F) P(M F) = (15+6+4)/60 +(20+4+5)/60 4/60 = 50/60 =5/6
(Haga un diagrama de Venn, para una mejor comprensin del problema).
VI) Probabilidad que ocurra al menos un evento:
P( Ai)= 1 P( AiC), lo que se interpreta como P(alguno) = 1 P (ninguno)
Demostracin Por teorema de De Morgan ( Ai)C = ( AiC) entonces aplicando la

propiedad del complemento P( Ai)= 1 P[( Ai)C] = 1 -P( AiC).
Ejemplo 7.-
Si de dos personas, la probabilidad que muera la primera (p)es 0.1 y la

probabilidad que muera la segunda (s) es 0.01, entonces la probabilidad que muera
alguna P(alguna) = 1- P(ninguna) = 1- 0.9x0.99 = 0.109.
III.4.- Independencia Estocstica y Probabilidad Condicional
Definicin Dos sucesos A y B se dirn independientes si la ocurrencia de uno no

influye en la ocurrencia del oro.
Ejemplo 8.-
Sean los sucesos A= llueve en Santiago, B = Juan duerme y C = hacemos un

asado. Los sucesos A y B son probablemente independientes; no as los sucesos A y
C.
Probabilidad condicional Definiremos probabilidad del suceso A, dado que ocurri el

suceso B (condicin) al cuociente:
30
P( A B)
P( A / B)
P( B)
Podemos ahora hacer una definicin ms formal de sucesos independientes: A y B

son independientes si P(A/B) = P(A). Entonces, despejando P(A B) en la definicin
anterior, se sigue inmediatamente el siguiente teorema:
Teorema de la probabilidad conjunta Si A y B son independientes, entonces P(A

B) = P(A) P(B) (teorema de la y)
Definicin El conjunto {Bi} constituir una particin de si i) Bi Bj = i,

j y ii) Bi = .
Teorema de la probabilidad total Dado un suceso A y una particin de {Bi},

entonces:
P ( A) P ( A / Bi ) P( Bi )
i
Demostracin: A = (A B1) (A B2) ... (A Bn) Como (A Bi) (ABj) =

, i, j, por el teorema de la o
P(A) = P(A B1) + P(A B2) + ... P(A Bn) = P(A Bi) y por la definicin de
probabilidad condicional,
P (A) = [P(A/Bi) P(Bi)]
Teorema de Bayes Dado un suceso A y una particin {Bi} entonces,
P( A / Bi ) P( Bi )
P( Bi / A)
j P( A / B j ) P( B j )
Demostracin Por definicin P(Bi/A) = P(Bi A)/P(A) y por lo tanto,
P(Bi/A) = P(A/Bi) P(Bi)/P(A) y aplicando el teorema de la probabilidad total,
P(Bi/A) = P(A/Bi) P(Bi) / [P(A/Bj)P(Bj)]

31
Ejemplos 9-13.-
9.- Se lanza una moneda tres veces. a) Cul es su espacio muestral? b) Cul es la
probabilidad de obtener exactamente 2 caras? c) cual es la probabilidad de obtener al
menos 2 caras d) cual es la probabilidad de que los tres lanzamientos sean iguales?
R: a) = {ccc, ccs, csc, css, scc, scs, ssc, sss}

b) Los nicos resultados en que salen exactamente dos caras son: {2c} = (ccs,
csc, scc) es decir hay 3 casos favorables, o, de otra manera, la medida o
cardinal de este suceso es 3.- Los casos posibles (o el cardinal del espacio
muestral) son 8, entonces, P(2c)/m(omega) = casos favorables/casos posibles
= 3/8.
c) P(2c o 3c) = P(2c U 3c) = P(2c) + P(3c) = 3/8 +1/8 = .
d) P(3c o3s) = P(3c U 3s) = P(3c) + P(3c) = 1/8 + 1/8 =
10.- De un grupo de 200 estudiantes, 137 se inscribieron en Biologa, 50 en

Matemticas, y 124 en Zoologa. El nmero de inscritos en Biologa y Matemticas es
33, en Matemticas y Zoologa es 29 y en Biologa y Zoologa es 92. Los inscritos en
las tres clases es 18. Al escoger un alumno al azar de los 200: a) Cul es la
probabilidad de que est en Biologa o Matemticas? b) Cul es la probabilidad que no
est en ninguna clase?
R: P(B) = 137/200; P(M) = 50/200; P(Z) = 137/200; P(B M) = 33/200; P(M Z) =

29/200; P(B Z) = 92/200; P(B M Z) = 18/200.
a) P(B M) = P (B) +P(M) P(B M) = (137+50-33)/200 = 154/200.
b) la probabilidad de que est en al menos una clase es P (B M Z) entonces la
probabilidad de que est en ninguna es P(0) = 1-P(B M Z)
P(B M Z) = P(B) + P(M) + P(Z) P(B M) P(B Z) P(M Z) + P(B M

Z) = (137 + 50 + 124-33-29-92+18)/200 = 7/8, por lo que P(0) = 1-7/8 =1/8.
11.- Se estudian 98 perros con sospecha de hepatitis. Se les palpa el hgado

clasificndolo en: 0: no se palpa, 1: aumentado de tamao, 2: muy aumentado de
tamao. A los mismos perros se les hace biopsia heptica y se obtiene:
32
Tamao del hgado

Lesin 0 1
heptica 2 Total
Cirrosis 1 4 12 17
Hematoma 8 13 14 25
Esteatosis 12 8 9 29
Sin lesin 9 15 3 27
Total 30 40 28 98
Sea C: el perro es cirrtico, y T2: el hgado tiene tamao.

Determine a) P(C), b) P(T2), c) P(C T2) d) son independientes C y T2?
R: a) P(C) = 17/98
b) P(T2) = 28/98
c) P(C T2) = P(C/T2) P (T2) = 12/28 28/98= 12/98
d) P(C/T2) = 12/28 = P(C) = 17/98, entonces no son independientes.
12.- En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si son frtiles 4 de
cada 5 de gallina, 6 de cada 7 de pato y 11 de cada 12 de ganso. Al sacar un huevo:
a) Cul es la probabilidad que sea frtil?

b) si fue frtil, cual es la probabilidad de que sea de gallina?
R.- P(G) = 4/22, P(P) = 10/22, P(Gz) = 8/22, P(F/G) = 4/5, P(F/P) = 6/7 y P(F/Gz) =
11/12.
a) Los sucesos G, P y Gz constituyen una particin de , pues G P Gz =
y G P Gz = . Entonces por teorema de la probabilidad total:
P(F) = P(F/G P (G) + P(F/P) P (P) + P(F/Gz) P (Gz) = 0.868.

b) P(G/F) por teorema de Bayes, es P(G/F) = P(F/G) P(G)/P(F) = 0.168.
13.- Se quiere saber la bondad de la radiografa en el diagnstico de la piometritis en

perros. Se estudian entonces 20 perras con piometritis y 40 perras sin piometritis, y se
anotan las radiografas que sugirieron tal diagnstico. Se registraron los siguientes
resultados:
33
Radiografa (+) para pm (-) para pm Total
Animales con pm 13 7 20
Animales sin pm 8 32 40
Total 21 39 60
a) Cul es la probabilidad de que se encuentre una radiografa positiva dado que la

paciente tiene piometritis? (concepto de sensibilidad de un examen)
b) Cul es la probabilidad de que la radiografa sea negativa dado que la paciente no

tiene piometritis? (concepto de Especificidad de un examen)
c) con estos datos que concluira acerca de este examen
R: a) Sensibilidad: P(e+/dg+) = 13/20 = 0.65
b) Especificidad: P(e-/dg-) = 32/40 = 0.80
c) No es un buen examen, pues es capaz de detectar slo el 65% de los casos, en

pacientes con la patologa. De los casos en que la radiografa sale positiva,
slo un 80% efectivamente son piometritis.
III.5.- Probabilidades en Medicina
Probabilidades en el diagnstico
Un concepto til muy usado en medicina que se relaciona con probabilidad es la

chance (odds). Esta se puede definir como la razn entre la probabilidad de ocurrencia
de un suceso (p) y la probabilidad complementaria de que ste no ocurra (1-p):
p
O
1 p
Este concepto tiene un uso habitual y se relaciona bi-unvocamente con la

probabilidad p. Por ejemplo el decir que tengo una chance de O = 4/1 de ganar un
partido es equivalente a decir que la mi probabilidad de ganar es p = 4/(4+1) = 0.8.
En medicina es habitual el uso de exmenes para el diagnstico de enfermedades.

Sin embargo los exmenes no son 100% certeros para hacer el diagnstico. A veces un
34
individuo posee una enfermedad y el examen sale negativo (falso negativo) y otras
veces sale positivo para la enfermedad y el paciente no la tiene (falso positivo). Es
posible representar esto en la siguiente tabla:
EXAMEN
+ - Total
ENFERMO A B a +b
NO ENFERMO C D c+d
Total a+c b+d n = a+b+c+d
En este caso, los falsos positivos seran c y los falsos negativos seran b.
A partir de esta tabla se pueden definir ciertos conceptos:
La Sensibilidad de un examen corresponde a la probabilidad que el examen salga

positivo dado que el paciente est enfermo:
a
S P( / E )
ab
Representa la capacidad del examen de detectar la enfermedad. La Especificidad

del examen corresponde a la probabilidad de que el examen salga negativo dado que el
paciente no tiene dicha enfermedad (aunque tenga otra):
d
Sp P ( / noE )
cd
Es decir, mide la capacidad del examen de responder a esa y slo a esa

enfermedad.
El Valor predictivo positivo corresponde a la probabilidad de que el paciente

est enfermo dado que el examen sali positivo, es decir mide la capacidad de
prediccin de la enfermedad:
a
VPP P ( E / )
ac
El Valor predictivo negativo corresponde a la probabilidad de que el paciente no

est enfermo dado que el examen sali negativo, es decir mide la capacidad de descarte
de la enfermedad.
35
d
VPN P ( noE / )
bd
La certeza diagnstica corresponde a la probabilidad general de acertar P(C) =

(a+d)/n.
ad
P (C )
n
Otra medida interesante es la razn o coeficiente de verosimilitud que se define

como la razn entre la probabilidad de un cierto resultado en el examen dado que el
paciente est enfermo, dividido por la probabilidad de ese mismo resultado, dado que no
lo est. Por ejemplo, para un resultado positivo:
S
LR P( / E ) / P( / noE ) P( / E ) /(1 P ( / noE ))
1 Sp
Para un resultado negativo es fcil ver que:
LR (1 S ) / Sp
En cierta medida LR mide la potencia de un examen: cuanto ms positivo es en

presencia que en ausencia de enfermedad.
Por ejemplo es interesante saber que sucede con un paciente que a priori tiene una
probabilidad P de tener una enfermedad, cuando se hace el examen y este sale
positivo. Su chance a priori es Oo = P/(1-P). En este caso interesa P(E/+), y por el
teorema de Bayes:
P(E/+) = P(+/E)P(E)/(P(+/E)P(E) + P(+/noE)P(noE) = SP/(SP + (1-Sp)(1-P)).
La probabilidad de que no tenga la enfermedad es P(noE/+) = 1 [SP/(SP+(1-Sp)

(1-P)] = (1-Sp)(1-P)/ /(SP+(1-Sp)(1-P)). Entonces su chance a posteriori es Op = P(E/
+)/P(noE/+) = SP/(1-Sp)(1-P), es decir la chance a posteriori es:
Op LR Oo
entonces el coeficiente de verosimilitud acta como un factor potenciador de la

chance. Este mismo resultado es vlido para un resultado negativo.
Ejemplo 14.- Supongamos que para una enfermedad X, se est ensayando un

examen A y que en un estudio poblacional representativo se obtuvo:
36
EXAMEN A
+ - Total
ENFERMO de X 85 20 105
NO ENFERMO 10 200 210
de X
Total 95 220 315
Entonces, la prevalencia de la enfermedad se estima en: p = 105/315 = 0.33 y la

chance de un enfermo de tener dicha enfermedad antes de hacerse el examen es: O 0 =
0.33/(1-0.33) = 0.5, es decir 1es a 2. La sensibilidad del examen es S = 85/105 = 0.81; la
especificidad es Sp = 200/210 = 0.952; el valor predictivo positivo es VPP = 85/95 =
0.894; el valor predictivo negativo es VPN = 200/220 = 0.909; la probabilidad de certeza
es C = 285/315 = 0.904 y el LR(+) = 0.81/(1-0.952) = 16.875. As, si a un paciente le
sale el resultado positivo, entonces ahora su chance de tener la enfermedad es: Op =
0.5x16.875 = 8.44, es decir alrededor de 8 a 1.
Probabilidades en el tratamiento
Cuando se ensaya un tratamiento en general se dispone de dos grupos, uno que no

recibe el tratamiento (grupo control) y otro que lo recibe (grupo experimental) y se
mide un cierto efecto o evento, en general negativo (i.e. muerte).
Esto se representa en una tabla del tipo:
Control Experimental Total

Evento A B A+b
No evento C D C+d
Total A+c B+d N=a+b+c+d
Se define como tasa de evento en el control:
a
CER P (evento / control ) y tasa de evento en el grupo experimental:
ac
b
EER P (evento / ex)
bd
Estas tasas miden los riesgos absolutos de presentar cierto evento en situacin
control y en situacin experimental. De aqu surgen varias medidas tiles. Primero es
interesante medir el riesgo relativo RR = EER/CER, que indicar si es mayor que 1 un
aumento en el riesgo, y si es menor que 1 una disminucin en ste:
37
RR EER / CER
Otra medida importante es la reduccin en el riesgo absoluto producida por el

tratamiento experimental: reduccin de absoluta del riesgo:
ARR CER EER
Por ejemplo si la ARR = 0.01 significa que uno de cada cien saldrn beneficiados
con el tratamiento, o de otra manera habra que tratar 100 para beneficiar a uno. En otras
palabras el nmero necesario para beneficiar a uno es:
NNT 1 / ARR
Otra medida de menor inters es la reduccin relativa del riesgo:
RRR (CER EER ) / CER
Esta representa la baja porcentual en el riesgo producida por el tratamiento.
Ejemplo 15.- Se est ensayando un nuevo tratamiento Y para una enfermedad

de alta mortalidad y se obtiene:
Tratamiento Tratamiento Y Total

antiguo (control)
Fallecidos 20 5 25
Vivos 90 100 190
Total 110 105 215
Se puede observar que la tasa de mortalidad control es CER = 20/110 = 0.182,

mientras que la tasa experimental es EER = 5/105 = 0.048. As la reduccin absoluta del
riesgo con el nuevo tratamiento es ARR = 0.18-0.048 = 0.134 y entonces al tratar NNT =
1/0.134 = 7.44, aproximadamente 8 pacientes se obtendr al menos un beneficiado. La
reduccin relativa del riesgo es RRR = 0.134/0.182 = 0.736, es decir un 73.6%.
Probabilidades en la etiologa
38
Muchas veces es necesario indagar en las causas de las enfermedades. A veces se
sospecha de un agente causal y se procede con estudios que pueden ser de dos tipos: i)
Seguimiento de cohortes que consiste en el seguimiento de dos grupos a lo largo del
tiempo (seguimiento longitudinal) uno expuesto al factor sospechoso y el otro no
expuesto, para estudiar despus cuantos desarrollan la enfermedad en cada grupo (por
ejemplo tabaco y cncer bronquial); e ii) Estudio de casos y controles que consiste en
la eleccin de dos grupos, el primero de enfermos y el segundo de no enfermos,
estudiando en ellos cuantos de stos estuvieron expuestos al factor. En este caso es un
estudio transversal. Cualquiera sea el tipo de estudio en general se expresa en la
siguiente tabla:
Caso (enfermo) control (no Total

enfermo)
Expuesto A B a+b
no expuesto C D c+d
a+c b+d n=a+b+c+d
Aunque la tabla sea la misma las medidas tiles son distintas. En el caso de un
estudio de cohortes tiene sentido estudiar el riesgo de tener la enfermedad cuando se est
expuesto EER = a/(a+b) y cuando no se est expuesto CER = c/(c+d) y en este caso el
aumento absoluto del riesgo al estar expuesto:
ARA EER CER
El riesgo relativo:
RR EER / CER
Y el aumento relativo del riesgo:
RRA ( EER CER ) / CER
En este caso el nmero necesario de expuestos para que haya 1 enfermo es:
NNH 1 / ARA
Ejemplo 16.- Supongamos que se realiza un experimento con ratones donde se

deja reproducir parejas en dos ambientes, uno con fertilizantes y otro sin fertilizantes.
Despus de un tiempo largo se estudia la presencia de malformaciones congnitas en las
cras, obteniendo:
39
Cras con Cras sin Total
malformaciones malformaciones
Expuestos a 25 100 125
fertilizantes
No expuestos 16 200 216
41 300 341
En este caso la tasa de eventos de los no expuestos es CER = 16/216 = 0.074 y, en

el caso de los sujetos experimentales es: EER = 25/125 = 0.2. As el aumento absoluto
del riesgo es ARA = 0.2-0.074 = 0.126 y el nmero de individuos expuestos para que
ocurra al menos una malformacin es NNH = 1/0.126 = 7.93 individuos. El aumento
relativo del riesgo es RRA = 0.126/0.074 = 1.70, es decir de un 170%, al estar expuestos
a fertilizantes. El riesgo relativo es RR = 0.2/0.074 = 2.70, es decir, al estar expuestos el
riesgo es 2.7 veces el riesgo que se tiene al no estar expuesto.
En el estudio de casos y controles no tiene sentido el clculo de riesgos

directamente de la tabla porque los totales marginales de la derecha no son los expuestos
o no expuestos sino las sumas de los individuos que tienen antecedentes de exposicin.
Entonces una buena medida del riesgo y que se interpreta de la misma manera es la
razn de disparidades de la chance (Odds ratio (OR)). Esta corresponde a la razn entre
la chance de tener el factor de exposicin cuando se es un caso Oc = [a/(a+c)]/[c/(a+c)]
= a/c y la chance de tener el factor de exposicin cuando se es un control Oo = b/d. De
esta manera la razn de disparidades es:
a / c ad
OR
b / d bc
En este caso tambin es posible estimar un nmero necesario de expuestos para

tener un caso a travs de: NNH = [PEER(OR-1) +1]/[PEER(OR-1)(1-PEER)], donde
PEER es alguna estimacin de EER.
Ejemplo 17.- Se piensa que el cigarrillo tiene relacin con el cncer de Vejiga,
entonces se realiza un estudio en pacientes con cncer de vejiga (casos) y en sujetos
normales, pareados por edad y sexo (controles). Se estudia en estos pacientes el
antecedente de consumo de cigarrillos, obteniendo:
Pacientes con Controles Total

Cncer de Vejiga normales
Fumadores 56 26 82
No fumadores 120 200 320
40
176 226 402
En este caso la chance de fumar en pacientes con cncer de vejiga es: 56:120,
mientras que cuando no se tiene este cncer es de 26:200. As la razn de disparidades es
OR = 56x200/(26x120) = 3.59. As si por ejemplo la prevalencia de cncer de vejiga en
fumadores fuera PEER = 0.03, entonces NNH =[0.03(3.59-1)+1]/[0.03(3.59-1)(1-0.03)]
= 14.3.
41
Ejercicios de Probabilidades
1. Se tira una moneda 3 veces y se observa la secuencia de caras y sellos que aparecen.
El espacio muestral es:
= {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
Sea A el evento que aparezcan dos o ms caras consecutivas, y B, que sean todas cara
o todas sello. Calcular P(A), P(B) y P(AB).
R: 3/8; 1/4; 1/8.
2. Calclese la probabilidad de obtener un 1 o un 5 al tirar un dado. Comprubelo

lanzando un dado y calculando la probabilidad obtenida (como frecuencia relativa)
con distintos N muestrales (5, 10, 20, 30). Haga lo mismo para obtener la
probabilidad de que salga un nmero par.
R: 2/6.
3. Una urna contiene 4 bolas blancas, 2 rojas y 2 verdes. Cul es la probabilidad de

sacar:
i) una bola roja de una bola sacada de la urna.
ii) una bola verde de una bola sacada de la urna.
iii) una bola blanca y una bola roja.
R: 1/4; 1/4; 2/7.
4. En un juego, un combate simulado es resuelto tirando dados. Para determinar si el

ataque de un jugador es exitoso si le salen un * o un al lanzar un dado de 20 caras.
Si el ataque resulta exitoso, se lanza un dado de 8 caras para determinar el dao
causado por el ataque. Supongamos que se necesita un valor mayor o igual a 17 para
atacar exitosamente al oponente.
i) Sea A el evento ataque exitoso, cul es P(A).
ii) Sea B el evento causar 5 o ms puntos de dao, cul es P(B).
iii) Si necesitas 6 o ms puntos de dao para matar a tu oponente, cul es la
probabilidad de matar a tu oponente en un ataque.
R: 1/10; 1/20; 3/160.
5. Una ruleta de casino tiene 37 nmeros, del 0 al 36. Excepto por el 0, el cual es verde,
la mitad de los nmeros son rojos (pares) y la otra mitad, negros (impares). Encuentre
la probabilidad de:
i) obtener un 18 en un solo tiro de ruleta.
ii) obtener un nmero rojo en un solo tiro.
iii) obtener un 5 o un nmero negro en un solo tiro.
iv) obtener un nmero rojo en el primer tiro y el cero en el segundo tiro.
42
R: 1/37; 18/37; 18/37; 18/1369.
6. En una encuesta realizada a 100 estudiantes de Ciencias, se obtuvo que 30 estaban

tomando el curso de bioestadstica, 20 estaban tomando qumica orgnica y 10
estaban los dos cursos. Si un estudiante es seleccionado al azar, cul es la
probabilidad de que est tomando bioestadstica o qumica orgnica?
R: 0.4.
7. En una competencia de tiro de dardos se tiene un blanco circular de 30 cm de radio.

La circunferencia menor tiene un radio de 5 cm. Si se tiran 3 dardos, y suponiendo
que todos los tiros caen dentro de la circunferencia mayor, cul es la probabilidad de
dar en el blanco (circunferencia menor) los tres tiros?.
R: 0.0000214.
8. Se tira una moneda y un dado a la vez.

i) Definir el espacio muestral .
ii) Expresar explcitamente los siguientes eventos; A = {sale cara y nmero par}, B =
{salga un nmero primo}, C = {salga sello y nmero impar}.
iii) Expresar explcitamente el evento que: a) A o B ocurra, b) B y C ocurra y c)
slo C ocurra. Determinar sus probabilidades.
9. En una cierta ciudad, 40% de la gente tiene pelo castao, 25% tiene ojos pardos y un
15% tienen ambas caractersticas. Si una persona es seleccionada al azar:
i) y tiene el pelo castao, cul es la probabilidad de que tambin tenga ojos
pardos.
ii) y tiene ojos pardos, cul es la probabilidad de que no tenga pelo castao.
iii) cul es la probabilidad de que no tenga ni los ojos pardos ni el pelo castao.
R: 0.375, 0.6, 0.5.
10.Se estima que el 15% del total de la poblacin adulta padece de hipertensin. Adems
se estima que el 75% de los adultos creen no tener este problema. Se estima tambin
que el 6% de la poblacin tiene hipertensin y no es consciente de tenerla. Si un
adulto opina que no tiene hipertensin, cul es la probabilidad de que la enfermedad
de hecho exista en este individuo?
R: 0.012.
11.Un estudio indica que el 10% de la poblacin de Chile tiene 75 aos o ms, y que el
1% de la poblacin total padece de deficiencia cardiaca moderada. Adems el 10.4%
de la poblacin tiene 75 aos o ms o padece de enfermedad cardiaca.
i) hallar la probabilidad de que un individuo tenga 75 aos o ms y padezca de
deficiencia cardiaca.
43
ii) si un individuo tiene 75 aos o ms, cul es la probabilidad de que padezca
de deficiencia cardiaca?
iii) si un individuo tiene menos de 75 aos, cul es la probabilidad de que
padezca la enfermedad?
R: i) 0.006; ii) 0.0006; iii) 0.0094.
12.Se realiza un experimento de tirar tres veces al aire una moneda. Considere tres
eventos: A = {la primera moneda sale cara}, B = {segunda moneda sale cara}, C =
{salen exactamente 2 caras en forma consecutiva (CCS o SCC)}. Son estos eventos
independientes entre si (analice parejas de eventos).
R: Independientes A con B; A con C; dependientes B con C.
13.En una escuela se estudia la desnutricin infantil, tratando de ver si el hecho de estar
o no desnutrido tiene que ver con el sexo del nio. De 1000 nios examinados, 100
presentan desnutricin; y de 500 nias, 49 presentan desnutricin. Afecta el sexo de
los nios al fenmeno de desnutricin?
R: Son eventos estocsticamente dependientes.
14.En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si la probabilidad de

que los huevos sean frtiles es de 70% para la gallina, 80% para el pato y 90% para el
ganso:
i) cul es la probabilidad de que sea frtil?
ii) dado que fue frtil, cul es la probabilidad de que sea de pato?
R: 0.818; 0.445.
15.En un laboratorio se ha boicoteado el experimento de un investigador. Se sabe que

los otros 4 investigadores del laboratorio (A, B, C, D) han boicoteado anteriormente
otros experimentos. Haciendo una investigacin de las veces que han boicoteado
anteriormente, se estim las probabilidades de cada investigador de haber intervenido
en los experimentos. A tiene una probabilidad de 0.02; B, de 0.09; C, de 0.01; y D, de
0.05. Dado que el laboratorio tiene acceso restringido slo a estos 5 investigadores, y
que A, B y D trabajan slo 1 da a la semana, y que C trabaja 2 das a la semana
(todos en das distintos), quin es el boicoteador ms probable?.
R: B, con probabilidad 0.474.
16.En la universidad, 4% de los hombres y el 1% de las mujeres son ms altos que 1.85
m. Adems, se sabe que el 60% de los estudiantes son mujeres. Ahora, si un
estudiante es seleccionado al azar y mide ms de 1.85 m, cul es la probabilidad de
que el estudiante sea mujer?
R: 0.272.
44
17.A un grupo de individuos, algunos enfermos de cierta enfermedad (E) y otros no
(noE) se les practic cierto examen. En algunos de ellos el examen sali positivo (+)
y en otros no (-). Calcule la prevalencia (pv) de la enfermedad (proporcin de
individuos con la enfermedad), la chance a priori de estar enfermo (pv/(1-pv)), la
sensibilidad del examen, la especificidad, el VPP, el VPN, la certeza diagnstica, el
coeficiente de verosimilitud (LR), y la chance a posteriori de estar enfermo y de no
estarlo.
E NoE Total
731 270 1001
+ 78 1500 1578
- 809 1770 2579
R: O0+ = 0.45; O0-=2.22; S = 0.9; Sp = 0.85; VPP = 0.73; VPN = 0.95; P(C) = 0.87; LR+
= 6; LR-=0.12; Op+=2.7; Op-=0.27.
18. Se estudia la respuesta de un grupo de pacientes a un nuevo tratamiento (NT), como

alternativa al tratamiento habitual (HT). Se mide la presencia de complicaciones propias
de la enfermedad (evento) en uno y otro grupo, obteniendo:
HT NT
Complicaciones (%) 9.6 2.8
Calcule el CER, EER, RR, ARR, RRR, y NNT. Comente sus resultados.
R: CER = 0.096, EER = 0.028, RR = 0.29, ARR = 0.068, RRR = 0.708, NNT = 15.
19. Se estudia la presencia (E) o ausencia (noE) de enfermedad en ciertos individuos,

algunos de los cuales estaban expuestos a cierto eventual factor de riesgo (F(+)). Los
resultados se resumen en la siguiente tabla:
E NoE Total
F(+) 58 22 80
F(-) 36 44 80
94 66 160
Calcule el RR de la exposicin al factor, el ARA, el RRA y el NNH. Interprete sus

resultados.
R: RR = 1.61, ARA = 0.275, RRA = 0.61, NNH = 4.
45
20. Se estudia la relacin entre cierto factor de riesgo (F(+)) y una cierta enfermedad.
Para ello se toma un grupo de enfermos (E) y otro de sanos (controles: noE), midiendo
en ellos la presencia o ausencia de dicho factor. Los resultados se resumen en la
siguiente tabla:
E NoE
F(+) 58 22
F(-) 36 44
94 66
Calcule la OR y el NNH en un paciente en que esperamos que el riesgo a priori (PEER)

sea similar al de la tabla.
RR: OR = 3.22, NNH = 6.
46
IV.- VARIABLES ALEATORIAS
Definicin: Llamaremos variable aleatoria (v.a) a una funcin definida

X: ------> R, tal que para cada punto del codominio, su preimagen es un suceso.
Ejemplo 1.- Sea el experimento se tira 2 veces una moneda = {cc, cs, sc,ss}
Podemos definir la variable aleatoria X = nmero de caras. As para X = 0 su preimagen
es el suceso (ss), para X = 1 su preimagen es (cs) (sc) y para X = 2 su preimagen es
(cc).
Las variables aleatorias pueden ser discretas si slo pueden tomar un nmero k N
valores distintos, en todo otro caso, son continuas.
IV.1.- Distribucin de una variable aleatoria
Variables discretas
Definicin Si X es una variable aleatoria discreta (vad) , llamaremos funcin de

cuanta a:
P(X = x), si x al rango de X (Rx)

p(x) =
0 si x Rx
Adems, llamaremos funcin de distribucin a F(x) = P(X x) = p(xi)

xix
Se puede observar que F(x) es la funcin acumulada de p(x).
Ejemplo 2.-
Si se tiran 2 monedas y se define la variable aleatoria X = nmero de caras,

entonces P(X = 0) = , P(X = 1) = y P(X= 2) = . Entonces:
X p(x) F(x)
0 0.25 0.25
1 0.50 0.75
2 0.25 1.00
47
Las caractersticas fundamentales de una variable aleatoria son la esperanza y la
varianza
Definicin: Llamaremos Esperanza de una v. a a la cantidad:
E[X] = xi pi
Llamaremos varianza de una v. a. a la cantidad:
V[X] = E (X E[X])2 = E[X2] (E[X])2
As en nuestro ejemplo, la esperanza es E[X] = 00.25+10.50+20.25 = 1, y la

varianza es V[X] = 00.25+ 120.5+220.25 12 = 1.5 1 = 0.5.
Se puede observar que la esperanza corresponde al promedio ponderado de una

variable aleatoria y tiene la misma estructura que el promedio definido para series
agrupadas en estadstica descriptiva y = hiyi. Del mismo modo el histograma de
frecuencias representa la funcin de cuanta y el histograma acumulado, la funcin de
distribucin. La varianza representa la variabilidad de la variable en torno a la
esperanza.
Ejemplos 3-4.-
3.- El concepto de esperanza matemtica surgi de las matemticas financieras.

Supongamos que a alguien se le ofrece el siguiente negocio: invierte $100, y con este
dinero se tiene una probabilidad de 0.2 de perderlo todo, 0.2 de quedar igual, 0.4 de
duplicar la inversin y 0.2 de triplicar la inversin. Convendra aceptar el negocio?
Sea la variable aleatoria X = retorno; entonces P(X=0) = 0.2 P(X = 100) = 0.2; P(X =
200) = 0.4 y P(X = 300) = 0.2. Entonces, E[X] = 0.0.2 + 100.0.2 + 200.0.4 + 300.0.2 =
160.
Como la esperanza del retorno (160) es mayor que la inversin (100), el negocio parece
conveniente.
48
4.- Un alumno ha dado 100 pruebas de matemticas con los siguientes resultados:
Nota n de veces que la ha

obtenido
1 1
2 4
3 10
4 40
5 30
6 12
7 3
Se enfrenta a una nueva prueba de matemticas qu nota esperamos que saque

(esperanza)? Cul es la varianza?
Sea la v. a. X = nota. Entonces P (X = 1) = 0.01, P(X = 2) = 0.04, P(X=3) = 0.1, P(X=4)

= 0.4, P(X=5) = 0.3, P(X=6) = 0.12 y P(X = 7) = 0.03. E[X] = 0.011 + 0.042 + 0.13 +
0.44 + 0.35 + 0.126 + 0.037 = 4.42 (Observacin: La esperanza corresponde al
promedio)
E[X2] = 0.0412 + 0.0422+0.1.2+0.442 + 0.352+ 0.1262+0.0372= 20.76; (E[X])2=

(4.42)2= 19.54, y entonces, V[X] = 20.76 19.54 = 1.22 (Observacin: La varianza
corresponde a una medida de la dispersin de los valores en torno al promedio)
Algunas propiedades de la esperanza
i) E[constante] = constante, V[constante] = 0

ii) E[a + X] = a + E[X], V[a+X] = V[X]
iii) E[aX] = aE[X], V[aX] = a2V[X]
iv) E[(X-E[X])] = 0 (demustrelo)
v) E[X+Y] = E[X]+E[Y]
vi) Si X e Y son independientes E[XY] = E[X]E[Y]
Observacin: Si examinamos E[(X-E[X])(Y-E[Y])], vemos que es equivalente a

E[XY+E[X]E[Y]-E[X]Y-E[Y]X] =E[XY] + E[X]E[Y] - E[X]E[Y] - E[X]E[Y] =
= E[XY] - E[X]E[Y]. Si X e Y son independientes, entonces esta cantidad es 0, pero
si son dependientes, entonces es distinta de 0. A esta cantidad se le conoce como
Covarianza entre X e Y y representa la variabilidad conjunta de ambas variables
aleatorias:
COV[X,Y] = E[XY]-E[X]E[Y].
49
Ejercicios Propuestos
1.- Se dividi el pas en 5 regiones y se analizaron las deposiciones de ganado vacuno

obtenindose la siguiente informacin
Regin Total de vacas Deposiciones Deposiciones sin

en la regin con parsitos parsitos
A1 10000 1240 1867
A2 200000 981 2008
A3 60000 2496 2608
A4 30000 864 981
A5 700000 1021 1564
a) Cul es la probabilidad de que una vaca tenga parsitos en la regin A3? R: 0.489
b) Cul es la probabilidad de que una vaca tenga parsitos en el pas b1) si

suponemos que es igualmente probable que venga de cualquier regin? b2) si
suponemos que la probabilidad de que venga de la regin Ai= n vacas en Ai/n total de
vacas R: 0.422 y 0.389 respectivamente.
2.- Se lanza un dado dos veces. Cul es el espacio muestral? Cul es la probabilidad
de obtener 2 nmeros iguales? Cul es la probabilidad de sacar un 1 y un 5? Cul es
la probabilidad de sacar primero un 1 y despus un 5?
R: 1/6; 2/36; 1/36.
3.- En una pieza hay 100 cachorros. Algunos de ellos Beagle y otros Poodle.
Algunos de ellos sanos y otros enfermos.
Beagle Poodle Total Si una persona

compra un
Sanos 40 30 70
perro al azar.
Enfermos 20 10 30 Cul es la
Total 60 40 100 probabilidad de
que sea
Beagle?
Son independientes los sucesos el perro es sano y el perro es Beagle? R: 0.6; no.
50
4.- Se va a realizar una ciruga de esfago a 2 gatos. Se sabe que en esta ciruga muere
el 1%. Cual es la probabilidad de que: a) mueran los 2 gatos b) muera slo 1 c)
ninguno muera
R: 0.0001; 0.0198; 0.9801.
5.- Un procedimiento quirrgico slo se puede realizar 3 veces. Si la probabilidad de

que este procedimiento sea exitoso es 0.25. Cul es la probabilidad de salvar al
paciente?
R: 37/64.
6.- La enfermedad x se puede tratar con C o con M. El 80% de los varones prefiere C;
el 90% de las mujeres prefiere M. Si el 60% de los enfermos son varones. Cul es la
probabilidad de tratar un enfermo con M? R: 0.48.
7.- Sea la variable aleatoria X = suma de los puntos al lanzar 2 veces un dado. a)
encontrar P(X=k) para todo k. b) graficar la funcin de cuanta y a funcin de
distribucin c) Encontrar E(X) y V[X] R: 7;5.83.
IV.2.- Distribucin de Bernoulli
Si se tiene un experimento con un resultado dicotmico, por ejemplo xito o

fracaso, y la probabilidad de xito es p, entonces la probabilidad de fracaso es q = 1-p.
Este tipo de experimento se conoce como ensayo de Bernoulli. Si creamos la variable
aleatoria X de tal manera que X = 0 si es un fracaso y X = 1 si es un xito, entonces
podemos ver que su funcin de cuanta y su funcin de distribucin son:
X P(x) F(x)
0 1-p = q 1-p = q
1 P 1
Adems E[X] = 1p+0q = p, y V[X] = 12p +02q p2 = p-p2 =p(1-p) = pq.
Definicin Diremos que la variable X definida como lo hemos hecho, asociada a

un experimento dicotmico tiene distribucin de Bernoulli.
IV.3.- Distribucin binomial
Si consideramos un experimento que consiste en n ensayos de Bernoulli, y

definimos la variable aleatoria discreta: X = n de xitos, entonces X tiene distribucin
Binomial. Por ejemplo, si la probabilidad de xito de cada ensayo es p y lo repetimos n
veces, entonces la probabilidad que en estos n ensayos haya k xitos es:
51
n k n k
P(X k) p (1 p)
k
Vemos que una vad con distribucin binomial es caracterizada por 2 parmetros:
n y p, entonces se abrevia B(n,p). Observamos que la distribucin binomial consta de n
ensayos fijos e independientes, cada uno dicotmico en su resultado y con una
probabilidad constante (p) de xito.
Como es de esperar E[X] = np, pues es la suma de n ensayos de Bernoulli.

Adems V[X] = npq.
Demostracin La esperanza E[X] = kP(X=k) =
n n! (n1)!
kn kn kn
=
k0kk (1) k0kpp k!(n)pq npk1(k1)!nkpq
k nk k n k1 nk

m j m j m j m
haciendo, j k 1 y,, m n 1; np p q np(p q) np
j 0 j
La varianza V[X] = k2 P(X=k) (E[X])2 = (k2 - k + k)P(X=k) (E[X]) 2 = (k(k-

1)P(X=k) + kP(X=k) (E[X])2 , lo cual utilizando el mismo juego de sub-ndices
lleva a: n(n-1)p2 + np n2p2 = npq.
52
Esta distribucin es muy importante en ciencias pues es muy habitual poder
reducir un experimento a una situacin dicotmica, por ejemplo cuando contamos el
nmero de individuos con una caracterstica, si la tiene (xito) o si no la tiene (fracaso).
Sin embargo esta distribucin sigue siendo discreta y tiene el problema que se genera al
calcular nmeros combinatorios con grandes valores de n.
Esta distribucin tiende a ser asimtrica para bajos valores de p y n, pero es

simtrica si p y n son altos.
Ejemplo 5.-
Si la probabilidad que un individuo lea el diario es p = 0.2 y se toman al azar 10

individuos, entonces la probabilidad que en stos 10, exactamente 3 lean el diario es:
10 3 7
P( X 3) 0.2 0.8 0.2013
3
Observacin Si de un universo de N elementos en los cuales una proporcin p de
ellos tiene un atributo, sacamos n elementos; entonces la probabilidad que en estos n
haya k con el atributo es:
53
N NpNp

(XP k) kn k
N

n
Esta variable tiene distribucin hipergeomtrica y E[X] = np y V[X] = npq(N-n)/
(N-1). Es fcil darse cuenta que si N es muy grande (tiende a ) la toma de cada
elemento no altera la probabilidad de atributo del siguiente elemento y, entonces cada
ensayo se vuelve de tipo Bernoulli. As si en una vad con distribucin hipergeomtrica,
N , su distribucin se vuelve binomial (B(n,p)). Esto es tambin evidente al
observar que el lmite cuando N de V[X] es npq. Entonces se puede considerar a
la distribucin binomial como una distribucin asinttica para poblaciones infinitas.
Ejemplo 6.-
Si en una urna hay 10 bolas rojas y 6 azules y se escogen al azar 5, la

probabilidad que en stas 5 haya 2 rojas es:
54
610

32
P(X 2)
16

5
IV.4.- Distribucin de Poisson
Un hecho importante en la distribucin B(n,p) es que es muy asimtrica para

valores bajos de p, a pesar de valores altos de n. Entonces es interesante estudiar que
sucede si
n y p 0 manteniendo constante np = .
n k nk
P(X k) p (1 p) = n(n-1)(n-2)(n-k+1)(/n)k(1-/n)n-k/(k!) =
k
= [k/k!][1(1-1/n)(1-2/n)(1-(x-1)/n)](1-/n)n(1-/n)-k
y tomando lmite cuando n , = [k/k!]111e-1 = [k/k!]e-.

55
Entonces si N es grande y p pequea (en general np < 0.1) la probabilidad de k
xitos en n ensayos sigue a:
k
P( X k ) e
k!
Se dice entonces que esta variable tiene distribucin de Poisson. En este caso,
E[X] = V[X] = .
Demostracin
Para la esperanza, se tiene que

k
k 1

k 0
k e
k!
e

k 1 ( k 1)!
e e
Para la varianza,

k
k
k
k 0
2
e
k!
E[ X ]2 (k (k 1) k ) e E[ x]2 e 2 e 2
k 0 k!
Ejemplo 7.-
Si la probabilidad de que una mquina produzca un artculo defectuoso es p =

0.0003, entonces la probabilidad que en 100 artculos haya 2 defectuosos es:
0.032
P( X 2) e 0.03 0.000437
2!
Si un fenmeno ocurre X(t) veces en un intervalo [0,t), como ocurre por ejemplo
en la llegada de llamadas telefnicas, la emisin de partculas, accidentes etc... Y
adems la probabilidad de una ocurrencia de ste fenmeno es proporcional al intervalo
(P(una o ms ocurrencias en [t,t+) ) = + o(), donde o() es la probabilidad de que
ocurra ms de uno), entonces el nmero de ocurrencias (k) en un plazo fijo (t) se
conoce como un proceso de Poisson y tiene distribucin de Poisson con parmetro t:
(t ) k
Pk (t ) e t
k!
Ejemplo 8.-
Si en una central telefnica llegan 3 llamadas/minuto, entonces la probabilidad

que en 2 minutos lleguen 4 llamadas es:
56
(3 2) 4
P4 ( 2) e 32
0.134
4!
IV.5.- Variables aleatorias continuas
Definiciones Una variable aleatoria es continua (vac) si su recorrido es infinito y

no-numerable. En este caso no existe una funcin de cuanta sino una funcin de
densidad de probabilidades f(x) definido como:
i) f(x) 0 x,
b
ii) P(a x b) = f(x) dx
+ a
iii) f(x) dx = 1.
-
Podemos observar que la densidad de probabilidad en un punto es 0, y que slo
tienen sentido las probabilidades de intervalos.
La funcin de distribucin de una vac. Se define como:

x
F(x) = f(x)dx
-
Tanto las funciones como las caractersticas de una vac se interpretan del mismo
modo, pero cambian sus definiciones:
+
E[X] = xf(x) dx y V[X] = E[X2]-(E[X])2
-
Una funcin especialmente til en el estudio de las variables aleatorias continuas

es la llamada funcin generatriz de momentos (Mx(t)) definida como:

M x (t ) e
tx
f ( x ) dx . Observamos inmediatamente que la derivada de esta funcin, con

respecto a t, y evaluada en t = 0, corresponde a la esperanza E[X], o primer momento

central, y que la segunda derivada evaluada en t = 0, es E[X 2], o segundo momento
central. Existen tres teoremas de demostracin muy sencilla en referencia a esta
funcin:
57
1) Si c es una constante y la funcin generatriz de momentos
(fgm) de X es Mx(t), entonces la fgm de y = X+c = My(t) = ectMx(t).
2) Si c es distinta de 0 e y = cX, entonces My(t) = Mx(ct).
3) Si X1, X2, Xn son independientes y todas con igual

fgm, Mx(t), entonces Y = X1+X2+.Xn tiene una fgm dada por:
M y (t ) [ M x (t )]n
IV.6.- Distribucin uniforme
Muchas veces en estadstica se usan nmeros aleatorios. Estos son un conjunto de

nmeros [a,b] que tienen todos igual probabilidad de aparecer. Esto genera una
funcin densidad de probabilidad constante f(x) = 1/(b-a) y una funcin de distribucin
F(x) = (x-a)/b-a) en el intervalo [a,b]. Adems es fcil ver mediante integracin que
E[X] = (a+b)/2 y V[X] = (b-a)2/12.
IV.7.- Distribucin exponencial
Si consideramos la variable U como el tiempo que transcurre entre dos eventos

en un proceso de Poisson, podemos observar que la probabilidad que este tiempo de
espera sea mayor que un cierto valor u (P(U u) es equivalente a la probabilidad que
en este proceso no haya ocurrencia en el intervalo [0,u) es decir P(U u) = P0(u) = e-u.
De otra forma 1 F(u) = e -u , es decir la vac tiempo de espera en un proceso de
Poisson tiene funcin de distribucin F(u) = 1- e -u , y derivando, la funcin densidad de
probabilidad es f(x) = e-u . Se dice que una variable con esta funcin densidad tiene
distribucin exponencial. Es fcil ver, simplemente integrando que E[X] = 1/ y V[X]
= 1/2
IV.8.- DISTRIBUCIN NORMAL
Definicin Una variable aleatoria continua, con funcin densidad:

x 2
(1 / 2 )[ ]
f ( x) (1 / 2 ) e
Se dice que tiene distribucin normal o de Gauss (campana de Gauss).
Su esperanza es E[X] = y su varianza V[X] = 2.

58
Observamos que = V[X], es decir es la desviacin estndar. Como esta
distribucin queda caracterizada por dos parmetros, se abrevia como N(,).
Esta es, lejos, la distribucin ms importante en estadstica. Si graficamos la

distribucin, vemos que tiene forma de campana, con un mximo en y puntos de
inflexin en - y +. Adems es importante que P(- x +) = 0.682, P(-2
x +2) = 0.954 y P(-3 x +3) = 0.997.
Es decir entre 1 y + 1 desviaciones estndar se encuentra el 68.2 % de la

distribucin, entre 2 y + 2 d.s. el 95.4 y entre 3 y + 3 d.s. el 99.7%.
Observamos que adems si X tiene distribucin N(,) entonces la variable

estandarizada Z = (X-)/ tiene distribucin N(0,1). Esto es obvio pues E[Z] = E[(X-
)/] = (E[X]-)/ = 0 y V[Z] = V[(X-)/] =V[(X-)]/2 = V[X]/2 = 2 /2 = 1. En
este caso, M Z (t ) e t / 2
2
Esta distribucin tiene dos orgenes fundamentales que se pueden enunciar a

manera de teoremas.
Teorema de De Moivre
Si X tiene distribucin binomial (B(n,p)) y n, entonces:
P(a < x < b) =

b
1/( 2 ) (e (1/ 2)[( x ) / ] )
2
a
59
Donde = np y 2 = npq
Demostracin La demostracin es extensa por lo que slo se muestran los pasos

fundamentales:
n k nk
Si en P(X k) p (1 p) , aplicamos la frmula de Stirling para factoriales,
k
n! n n e n 2n e / 12 n , donde es un nmero entre 0 y 1, se obtiene:
1 k np
P( X k ) , donde y el trmino R/n tiende a 0 para n
2
e / 2 R / n
2npq npq
grandes.
2
1
As, si n es grande P(k1 X k 2 ) P(1 2 )
2
e x / 2 dx , lo que define
1 2npq
una distribucin normal con = np y 2 = npq.
Este primer teorema nos dice que la distribucin normal es una distribucin lmite
de una binomial cuando n es grande. En la prctica n > 30 o bien np 5.
Teorema del lmite central (o central del lmite) (expresin general, Laplace
1812, Lyapunov 1901)
Cualesquiera que sean las distribuciones de ciertas variables Xj, con esperanzas
j y varianzas 2j, entonces X = Xj es asintticamente normal (N(,)) donde =
j y 2 = 2j .
Demostracin Consideraremos slo el caso ms sencillo, donde las Xj tienen la misma

distribucin. En este caso se puede partir por el siguiente corolario:
Corolario 1 Si estas Xj tienen distribuciones iguales, entonces X es

asintticamente normal N(n,n).
Demostracin: En este caso j = n y la varianza es n2j, por lo que la

desviacin estndar es n.
60
Falta por demostrar la normalidad. X = Xj, se puede estandarizar como:

1 n
1 n
Z = (X-E[X])/V[X] = (X- n)/n = ( X j ) Zj . Entonces se puede

n 1 n 1
t
obtener la fgm de Z: M Z (t ) [ M zj ( )]n y como en MZj(t) el primer y segundo
n
momentos son 0 y 2 se puede desarrollar en serie de Taylor: M Zj(t) = 1- 2t2/2 + R, y
reemplazando t por t/ n obtenemos para MZ(t):
t2 1
M Z (t ) [1 R(n, t )]n [1 R(n, t )]( 2 n / t )( t / 2 ) y tomando lmite cuando n
2 2
2n 2n / t 2
tiende a infinito se tiene que M Z (t ) e t / 2 . Como esta es la fgm de una distribucin
2
normal, entonces concluimos que la distribucin es normal.

Corolario 2 El promedio X = X/n de estas Xj tiene distribucin asintticamente
normal N(,/n).
Demostracin: la esperanza E[X ] = E[X/n] =E[X]/n = n/n = .

La varianza V[X] =V[X/n] = V[X]/n2 =n2/n2 = 2/n, y entonces la desviacin estndar
es /n.
Corolario 3 La variable estandarizada Z = (X -)/(/n) tiene distribucin N(0,1)
Demostracin: la esperanza E[Z] = E[(X-)/(/n)] =(E[X]- )/(/n) =

= (-)/(/n) = 0. La varianza V[Z] =[(X-)/(/n)] =(V[X]- 0)/(/n)2 =
=(2/n)/2/n) = 1, y entonces la desviacin estndar tambin es 1.
Corolario 4 Si Y es B(n,p) y n , entonces la variable estandarizada Z = (Y-

np)/(npq)) tiene distribucin N(0,1).
Demostracin: Trivial; se sigue inmediatamente del teorema de De Moivre y los

corolarios anteriores.
El teorema del lmite central y sus importantes corolarios nos explican porqu es
normal (habitual) encontrar distribuciones normales en las variables que estudiamos.
Adems mediante el uso de la estandarizacin (Z) de la variable X, es posible calcular
las probabilidades P(a x b)= P((a-)/ z (b-)/). Afortunadamente para
nosotros los valores de las integrales que definen las probabilidades ya se encuentran
tabulados y son accesibles en programas computacionales. Algunos valores muy
conocidos, importantes y fciles de recordar son P (z > 1.64) = 0.05 y P(z > 1.96) =
0.025.
Ejemplo 9.-
61
Supongamos que el peso (W) de los seres humanos tiene distribucin normal con
promedio = 70 Kg y desviacin estndar = 5Kg. Entonces cual es la probabilidad
que un individuo pese ms de 83 Kg?. Como W tiene distribucin normal N(70; 5),
entonces Z = (W-)/ tiene distribucin normal N(0;1) y preguntar por P(W >83) es
equivalente a preguntar por P(Z >(83-70)/5=2.6). En las tablas de reas de la
distribucin normal se puede ver que este valor es: P(Z > 2.6) = 0.0047.
IV.9.- Otras distribuciones importantes
En los siguientes prrafos introduciremos algunas distribuciones y una serie de

teoremas, cuya importancia se ver mas adelante. En general todas las distribuciones de
variables aleatorias continuas se encuentran relacionadas y pueden expresarse como
casos particulares de una ecuacin general (sistema de Pearson). El conocimiento de
estas distribuciones permite posteriormente generar las dcimas o pruebas de
hiptesis.
Una distribucin habitual es la distribucin logartmico-normal o log-normal.

Una variable aleatoria X tiene distribucin log-normal si existe una constante a, tal que
Y = log(x-a) se distribuye normalmente.
Los siguientes teoremas y distribuciones tienen relacin con la funcin gama (),
de importantes aplicaciones en clculo y estadstica:

( k ) x k 1 e x dx , k > 0.
0
Basados en esta funcin, se dice que una variable aleatoria continua X, tiene una
distribucin de parmetros r y si su densidad es

f ( x) (x) r 1 e x , x >0; r > 0; > 0; y 0 en cualquier otro caso.
(r )
En esta distribucin, E[X] = r/ y V[X] = r/2 y Mx(t) = (1-t/)-r.
Si r = 1, f(x) = e x , E[X] = 1/ y V[X] = 1/ 2. Cuando ocurre esto, se dice que

la variable tiene distribucin exponencial.
Cuando r = n/2 y = 1/2, se dice que la variable tiene distribucin Chi-

cuadrado con n grados de libertad (2n).
62
Teorema Si las variables Zj tienen distribucin N(0,1), entonces X = Z2j, tiene
una distribucin Chi-cuadrado con n grados de libertad: 2n.
Demostracin Veamos primero el caso de una variable Z con distribucin N(0,1) y

llamemos F(Z) y f(Z) a su funcin de distribucin y funcin densidad respectivamente.
En este caso: Y = Z2 tendra por funcin de distribucin a G(Y):
G(Y) = P(Y y) = P(0 < Y y) = P(-y Z y) = 2 P(0Zy) = 2[F(y)-F(0)].

Entonces la funcin densidad g(Y) corresponde a la derivada de G(Y). O sea,
1
g(Y) = G(Y) = 2F(y)(1/2(y) = f(y)/y = (1/ 2 ) e (1 / 2 ) y . Observamos ahora
y
que g(Y=Z2) corresponde a una distribucin con r = 1/2 y = 1/2 es decir Chi-
Cuadrado con 1 grado de libertad (21). Su fgm es entonces MY(t) = 1/(1-2t).
Ahora veamos el caso de la variable X = Y = Z2j. En este caso la fgm de X es

Mx(t) =MY (t) =[MY(t)]n = (1-t/(1/2))-n/2 = (1-t/)-r, con r = n/2 y = 1/2; y por tanto es
una distribucin 2n. Naturalmente su E[X] = n y V[X] = 2n.
Esta es una distribucin asimtrica en que su simetra depende de n. Mientras ms

grande n, ms simtrica.
Teorema Si una variable aleatoria X cuya varianza es 2, en una muestra de n

elementos tiene una varianza s2, entonces y = (n-1)s2/2 tiene distribucin 2n-1.
Demostracin Si desarrollamos:
(xi-)2 = (xi-x + x -)2 =(xi-x)2 + (x-)2+2(xi-x)(x-) =
(xi-)2 = (xi-x)2 + (x-)2+ 0 y dividiendo por 2 obtenemos:
((xi-)/)2 = ns2/2 + ((x-)/(/n))2.
En este desarrollo, como el primer trmino es la suma de n variable aleatorias con

distribucin normal N(0,1) elevadas al cuadrado, este tiene distribucin 2n y adems el
ltimo trmino tiene distribucin N(0,1) al cuadrado, es decir, 21, entonces ns2/2 tiene
distribucin 2n-1.
Definicin Una variable aleatoria continua tiene distribucin t de Student con k

grados de libertad si su funcin densidad es:
63
k 1
( )
2 x 2 k 1
f ( x) (1 ) 2
(k / 2) k k
Teorema Si una variable X tiene distribucin normal N(0,1) y una variable Y

tiene una distribucin 2k entonces t = X/(Y/k) tiene una distribucin t de Student
con k grados de libertad (tk). Su E[t] = 0 y V[t] = k/(k-2). La demostracin de este
teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de este
libro.
Corolario La variable estandarizada t = (X-)/(s/n) tiene distribucin tn-1.
Demostracin Como La variable estandarizada Z = (X-)/(/n) tiene distribucin

N(0,1) y adems Y = (n-1)s2/2 tiene distribucin 2n-1, entonces t = X/(Y/(n-1)) =
(X-)/(s/n) tiene distribucin tn-1.
Teorema Si n, tn-1 N(0,1)
Demostracin Si n, s , y entonces por el teorema central del lmite, t n-1

N(0,1).
Esta distribucin t se le debe a Gossett, quien escriba bajo el seudnimo de

Student y es una de las distribuciones ms importantes, junto con la normal. Es un
distribucin acampanada, ms apuntada que la normal. Sin embargo, en la prctica, si n
> 30 esta distribucin es prcticamente normal.
Definicin Una variable aleatoria continua X tiene distribucin F de Snedecor

con n1 y n2 grados de libertad si su funcin densidad es:
n1 n2
( ) n1n1 / 2 n2n 2 / 2
2 x n1 / 21
f ( x)
( n1 / 2) (n2 / 2) ( n2 n1 x) ( n1 n 2) / 2
Su E[X] = n2/(n2-2) y V[X] = 2n2(n1+n2-2)/n1(n2-2)2(n2-4).
Esta es una distribucin muy til usada en las dcimas de varianza y en el anlisis
de la varianza (ANOVA).
Teorema Si U es 2n1 y V es 2n1, entonces F = (U/n1)/(V/n2) tiene una

distribucin F de Snedecor con n1 y n2 grados de libertad(Fn1,n2). La demostracin
64
de este teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de
este libro.
Teorema Si t tiene distribucin tk, entonces t2 tiene distribucin F1,k.
Demostracin Como t = X/(Y/k) tiene una distribucin t de Student con k grados de

libertad (tk) y en ella X tiene distribucin normal N(0,1) y una variable Y tiene una
distribucin 2k entonces t2 es el cuociente entre X2 con distribucin 21 y Y/k con
distribucin 2k. As, por el teorema anterior t2 tiene distribucin Fn1,n2.
Teorema El cuociente de las varianzas de dos muestras S = s21/s22 tiene

distribucin Fn1-1,n2-1
Demostracin Como en una poblacin dos muestras independientes de tamaos n 1 y n2,

Y1= (n1 -1)s12/2 tiene distribucin 2n1-1 y Y2= (n2 -1)s22/2 tiene distribucin 2n2-1,
entonces el cuociente W = [Y1/(n1-1)]/[ Y1/(n1-1)] = s21/s22 tiene distribucin Fn1-1,n2-1.
65
Ejercicios de variables aleatorias
1. Considere un experimento que consiste en tirar una vez un dado. Siendo X = el valor
obtenido en el lanzamiento una v.a.d., cul es su esperanza y su varianza?
R: 3.5; 2.92.
2. Sea X el nmero de casos nuevos de SIDA diagnosticados en un hospital durante un

da. La distribucin acumulativa para X es
X 0 1 2 3 4 5 6
F (x) 0.1 0.2 0.3 0.6 0.8 0.9 1.0
a) Hallar la probabilidad de que en un da cualquiera,

i) Tres casos nuevos sean diagnosticados.
ii) Por lo menos un caso nuevo sea diagnosticado.
iii) Ningn caso nuevo sea diagnosticado.
iv) Entre dos y cuatro casos nuevos sean diagnosticados.
b) Hallar la funcin de cuanta para X.
c) Determinar E[x] y V[x].
R: a) 0.3; 0.9; 0.1;0.6; c) 2.81; 4.60.
3. Qu requisitos debe cumplir una variable para que en sus anlisis se utilice la
distribucin binomial?
4. Se ha determinado que de cada 100 nacimientos, 20 de los nios nacidos son

hombres y 80 mujeres. Dado que una madre ha dado a luz 8 hijo, cul es la
probabilidad de que tenga 5 hijas?
R: 0.147.
5. Para estudiar la regulacin hormonal de una lnea metablica se inyectan ratas con un
frmaco que inhibe la sntesis de protenas del organismo. En general, 4 de cada 20
ratas mueren a causa del frmaco antes de que el experimento haya concluido. Si se
trata a 10 animales con el frmaco, cul es la probabilidad de que al menos lleguen 8
vivas al final del experimento?.
R: 0.677.
6. En Escherichia coli, una clula de cada 105 muta generando resistencia al antibitico
estreptomicina. Observando 556.000 clulas, cul es la probabilidad de que ninguna
mute? cul es la probabilidad de que al menos una mute?
R: 0.00348; 0.9965.
66
7. Se estima que slo uno de cada 50 loros capturados en el sur de Chile para su
utilizacin como animales domsticos sobrevive al cambio. Se capturan 700 pjaros
en un da. Cul es el nmero esperado de sobrevivientes? Cul es la probabilidad
de que sobrevivan entre 10 y 12?
R: 0.1545.
8. Qu caractersticas tiene la distribucin normal?
9. Si la variable X tiene distribucin normal con =21 y 2=3. Calcule:

a) P (x<22)
b) P (x<18)
c) P (x>22)
d) P (22<x<24)
e) P (16<x<18)
R: 0.719; 0.0418; 0.281; 0.239; 0.0398.
10.En cierta poblacin de primates, el volumen de la cavidad craneal se distribuye

aproximadamente como una normal con media 1200 cm3 y desviacin estndar
de 140 cm3.
a) Hallar la probabilidad de que un miembro de la poblacin seleccionado al azar
tenga una cavidad craneal superior a 1400 cm3.
b) Hallar P (1000<x<1050)
c) Hallar P (x<1060)
d) Hallar P (x<920)
e) Hallar el punto x0 tal que el 20% de los primates tenga una cavidad craneal ms
pequea que x0.
f) Hallar el punto x0 tal que el 10% de los primates tenga una cavidad craneal
superior que x0.
R: 0.0764; 0.0659; 0.0228; 1081.7; 1379,9.
11.La densidad del suelo se define como la masa de materia slida seca por unidad de
volumen. Una densidad elevada implica un suelo compacto con escasos poros. Esta
densidad es un factor importante para el crecimiento de las races, la siembra
precipitada y la ventilacin. Sea X la densidad de tierra arcillosa. Los estudios
demuestran que X tiene una distribucin normal con =1.5 y =0.2 g/cm3.
a) Cul es la funcin densidad de X? Haga un esbozo de la funcin densidad.
Indique en esa grfica la probabilidad de que X est comprendida entre 1.1 y 1.9.
Halle esta probabilidad. R: 0.9544.
b) Halle la probabilidad de que tomando de forma aleatoria una muestra de tierra
arcillosa, sta tenga una densidad menor que 0.9 g/cm3. R: 0.0013.
67
c) Estara sorprendido si una muestra de este tipo de tierra, seleccionada
aleatoriamente, tuviese una densidad de 3.2 g? R: absolutamente.
12.La Escala de Inteligencia Wechsler para Nios (WISC) tiene una media de 100 y una
varianza de 225 para la poblacin general. Si un nio cae en el 10% menor de la
poblacin, generalmente los psiclogos clnicos urgen a los padres de los nios a que
les realicen exmenes en busca de posibles problemas cerebrales. Asumiendo que los
puntajes de WISC estn normalmente distribuidos, cul es el puntaje crtico que los
psiclogos utilizan para hablar con los padres?
R: 80.725.
68
III UNIDAD: INFERENCIA ESTADISTICA

69
V.- ESTIMACIN
La base fundamental de la inferencia estadstica es la obtencin de una muestra

de la poblacin o universo y, a partir de lo que ocurre en ella, inferir, con una cierta
incertidumbre, la validez de una proposicin en la poblacin completa. La muestra es
entonces un subconjunto del universo. Los elementos de la muestra constituyen las
unidades de anlisis, por ejemplo los individuos de una poblacin. Las unidades de
anlisis no necesariamente coinciden con las llamadas unidades de muestreo. Estas
ltimas son unidades operativas, que por ciertas razones constituyen la unidad obtenida
como muestra. Por ejemplo, un investigador puede estar interesado en los glbulos rojos
(unidad de anlisis) pero muestrea individuos (unidad de muestreo), o bien estar
interesado en caractersticas de los individuos (unidad de anlisis) y muestrear
manzanas o barrios de una ciudad (unidad de muestro)...etc. El marco de muestreo
consiste en el listado de las unidades de muestreo que se van a considerar.
V.1.- Estimadores
En la teora de estimacin se considera la existencia de:
i) Parmetros: stos se pueden definir como caractersticas () de una

variable aleatoria, propios de la poblacin. En general se denotan con
letras griegas o maysculas. Los ejemplos ms conocidos son la esperanza,
, la proporcin poblacional P, la desviacin estndar y la varianza 2.
ii) Estimadores: stos son funciones de una variable aleatoria cuyo fin es
aproximar el valor de un parmetro a partir de las unidades de la muestra
Los ejemplos ms caractersticos son el promedio muestral x , la
proporcin muestral p, la desviacin estndar s y la varianza s 2
muestrales.
As, las medidas de posicin y dispersin que aprendimos en estadstica

descriptiva, aqu adquieren otra connotacin. Si nuestro fin es inferir y no simplemente
describir una muestra, el promedio, la varianza y la desviacin estndar se constituyen
en estimadores de parmetros poblacionales.
Los estimadores tienen cuatro caractersticas de inters:
i) Linealidad: es una caracterstica deseable en un estimador que permite

operarlo algebraicamente. Por ejemplo, es evidente que el promedio es
70
lineal, pues es una combinacin lineal de los valores de una variable
aleatoria (x = hixi).
ii) Sesgo: este corresponde a la diferencia entre la esperanza de un estimador

(E[] ) y el parmetro (): Sesgo = E[] - . Naturalmente es deseable que
los estimadores sean insesgados (Sesgo = 0). Por ejemplo, el promedio es
un estimador insesgado: x = xi/n.
Si la variable x tiene E[x] = , entonces E[x] = E[ xi/n] = (1/n)E[xi] =
(1/n)E[xi] = (1/n)n = , o sea la esperanza del estimador es igual al
parmetro.
iii) Consistencia: un estimador se dice consistente si limn V[] = 0. Es decir,

es deseable que en un estimador, a medida que aumente el tamao muestral
(n), su varianza disminuya. Por ejemplo V[x] = V[ xi/n] = (1/n2)V[xi]
= (1/n2)n2 = 2/n, entonces limn V[x] = 0, es decir el promedio
muestral es un estimador consistente.
Observamos inmediatamente que la desviacin estndar poblacional del

estimador x es s = V[x] = /n, entonces tiene sentido considerar el estimador
Es = s/n, conocido como error estndar.
iv) Varianza mnima: es deseable que un estimador tenga la mnima varianza

posible.
Cuando un estimador cumple estas condiciones, se dice que es un estimador meli:

el mejor estimador lineal insesgado.
Adems del promedio, otro estimador meli es la proporcin muestral p como

estimador de la proporcin poblacional P. Si tenemos una muestra de n elementos y
definimos la variable aleatoria x = 1 si tiene una caracterstica y x = 0 si no la tiene,
entonces se aprecia que p = xi/n, es decir tiene la estructura de un promedio, por lo que
E[p] = P y V[p] = PQ/n.
En cambio, observemos el siguiente desarrollo:
(xi-)2 = (xi-x + x -)2 =(xi-x)2 + (x-)2+2(xi-x)(x-) =
(xi-)2 = (xi-x)2 + (x-)2+ 0 y dividiendo por 2 obtenemos:
((xi-)/)2 = ns2/2 + ((x-)/(/n))2.

71
En este desarrollo, como el primer trmino es la suma de n variable aleatorias con
distribucin normal N(0,1) elevadas al cuadrado, este tiene distribucin 2n y adems el
ltimo trmino tiene distribucin 21(ver teoremas), entonces ns2/2 tiene distribucin
2n-1. O sea E[ns2/2 ] = (n-1) o, lo que es lo mismo, E[s2] = (n-1)2/n.
En palabras, la varianza muestral s2 =(xi-x)2/n, es un estimador sesgado

de 2. Entonces, nada mejor que corregirle el sesgo multiplicando este estimador
multiplicndolo por n/(n-1). As, creamos el nuevo estimador s2 = n/(n-1)s2 = (xi-
x)2/(n-1), y este es insesgado porque E[s2] = n/(n-1)E[s2] = (n/(n-1))(n-1) 2/n = 2.
Esta es la razn por la que se usa n-1 en el denominador de la varianza y la
desviacin estndar muestral: son los estimadores insesgados. En la prctica para n
> 30 son prcticamente iguales.
V.2.- Estimaciones
Las estimaciones o estimas son los valores que toma un estimador para una
muestra determinada. Por ejemplo, el promedio es un estimador y pero el valor
particularx = 5 es una estimacin. Las estimaciones pueden ser de dos tipos:
puntuales, por ejemplo el promedio poblacional es 3, o por intervalos, por ejemplo el
promedio poblacional est entre 2 y 5. Obviamente la primera estimacin es precisa
pero poco confiable y la segunda es ms confiable pero pierde precisin. Estas dos
ltimas, precisin y confianza son las dos caractersticas de una estimacin (no
confundir con estimador).
La estimacin puntual prcticamente no se usa. De ser necesario sta corresponde

en general al valor central del intervalo.
Definicin Llamaremos intervalo de confianza del nivel C = 1- a un intervalo

que tenga una probabilidad o confianza C de contener el valor real de un parmetro.
As, por ejemplo un intervalo del 95% de confianza para el promedio, es un intervalo
que tiene una probabilidad 0.95 de contener al promedio poblacional real.
V.2.1 Intervalo de confianza para una proporcin P y para la diferencia P1-P2
Supongamos que queremos el intervalo de confianza del 95% para la proporcin

poblacional P. Es decir queremos construir un intervalo (a,b) que tenga una probabilidad
0.95 de contener a P.
Sabemos que Z = (p P)/(pq/n) tiene distribucin N(0,1) y adems sabemos que

P(-1.96 z 1.96) = 0.95, es decir:
72
[-1.96 (p-P)/(pq/n) 1.96] = [p 1.96(pq/n) P p + 1.96(pq/n)], de manera que
se puede asegurar con probabilidad 0.95 que P est contenido por el intervalo definido
por (p 1.96(pq/n)).
En trminos generales, entonces el intervalo de confianza del nivel C = 1- para

la proporcin poblacional P es:
IC1 [ p Z / 2 pq / n ]
Notamos que Z/2 en el caso de C = 0.95 es Z/2 = 1.96, pero que para otros niveles
son otros valores que se pueden obtener directamente de la tabla de la distribucin
N(0;1) (Z).
Ejemplo 1.-
Si al examinar 30 insectos se encontraron 5 parasitados, como p = 5/30 = 0.167 y

q = 1-0.167 = 0.833, se podra afirmar con un 95% de confianza que la proporcin
poblacional de parasitados se encuentra en el intervalo:
IC 0.95 [0.167 1.96 Es decir entre 0.033 y 0.3 o entre un 3.3 y

0.167 0.833 / 30 ]
30%. Naturalmente, en este caso si quisiera mayor precisin tendra que aumentar el
tamao muestral.
En el Intervalo de confianza para una diferencia de proporciones P1-P2, por un

razonamiento enteramente anlogo al anterior se llega a:
IC1 [( p1 p2 ) Z / 2 ( p1q1 / n1 p 2 q2 / n2 )]
V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2
Si se conoce la varianza poblacional, entonces por un razonamiento anlogo al

anterior:
IC1 [ x Z / 2 / n ]
Sin embargo esto no es lo habitual; en general, la varianza es desconocida.
Si la varianza es desconocida recordamos que (x-)/(s/n) tiene distribucin de

Student tn-1 y entonces es fcil llegar a que el intervalo de confianza del nivel C = 1- es
en este caso:
73
IC1 [ x t (1 / 2 ) s / n]
Aqu t(1-/2) tiene el mismo sentido que Z/2 pero se escribe distinto por razn de
construccin de las tablas t de Student.
Ejemplo 2.-
Si en una muestra de 49 individuos se tiene una glicemia promedio de 1.042 con

una desviacin estndar de 0.03. Entonces puedo afirmar con un 95% de confianza que
el promedio poblacional de la glicemia se encuentra en:
IC1 [1.042 2 0.03 / 49 ] Es decir entre 1.033 y 1.051.
A estas alturas ya es conveniente observar que todos los intervalos de confianza

tienen la misma estructura: IC1- =[ kEs], donde es un estimador, Es su error
estndar y k un valor que determina en una cierta distribucin una probabilidad
determinada. Para los estimadores habituales, promedios y proporciones, que
generalmente siguen distribuciones normales o Student, un buen valor para recordar al
95% de confianza es k = 1.96 2.
Para la diferencia de promedios x1-x2 el intervalo de confianza es:
(n1 1) s12 (n2 1) s 22

IC1 [( x1 x 2 ) t (1 / 2 ) Es ] donde Es (1 / n1 1/ n2 )
n1 n2 2
V.3.- El tamao muestral
Esta misma forma de pensamiento, permite calcular el tamao muestral para una
precisin y una confianza dadas.
Si se acepta que una medida de la precisin es la mitad del ancho del intervalo de
confianza, se observa que la precisin es d = kEs = - y, entonces equivale al valor
absoluto de la diferencia entre el valor real del parmetro y el promedio muestral
(observacin: a mayor valor de d la estimacin es menos precisa).
Entonces, por ejemplo si se desea buscar el tamao muestral con una precisin d y
una confianza C = 1- para estimar una proporcin P, es obvio que d = z /2(PQ/n), es
decir, despejando n, el tamao muestral adecuado es:
Z 2 / 2 PQ
n
d2
74
Ejemplo 3.-
Si deseamos estimar una proporcin P, que segn estimaciones previas de otros

autores es de alrededor de un 32% y queremos hacerlo con una confianza de un 95% (
= 0.05) y con una precisin de 10 % , entonces P 0.32; Q 0.68; Z /2 = 1.96 y d =
0.1x0.32 = 0.032. As el tamao muestral necesario es aproximadamente n =
(1.96)2(0.32x0.68)/(0.032)2 = 816.34. O sea alrededor de 817 individuos.
Si nuestro inters es calcular un promedio, entonces d = t (1-/2)s/n, y entonces el

tamao adecuado es:
t12 / 2 s 2 Z 2 / 2 s 2
n
d2 d2
Para confianzas del 95% se suele aproximar z2/2 = 4.
Ejemplo 4.-
Si queremos estimar un promedio con un 95% de confianza, con una precisin del
5% y se tienen estimaciones previas que sugieren un promedio de 45 de una desviacin
estndar de s = 5.4, entonces el tamao muestral requerido es aproximadamente: n =
4(5.4)2/(0.05x45)2 = 51.84 = 52.
Observamos que todos los clculos de tamao muestral son slo aproximaciones y
que todos necesitan de algn conocimiento o estimaciones previas de lo que se pretende
estimar y su variabilidad.
V.2.3.- Estimaciones en Medicina
A menudo en Medicina se usan estimadores para diagnstico, tratamiento, y

factores de riesgo (ver captulo de probabilidades). Muchos de estos estimadores son
proporciones o diferencia de proporciones por lo que sus intervalos de confianza se
calculan en la forma convencional ya sealada:
Proporciones Sensibilidad, Especificidad, Valores

predictivos, certeza diagnstica, CER y
EER
Diferencia de proporciones Reduccin y aumento absoluto del riesgo:
ARR y ARA
75
En otros casos existen tcnicas especiales para el clculo:
Nmeros necesarios : NNT y NNH Ambos estn definidos como los valores
inversos de ARR y ARA respectivamente, por lo que en estos casos, se calculan los
lmites de confianza para ARR y ARA y se calcula su inverso. Por ejemplo si los lmites
de confianza para ARR son [1/8 y 1/2], entonces para NNT son [2 y 8].
Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR): En

todos estos casos se prefiere trabajar con los logaritmos (en cualquier base) de las
estimaciones: log RR, log OR y log LR. Se calculan los lmites de confianza para el
logaritmo y a estos valores se les aplica el antilogaritmo, obteniendo los lmites de
confianza buscados. Por ejemplo, si los lmites de confianza para log 10RR son [0.30 y
0.47] entonces los lmites de confianza para RR son [antilog 0.30 y antilog 0.47] = [2 y
3].
Usando exactamente la nomenclatura del captulo de probabilidades, los

intervalos de confianza para el logaritmo de estos estimadores son:
1 1 1 1
Para log RR: IC1 [log RR Z / 2
a b ac bd
]
1 1 1 1
Para log OR: IC1 [log OR Z / 2 ]
a b c d
1 1 1 1
Para log LR: IC1 [log LR Z / 2
a d ab cd
]
76
Ejercicios de estimacin
1. Se tom una muestra que mostr que una variable en los hombres tiene un promedio
de 9.5 mg/dcl y una varianza de 0.25 mg 2/dcl2. Cul es el intervalo de confianza del
95% si el tamao muestral es: a) 5; b) 10; c) 100; d) 1000?
R: [8.88;10.12];[9.14;9.86];[9.402;9.6];[9.47;9.53].
2. De 191 nios con dolor al pecho, 160 tienen electrocardiograma (ECG) normal.
Obtener el intervalo de confianza del 90, 95 y 99% de la proporcin de nios con
dolor al pecho que tienen ECG normal.
R: [0.794;0.882]; [0.786; 0.890]; [0.769; 0.907].
3. El tamao de la muestra desempea un papel importante en la determinacin de la

longitud de un intervalo de confianza. Considerar dos intervalos de confianza del
95% de basndose en muestras de tamao N1 y N2 extradas de la misma poblacin.
Si N1 es mayor que N2, qu intervalo de confianza tendr mayor precisin?
4. Se dice que el 11.4% de las vinchucas rojas estn infectadas con un parsito. Qu
tamao muestral necesito para re-estimar esta proporcin con un intervalo de
confianza de 95 % de ancho total 7 %?
R: n = 317.
5. Se estudi el efecto de una droga sobre el cambio de peso en 12 pacientes dando un

promedio de 0.5 kg y una varianza de 0.4 kg2. Se necesita estimar la media
poblacional con un intervalo de confianza del 95% no mayor que 0.5 kg. Qu
tamao necesito para obtener esto?
R: n = 25.
6. Considerar 200 muestras de tamao 25 extradas de una poblacin con media

desconocida. Suponiendo que las 200 medias muestrales obtenidas se utilizan para
construir 200 intervalos de confianza del 90%. Cuntos de estos intervalos esperara
que no contuvieran a ?
R: 20.
7. Un medicamento para el tratamiento de la gota se estudia para utilizarlo en la

prevencin de muerte dada por ataques cardacos en pacientes que ya han sufrido
ataques. En el estudio, 733 pacientes recibieron el medicamento y a 742 se les dio un
placebo. Despus de 8 meses, se hall que de 42 muertes por ataques cardacos, 29 se
produjeron dentro del grupo que recibi el placebo y 13 en el grupo que recibi la
77
droga. Generar un intervalo de confianza del 95% para la diferencia de muertes entre
el grupo que recibi el placebo y el que recibi la droga.
R: [0.0041; 0.0379].
8. Se ha realizado un estudio sobre la tasa de supervivencia de los pjaros adultos en los

trpicos y en las zonas templadas. Inicialmente se marcaron 500 pjaros adultos con
cintas en las patas y se liberaron en una regin lluviosa. Al ao siguiente, se
recapturaron 445 (suponer que aquellos pjaros no capturados fueron consumidos por
depredadores). Un experimento similar en Santiago (una regin templada), dio como
resultado una recuperacin de 252 de los 500 pjaros liberados. Hallar el intervalo de
confianza del 90% de la diferencia en las tasas de supervivencia de un ao para las
dos regiones
R: [0.342; 0.429].
9. Se cree que los jvenes adolescentes que fuman comienzan a hacerlo a una edad ms
temprana que las mujeres adolescentes fumadoras. Segn los siguientes datos, usted
apoyara esta suposicin?
Hombres: N=33 ; edad media a la que empiezan a fumar=11.3 aos ; 2=4
Mujeres: N=14 ; edad media a la que empiezan a fumar=12.6 aos ; 2=4
R: No.
10.Se ha realizado un estudio para comparar la concentracin de plomo en el agua de

dos casas. En una casa se utiliz una soldadura con el 50% de plomo y el 50% de
estao en las tuberas. En la otra casa no utilizaron esta soldadura. Qu podra decir
a una confianza del 95%?
Lugar 1 (con soldadura de plomo): N=25 ; media=25 ; 2=12
Lugar 2 (sin soldadura de plomo): N=25 ; media=10 ; 2=5
R: Que la concentracin de plomo aumenta entre 13.5 y 16.47.
78
VI.- DOCIMASIA O PRUEBA DE HIPTESIS
VI.1.- Bases
Definicin Llamaremos hiptesis a una proposicin lgica. Tiene por tanto un

contenido de verdad (dicotmico si trabajamos con lgica binaria: V o F), pero en
general, desconocido.
Desde esta perspectiva una hiptesis constituye una afirmacin cuya validez o
certeza es desconocida. El fin de la estadstica es llegar a conocer o aproximar la
incerteza de tal afirmacin.
Definicin En trminos estadsticos paramtricos una hiptesis es una afirmacin

que especifica la distribucin de una o varias variables.
En este sentido las hiptesis en trminos estadsticos se refieren a parmetros. Por

ejemplo, cuando afirmamos que los hombres pesan ms que las mujeres, en trminos
estadsticos paramtricos afirmamos que el promedio poblacional del peso masculino es
mayor que el femenino.
La estrategia estadstica se enmarca en una lgica de tipo binario que permite

siempre dividir una hiptesis en dos. Esto lo denominamos dicotoma de la hiptesis:
Hiptesis de nulidad (Ho): es la hiptesis de nulidad del efecto contenido en la

afirmacin. Es en general una hiptesis de igualdad.
Hiptesis alternativa (H1): es la hiptesis que contiene la afirmacin.
As, por ejemplo si se afirma que los hombres pesan ms que las mujeres, se
establece inmediatamente la dicotoma Ho: los hombres pesan igual o menos que las
mujeres y H1: los hombres pesan ms que las mujeres. En trminos estadsticos
paramtricos nos referimos a los promedios: Ho: H M vs. H1: H > M. Naturalmente
una u otra es verdad, pero no ambas.
Definicin Una dcima o prueba de hiptesis es una regla o procedimiento

estadstico que permite tomar una decisin acerca de la aceptacin o rechazo de la
hiptesis de nulidad.
Bajo esta definicin es claro que toda la estrategia estadstica est destinada al
rechazo de Ho, y que este rechazo es el que permite sostener H 1. Para esto es
estrictamente necesario que las hiptesis Ho y H1 sean complementarias.
79
Sin embargo, encontrar una regla que permita tomar una decisin adecuada no es
fcil como podemos ver en el siguiente ejemplo.
Supongamos que el peso de un animal A tiene una distribucin normal N(1, 2) y

que se afirma que un animal B pesa ms que el animal A.
Entonces, seguimos el procedimiento habitual y planteamos:
Ho: B A vs. H1: B> A .
Supongamos que tomamos una muestra de 100 individuos del ave B. Entonces la
idea es encontrar un valor crtico Co para el promedio muestral xB sobre el cual
rechazar Ho (y por tanto sostener H1). Esto establece un conjunto de valores Rc =[xB /
xB > Co] que permiten rechazar Ho (zona de rechazo de Ho). Pero....cmo elegir este
valor crtico?
Estudiemos la probabilidad de rechazar Ho para distintos valores del promedio

poblacional del peso de B (), llamada funcin de potencia de la dcima (K()).
Esperamos que la variable peso del animal B tenga una distribucin normal similar al
ave A, conservando su varianza pero con un promedio poblacional distinto (). As el
peso de B sigue una N(, 2). Ahora bien, la probabilidad de pertenecer a la zona de
rechazo es P(xB > Co). Adems sabemos que si el peso es N(,2) entonces xB es N(,
2/100) = N(,0.2) y entonces P(xB > Co) = P((xB-)/0.2 > (Co-)/0.2) =
= P(Z >(Co-)/0.2) = K() es la funcin de potencia de la dcima. Esta depende del
valor crtico Co.
Probemos con un valor crtico Co = 1, es decir rechazaremos Ho ( y aceptaremos

que B pesa ms que A) si en la muestra xB > 1. La funcin de potencia K() = P(Z>(1-
)/0.2) depende de , obtenindose para varios valores de ste:
K() Ho
0.7 0.0668 V
0.8 0.1587 V
0.9 0.3085 V
1.0 0.5 V
1.1 0.6915 F
1.2 0.8413 F
1.3 0.9332 F
80
En esta tabla observamos que la probabilidad de rechazar Ho (K()) cuando Ho es
verdadera es muy alta, por ejemplo para = 0.9 hay una probabilidad de 0.3 (30%) y
para = 1 una probabilidad de 0.5!!. Entonces no parece adecuado escoger Co = 1.
Si escogemos Co = 1.2 obtenemos:
K() Ho
0.8 0.0228 V
0.9 0.0668 V
1.0 0.1587 V
1.1 0.3085 F
1.2 0.5000 F
1.3 0.6915 F
1.4 0.8413 F
En este caso en cambio, cuando Ho es falsa, recin tenemos probabilidades de 0.3

a 0.5 de rechazarla. Entonces lo ideal sera tener un valor crtico Co sobre el cual la
probabilidad de rechazar Ho cuando esta es falsa (P(RHo/HoF) fuera cercano a 1 y que
bajo este, la probabilidad de rechazar Ho cuando esta es verdadera (P(RHo/HoV) fuera
cercano a 0. Sin embargo esto no es posible y slo es posible encontrar valores crticos
de compromiso entre los posibles errores.
As notamos que la validez de Ho es una caracterstica poblacional y que la toma

de decisin se realiza en base a la muestra. Esto produce una disociacin entre estos dos
eventos, originando dos clases posibles de errores. La situacin se puede expresar en la
siguiente tabla:
VALOR DE VERDAD de
Ho
V (H1F) F (H1V)
DECISIN Rechazo Ho ERROR I () K = 1-
Acepto Ho C = 1- ERROR II ()
En esta tabla se describen dos tipos de errores estadsticos: error de tipo I, aquel
que se comete cuando se rechaza Ho (RHo) y esta es en realidad verdadera (HoV). Su
medida es = Pmax(RHo/HoV); y el error de tipo II es el que se comete cuando se
acepta Ho (AHo) y esta es falsa. Su medida es = Pmax(AHo/H1V) = 1-Pmax(RHo/H1V) =
1-K(1).
81
Observamos que C = P(AHo/HoV) = 1-. El valor C establece la confianza de la
dcima, y a , el mximo error de tipo I que se est dispuesto a tolerar, se le denomina
nivel de significacin cuando se encuentra previamente especificado. Del mismo modo
a K(1), el valor de la funcin de potencia en 1 ,o simplemente K, se le conoce como
potencia de la dcima.
La docimasia o prueba de hiptesis debe cumplir varias etapas:
i) Planteamiento de la Hiptesis.
ii) Dicotoma de la hiptesis: Ho vs H1.
iii) Eleccin del nivel de significacin. En esta etapa se define a priori el nivel de
significacin con que se va a trabajar. En general en ciencias se consideran
como adecuados niveles menores que = 0.1; 0.05; 0.01 (o confianzas
mayores que 90%; 95%; 99%). El ms aceptado es lejos = 0.05. O sea en
ciencias parece aceptable cometer errores de tipo I con probabilidades
menores o a lo sumo iguales a 0.05.
iv) Eleccin de la dcima apropiada (ver ms adelante).
v) En base al resultado de la dcima, tomar una decisin estadstica por una de

dos vas equivalentes:
a. rechazar Ho si la probabilidad de error I es p < 0.05, o
b. rechazar Ho si el valor del estadgrafo que se us como dcima se
encuentra en la zona de rechazo (Rc) definida por un cierto valor crtico
(Co).
vi) Interpretacin estadstica de los resultados. Slo hay dos posibles:

a. De acuerdo a nuestros resultados hay suficiente evidencia para rechazar Ho,
y por tanto sostener H1 con una probabilidad de error I = p; y
b. De acuerdo a nuestros resultados no hay suficiente evidencia para rechazar
Ho (y por tanto en general aceptamos Ho, pero ojo! Si aceptamos Ho
podemos estar cayendo en el error II por lo que deberamos medir o
alternativamente la potencia de la dcima(K)).
82
VI.2.- Dcimas para una muestra
Dcima para una proporcin (P) Una pregunta muy habitual en ciencias de
cualquier tipo es si cierta proporcin P corresponde o no a un valor dado. Por ejemplo es
habitual pensar que la proporcin de mujeres es mayor que 0.5 o que la prevalencia de
una cierta enfermedad sea menor que una prevalencia dada etc...
Supongamos por ejemplo que se dice que un cierto insecto se encuentra en el 30%
(p0) de las viviendas, pero en la localidad en que vivo yo lo veo en casi todas. Entonces
planteo la hiptesis: la proporcin de casas infestadas por este insecto es mayor que un
30%. En trminos estadsticos Ho: P 0.3 vs: H1: P > 0.3. Voy a trabajar con un nivel de
significacin de = 0.05.
Supongamos adems que examin 25 viviendas (muestra de tamao n = 25) y

encontr 13 con el insecto.
Como ya sabemos que Z = (p-P)/(PQ/n) es N(0,1), entonces uso el estadgrafo

Z = (p-p0)/(p0q0/n) como dcima.
Esto es porque la probabilidad de encontrar una proporcin p > 13/25 = 0.52 en

una muestra de 25 viviendas bajo el supuesto que Ho es V es: P (Z > (0.52-
0.3)/(0.30.7/25)) = P(Z > 2.41) = 0.008.
Entonces como la probabilidad de rechazar Ho con este valor dado que Ho es

verdadera es menor que 0.05, rechazo Ho y acepto H1: la proporcin de viviendas
infectadas es mayor que un 30% y lo afirmo con una confianza mayor que el 95% . En
realidad con una confianza a posteriori de un 99.2%, ya que hemos calculado la
probabilidad de error I como p = 0.008.
Una segunda manera de ver esto es buscando el valor crtico Co tal que P(Z>Co)
= 0.05. Este es Co = 1.64, es decir rechazar la hiptesis Ho para todo valor calculado de
z > 1.64 (zona de rechazo Rc). Como el valor calculado de Z = 2.41, entonces cae en la
zona de rechazo de Ho.
Observacin importante Si la hiptesis H1 hubiera sido P 0.3 existiran dos

situaciones que la verifican: P< 0.3 y P > 0.3, entonces la zona de rechazo se divide en
los dos extremos de la distribucin dejando una probabilidad 0.025 en cada extremo. En
este caso hay dos puntos crticos simtricos Co = -1.96 y Co = +1.96, rechazando Ho si
Z <-1.96 o si Z > 1.96. En este caso se habla de una prueba de dos colas, y en el caso
83
anterior, de una cola. En la prctica cada vez que en H 1 aparece el smbolo se
trata de una prueba de dos colas, en caso contrario es de una cola.
As, en resumen la prueba adecuada para una muestra en el caso de una

proporcin es:
p p0
Z
p0 q0
n
Ejemplo 1.-
La prevalencia histrica de una cierta enfermedad infecciosa es de un 8%. Sin

embargo en una localidad se examinaron 196 personas, de las cuales 25 estaban
infectadas. Habr en esta localidad una mayor prevalencia o slo ser un hecho
fortuito?
Planteamos estadsticamente: Ho: P 0.08 vs. H 1: P > 0.08. Trabajaremos con =

0.05 y el problema es de una cola, por lo que el valor crtico de rechazo es Z c = 1.64.
Adems, en la muestra, p = 25/196 = 0.128.
Aplico el estadgrafo Z:
0.128 0.08
Z 2.48
0.08 0.92
196
Como el valor calculado de Z a partir de la muestra (2.48) es mayor que 1.64,

entonces cae en la zona de rechazo de Ho, y por tanto debo aceptar H 1. En otras
palabras, puedo afirmar que en dicha localidad existe una mayor prevalencia de esta
enfermedad, con una probabilidad de error de tipo I menor que un 5%.
Dcima para el promedio () En este caso la afirmacin se refiere a una variable

continua distinta de una proporcin, por ejemplo se afirma que el peso promedio de los
hombres es ms de 70 kg.
Aqu la hiptesis H1 es de una de las siguientes formas: a) >o (una cola), b)

<o (una cola) o c) o (dos colas).
84
Por un razonamiento completamente anlogo al anterior se esperara que el

estadgrafo adecuado fuera Z = (x -o)/(/n), sin embargo en general no conocemos
. Afortunadamente por los teoremas anteriores sabemos que t n-1 = (x -o)/(s/n) donde
s es la desviacin estndar calculada en la muestra, que si la conocemos. Entonces la
prueba adecuada es :
x 0
t n 1
s
n
Ejemplo 2.-
Supongamos que se ha propuesto que el peso promedio de un hombre es 70 Kg, y

que nosotros pensamos que es mayor. Tomamos una muestra de 60 individuos y
encontramos un peso promedio de 73 Kg, con una desviacin estndar de 1Kg. Entonces
planteamos las hiptesis en trminos estadsticos: H0: 70 vs > 70 y usamos el test:
73 70
t 59 23.2
1 . Como el valor crtico de t para una cola, 59 grados de libertad y una
60
mxima probabilidad de error de tipo I = 0.05, es 1.64, y adems 23.2 >>1.64,
entonces rechazamos H0 y afirmamos que efectivamente el peso promedio de los
hombres es mayor que 70 Kg.
VI.3.- Dcimas para dos muestras
En este caso se trata de hiptesis que comparan dos situaciones y por tanto para
probarlas es necesario tomar dos muestras. Por ejemplo, si se afirma que en la ciudad A
hay ms prevalencia de cncer que en la ciudad B, es necesario tomar una muestra en A
y otra en B.
El razonamiento estadstico y la forma en que se toma la decisin son enteramente

anlogos a las anteriores por lo que nos limitaremos a escribir las hiptesis Ho y H 1 de
dos colas y los test o dcimas apropiadas.
85
Dcimas para dos proporciones
En este caso, para una prueba de dos colas, las hiptesis H 0 y H1 se pueden
escribir como:
H0: (P1-P2) = P0 vs. H0: (P1-P2) P0. Lo habitual es que P0 = 0, pues en general interesa
la pregunta P1 = P2 o P1 P2? La prueba a usar en este caso es:
( p 1 p 2 ) P0
Z p n p 2 n2
1 1 donde p0 1 1
p0 q0 ( ) n1 n2
n1 n2
Ejemplo 3.-
Interesa saber si dos insectos, A y B, se encuentran parasitados en diferente

proporcin. Se examinan 52 insectos A, de los cuales 10 estaban parasitados, y de 100
insectos B, 36 lo estaban. Entonces se plantea: H0: PA=PB vs. H1: PAPB (P0 = 0).
0.192 52 0.36 100
Entonces p 1 10 / 52 0.192 y p 2 36 / 100 0.36 , por lo que p 0
52 100
0.303 .
Entonces calculo Z:
0.192 0.36
Z 2.14
1
0.303 0.697(
1
)
. Entonces ahora se debe tomar la decisin. El valor
52 100
crtico de rechazo para un mximo error de tipo I = 0.05 es 1.96, y como es una prueba
de dos colas rechazaremos H0, cuando el valor calculado de Z sea < -1.96 o > +1.96
. En nuestro caso -2.14 < -1.96 y entonces rechazo H 0 y puedo afirmar que existe
suficiente evidencia para sostener que la proporcin de insectos parasitados es diferente.
Podemos observar adems que si nuestra hiptesis H1 hubiera sido que el insecto B tiene
una mayor proporcin de parasitismo que A. La prueba habra sido de una cola, el valor
crtico habra sido 1.64, y nuevamente habramos rechazado H0, en este caso afirmando
que existe suficiente evidencia para sostener que la proporcin de insectos parasitados es
mayor en el insecto B que en A.
Dcimas para dos promedios
En el caso de hiptesis referidas a dos promedios, es necesario distinguir dos

situaciones. La primera en que son, a) dos muestras independientes y la segunda en
que es, b) la misma muestras o muestras relacionadas en dos situaciones experimentales.
Este ltimo caso es muy habitual en medicina donde se estudia la misma muestra con y
sin un cierto frmaco, o bien situaciones del tipo antes-despus. En este ltimo caso se
habla de muestras pareadas o dependientes
86
Muestras independientes
Por razones estadsticas la prueba a usar depende de si las varianzas muestrales se

pueden considerar iguales (homocedasticidad) o bien son diferentes. Una estimacin
razonable para decidir esto es hacer el cuociente s2M/s2m, donde s2M es la varianza mayor y
s2m es la varianza menor, y si es mayor que 4, son diferentes. Sin embargo es posible
docimar directamente la homocedasticidad (ver ms adelante). Las hiptesis para dos
colas son H0:1 - 2= 0 vs H1: 1- 2 0 y al igual que en el caso de las proporciones lo
habitual es que 0 = 0.
a) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos:
x1 x 2 0
t n n 2 (n1 1) s12 (n2 1) s 22
donde sc
2
1 2
1 1
sc2 ( ) n1 n2 2
n1 n2
Ejemplo 4.-
Se afirma que la especie A pesa ms que la especie B. Entonces se plantean las

hiptesis H0:A B > 0 vs H1: A- B 0 y se toman muestras de A y de B. Supongamos
que en 46 individuos de A el peso promedio fue 36g con una desviacin estndar de 6g y
que en 50 individuos de B el peso promedio fue 33 g con una desviacin estndar de 5g.
As como el cuociente entre las varianzas es 6 2/52 = 1.44, es decir es menor que 4,
usando nuestra regla simple, podemos suponer homocedasticidad. Adems podemos
estimar la varianza comn s2c como:
45 36 49 25
sc2 30.27 . Ahora podemos usar nuestro test:
46 50 2
36 33
t 94 2.67
30.27 (
1
)
1 . Para = 0.05 y una cola, el valor crtico de t es 1.64,
46 50
entonces como 2.67 > 1.64, rechazamos H0 y podemos sostener H1, es decir A pesa ms
que B.
Observamos que el valor crtico de t con 94 grados de libertad es 1.64, idntico al
valor crtico para Z en el caso de una cola. Esto no debe extraarnos, pues como hemos
enunciado en un teorema anterior, si el tamao muestral aumenta, la distribucin t se
aproxima a la normal N(0,1) (Z).
b) si no hay homocedasticidad, entonces usamos:
87
x1 x2 0
t gl
s12 s 22 pero los grados de libertad gl los estimamos mediante
( )
n1 n2
2
s12 s22

n n
gl 12 2 2
s12 s22

n1 n2
n1 1 n2 1
Ejemplo 5.-
Usando el mismo caso anterior, pero ahora las desviaciones estndar son: para A
6g y para B 2g. Entonces la razn entre las varianzas es 36/4=9. Entonces no podemos
suponer varianzas iguales. En este caso:
36 33 (36 / 46 4 / 50) 2
t gl 3.23 gl 54.15 55
36 4
)
y los grados de libertad: (36 / 46) 2 (4 / 50) 2
(
46 50 46 1 50 1
Entonces con = 0.05 y una cola el valor crtico de t es aproximadamente 2.
Como 3.23 > 2, entonces nuevamente rechazamos H0 y la interpretacin es la misma.
Muestras dependientes (pareadas)
Este caso es equivalente a una dcima para promedio de una muestra. Se crea la
variable auxiliar d = x1-x2, se calcula su promedio d y su desviacin estndar sd . Las
hiptesis en este caso son referidas al parmetro D = 1- 2. Por ejemplo, proponer que
H1: 1> 2, es equivalente a H1: D > 0. Entonces el test de hiptesis a usar es:
d
t n 1
sd / n
Ejemplo 6.-
88
Se piensa que un frmaco baja la presin arterial. Entonces se estudian 10
individuos, tomndole la presin diastlica antes y despus de la administracin del
frmaco obteniendo:
Individuos Antes (x1) Despus (x2) d = x1-x2

1 100 95 5
2 95 95 0
3 80 85 -5
4 90 80 10
5 98 90 8
6 105 95 10
7 110 95 15
8 100 92 8
9 90 80 10
10 110 93 17
Total 978 900 78
Promedio 97.8 90 d =7.8
Desviacin estndar 9.5 6.1 sd= 6.5
Entonces se pueden plantear las hiptesis de una cola: H 0: D 0 vs H1: D > 0, ya que
pensamos que la presin antes debe ser mayor que despus ( 1> 2 , o D = 1- 2 > 0).
7 .8
Calculamos el valor del estadgrafo: t 9
3.79 . Como, para = 0.05 el valor
6.5 / 10
calculado de t (3.79) es mayor que el valor crtico de t, con 9 grados de libertad y una
cola (1.83), rechazamos H0 y entonces podemos afirmar que efectivamente el frmaco
baja la presin arterial.
VI.4.- Supuestos de las dcimas
Para que las dcimas tengan real validez, se deben cumplir ciertos supuestos
bsicos que provienen del uso de ciertas distribuciones como una t de Student o una
normal estandarizada Z = N(0,1). Las dcimas para una y dos muestras deben cumplir
algunos o todos los siguientes supuestos:
i) independencia
ii) normalidad
iii) homocedasticidad
Independencia Es el requisito fundamental de todas las dcimas. Cada elemento

de la muestra debe ser independiente del resto. Es decir los elementos de una muestra no
deben estar relacionados entre s, mas que por el hecho de pertenecer a la misma
89
situacin experimental. Por ejemplo, si estamos estudiando un parmetro fisiolgico, no
parece conveniente incluir hermanos en la misma muestra porque sus fisiologas pueden
ser semejantes violando el supuesto de independencia. En este caso los elementos de la
muestra no constituyen rplicas sino seudo rplicas. Aunque no siempre es fcil decidir
si los elementos son realmente independientes, por ejemplo en el caso de las plantas de
un prado, el supuesto de independencia lo debe asegurar el investigador. Cuando existen
dudas es posible realizar un estudio de correlacin de los errores a travs de una dcima
de Durbin-Watson (que no se tratar en este libro).
Normalidad Este supuesto se refiere a que se espera que las variables

consideradas en las muestras tengan distribucin normal. Esto proviene de los supuestos
en que se fundamentan las distribuciones que se usan como estadgrafos.
Existen varias pruebas para probar la normalidad de los datos de una muestra. En
este captulo slo mencionaremos tres y en los siguientes describiremos dos de ellas.
Estas son i) Prueba de Lilliefors que consiste en una prueba grfica utilizando una
distribucin normal acumulada, ii) Bondad de ajuste de Kolmogorov-Smirnov e iii)
Bondad de ajuste 2.
Homocedasticidad Este supuesto consiste en la suposicin de igualdad de

varianzas, que es necesario slo para comparar promedios con suposicin de la
existencia de una varianza comn. En prrafos anteriores habamos dado una regla
simple: si el cuociente entre las varianzas era mayor que 4, entonces las suponamos
distintas. En esta ocasin vamos a ser ms rigurosos y plantearemos las hiptesis Ho: 21
= 22 (homocedasticidad) vs. H1: 21 22 . Para tomar la decisin se usa el test F de
Snedecor (F en honor a Fisher):
s M2
F( n 1),( n 2 1)
2 2
2 , donde SM representa la varianza mayor y Sm la menor.
1
sm
Ejemplo 7.-
Supongamos que se tienen datos de altura de dos poblaciones (A y B)de una

especie de rbol:
Poblacin A B
Nmero de rboles 46 68
Altura promedio 3.5 m 4.3 m
Desviacin estndar 0.6 m 1.26 m
Planteamos la hiptesis H1 que los rboles de la poblacin B son ms altos que los
de la poblacin A. Entonces, en trminos estadsticos H 0:B A vs H1: B > A, por lo
90
que es una hiptesis de promedios, de una cola, para dos muestras. Surge entonces la
pregunta puedo considerar las varianzas iguales? Entonces, antes de preocuparme por
mi hiptesis principal, planteo las hiptesis: Ho: 21 = 22 (homocedasticidad) vs. H1: 21
22 y aplico el test: F67,45 =(1.26)2/(0.6)2 = 4.41 y comparo este valor con el valor crtico
de la distribucin F, con 67 grados de libertad en el numerador y 45 grados de libertad
en el denominador: 1.62. Como 4.41 > 1.62, entonces rechazo la homocedasticidad (H 0)
y deber considerar las varianzas como diferentes.
Ahora nos preocupamos de la hiptesis principal y aplicamos el test adecuado:
4.3 3.5 (1.59 / 68 0.36 / 46) 2

t gl 4.53 gl 102.3 103
1.59 0.36

con (1.59 / 68) 2 (0.36 / 46) 2
( )
68 46 68 1 46 1
Como 4.53 > 1.64 (valor crtico), entonces rechazo H0 y afirmo que efectivamente
los rboles de B son ms altos que los de A.
91
Ejercicios de Pruebas de Hiptesis para una y dos muestras
1. Un cierto tipo de cncer tiene habitualmente una letalidad (nmero de muertos por
cada cien enfermos) de 30. Se experimenta una nueva droga en 80 casos, en los
cuales se producen 15 defunciones. Qu puede decir usted sobre la eficiencia de la
droga?
a) Seale la hiptesis de trabajo.
b) Seale el nivel de significacin.
c) Realice la prueba de significacin estadstica. R: Z = -2.19
d) Saque conclusiones. R: La droga disminuye la letalidad.
2. De acuerdo con las leyes de Mendel, el cruzamiento de heterocigotos produce una

descendencia formada por dos tipos de individuos: aquellos con carcter dominante
que representan el 75% y el resto presenta el carcter recesivo. En un experimento
con 500 semillas se obtienen 360 semillas amarillas (dominante) y 140 verdes.
Puede aceptarse que esta distribucin es mendeliana?
R: Z = -1.55, si es mendeliana.
3. Habitualmente la ictericia fisiolgica del recin nacido dura 3.8 das. Al tratar a 100
nios con fototerapia, el perodo ictrico dura 2.8 das con una desviacin estndar de
2.7 das. Es la fototerapia un tratamiento efectivo contra la ictericia?.
R: t99 = -3.7; la fototerapia es efectiva.
4. Se ha medido la concentracin de una sustancia en clulas tratadas con un compuesto

que se cree sedimenta dicha sustancia, y en clulas no tratadas (controles), dando los
siguientes resultados (en ng/mL): Que puede Ud. decir?
Controles Tratadas
68 66
21 29
100 50
48 77
46 110
7 55
5 91
57 90
96 114
138 50
R: t9 = 0.89. No hay evidencias de variaciones de concentracin.
92
5. Se ha observado que la administracin de dosis bajas de aspirina en pacientes
sometidos a dilisis renal disminuye la frecuencia de trombosis. As, en pacientes a
los que se les administr un placebo presentaron trombosis en un 70% de los casos y
en aquellos que recibieron aspirina, se observ trombosis slo en el 50% de los
casos.
a) Si el nmero de pacientes es de 30 para ambos grupos, cul sera su conclusin
respecto al efecto de la aspirina?
b) Si el nmero de pacientes es 60, cul sera ahora su conclusin?
R: a) Z = -1.58, no hay evidencia; b) Z = -2.24, la aspirina reduce el riesgo de trombosis.
6. Se han realizado mediciones de metabolismo en carrera en felinos provenientes de

dos zonas (norte y sur). De 15 felinos nortinos medidos, se obtuvo un metabolismo
de 0.120.02 [ml O2 kg-1 m-1] (promedioSD). De 23 felinos sureos, se obtuvo un
metabolismo de 0.150.06 [ml O2 kg-1 m-1]. Existe diferencia entre los
metabolismos?.
R: No hay homocedasticidad; t28 =-2.22, si existe diferencia.
7. La contraccin (en mm) de los teros de 8 ratas usando dos hormonas distintas (A y
B) es la siguiente:
tero Hormona A Hormona B

1 28 24
2 30 29
3 25 28
4 34 30
5 35 25
6 26 19
7 31 32
8 32 32
Existe efecto diferencial entre las dos hormonas? Use nivel de significacin del 1%.
R: t7 = 1.79; no hay evidencias de efecto para el nivel 1%.
8. Se desea saber si una determinada dieta produce o no aumento de peso. Para ello se
toma una muestra de 7 individuos, los cuales son pesados antes de iniciar la dieta y
despus de 3 meses de seguirla rigurosamente. Los resultados (en kg) son los
siguientes:
Individuo Antes Despus

1 95 85
2 90 85
93
3 110 104
4 80 78
5 95 94
6 83 75
7 91 91
Existirn evidencias para suponer que esta dieta produce una disminucin
significativa del peso? (Use nivel de significacin del 1%).
R: t6 = 3.24; si hay evidencias de reduccin de peso.
10. Se realiz un estudio sobre dos poblaciones de Spalacopus cianus (Cururo)

provenientes de la costa y de la cordillera. Se les midi el largo del pelo a 20
individuos de cada poblacin, resultados que fueron tabulados en la siguiente tabla.
LARGO DEL PELAJE fcosta fcordillera

[MM]
10-12 1 2
12-14 3 5
14-16 6 8
16-18 6 3
18-20 2 2
20-22 1 0
22-24 1 0
Existe diferencia en la longitud del pelo entre ambas poblaciones? (pruebe los
supuestos y elija la dcima adecuada).
R: t38 = 1.77; no hay evidencias de diferencias.
11. Mientras paseaba por el parque, un seor se puso a contar el nmero de perros que
eran sacados a pasear por sus dueos. Los siguientes datos corresponden al nmero
de perros por persona, separando hombres de mujeres, obtenidos en esta productiva
tarde de ocio.
Hombres: 1-1-2-2-2-3-3-3-3-4-4-6-9
Mujeres: 1-1-1-2-2-2-2-2-2-3-35
Suponiendo que los datos son normales, determine si existe diferencia en el nmero
de perros sacados a pasear entre hombres y mujeres
R: t23 = 1.63; p = 0.059.
12. En un anlisis qumico de las aguas del ro Mapocho, se encontr que los valores de
concentracin de coliformes fecales presentaban mayor variabilidad cuando eran
tomados durante la maana que durante la tarde. La muestra tomada en la maana
94
presento una varianza de 23 mg2/mL2 (N=15) y la muestra de la tarde, una varianza
de 20 mg2/mL2 (N=20). Tienen razn los investigadores?.
R: no.
95
VII.- ANLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS
VII.1.- La distribucin 2
Muchas veces en ciencias las hiptesis se refieren a diferencias en cantidades o

frecuencias entre diferentes poblaciones, por ejemplo nmero de enfermos, poblacin
animal, etc. Una distribucin muy til en stos casos es la distribucin 2, que como
recordamos proviene de una variable aleatoria x con distribucin normal estandarizada,
N(0,1), elevada al cuadrado. Si sumamos n variables de este tipo se obtiene una nueva
variable X = x2 con distribucin 2n , es decir una distribucin cuya forma depende de
un parmetro n llamado grados de libertad.
Si recordamos que Z = (x-)/ tiene distribucin N(0,1), es obvio que Z 2 tiene

distribucin 21 y entonces 2n = [(x-)/]2 tiene distribucin 2n. Si en esta ltima
variable estimamos directamente de la muestra restringimos en uno los grados de
libertad. Bstenos observar que si nos lo proponemos, se pueden escoger libremente tres
nmeros, pero si se los somete a la condicin de que el promedio es un nmero
determinado, entonces slo se pueden escoger dos libremente pues el ltimo queda
determinado por la condicin (se ha restringido en uno los grados de libertad).
Supongamos que no es muy diferente de 2 (como en una distribucin de

Poisson) y que ambos los estimamos por un valor esperado e a partir de la muestra.
Entonces esperamos que la variable:
X2 = (o-e)2/e , donde o es un valor observado de x y e su esperado, tenga

distribucin 2n-1. Este estadgrafo es conocido como Chi-cuadrado.
Veamos esto de otra forma. Supongamos que en una muestra de N individuos hay
N1 mujeres y N2 hombres y que a priori esperamos que la mitad fueran mujeres, entonces
o1 = N1, o2 = N2, e1 = N/2 = e2 y entonces X2 = (N1-N/2)2/(N/2) + (N2-N/2)2/(N/2) =
= (N1-N2)2/N = 4N(N1-N2)2/4N2 = [(N1-N2)/2N]2/(1/4N) = (N1/N 1/2)2/[((1/21/2)/N)]2
= [(p- P)/(PQ/N)]2 = Z2.
En un ejemplo numrico supongamos que se tienen 35 hombres y 46 mujeres en

una muestra de 81 personas. Entonces si probamos Ho: P = 0.5 vs. H 1: P 0.5 usamos el
estadgrafo Z = = (p- P)/(PQ/N) = (35/81- 0.5)/(0.50.5/81) = 1.222 y como el valor
crtico de Z para dos colas es Z = 1.96, entonces acepto Ho.
96
Si ahora calculo X2 considerando que ambos valores esperados son e =
0.581=40.5, obtengo X2 = (35-40.5)2/40.5 + (46-40.5)2/40.5 = 1.4938.
Es fcil ver que Z2 =1.2222 = 1.4938= X2.
Tablas de contingencia
La distribucin 2 cobra su mayor importancia en las tablas de doble entrada o

tablas de contingencia. Estas son la manera habitual de presentar datos enumerativos.
Por ejemplo tres poblaciones A, B y C y en cada una de ellas el nmero de enfermos y
no enfermos.
A B C Total marginal
Enfermos
No enfermos
Total marginal Gran total
En general una tabla de doble entrada se puede escribir as:
C1 C2 ...... Ct T. marginal
R1 N1,1 N1,2 ...... N1,t N1,0
R2 N2,1 N2,2 ....... N2,t N2,0
.. .......
Rr Nr,1 Nr,2 Nr,t Nr,0
T. marginal N0,1 N0,2 ........ N0,t N0,0
Es fcil darse cuenta que si todos los N se comportan en forma homognea en las
distintas columnas (C), entonces se cumple que las proporciones en cada columna deben
ser semejantes a las proporciones en los totales marginales. Por ejemplo debera ocurrir
que N1,1/ No,1 N1,o/ No,o.
Entonces si la respuesta es homognea los valores esperados para cada celda se
pueden determinar como: ei,j = (Ni,o/No,o)No,j.
Existen dos tipos de diseos experimentales que conducen a una tabla de doble
entrada. En el primero se tomas muestras aleatorias sin regular los totales marginales de
ninguna de las dos entradas y lo que interesa es saber si existe asociacin entre las
variables de clasificacin (entradas) o independencia. En este caso Ho: independencia
vs. H1: asociacin. En cambio en el segundo se escoge una muestra de un mismo tamao
determinado para cada nivel de una primera entrada (total marginal regulado), y en cada
97
una se determina el nmero que se encuentra en cada nivel de la segunda entrada. En
este ltimo caso interesa la homogeneidad de la repuesta de la segunda variable de
clasificacin, dentro de la primera. En este caso Ho: homogeneidad vs. H1: diferencia.
En ambos casos el estadgrafo adecuado es:
( o e) 2
(2r 1)( c 1) donde r es el nmero de filas y c el nmero de columnas.
i, j e
Observaciones importantes
i) Por su derivacin la prueba Chi-cuadrado en general se debe usar cuando

los valores esperados son 5.
ii) La prueba de hiptesis es siempre de 2 colas.
iii) Cuando se realiza una prueba de independencia vs. asociacin, una buena
medida de la asociacin es: X2/(No,o(m-1)), donde m es el menor valor
entre r y c.
iv) El rechazo de la hiptesis Ho en una prueba de homogeneidad indica

diferente respuesta el algn nivel (C) de la primera variable clasificatoria,
pero no informa cual nivel es el diferente. En caso que esto sea relevante se
debe ir sacando en forma iterada la columna que ms contribuye al valor
del X2 y recalculando el valor de X2 hasta que este deje de ser significativo.
Las columnas que queden sern homogneas. (Comparaciones mltiples en
2 )
iv) En el caso de una tabla de contingencia de 2x2, cuando no se cumple con
Ni,j> 5, se debe realizar la prueba exacta de Fisher que proviene de una
distribucin hipergeomtrica
Ejemplo 1.-
Supongamos que se desea saber si existe asociacin entre el color de las flores y la
presencia de abejas. Se realiza un estudio y se obtiene:
Blancas Rojas Amarillas Total

Con abejas 45 24 60 129
Sin abejas 36 83 40 159
Total 81 107 100 288
98
Entonces planteamos las hiptesis H0: independencia u homogeneidad de

proporciones vs. H1: asociacin entre el color de las flores y la presencia de abejas.
A continuacin hay que calcular los valores esperados para cada celda. Por
ejemplo para la primera celda e = 81(129/288), o sea de el total de 81 flores blancas, si a
la abeja no le importa el color de la flor (independencia), se espera que una proporcin
(129/288) de ellas sea visitada por abejas. Entonces e = 36.3. Para la segunda celda e =
81(159/288) = 44.7. Notamos enseguida que 36.3 + 44.7 = 81. As se puede proseguir el
clculo para cada celda, obteniendo:
Blancas (esperadas) Rojas (esperadas) Amarillas (esperadas) Total

Con 45 36.3 24 47.9 60 44.8 129
abejas
Sin 36 44.7 83 59.1 40 55.2 159
abejas
Total 81 107 100 288
Ahora entonces podemos calcular el valor del X2:
(45 36.3) 2 (36 44.7) 2 (24 47.9) 2

22 .......... ......... 34.7
36.3 44.7 47.9
El valor crtico de Chi-cuadrado para 2 grados de libertad y = 0.05 es 5.99, y

como 34.7>>5.99, rechazamos H0 y afirmamos que existe una asociacin entre el color
de las flores y la presencia de abejas.
Si queremos avanzar ms, observamos que la columna que ms contribuye al

valor del estadgrafo es la de las flores rojas, que tiene una proporcin menor de visitas
de abejas que la esperada. Entonces retiramos la columna y recalculamos los valores
esperados obteniendo:
Blancas (esperadas) Amarillas (esperadas) Total

Con 45 47.0 60 58.0 105
abejas
Sin 36 34 40 42.0 76
abejas
Total 81 100 181
Planteamos una nueva hiptesis de independencia versus asociacin y calculamos

el valor de X2:
99
(45 47) 2 (36 34) 2 (60 58) 2 (40 42) 2

1
2
0.36
47 34 58 42
Como el valor crtico es ahora 3.84 y 0.36 < 3.84, ahora acepto H 0 y puedo
concluir que las abejas prefieren igualmente las flores blancas y amarillas, pero evitan en
cierta medida las flores rojas.
Prueba exacta de Fisher Supongamos que tenemos la siguiente tabla de doble

entrada:
FACTO
R1
+ - TOTAL
FACTOR 2 (+) A B A+B
FACTOR 2 (-) C D C+D
TOTAL A+C B+D N
Observamos que la probabilidad de que haya A asociaciones (+,+) dados los

totales marginales es:
A C B D

A B
P ( X A)
N
A B

Desarrollando los nmeros combinatorios se llega a:
P(X= A) = (A+C)!(B+D)!(A+B)!(C+D)!/A!B!C!D!N!.
Entonces la probabilidad de obtener una asociacin igual o mayor, dados los

totales marginales es P = P(X=x), x A.
100
De esta manera entonces, en trminos generales, la prueba exacta de Fisher para

una tabla de contingencia de 2x2 es:
N1, 0 !N 2 , 0 ! N 0 ,1! N 0 ,1!

PF
x N1 , 1
P ( X x ); dondeP( X x)
N 1,1! N1, 2 ! N 2 ,1! N 2 , 2 ! N 0 , 0 !
La hiptesis de nulidad es la independencia (es decir la asociacin es la esperable

por simple azar) vs. H1: existe una asociacin mayor (una cola) o distinta (dos colas) que
la esperada por azar. En el caso de una cola la probabilidad de error I es p = P y en el
caso de dos colas p = 2P. Rechazamos Ho si p < 0.05.
Ejemplo 2.-
Supongamos que hubo una intoxicacin en una comida y pensamos que la

mayonesa estaba contaminada. Hacemos un estudio de los casos obteniendo:
Intoxicados No intoxicados Total

Comieron mayonesa 8 2 10
No comieron 2 4 6
mayonesa
10 6 16
Planteamos la hiptesis de una asociacin positiva entre la mayonesa y la

intoxicacin. Es decir, la hiptesis de nulidad es que la probabilidad de intoxicacin es
la misma entre los que comieron y no comieron mayonesa (P = 10/16 = 0.625).
10!6!10!6!
Calculamos P ( X 8) 0.084
8!2!2!4!16!
Ahora deberamos sumarle P(X=9) y P(X=10), para calcular finalmente P F =

P(X=8) + P(X=9) +P(X=10). Sin embargo, como P F va a dar un valor mayor que 0.084,
que a su vez es mayor que 0.05 = , debemos aceptar H 0. Es decir, no existe suficiente
evidencia para afirmar que existe una asociacin entre la mayonesa y la intoxicacin.
VII.2.- Bondad de ajuste de 2 Cuando es necesario saber si una determinada variable

tiene una cierta distribucin, se realiza la prueba de bondad de ajuste.
Si agrupamos en n intervalos los valores de una variable aleatoria X, siempre ser

posible establecer una tabla del tipo:
101
Intervalo Frecuencia (ni) Frecuencia esperada (ei)

observada
(yo,y1) n1 E1
(y1,y2) n2 E2
.......... ....... .......
Total N N
Las frecuencias esperadas corresponden a ek = NP(yk-1 x yk), donde las

probabilidades son calculadas de acuerdo a la funcin de densidad de probabilidades o la
funcin de cuanta de la distribucin esperada. El caso ms habitual es esperar una
distribucin normal. Sin embargo para calcular estas probabilidades es siempre
necesario estimar una cantidad p de parmetros, a partir de la muestra, por ejemplo, y
(p = 2). Es por esto que la distribucin 2 usada para probar la bondad de ajuste es:
( o e) 2
n2 p 1
e
Observamos que en este caso el nmero de grados de libertad es igual al nmero

de intervalos menos 1 y menos el nmero de parmetros estimados a partir de la
muestra.
Ejemplo 3.-
Supongamos que estamos interesados en saber si cierta variable tiene una

distribucin normal y se tiene la serie agrupada de la siguiente forma:
Intervalo ni
2-4 20
4-6 25
6-8 30
8-10 10
10-12 12
12-14 3
Total 100
Aqu las frecuencias relativas (ni) corresponden a las frecuencias observadas (o).
Entonces debemos calcular las frecuencias esperadas suponiendo una distribucin
normal. Mediante las tcnicas aprendidas en estadstica descriptiva podemos calcular el
promedio (6.56) y la desviacin estndar (2.74). A continuacin debemos calcular las
probabilidades de que un valor de la variable pertenezca a cada intervalo. Por ejemplo
102
P(2x4) = P((2-6.56)/2.74 z (4-6.56)/2.74) = 0.1277. P(4x6) =0.2445; P(6x8)
= 0.2778; P(8x10) = 0.1977; P(10 x12) = 0.0799 y P(12 x14) = 0.0204.
Entonces las frecuencias esperadas son respectivamente:0.1227x100 = 12.3; 24.5; 27.8;
19.8; 8.0 y 2.0 .
Intervalo Observado Esperados

s
2-4 20 12.3
4-6 25 24.5
6-8 30 27.8
8-10 10 19.8
10-12 12 8.0
12-14 3 2.0
Total 100
La hiptesis de nulidad H0 corresponde a un ajuste a una distribucin normal

sujeta a dos condiciones (p = 2): Promedio 6.59 y desviacin estndar 2.74. Entonces
podemos calcular X2:
( 20 12.3) 2 (25 24.5) 2 (30 27.8) 2

6221 .......... 12.36
12.3 24.5 27.8
Entonces como el valor crtico para tres grados de libertad y = 0.05 es 7.81, y el
valor calculado 12.36 > 7.81, rechazamos la hiptesis de nulidad. Es decir esta variable
no tiene distribucin normal.
VII.3. El 2 para proporciones
En ocasiones es necesario comparar dos o ms proporciones, lo cul puede

hacerse con una prueba de 2. Ya hemos visto que cuando la hiptesis es de dos colas es
posible comparar 2 proporciones a travs de Z = N(0,1) o bien con un 2. En el caso de
ms de dos proporciones puede usarse:
n
n ( p p)
en donde p i ni p1 / n
i i
2
n 1
1
pq
Observamos que este caso es enteramente equivalente al 2 para una tabla de

contingencia.
103
VII.4.- La prueba G
Una aproximacin alternativa a la prueba de 2 para bondad de ajuste y tablas de

contingencia es la prueba del logaritmo del cuociente de verosimilitudes (log-
likelihood ratio), prueba 2I, o prueba G.
Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli
se obtuvieron f1 xitos y f2 fracasos y nos preguntamos si estas frecuencias corresponden
a las frecuencias esperadas de acuerdo a un cierto criterio, por ejemplo si estn en
relacin a:b. Si fuera as la probabilidad de un xito sera p = a/(a+b) y de fracaso q = b/
(a+b). Sin embargo, las proporciones observadas son: p f1 /( f1 f 2 ); q f 2 /( f1 f 2 ) .
Entonces la probabilidad de obtener f1 xitos basados en la hiptesis de nulidad

n
es: p p f 1 q f 2 y la probabilidad de obtener f1 xitos basados en lo observado es:
f1
n
p p f 1 q f 2 . As el cuociente entre estas probabilidades (verosimilitud; L) es:
f1
f1 f2
p q
L y considerando que las frecuencias fi = npi se obtiene:
p q
f1 f2
f f
L 1 2 , y sacando logaritmo natural:
f f
1 2
a
ln( L) f1 ln( f1 / f1 ) f 2 ln( f 2 / f2 ) ... f i ln( f i / fi )
En esta expresin se puede reconocer la definicin de informacin (I) de Shannon.

Por otra parte s ha demostrado que G = 2I = 2ln(L) sigue una distribucin 2a-1.
104
Ejemplo 4.- Supongamos que en un experimento gentico se espera una relacin

3:1 para un cierto carcter y se ha obtenido: 80 con el carcter y 10 sin el carcter. En
tonces se propone H0: las frecuencias se encuentran en relacin 3:1. Y podemos calcular:
Resultado Observados Propocin Proporcin Frecuencia Razn Producto

s observada esperada Esperada f obs/f esp fr x
ln(razn)
Con el 80 8/9 3/4 67.5 1.18 13.59
carcter
Sin el 10 1/9 1/4 22.5 0.44 -8.11
carccter
Total 90 1 1 90 lnL=5.48
Entonces G = 2x5.48 = 10.96 y como sigue una distribucin 2, en este caso con 1
grado de libertad, es fcil ver que p << 0.01 y entonces rechazamos H0.
105
Ejercicios de anlisis de datos enumerativos
1. Un peluquero quiere saber si el color de pelo es dependiente del sexo de las personas
o no. Por eso acude a usted con una serie de datos sobre el sexo y color de pelo de sus
clientes (ver tabla adjunta), y le pide que por favor le resuelva su duda. Qu le dira
usted al peluquero?.
SEXO\COLOR Negro Castao Rubio Colorn

PELO
Masculino 32 43 16 9
Femenino 55 65 64 16
R: 23 = 8.99; p < 0.05. Existe asociacin entre el color del pelo y el sexo.
2. La Secretara de Estudios de la facultad necesita saber si existe alguna relacin entre

el nivel de desercin de los alumnos de primer ao y el hecho que hayan tomado
determinado curso. Por eso, la secretaria acudi a un estadstico con los datos
presentados en la siguiente tabla, y le pidi que le diera una respuesta. Qu cree que
le respondi a la secretaria?
Toma el curso No toma el curso

Se va 37 31
Se queda 26 40
R: 21 = 3.03; p > 0.05. No hay evidencias que as sea.
3. Se desea averiguar si existe alguna relacin entre el biotipo de un individuo y la

probabilidad de que tenga alguna lesin gstrica. Para eso se analiz el grupo
sanguneo de individuos sanos (control), con cncer gstrico y con lcera gstrica,
obtenindose los siguientes resultados:
Biotipo Cncer lcera Control Total

Ectomrfico 383 983 2892 4258
Mesomrfico 416 679 2625 3720
Endomesomrfico 84 134 570 788
Endomrfico 25 43 226 294
Total 908 1839 6313 9060
106
Son eventos independientes el grupo sanguneo y la lesin gstrica?
R: No son independientes. 26 = 48.61; p << 0.05.
4. En un experimento para determinar el modo de herencia de un mutante, se

obtuvieron 146 descendientes del tipo normal y 30 mutantes cuando se cruzaron
las moscas de la generacin F1. Comprobar si los datos concuerdan con la
hiptesis de que la proporcin de individuos normales y mutantes es 3: 1.
R: 21 = 5.94; p > 0.05. No concuerdan.
5. En un estudio sobre polimorfismo de inversiones cromosmicas en el saltamontes

Moraba scurra, Lewontin y White (1960), dieron los siguientes resultados para la
composicin de una poblacin en Royalla B en 1958. Estn las frecuencias de
las tres combinaciones del cromosoma EF asociadas a las frecuencias de las tres
combinaciones del cromosoma CD?
Cromosoma CD
St/St St/B1 B1/B1
Td/Td 22 96 75
Cromosoma EF St/Td 8 56 64
St/St 0 6 6
R: No. Son independientes. 24 = 6.3; p > 0.05
6. En la localidad A se ha realizado una captura exhaustiva de serpientes de la

especie S. Un examen de los 167 machos adultos que han sido recogidos revela
que 35 de stos presentan bandas plidas alrededor del cuello. De la localidad B, a
30 kilmetros de distancia de la A, se obtuvo una muestra de 27 machos adultos
de la misma especie, 6 de los cuales presentaban bandas. Cul es la probabilidad
de que ambas muestras procedan de la misma poblacin estadstica con respecto a
la frecuencia de bandas?
R: p = 0.88.
107
VIII.- ESTADSTICA DE DISTRIBUCIN LIBRE O NO-PARAMTRICA
Las dcimas que hemos mencionado hasta ahora, siempre presuponen

distribuciones particulares de la variable aleatoria, o bien sus hiptesis especifican
parmetros o distribuciones. Por esto la estadstica que las usa se denomina estadstica
paramtrica. Pero, qu sucede cuando no se cumplen los supuestos necesarios para
tales dcimas?
Existe un conjunto de dcimas denominadas no-paramtricas o de distribucin

libre que vienen a constituirse en alternativas para stos casos o para ser usadas
directamente. Sin embargo es interesante notar que es diferente no especificar
parmetros que no suponer una cierta distribucin. Si se clasifican las dcimas se puede
establecer el siguiente cuadro:
Supuestos de Sin supuestos de

Distribucin Distribucin
Especifica parmetro Ej: t de Student Ej: Dcima Binomial
No especifica parmetro Ej: Wilcoxon Ej: Kolmogorov-
Smirnov
Esta estadstica se utiliza fundamentalmente cuando no se cumplen los supuestos

de la estadstica paramtrica y, lo que en general va ligado, cuando el nmero muestral
es bajo. Tiene ciertas ventajas como la simplicidad de tratamiento para nmeros bajos y
la falta de supuestos acerca de distribuciones o parmetros. Sin embargo, tiene algunas
crticas: i) con n > 10 en general se usan las distribuciones asintticas de los estadgrafos
y no sus propias distribuciones, y stas son paramtricas, ii) son dcimas con menor
potencia (mayor error de tipo II), iii) por ser discretas presentan cierta dificultad a fijar el
nivel de significacin, e iv) en general se basan en la transformacin de los valores a
rangos, siendo sta ltima transformacin irreversible y anisomtrica (no conserva las
distancias).
Existen alternativas no-paramtricas para una muestra (Pruebas de Mediana,

Dcimas Binomiales), pero las ms usadas son las alternativas a las pruebas para 2
muestras o las alternativas para el anlisis de la varianza (ver ms adelante).
108
VIII.1.- Alternativas no paramtricas a las dcimas para dos muestras
Se pueden resumir en el siguiente cuadro:
Muestras pareadas, distribucin asimtrica SIGNOS DE FISHER

Muestras pareadas, distribucin simtrica RANGOS SIGNADOS DE WILCOXON
Muestras independientes SUMA DE RANGOS DE WILCOXON-
MANN-WHITNEY
Datos enumerativos McNEMAR
Prueba de los signos de Fisher
En esta prueba se comparan dos muestras [xi] e [yi] y se define una diferencia
poblacional i = xi-yi = + i, donde i representa el error de muestreo. Entonces las
hiptesis pueden ser a) Ho: = 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0
vs. H1: < 0. Se define adems di como la diferencia muestral di = xi-yi y una variable
auxiliar bi que es 0 si di 0 y 1 si di > 0.
El estadgrafo es: B bi
Observamos inmediatamente que B corresponde al nmero de ocasiones de un

total de n en que xi > yi, y, que al azar se esperara que fuera el 50%. Entonces es
posible calcular directamente la probabilidad de calcular esto mediante una distribucin
binomial (de aqu es que se denomina B). Afortunadamente no hay que hacer ningn
clculo y stas probabilidades se encuentran tabuladas para el nivel de significacin (),
el tamao muestral (n) y la probabilidad (p) que en nuestro caso es p = 0.5 (50%):
b(,n,0.5) .
Si Ho es del tipo a), rechazamos Ho si el valor calculado de B b(,n,0.5) o

B n -b(,n,0.5) , si es del tipo b), rechazamos Ho si B b(,n,0.5) y si es del tipo c)
entonces rechazamos Ho si B n - b(,n,0.5) .
Ejemplo 1.-
Estamos interesados en el efecto de cierto frmacos sobre la presin arterial como

en el ejemplo VI.6. Obteniendo la tabla:
109
Individuos Antes (x1) Despus (x2)
1 100 95
2 95 95
3 80 85
4 90 80
5 98 90
6 105 95
7 110 95
8 100 92
9 90 80
10 110 93
Se propone que el frmaco baja la presin, es decir Ho: 0 vs. H1: > 0.
Entonces creamos las variables auxiliares d = x1-x2 y b, Obteniendo:
Individuos Antes (x1) Despus (x2) D B

1 100 95 5 1
2 95 95 0 0
3 80 85 -5 0
4 90 80 10 1
5 98 90 8 1
6 105 95 10 1
7 110 95 15 1
8 100 92 8 1
9 90 80 10 1
10 110 93 17 1
Entonces, B = bi = 8. El valor crtico para n = 10 es 8 con = 0.054, por lo que

rechazamos H0 y afirmamos que el frmaco baja la presin. Observamos que como la
distribucin binomial es discreta no se encuentra exactamente el nivel 0.05 para , y en
cierta medida queda a criterio del investigador la aceptacin o rechazo de H0 (esto
ocurre en general en toda la estadstica no-paramtrica). Si se es riguroso, para B = 8, p
= 0.054 y este valor es mayor que 0.05, por lo que deberamos aceptar H 0. Sin embargo,
las dcimas binomiales son de baja potencia y, entonces aceptando H 0 con toda
seguridad estaramos cayendo en el error estadstico de tipo II.
Prueba de los rangos signados de Wilcoxon
En esta prueba se considera la misma situacin anterior y las mismas hiptesis,

pero esta prueba requiere una distribucin simtrica de di lo que se puede apreciar
110
observando su histograma de frecuencias (o bien realizando una prueba de simetra de
GUPTA, fuera del alcance de este libro).
En esta prueba adems de considerar la variable b i, se ordenan de menor a mayor

los valores absolutos de di (di) y se les asigna un orden (rango: Ri), como por ejemplo,
en la siguiente tabla:
di Ri
-5 5
3 3
0 1
-1 2
4 4
En esta dcima se define el estadgrafo T = biRi.
Este valor se compara con un valor crtico tabulado Tc(,n). Si Ho es del tipo a)
rechazamos Ho si T Tc(,n) o s T n(n+1)/2 - Tc(,n), si es del tipo b) rechazamos
Ho si T Tc(,n), y si es del tipo c) cuendo T n(n+1)/2 - Tc(,n).
Ejemplo 2.-
Usaremos el mismo caso anterior. Ahora agregamos la asignacin de rangos a las

diferencias d:
Individuos Antes (x1) Despus (x2) D Rangos(R) B

1 100 95 5 2.5 1
2 95 95 0 1 0
3 80 85 -5 2.5 0
4 90 80 10 7 1
5 98 90 8 4.5 1
6 105 95 10 7 1
7 110 95 15 9 1
8 100 92 8 4.5 1
9 90 80 10 7 1
10 110 93 17 10 1
Observamos que en el caso de empates se les asigna el rango promedio. Por

ejemplo hay tres valores 10, que deberan ocupar los rangos 6, 7 y 8, por lo que a los tres
se les asigna (6+7+8)/3 = 7.
111
Ahora se puede calcular T = Ribi = 2.5 + 7 + 4.5 + 7 + 9 + 4.5 + 7 + 10 = 51.5.
Como este valor es mayor al valor crtico.. Llegamos a la misma

conclusin anterior.
Prueba de la suma de rangos de Wilcoxon- Mann-Whitney
En este caso tenemos dos muestras independientes [xi] e [yi] de tamaos n1 y n2.
Se propone que xi = i y que yi = i + , donde i es el error experimental y da cuenta
de las diferencias (efecto del tratamiento). Como antes, las hiptesis pueden ser a) Ho:
= 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0 vs. H1: < 0.
En este caso, se ordenan todos los valores juntos ( de las dos muestras) y se les
asigna un rango (Ri) y se consigna el estadgrafo:
no
T1 Ri
1
Aqu es importante indicar que la suma se realiza sobre aquella muestra de tamao
no que tiene el menor rango promedio.
Este valor se compara con un valor crtico tabulado w(,n1,n2) donde n1 es el

nmero muestral menor (no necesariamente igual a no) y n2 el mayor. Si Ho es del tipo a)
rechazamos Ho si T1 w(,n1,n2) o s T1 no(N+1) - w(,n1,n2), si es del tipo b)
rechazamos Ho si T1 w(,n1,n2), y si es del tipo c) cuando T1 no(N+1) - w(,n1,n2).
En realidad Wilcoxon (T) y Mann-Whitney (U) consideraron estadgrafos

diferentes, pero despus se demostr que la U de Mann-Whitney era U = T 1-no(no+1)/2 y
por tanto ambas dcimas son equivalentes.
Ejemplo 3.-
Supongamos que se quieren comparar los pesos de dos especies A y B y se plantea

la hiptesis que A pesa ms que B. Se realiza un estudio obteniendo:
112
Especie A (masa: g) Especie B (masa: g)

30 26
28 28
27 30
32 25
29 24
33 22
28 25
26
28
Planteamos la hiptesis Ho: 0 vs. H1: > 0 y asignamos los rangos:
Especie A (masa: g) Rango Especie B (masa: g) Rango

30 13.5 26 5.5
28 9.5 28 9.5
27 7 30 13.5
32 15 25 3.5
29 12 24 2
33 16 22 1
28 9.5 25 3.5
26 5.5
28 9.5
Suma de rangos 82.5 53.5
Rango promedio 11.8 5.9
Observamos que n1 = 7; n2 = 9 y que no = 9, y entonces T = 53.5. A este valor le

corresponde una probabilidad de error de tipo I < 0.01, por lo que rechazamos H 0. Es
decir, afirmamos que la especie A pesa ms que la especie B.
Dcima de McNemar
Esta prueba est especficamente diseada para situaciones antes-despus cuando

la variable respuesta es un dato enunerativo, como por ejemplo ver el efecto de una
campaa anti-cigarrillo . En este caso es til la tabla de doble entrada:
DESPUS (+) DESPUS (-)

ANTES (+) A B
ANTES (-) C D
113
Como vemos en esta tabla slo las celdas C y B muestran el cambio (efecto)
producido por el factor de estudio. Y bajo la hiptesis de nulidad de efecto se espera que
C = B = (B+C)/2. Por lo que con estos valores esperados para stas celdas se puede
realizar un prueba 21 que despus de algn trabajo algebraico se reduce a:
(B C )2 ( B C 1) 2
12 o 2
si se quiere corregir la distorsin provocada por aplicar
(B C ) (B C)
1
una distribucin continua a una variable discreta.
Ejemplo 4.-
Se realiz una campaa antidrogas a un grupo de jvenes obteniendo el siguiente

resultado:
(+) despus de la (-) despus de la Total

campaa campaa
(+) antes de la 15 8 23
campaa
(-) antes de la 2 35 37
campaa
17 43 50
Se plantea H0: No hay efecto (B = C) vs H1: Si se produjo efecto.
( 8 2 1) 2
Calculamos: 12 2 .5 y como el valor crtico para = 0.05 es 3.84 y
(8 2)
2.5 < 3.84, aceptamos H0. Es decir la campaa no tuvo xito.
114
Ejercicios de estadstica no-paramtrica
1. En un estudio sobre empleo de Sildenafil en pacientes hipertensos se utiliza una dosis

de 6.25 mg. Se anota la presin arterial sistlica de cada paciente antes que reciba el
frmaco (X) y setenta minutos despus de que haya sido administrado (Y). Altera la
presin arterial el uso del Sildenafil?
X (antes) Y (despus) di bi
175 140
179 143
165 135
170 133
160 162
180 150
177 182
R: No hay evidencia; B = 5; p > 0.05.
2. Se realiza una investigacin sobre los efectos del ejercicio fsico sobre pacientes
cardipatas, midiendo el mximo de oxgeno consumido por cada paciente antes de
comenzar el entrenamiento y despus de seis meses de rgimen. Se obtuvieron los
siguientes datos (suponga simetra):
Sujeto Antes Despus

1 48 40
2 25 26
3 46 57
4 40 30
5 43 50
6 42 55
7 23 25
8 30 55
Existe diferencia en el oxgeno consumido luego del entrenamiento?
R: No hay evidencia; T = 9; p = 0.2.
3. Una sustancia X juega un papel en el desarrollo y mantenimiento de las neuronas. En

este estudio se consider el efecto de la privacin de la sustancia sobre el contenido
protenico total de las races nerviosas de O. degu. Se comparan dos grupos: las
115
nacidas de hembras deficientes en la sustancia (en el tero) y las nacidas de hembras
normales, pero amamantadas por hembras deficientes en la sustancia (en la leche). Se
obtienen los siguientes datos:
Contenido protenico total (mg de protena por raz de ganglio dorsal)
EN EL TERO En la leche
0.12 0.19
0.19 0.21
0.17 0.21
0.20 0.23
0.09 0.20
0.13 0.22
0.21
Indican estos datos, a un nivel =0.05, que el contenido protenico total tiende a ser
menor entre las ratas privadas de la sustancia X en el tero que entre las privadas de ella
en la leche?
R: Si. T1 = 33; p < 0.05.

116
IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION

Y REGRESION
117
IX.- ANLISIS DE LA VARIANZA (ANOVA o ANDEVA)
IX.1.-El Problema de Bonferroni
Muchas veces en ciencias es necesario comparar ms de dos muestras, como por

ejemplo cuando se estudia el comportamiento de una variable en tres poblaciones, o bajo
4 o 5 condiciones experimentales reguladas. En este caso, la primera tentacin es hacer
varias pruebas tomando de a pares. Sin embargo inmediatamente vemos que este puede
ser un nmero elevado de comparaciones, pues si hay N muestras, el nmero de pruebas
que se deben hacer es:
N
k
2
Sin embargo, este no es el nico problema. Analicemos lo siguiente:
Si realizamos una vez la prueba, la probabilidad de cometer error de tipo I es

P(E1) = , es decir la probabilidad de no cometer error de tipo I es P(noE1) = 1-.
Si la prueba se realiza k veces entonces la probabilidad de no cometer ningn

error I es P(noEk) = (1-)k y entonces la probabilidad de cometer al menos un error I en
k repeticiones de una prueba es P(al menos 1 E k) = 1-(1-)k = 1 - [1-k + (k!/(k-2)!
2!)2-.........]. Y, como n 0 para n 2, porque es pequeo, entonces P(al menos 1 Ek)
k. En la siguiente tabla vemos lo que puede significar esto para = 0.05:
K 1 2 3 5 10
P(al menos 0.05 0.09 0.14 0.23 0.4
1 en Ek)
Observamos que si tenemos 3 muestras k = 3 y tendramos probabilidad de error I

p = 0.14 (14%), con 4 muestras k = 6 y p = 0.3 (30%) etc.
Sin embargo Bonferroni nos da una solucin en el caso de pocas muestras: Si se

quiere trabajar con una probabilidad de al menos 1 error I en k pruebas de un nivel =
0.05, entonces podemos asegurar esto trabajando en cada una de las pruebas con un
nivel de significacin * = /k. Aunque este sistema es muy restrictivo pues restringe
mucho , puede ser muy til para bajo nmero de muestras (hasta 4 aproximadamente).
Esto se conoce como la correccin de Bonferroni. Por ejemplo, si se van a realizar 4
comparaciones y se quiere una error de tipo I de 0.05, entonces en cada comparacin se
debera permitir a lo sumo un error p = 0.05/4 = 0.0125.
118
IX.2.- Diseo experimental
El diseo experimental en trminos estadsticos se refiere al acoplamiento entre la

lgica de un diseo experimental cientfico y el mtodo estadstico de anlisis de este
diseo. Es muy habitual que en ciencias encontremos muy buenos diseos cientficos
con malos anlisis desde la perspectiva estadstica, o simplemente diseos para los
cuales la estadstica actual es insuficiente o parcial.
En un experimento en general tenemos una o varias variables respuesta o

dependientes, y variables cualitativas independientes que denominamos factores o
vas. Por ejemplo, puede ser interesante estudiar el efecto de las estaciones del ao
(factor) sobre el metabolismo (variable respuesta).
Los factores pueden ser 1 (1 factor o 1 va), 2 (2 factores o 2 vas) o 3 o ms,

hablando en este caso de diseo multifactorial. Las categoras en que se divide cada
factor se denominan niveles del factor y a las combinaciones (celdas) de los niveles de
los factores se denominan tratamientos. Por ejemplo en la siguiente tabla se muestra
una cierta variable respuesta X frente a diferentes condiciones:
TEMPERATURA
BAJA MEDIA ALTA
HUMEDAD ALTA ------- ------- --------
BAJA ------- ------- --------
En este caso la variable respuesta es X, y se trata de un diseo de dos factores:

temperatura y humedad. El factor temperatura tiene tres niveles: baja, media y alta, y el
factor humedad tiene dos: alta y baja. El nmero de tratamientos es 6 (2x3). A las
unidades muestrales dentro de cada tratamiento se les denomina rplicas.
Cuando los niveles de un factor son todos los posibles, en general fijados por el
experimentador se dice que se trabaja con un modelo tipo I o de efectos fijos, cuando
los niveles son slo una muestra de las categoras posibles se dice que es un modelo II o
de efectos aleatorios. Cuando en algunos factores es de un tipo y en otros de otro, es un
modelo mixto. As por ejemplo, si nos interesa el efecto de la altitud sobre el
metabolismo, y escogemos tres localidades a diferentes alturas, se trata de un modelo de
tipo II, pues las localidades son slo una muestra de todas las posibles alturas. Si en
cambio estudiamos una variable frente a tres condiciones experimentales fijadas por el
investigador, entonces es un modelo de tipo I.
119
IX.3.- Anlisis de la varianza de 1 va o factor (ANOVA de 1 va).
En este caso, el ms simple, se tiene un factor con varios niveles y una variable
respuesta. Como slo hay un factor, los niveles coinciden con los tratamientos.
Supuestos Los supuestos son normalidad de la variable respuesta, que se puede probar
mediante una prueba de bondad de ajuste de 2 o bien Kolmogorov-Smirnov;
independencia que debe asegurarla el investigador mediante un muestreo adecuado; y
homocedasticidad que se puede probar mediante una dcima de Bartlett o bien una
dcima de Hartley, habitualmente disponibles en los programas estadsticos
computacionales.
Modelo El modelo que se plantea es que cada valor de la variable repuesta y ij se puede
expresar como la suma entre un promedio paramtrico poblacional , un efecto
provocado por el tratamiento (i ) y el error experimental o residual (ij) Esto se
conoce como el supuesto de aditividad. De esta manera i = i -, mide el efecto
provocado sobre yij por el tratamiento. El modelo se escribe:
yij = + i + ij
Notacin Es habitual en el ANOVA usar la notacin de la siguiente tabla:
FACTOR
T1 T2 ..... Tt TOTAL
y11 y21 ..... yt1
y12 y22 ..... yt2
.... ..... ...... .....
y1n y2n ....... ytn
TOTALES Y1o Y2o ..... Yto Yoo
PROMEDIOS y1o y2o ..... yto yoo
Observamos que, al contrario que la notacin habitual de matrices donde el

subndice i indica la fila en este caso indica el tratamiento que va en las columnas.
Observamos adems que se usan las minsculas para los promedios y las maysculas
para los totales. Habiltualmente al trmino Yoo se le denomina gran total.
Particin de la varianza Trabajemos algebraicamente el trmino (yij-yoo)2 que

corresponde a la suma de desviaciones cuadrticas en torno al promedio (y oo) llamado
simplemente suma de cuadrados total (SCT) y que corresponde al numerador de la
varianza (s2):
120
(yij-yoo)2 = (yij-yio+yio- yoo)2 = (yij-yio)2 + (yio-yoo)2+ 2(yij-yio)(yio-yoo)
(yij-yoo)2 = (yij-yio)2 + (yio-yoo)2, pues el ltimo trmino es 0.
En palabras, la suma de las desviaciones cuadrticas en torno al promedio general

(SCT) se puede descomponer aditivamente en la suma de las desviaciones cuadrticas
de cada valor individual al promedio de su tratamiento (suma de cuadrados dentro de
tratamiento: SCD) y la suma de las desviaciones cuadrticas de cada promedio de
tratamiento al promedio general (suma de cuadrados entre tratamientos: SCE): SCT
= SCD + SCE. Esto es lo que se conoce como particin de la varianza y es la base de
todo el anlisis de la varianza. Hay que hacer notar que esta particin y aditividad se
produce a nivel de la suma de cuadrados y no de la varianza, pues la varianza total es:
S2 = (yij-yoo)2/(nt-1), la varianza dentro de tratamientos es CMD= (yij-yio)2/(t(n-1))
(intravarianza) y la varianza entre tratamientos es CME = (yio-yoo)2/(t-1)
(intervarianza).
Esquema general del ANOVA
Definicin Llamaremos Fuente de variacin a las fuentes que originan

variabilidad en la variable respuesta. Estas en general corresponden a la variabilidad
originada en el error experimental () y a aquella provocada por los niveles de los
factores y sus interacciones.
El esquema general del ANOVA es una tabla que incluye sucesivamente las
fuentes de variacin (FV), las sumas de cuadrados (SC), los grados de libertad (que
corresponden a los denominadores de las varianzas), las varianzas, cuadrados medios o
medias cuadrticas (CM), el valor del estadgrafo F y la probabilidad de error I (p). En
un ANOVA de una va, balanceado (igual tamao muestral en cada tratamiento), sta es:
FV SC Gl CM=SC/gl F P
T (entre) (Y 2
i0 / n) Y / nt
2
00 t-1 F =
i
CME/CMD
(dentro o yij Yi 0 / n t(n-1)
2 2
ij i
error)
TOTAL yij2 Y002 / nt
ij
nt-1
Como dato prctico, observamos que para los clculos en una tabla de ANOVA, se
necesitan tres clculos sencillos:
121
(Y
i
2
i0
/ n) y
i, j
2
ij Y002 / nt
Tambin observamos que no se calcula, sino que se obtiene por la diferencia

= SCT SCE
Esperanza de los cuadrados medios y la dcima F.
Es posible demostrar que el valor esperado o esperanza del cuadrado medio del
error (dentro) es E[CMD] = 2, es decir es la varianza poblacional. Adems si el modelo
del diseo es de tipo I E[CME] = 2 + n (i-)2/(t-1) = 2+() y si es de tipo II
E[CME] =2+n2 .La interpretacin de esto es que se espera que la desviacin
cuadrtica entre tratamientos sea similar a la desviacin cuadrtica dentro de
tratamientos ms un componente aadido por los tratamientos (efecto del tratamiento).
En forma natural surge la idea de realizar el cuociente F = CME/CMD, lo que

estadsticamente tiene gran sentido por cuanto CMD/2 tiene distribucin 2t(n-1) y
CME/2 tiene distribucin 2t-1 por lo que F = CME/CMD tiene distribucin de Snedecor
Ft-1,t(n-1). As, es posible docimar Ho: i= j i,j vs. H1: i j para algn par i,j mediante
el valor de F.
Ejemplo 1.-
Se quiere saber el efecto de ciertos tratamientos A, B y C sobre la presin arterial

diastlica probndolos en tres grupos de individuos, obteniendo:
A B C
110 100 80
100 90 76
90 86 82
85 97 88
90 100 84
100 96 78
Se plantean las hiptesis H0: A= B = C vs H1: al menos un par de promedios

distintos.
Se construye la tabla bsica:

122
A B C
110 100 80
100 90 76
90 86 82
85 97 88
90 100 84
100 96 78
Total (Yi0) 575 569 488
Promedio (yi0) 95.8 94.8 81.3
Calculamos: Y00 = 575 + 569 + 488 = 1632.
(Y
i
2
i0 / n) (575 2 569 2 4882 ) / 6 148755
y
i, j
2
ij
110 2 1002 ..... 1002 902 .....802 762 ...782 149430
Y002 / nt 1632 2 / 6 3 147968
Entonces construimos la tabla de ANOVA:
FV SC Gl
CM=SC/gl F2,15 P
T (entre) i (Y / n) Y / nt
2
i0
2
00 787/2 = t-1 = 2
F =
= 393.5 CME/CMD
=148755-147968 = = 393.5/45 =
787 = 8.74
(dentro o yij Yi 0 / n t(n-1) = 675/15 =
2 2
ij i
error) 15 = 45
= 1462 787 = 675
TOTAL ij
yij2 Y002 / nt nt-1 = 1462/17 =
17 = 86
=149430-147968 =
1462
El valor crtico de F2,15 con = 0.05 es 3.68, y como el valor calculado 8.74 >
3.68, entonces rechazo H0 y al menos un par de promedios es diferente. Obviamente,
mirando los datos, el grupo C tiene presiones claramente diferentes de los otros dos.
Siguiendo el rigor estadstico, a continuacin habra que hacer comparaciones mltiples
a posteriori.
Transformaciones
123
El anlisis de la varianza es un anlisis muy poderoso y que conduce a resultados

confiables a pesar de considerables desviaciones de la normalidad y homocedasticidad
lo que es especialmente vlido para nmeros de replicas iguales en cada tratamiento
(modelos balanceados) y nmeros muestrales grandes. Por esto se dice que el ANOVA
y en general toda la estadstica paramtrica, son robustos. Sin embargo, en ciencias
siempre interesa tener el mnimo de violaciones posibles de los supuestos por lo que a
veces es necesario transformar la variable.
Cuando existe violacin de la normalidad, es til el siguiente teorema: En

cualquier distribucin de una variable aleatoria y tal que su varianza V se puede
expresar como una funcin de la esperanza E: V = (E), entonces existe una
transformacin:
dy
T f ( y) cuya varianza y esperanza son independientes. El resultado es una
( y )
nueva variable, con distribucin normal.
Por ejemplo en una distribucin de Poisson V = E y entonces, f(y) = dy/y = 2y.

De esta manera si una variable tiene distribucin de Poisson, conviene aplicarle una
transformacin raz cuadrada para su anlisis con ANOVA. De esta manera surgen
algunas transformaciones recomendadas:
Distribucin (y) Transformacin f(y)

Normal C = constante Y
Binomial (proporciones) y(1-y) arcsen(y)
Poisson (sucesos raros) Y y
Sin homocedasticidad y2 ln(y) o ln(y+1)
y4 1/y o 1/(y+1)
Binomial negativa arcsen(y)
Decreciente y2
IX4.- Comparaciones mltiples
En general el ANOVA no termina con el rechazo de Ho. Con esto slo sabemos
que existe un efecto de los tratamientos sobre la variable respuesta. Sin embargo a
menudo (sobre todo en modelo de efectos fijos) interesa saber cul o cuales de los
tratamientos produce el efecto. En este caso es necesario realizar comparaciones
mltiples. Estas son de dos tipos: i) definidas a priori o no sugeridas por los datos e
ii) definidas a posteriori. Aqu es importante notar que a priori o a posteriori no se
124
refiere a si se ha hecho o no primero el ANOVA, sino al diseo experimental. A veces
por diseo slo interesa comparar los tratamientos contra un control (a priori), o slo
realizar las comparaciones relevantes (a priori). En cambio otras veces nos interesan
todas las comparaciones para interpretar despus (a posteriori).
Comparaciones a priori
Contrastes ortogonales La idea en este caso es realizar slo comparaciones

independientes entre s (ortogonales). Para esto se define un contraste j =ciji, donde
cij son constantes que definen el contraste de tal manera que cij= 0. Entonces un
estimador de j es Lj =cijyio. La hiptesis de nulidad para un contraste es Ho: j = 0.
Por ejemplo si se tienen cuatro tratamientos y se quiere comparar el primero con el
tercero se puede elegir c11 = 1, c21 = 0, c31 = -1 y c41= 0 y entonces L1 = y1o-y3o (la
diferencia de los promedios entre el tratamiento 1 y el 3. Es un contraste porque c 11 + c31
= 1-1= 0.
Dos contrastes Lj y Lk son ortogonales o independientes si cij.cik = 0. Entonces

un contraste independiente del anterior es L2 = y2o-y4o porque c11 = 1, c21 = 0, c31 = -1 y
c41= 0 y c11 = 0, c21 = 1, c31 = 0 y c41= -1 y entonces cij.cik = 10+01+(-1)0+0(-1) = 0.
Una de las utilidades mayores de los contrastes ortogonales es la posibilidad de

comparar tendencias, por ejemplo si se tienen 4 tratamientos y se quiere evaluar
tendencia lineal, cuadrtica o cbica, basta elegir los cij de acuerdo a la siguiente tabla:
cij
Lineal -1 -1 1 1
Cuadrtica -1 1 1 -1
Cbica -1 1 -1 1
El estadgrafo adecuado para probar la hiptesis es una t de Student con los grados
de libertad del error (tgle):
Lj
t gle
CMD ci2 / ni
Prueba de Dunnet Muchas veces la idea del diseo es comparar los tratamientos
contra un tratamiento control. En este caso el estadgrafo adecuado es t d(t,gle,) de
Dunnet (existen tablas especiales):
125
yi 0 ycontrol
td
2CMD / n
En este caso ycontrol representa el promedio en el tratamiento control.
Prueba de Scheff Esta prueba se basa en el concepto de contrastes, definidos de

igual manera que antes: j = cii. Sin embargo en este caso no es necesario que los
contrastes sean ortogonales. Si los contrastes son sugeridos por el diseo, es una prueba
a priori, pero si se realizan todas las comparaciones, es a posteriori. Como es posible
ejecutar mltiples contrastes, se recomienda la correccin de Bonferroni. La prueba de
hiptesis (Ho: j = 0) se realiza con una distribucin F1-,t-1,gle:
L2
Ft 1, gle
(t 1) CMD ci2 / ni
Comparaciones a posteriori
Existen muchas pruebas para hacer comparaciones mltiples, sin embargo son dos
las ms utilizadas. Ambas estn basadas en la distribucin del rango Studentizado: Q
= (xmax-xmin)/sx.
Prueba de Tukey En esta prueba se consideran todas las comparaciones posibles,

usando la distribucin del rango Studentizado Q1-,t,gle:
yi 0 y j 0
Qt , gle
1 1
(CMD / 2) ( )
ni n j
Prueba de Student-Newman-Keuls (SNK) Esta prueba tiene la misma estructura

que la prueba de Tukey, pero considera el nmero de tratamientos t, como un variable.
Por ejemplo, si tenemos cuatro tratamientos (t = 4) y se obtuvo: y 1o = 27, y2o = 19 y3o =
15 y4o = 13. Como estn ordenadas en forma decreciente al comparar y 1o con y4o
participan 4 medias adyacentes (t=4), pero al comparar y1o con y3o slo participan 3,
entonces t = 3 para esta comparacin, y as sucesivamente.
Las pruebas a posteriori, se pueden ordenar segn su potencia en forma

decreciente: SNK, Tukey y Scheff. Sin embargo, en la medida que aumenta su
potencia, tambin aumenta su probabilidad de error de tipo I, por lo que en general, se
recomienda una prueba intermedia (Tukey).
126
Ejemplo 2.-
Considerando los datos del ejemplo 1 vamos a realizar las comparaciones

correspondientes. Para cada comparacin se establece la hiptesis H0: i = j vs H1: i j
y se realizan los clculos. Usaremos la prueba de Tukey.
Para comparar A con B:
95.8 94.8
Q3,15 0.149
45
Para comparar A con C:
95.8 81.3
Q3,15 2.16
45
Y para comparar B con C:
94.8 81.3
Q3,15 2.01
45
El valor crtico de Q3,15 es 3.67, por lo que no es posible rechazar H 0 en ninguno

de los tres casos.
IX.5.- ANOVA de dos vas: la interaccin
El anlisis de la varianza de dos factores (o vas) es conceptualmente similar. En

este se puede probar en forma independiente el efecto de cada factor sobre la variable
respuesta. El modelo se puede expresar como:
yijk = + i + j + k(ij)
Sin embargo, cuando existen dos factores, existe la posibilidad de que stos
provoquen un efecto conjunto sobre la variable respuesta. Por ejemplo es posible que el
factor 1 haga aumentar el valor de la variable respuesta, pero que al incorporar el factor
2 este efecto se potencie, o, a la inversa se inhiba. En este caso se habla de la existencia
de interaccin entre los factores. La variabilidad proveniente de la interaccin ()
puede ser aislada y docimada en forma independiente. En este caso el modelo se escribe:
yijk = + i + j + ij + k(ij)
127
La interpretacin de la interaccin queda clara en la siguiente figura.
En esta figura se muestra la variable respuesta (y) frente a dos factores. El factor 1
(A) con los niveles a1 y a2, y el factor 2 (B) con los niveles b1 y b2. En los grficos
superiores no existe interaccin, pues la respuesta es paralela. En el caso de la izquierda
existe efecto de ambos factores A y B sobre y, en el de la derecha slo del segundo
factor (B). En los grficos inferiores si existe interaccin. En el grfico de la derecha,
existe un aumento de y a causa de cada factor, pero este aumento se potencia en
presencia del segundo nivel del factor 2 (B). En el grfico de la izquierda existe
interaccin que podramos llamar paradojal: en el nivel a1 el factor 2 disminuye y,
pero ocurre lo contrario en el nivel a2 (en este ltimo caso lo ms probable es que el test
no arroje significacin ni en el factor 1, ni en el factor 2, pero s efecto de interaccin.
Ejemplo 3.- Se ha medido una variable fisiolgica x en tres localidades A, B y

C a dos especies W y Z. Obteniendo:
A B C
W 3 7 2
4 8 3
128
5 9 1
4 8 3
3 7 3
Z 2 4 1
3 3 2
2 4 2
1 3 2
2 2 1
Valores promedio:
A B C
W 3.8 7.8 2.4
Z 2.0 3.2 1.6
Se desea saber si existen diferencias en x entre las especies y el efecto de la

localidad sobre sta.
Se realiza ANOVA de dos vas: Localidad y Especie, con interaccin, obteniendo:
F de V SC Gl CM F P
Localidad 66.1 2 33.0 53.6 << 0.001
Especie 43.2 1 43.2 70.1 << 0.001
Interaccin 19.4 2 9.7 15.7 << 0.001
Error 14.8 24 0.62
Total 143.5 29
Del anlisis se desprende que existen diferencias entre las especies, existen
diferencias entre las localidades y este efecto no es parejo en cada especie (existe
interaccin).
El valor de la probabilidad de error I (p: en negritas los valores significativos

(< 0.05)) en las comparaciones mltiples con prueba de Tukey muestra:
{1} {2} {3} {4} {5} {6}

A W {1} x .015196 .000138 .828719 .088555 .002275
A Z {2} x .000138 .190434 .963783 .963783
B W {3} x .000138 .000138 .000138
B Z {4} x .599784 .037791
C W {5} x .599784
129
C Z {6} x
La interpretacin es la siguiente: En la localidad B se encuentran valores ms altos

de x. La especie Z tiende a tener valores ms bajos de x que la especie W. Sin embargo,
esto se manifiesta claramente en las localidades A y especialmente en B donde la
diferencia es muy grande, pero no alcanza a ser significativo en C.
IX.6.- Otros diseos
El anlisis de la varianza no slo es un mtodo de anlisis de la informacin, sino

tambin establece una forma de compatibilizar el anlisis con el diseo del experimento.
As, por ejemplo, para un diseo que considere tres factores y que en uno de ellos tenga
sub-muestras, existe una estadstica adecuada para analizarlo (ANOVA factorial
anidado). A la inversa, conociendo que existe una estadstica para analizar un diseo, se
puede adecuar el experimento a tal diseo, como ocurre por ejemplo con el diseo de
cuadrados latinos.
Al analizar un experimento, es importante usar el modelo adecuado a tal diseo,

identificando adecuadamente las fuentes de variacin. Si stas no son identificadas, la
variabilidad de dichas fuentes ser incorporada a la variabilidad residual (aumenta
CMD) y por tanto, como esta ltima se encuentra en el denominador de la F de
Snedecor, tendr un valor inferior, reduciendo la probabilidad de rechazar Ho, y por
tanto aumentando el error de tipo II. La eficiencia del modelo se puede medir a travs de
E = (CMD sin el modelo)/(CMD con el modelo). Si E = 1, el uso del modelo es
irrelevante.
Diseos factoriales Un diseo es factorial, si tiene ms de 2 vas.

Conceptualmente es igual a los anteriores, pero incorpora cada vez ms posibilidades de
interaccin.
Diseo de bloques aleatorizados Muchas veces un experimento exige que los

tratamientos (T) se repitan en distintas parcelas o bloques (B), por ejemplo el uso de tres
fertilizantes en tres lugares. En este caso los tratamientos se distribuyen aleatoriamente
en cada uno de los lugares, y el efecto del lugar es irrelevante. Un ejemplo de este
diseo se puede resumir en la siguiente tabla:
B1 T1 T3 T2
B2 T3 T2 T1
B3 T2 T1 T3
130
Diseo de medidas repetidas A veces es necesario que los tratamientos los reciba
el mismo individuo u otra unidad de anlisis dependiente de la anterior. Por ejemplo 4
individuos (I) expuestos a tres estmulos (T):
T1 T2 T3
I1
I2
I3
I4
Observamos que es el mismo individuo el que recibe los tres tratamientos. En este
tipo de diseo es necesario excluir a los individuos de respuesta extraa (out-group)
pues violan un supuesto de este diseo: la simetra compuesta. Esta ltima junto a la
homocedasticidad constituyen el supuesto de esfericidad.
Diseos anidados, encajados o jerrquicos Para entender este modelo conviene

definir unidad experimental como aquella unidad que recibe el tratamiento y la unidad
de muestreo como aquella que constituye una rplica.
En los diseos jerrquicos se consideran sub-niveles dentro de cada tratamiento.
Por ejemplo si estamos estudiando las diferencias en cierta caracterstica de individuos
de tres edificios (T) puedo elegir en cada edificio 2 pisos al azar (niveles N):
T1 T2 T3
N1 N2 N1 N2 N1 N2
Observamos que siempre el nivel encajado debe ser de tipo aleatorio (modelo II) y
que no se puede hacer una tabla de doble entrada porque los niveles N1 y N2 son slo
referenciales, por ejemplo, N1 puede ser el 5to piso en T1 y ser el 3er piso de T2. Si el
primer factor es de tipo aleatorio, se habla de un diseo anidado puro. Si el primer factor
es de tipo fijo (modelo I), entonces las unidades experimentales son los niveles del
factor encajado y las rplicas constituyen sub-muestras.
Cuadrados latinos y parcelas divididas (split-plot)
Estos son dos diseos especiales que a veces es necesario usar y se pueden
representar en las siguientes tablas.
131
El cuadrado latino considera un doble bloque (B y b), con sus respectivos niveles:
b1 b2 b3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2
El diseo de parcela dividida corresponde a un diseo de bloques incompleto (no

incorpora todas las combinaciones posibles) en que se mezclan dos tratamientos (T y t) y
un bloque (B):
B1 T1 t1 T3 t1 T2 t1
t2 t2 t2
B2 T3 t1 T2 t1 T1 t1
t2 t2 t2
B3 T2 t1 T1 t1 T3 t1
t2 t2 t2
IX.7.- Alternativas no paramtricas al ANOVA
Afortunadamente la estadstica paramtrica, especialmente el ANOVA es muy

robusto, de tal manera que es posible tolerar algunas violaciones a los supuestos,
especialmente en modelos balanceados (n iguales en cada celda) y con nmero grande
de observaciones. Sin embargo las comparaciones mltiples no son tan robustas, por lo
que a veces es necesario primero usar transformaciones y, si estas no resultan, utilizar
estadstica no paramtrica. Esta en general se restringe a diseos con bajo nmero de
observaciones.
Prueba de Kruskall-Wallis Es la alternativa no-paramtrica de un ANOVA de una

va. En esta, se transforman todos los valores a rangos y luego se calcula el estadgrafo:
2
t R
12
H 3( n 1)
0j
N ( N 1) 1 n j
Se puede demostrar que esta prueba es exactamente equivalente a un ANOVA

aplicado sobre los rangos (ANOVA sobre Rangos). Adems si se realiza un ANOVA
sobre rangos, entonces la F obtenida se relaciona con la H a travs de:
132
N t
F H
( N 1 H )(t 1)
Es posible realizar pruebas a porteriori, entre ellas la prueba de Dunn y la de

Nemenyi. Escribiremos esta ltima por su simplicidad y usar la misma distribucin que
el estadgrafo de Tukey:
R0 j R0 k
Q , ,t
n( nt )( nt 1)
12
Prueba de Friedman Es la alternativa no paramtrica para el ANOVA en bloques y

el ANOVA de medidas repetidas. En esta se rankea entre los tratamientos dentro de
cada bloque o individuo y despus se calcula el estadgrafo:
12
t2 R02 j 3b(t 1)
bt (t 1) j
Tambin es posible hacer comparaciones mltiples a posteriori. En este caso se

usa:
R0 j R0 k
Q , ,t
b(t )(t 1)
12
Otras alternativas Existen algunas alternativas no paramtricas para una y dos vas
cuando la hiptesis H1 incorpora una tendencia u ordenacin (i.e: H 1: t1 <t2 < t3 ). En
este caso se usa para el caso de una va la prueba de Jonckheere y para dos vas la
prueba de Page. Cuando se tiene un diseo ms complejo se realiza un ANOVA sobre
rangos.
133
Ejercicios de anlisis de la varianza
ANLISIS DE VARIANZA (ANOVA) DE 1 VA
1. Se realiz un estudio de diversas especies de pjaros que son de similar naturaleza y

comparten un medio comn. El canto de cada especie tiene un conjunto de rasgos
distintivos que permite reconocerla. Una caracterstica investigada es la duracin del
canto en segundos. Se estudian tres especies: A, B y C. Se obtuvieron los siguientes
datos:
A B C
1.11 2.20 0.50
1.23 1.90 0.94
0.90 2.00 0.78
0.95 1.70 0.38
1.00 1.54 0.50
1.10 1.88 0.50
1.20 1.90 0.68
1.30 2.05 0.62
1.10 1.70 0.40
Qu se puede decir respecto a la duracin de los cantos de las distintas especies?

R: Son diferentes; F2,24 = 122.6; p << 0.05.
2. Un grupo de investigadores analizaron 6 muestras provenientes de 5 lagos distintos

para poder determinar la concentracin de rotferos (individuos por mL). Los datos
son presentados en la tabla de abajo. Segn los datos obtenidos, existen diferencias
en la concentracin de coppodos dependiendo de su procedencia?.
Lago 1 Lago 2 Lago 3 Lago 4 Lago 5

28.2 39.6 46.3 41.0 56.3
33.2 40.8 42.1 44.1 54.1
36.4 37.9 43.5 46.4 59.4
34.6 37.1 48.8 40.2 62.7
29.1 43.6 43.7 38.6 60.0
31.0 42.4 40.1 36.3 57.3
Promedio 32.1 40.2 44.1 41.1 58.3
134
Anlisis de varianza de un factor
RESUMEN
Grupos Cuenta Suma Promedio Varianza
Lago 1 6 192.5 32.08 10.27
Lago 2 6 241.4 40.23 6.40
Lago 3 6 264.5 44.08 9.49
Lago 4 6 246.6 41.10 13.44
Lago 5 6 349.8 58.30 9.22
ANLISIS DE VARIANZA
Origen de las variaciones SC gl CM F P FC
Entre grupos 2193.44 4 548.36 56.15 3.95E-12 2.759
Dentro de los grupos 244.13 25 9.77
Total 2437.57 29
Comparaciones Mltiples (Test de Tukey, = 0.05). Las diferencias significativas se

presenta en negritas.
Comparaciones Diferencia () SE Tk Tk crtico crtica
5-1 26.2 1.28 20.55 4.166 5.31
5-2 18.1 1.28 14.16 4.166 5.31
5-4 17.2 1.28 13.48 4.166 5.31
5-3 14.2 1.28 11.13 4.166 5.31
3-1 12.0 1.28 9.41 4.166 5.31
3-2 3.9 1.28 3.06 4.166 5.31
3-4 No es necesario
4-1 9.0 1.28 7.05 4.166 5.31
4-2 No es necesario
2-1 8.1 1.28 6.35 4.166 5.31
3. Se estudi una variable x en tres situaciones A, B y C, obteniendo:
A B C
2 6 1
3 7 2
2 8 2
4 7 3
5 8 6
Que puede decir acerca del comportamiento de x en las tres situaciones?
R: Existen diferencias; F2,12 = 14,6; p < 0.05. La variable x responde igual en las
situaciones A y C, pero es mayor en la situacin B.
135
4.- Analice de nuevo el ejercicio anterior, pero con estadstica no-paramtrica.
R: Existen diferencias; KW = 8.57; p < 0.05. La variable x responde igual en las

situaciones A y C, pero es mayor en la situacin B.
136
X.- CORRELACIN Y REGRESIN
X.1.- Correlacin
A menudo en ciencias nos encontramos interesados en la relacin o asociacin

entre dos variables cuantitativas. En este caso, tratndose de dos variables aleatorias X e
Y, sabemos que si son independientes la variacin conjunta o covarianza es cero:
COV(X,Y) = 0. Adems el valor mximo que puede tener la covarianza es COV(X,Y) max
= (V[X]V[Y]).
Aprovechando stas propiedades podemos definir correlacin entre dos variables

X e Y como la covarianza estandarizada:
COV [ X , Y ]

V [ X ] V [Y ]
Naturalmente, un buen estimador de , ser el coeficiente de correlacin (r) de

Pearson:
r
( x x )( y y )
i i

x yi i nx y
( x x ) ( y y)
i
2
i
2
( x nx )( yi2 ny 2 )
i
2 2
Entonces tanto como su estimador (r) varan entre 1 y 1. Adems si X e Y son

independientes, y su estimador (r) son 0.
137
El coeficiente de correlacin mide el grado de asociacin entre dos variables X e

Y, siendo mxima si r 1 como en la situacin A de la figura, o r -1 como en la
situacin C. La diferencia entre stos ltimos dos valores es que un valor positivo indica
asociacin positiva y un valor negativo, lo contrario, es decir aumentos en la primera
variable implican disminuciones en la segunda. Cuando no existe asociacin, es decir Y
es independiente de X como en la situacin B, r 0.
Es importante decidir si existe asociacin o independencia por lo que se debe

realizar la dcima Ho: = 0 vs. H1: 0. Y en este caso se usa el estadgrafo:
r n2
t n 2
1 r2
X.2.- Regresin
Muchas veces en la bsqueda de asociacin entre dos variables X e Y, intentamos

establecer una relacin funcional entre ambas, por ejemplo una lnea recta: y = mx + c, o
una parbola y = ax2 + bx +c o una exponencial y = ae bx o una potencial y = axb. En este
caso no slo buscamos la asociacin sino que pre-suponemos una relacin funcional
entre las variables. Este es el objetivo del anlisis de regresin sea este lineal,
cuadrtico, exponencial o potencial. Lo ms habitual es el anlisis de regresin lineal,
sobre todo porque los modelos exponencial y potencial, tan habituales en ciencias, son
reductibles al modelo lineal a travs de logaritmos.
138
Por ejemplo si a una relacin potencial del tipo Y = aXb le aplicamos logaritmo,
se obtiene logY = loga +blogX, y llamando w = logY, z = logX y c = loga, se obtiene la
recta w = c + bz. En el caso de una exponencial Y = C(e bX), tomando logaritmo natural
se obtiene lnY = lnC + bX y llamando w = lnY y c = lnC, se obtiene la recta w = c + bX.
Regresin lineal mnimo cuadrtica
El problema bsico consiste en buscar una recta que minimice las desviaciones
desde cada punto a dicha recta. Si suponemos que esta recta tiene una pendiente B 1 y un
intercepto Bo, entonces tendremos para cada xi un yi = B1xi+Bo que estima el valor real
de yi (ver figura). A la diferencia entre yi e yi: ei = yi-yi la llamamos residuo.
Observamos que la raz de la suma sobre i del residuo elevado al cuadrado: D =
( y y ) tiene la estructura de una distancia y entonces interesa la pregunta: para
i
'
i
2
que valores de B1 y Bo es mnima D, o, lo que es lo mismo, D2?
Estableciendo las ecuaciones: D/B1= 0 y D/Bo = 0 (ecuaciones normales), se

obtiene:
B1
x y / n xy
i i
x /n x
2
i
2
139
Y adems: B0 y B1 x
En trminos estadsticos, lo mencionado es equivalente a plantear el modelo:

yi = o + 1xi + ei, con los supuestos de independencia e igual distribucin de los errores
ei
Entonces, la pendiente B1 y el intercepto Bo, son estimadores de los parmetros

poblacionales 1 = COV(X,Y)/V[X] y o = y - 1x. Estos estimadores son meli.
Adems las varianzas de B1 y Bo se pueden estimar a travs de:
S yx2 1 x ei2
V [ B1 ] y V [ B0 ] S yx ( n donde S yx2
2
)
(x i x)2 ( xi x ) 2 n2
As, es posible probar las hiptesis Ho: * = 0, vs H1: * 0 (donde * representa a

1 o a o) mediante:
B*
tn2
V [ B* ]
Observamos que es posible relacionar la pendiente y el coeficiente de correlacin,

ya sea en trminos poblacionales (1 y ) o muestrales (B1 y r) a travs de:
1(V[X]/V[Y]) = . Esto implica que a altos valores del coeficiente de correlacin le
corresponden altos valores de la pendiente B1 y a la inversa.
X.3.- Regresin y ANOVA
Observemos el siguiente desarrollo algebraico:
e 2
i
( yi yi' ) 2 ( yi y y yi' ) 2 ( yi y ) 2 ( yi' y ) 2 , lo que ordenado de otra
forma queda:
(y i
y ) 2 ( yi yi' ) 2 ( yi' y ) 2
Esto se puede leer de la siguiente forma: La variabilidad total (desde cada y i al

promedio y) es igual a la suma de la variabilidad residual (desde cada y i al
140
predicho yi) mas la variabilidad debida a la regresin (desde los predichos al
promedio y).
En otras palabras, la variacin total es la suma de la variacin no explicada por

la regresin (residuo) mas la variacin explicada por la regresin.
Como vemos, es posible la particin aditiva de la varianza y entonces establecer

una tabla de ANOVA:
Fuente de SC Gl CM F1,n-2 P
variacin
Modelo ( yi' y ) 2 B12 ( xi2 nx 2 ) 1 SC/gl CMmodelo/CMresiduo
(Regresin)
Residuo (por diferencia) n-2 SC/gl
= Syx2
Total ( y i
y ) 2 yi2 ny 2 n-1
Es decir a travs de un ANOVA se puede docimar Ho: 1 = 0 vs H1: 1 0.
Al cuociente entre la suma de cuadrados explicada (regresin) dividida por la

suma de cuadrados totales se le denomina coeficiente de determinacin (R2):
SCregresi n
R2
SCTotal
Este coeficiente representa la proporcin de la variabilidad total que es explicada

por la regresin. Adems R2 = r2, de ah su notacin. Adems al valor Syx = (Syx2) se le
denomina error tpico de la estima y representa la desviacin media de los valores en
torno a la recta de regresin.
Ejemplo 1.-
Supongamos que se quiere estudiar la relacin entre dos variables X e Y y se tiene

la siguiente tabla:
X 1 2 3 4 5 6 7 8 9 10
Y 2 5 6 7 9 13 15 15 19 20
El primer problema es decidir si se har un anlisis de correlacin o uno de

regresin. Esta duda se resuelve pensando si el objetivo del estudio es simplemente la
141
bsqueda de una asociacin, y en este caso usar slo correlacin, o si buscamos o
presuponemos una relacin lineal que permita algn grado de prediccin del fenmeno y
realizar anlisis de regresin. En este ltimo caso debemos pensar adems si la recta de
regresin que se obtenga tiene sentido, especialmente en el caso de variables discretas,
donde entre punto y punto no existe nada, y por tanto no hay recta.
Supongamos en este caso que la variable es continua, y que presuponemos una

relacin funcional de tipo lineal, por lo que se har un anlisis de regresin. Por razones
prcticas conviene inmediatamente hacer la siguiente tabla:
X Y X2 Y2 XY
1 2 1 4 2
2 5 4 25 10
3 6 9 36 18
4 7 16 49 21
5 9 25 81 45
6 13 36 169 78
7 15 49 225 105
8 15 64 225 120
9 19 81 361 171
10 20 100 400 200
Total 55 111 385 1575 770
Promedio 5.5 11.1 38.5 157.5 77.0
A partir de esta tabla se puede calcular directamente la pendiente B 1 y el

intercepto B0:
77.0 5.5 11 .1
B1 1.93 y B0 11 .1 1.93 5.5 0.485
38.5 5.5 2
As, la recta que mejor representa la relacin entre X e Y es Y 1.93 X 0.485 .
Pero interesa saber si esta pendiente B 1 es efectivamente diferente de 0; es decir si

la asociacin que se obtiene en la muestra es realmente inferible a la poblacin.
Entonces estudiaremos las hiptesis H0: = 0 vs 0 mediante el ANOVA. Esto es
enteramente equivalente a realizar una prueba de t para la pendiente. Sin embargo se
prefiere el ANOVA porque aporta mayor informacin como se observa a continuacin.
Observamos adems que todos los valores para la tabla de ANOVA ya se encuentran
calculados.
Fuente de SC Gl CM F1,8 P
142
variacin
Modelo 1.93 (385 10 5.5 ) 307.30
2 2
1 307.3 69.1 << 0.01
(Regresin)
Residuo = 342.9-307.3 = 35.6 10-2= 8 Syx2= 4.45
Total 1575 10 11 .12 342.9 10-1= 9
Entonces efectivamente la pendiente es diferente de 0, y la asociacin mediada

por la relacin lineal es real. Adems el coeficiente de determinacin (R 2) es: R2 =
307.3/342.9 = 0.896. Es decir el 89.6 % de la variabilidad de Y es efectivamente
explicada por el modelo lineal, lo que es muy bueno pus la variabilidad residual
representa slo un 10.4%. Si adems queremos el coeficiente de correlacin, este es
simplemente r = (0.896) = 0.947. El error tpico de la estima es S yx = 4.45 = 2.1. Este
ltimo valor nos permite calcular las varianzas y errores estndar de la pendiente e
intercepto.
Por otra parte debemos observar que a partir del valor de F = 69.1 se puede
deducir el valor que habra tenido la t de Student si la hubisemos usado para probar la
misma hiptesis. Esta es simplemente: t = 69.1 = 8.3, y conduce exactamente al mismo
valor de probabilidad de error I (p).
X.4.- Predicciones
Muchas veces el sentido de una regresin es predecir un valor o valores de y para

algn valor o valores de x.
Prediccin de un valor y, para un valor xk (y/xk) En este caso el intervalo de

confianza del nivel (1-) est dado por:
1 ( xk x ) 2
IC1- : y k t n2 S yx 1
'
n xi2 ( xi ) 2 / n
Prediccin del valor y para xk En este caso el intervalo de confianza est dado
por:
1 ( xk x ) 2
IC1- : y k t n2 S yx
'
n xi2 ( xi ) 2 / n
Ejemplo 2.-
143
Si en el caso del ejemplo1, interesara calcular a) el valor predicho para x = 12 y b)

el valor promedio de y para x = 15, tendramos:
Para el caso a) el valor predicho para x = 12 sera: y = 1.93(12) + 0.485 = 23.645.

y su intervalo del 95% de confianza sera:
1 (12 5.5) 2
23.645 1.86 2.1 1 23.65 4.96
10 385 (55) 2 / 10
Para el caso b) el valor predicho sera y = 1.93(15) + 0.485 = 29.435, y el

intervalo de confianza para el promedio de los valores de y cuando x = 15 sera:
1 (15 5.5) 2
29.435 1.86 2.1 29.435 10.94
10 385 (55) 2 / 10
Es importante observar que en le medida que xk se aleja del promedio, la precisin

de la prediccin va disminuyendo, o, lo que es equivalente, el intervalo de confianza se
va haciendo ms amplio.
X.4.- Supuestos y alternativas no paramtricas
En algunas ocasiones la variable independiente (x) es fija y se miden muchos

valores de la variable dependiente (y) para cada valor de x. En este caso se habla de
modelo de tipo I. En otras ocasiones la variable x no controla la variable y, y se hace un
muestreo aleatorio de pares (x,y). En este caso se habla de modelo II.
Independiente del modelo, el supuesto bsico de la regresin es la independencia e

idntica distribucin de los errores. Esta se puede probar con el estadgrafo de Durbin-
Watson. Esto es especialmente relevante cuando las variables independientes son el
tiempo o el espacio y puede existir autocorrelacin (espacial o temporal). La
distribucin esperada de los errores es una Normal, univariada o bivariada, segn sea
modelo I o II.
En caso de no cumplirse los supuestos, se pueden usar otros mtodos, como

anlisis de series temporales en el caso de que la variable independiente sea el tiempo, o
mtodo de las semi-medias en otros casos. En el caso de un anlisis de correlacin, se
puede usar el coeficiente de correlacin no-paramtrico de Spearman (rs).
Este simplemente corresponde a un coeficiente de correlacin de Pearson (r)

aplicado sobre las variables previamente transformadas a rangos. Se puede demostrar
que si di es la diferencia entre los rangos de xi e yi: di = xi-yi, entonces:
144
in
6 d i2
rs 1 i 1
n n
3
X.5.- Anlisis de la covarianza (ANCOVA)
En el anlisis de la covarianza se tiene un diseo donde la variable respuesta vara

en funcin de otra variable llamada co-variado. Por ejemplo si se mide una variable y
que vara en funcin de x frente a tres niveles de un factor A se tiene la tabla:
Factor A
A1 A2 A3
Y X Y X Y X
En este caso es un ANCOVA de una va o factor, con tres tratamientos. La variable

respuesta es Y y el co-variado es X.
El modelo de ANCOVA se puede escribir:
yij i 1 ( xij x ) ij
Se observa que en este modelo se contempla una relacin funcional entre la

variable respuesta y su covariado mediada por un modelo de regresin.
En su expresin original el inters del ACOVA est centrado en el efecto de los

tratamientos y la regresin sobre la variable respuesta Sin embargo a menudo el inters
se centra en la variable respuesta descartando el efecto del covariado y ms
habitualmente, el inters se encuentra en las variaciones de la respuesta funcional, las
pendientes de regresin, frente a los distintos tratamientos (Homogeneidad de
pendientes. En el ANCOVA al igual que en el ANOVA y en la regresin, es posible la
particin de la suma de cuadrado y docimar por separado cada uno de los efectos. En su
forma ms simple el ANCOVA consta de dos tratamientos, una variable respuesta y
con su respectivo co-variado. En este caso la homogeneidad de pendientes se puede
probar alternativamente con una t de Student:
145
11 12
t n1 n 2 4 SCresiduo1 SCresiduo 2
1 1 donde
2
S yxc
2
S yxc ( ) n1 n2 4
x12i x22i
146
Ejercicios de correlacin y regresin
1. Se realiza un estudio para predecir la estatura final de un individuo a partir de la talla

al nacer obteniendo:
Talla al 36 38 42 44 45 48 50 51 52 53 54 55 56 58
nacer
(cm)
Estatura 1.58 1.64 1.70 1.65 1.65 1.70 1.72 1.76 1.72 1.82 1.80 1.86 1.90 1.88
final
(m)
Qu puede decir de la capacidad predictiva de la talla de nacimiento sobre la estatura

final? Que estatura final esperara de un individuo con una talla de 30.53 cm al
nacimiento? Y su intervalo de confianza?
R: Es buena. EF = 1.093 + 0.0133xTN; F 1,12 = 65.9, p < 0.05; R2 = 0.833. Se esperara

una EF = 1.5 m; el IC95% = {1.389; 1.611}.
2. Se piensa que los grados de conciencia (GC: del 1 al 10) despus de un TEC estn relacionados con
la edad del paciente accidentado. Se realiza un estudio y se obtiene:
Edad 26 34 45 48 57 62 70 72 76 78 80 87
GC 10 8 10 9 7 10 5 4 4 3 1 2
a) Qu tipo de anlisis corresponde a la pregunta?
b) Plante la hiptesis correspondiente.
c) Utilice estadstica paramtrica y despus no-paramtrica.
d) Que puede decir finalmente de su hiptesis?
R: Correlacin; r = -0.86; t10 = -5.33; p < 0.05; R =-0.89; t 10 = -6.26; p < 0.05.
Efectivamente, estn asociados negativamente, a mayor edad, menor grado de
conciencia despus de un TEC.
147
V UNIDAD.- TOPICOS ESPECIALES

148
XI.- BASES DE MUESTREO
XI.1.- Muestreo en poblaciones finitas e infinitas
El muestreo sobre una poblacin puede ser de varios tipos:
i) Muestreo aleatorio simple: consiste en un mtodo que permite que todas

las unidades maestrales tengan la misma probabilidad de ser elegidas.
En general se realiza unidad por unidad y sin reposicin. Muchas veces
para la seleccin de las unidades se utiliza una tabla de nmeros
aleatorios.
ii) Muestreo aleatorio estratificado: se realiza cuando existen estratos
definidos en la poblacin. En este caso el muestreo aleatorio se realiza
sobre cada estrato. El tamao muestral en cada estrato puede ser igual
(asignacin fija), proporcional al tamaos del estrato (asignacin
proporcional) o bien proporcional al tamao del estrato, su varianza en
dicho estrato e inversamente proporcional al costo (asignacin ptima o
de Neyman).
iii) Muestreo por conglomerados: En este caso la unidad de muestreo difiere
de la unidad de anlisis, por ejemplo muestrear cajas de huevos en lugar
de huevos. Es una variante de un muestreo sistemtico, donde todas las
unidades dentro de cada conglomerado son analizadas.
El muestreo se puede realizar en una o en dos etapas (mono o bi-etpico).
Los estimadores habituales usados en el muestreo poblacional pueden clasificarse

bsicamente como estimadores: a) de promedios, donde el parmetro a estimar es un
promedio poblacional, b) de proporciones, donde se estima una proporcin, c) de
razones, donde se estima un cuociente entre variables y d) de regresin. Es importante
notar que una proporcin va entre 0 y 1, pero una razn o tasa no.
En general en mucha de la actividad cientfica el tamao poblacional es

suficientemente grande como para considerarlo infinito. Sin embargo, en ocasiones la
muestra constituye una proporcin significativa de la poblacin, como podran ser cierto
nmero de camas en un hospital o un nmero de planta en un predio agrcola. En este
caso las varianzas de los estimadores maestrales cambian, introducindose un factor de
correccin llamado fraccin de muestreo:
n
f donde n es el tamao muestral y N el tamao poblacional.
N
149
Por ejemplo cuando se realiza un muestreo aleatorio simple y se estima un
promedio poblacional ( Y ), entonces el promedio muestral y es un estimador insesgado
s2 N n s2
de Y , pero su varianza es V [ y] ( ) (1 f ) de manera que ahora el error
n N n
s2
estndar es Es (1 f ) . Naturalmente los intervalos de confianza varan en forma
n
semejante.
Anlogamente en el caso de una proporcin (p) su varianza es:
pq pq
V [ p] (1 f ) y entonces, Es (1 f )
n 1 n
XI.2.- Tamao muestral, potencia y precisin
El clculo del tamao muestral corresponde a una estimacin previa del tamao
necesario que debe tener una muestra para cumplir ciertos requisitos. Conviene notar
que es slo una estimacin previa y no una frmula exacta y que en general, requiere de
un conocimiento previo de algunas caractersticas de la muestra, por ejemplo la
varianza.
Las frmulas para el clculo del tamao muestral son para usarse a priori, es decir
antes de realizar el experimento. Despus de realizado ste, si se logr rechazar la
hiptesis de nulidad, la pregunta del tamao muestral es irrelevante pues la bondad de la
muestra queda medida a travs de la probabilidad de error de tipo I (p).
Tamao muestral para estimar una proporcin
Entonces, por ejemplo si se desea buscar el tamao muestral con una precisin d y
una confianza C = 1- para estimar una proporcin P, es obvio que d = z /2(PQ/n), es
decir, despejando n, el tamao muestral adecuado es:
Z 2 / 2 PQ
n
d2
Tamao muestral para estimar un promedio
Si nuestro inters es calcular un promedio, entonces d = t (1-/2)s/n, y entonces el

tamao adecuado es:
150
t12 / 2 s 2 Z 2 / 2 s 2
n
d2 d2
Tamao muestral para comparar una proporcin con otra prefijada (una muestra)
El tamao muestral adecuado para realizar una dcima de este tipo se puede
calcular definiendo previamente la precisin (d), el nivel de significacin () y el error
de tipo II () o la potencia de la dcima (K = 1-). Si uno fija 2 cualesquiera de stos
parmetros a priori se puede obtener el tercero mediante la relacin:
p0 q0 ( Z * Z ) 2
n 2
, donde * es /2 para pruebas de 2 colas y para una cola.
d
Tamao muestral para comparar un promedio con otro prefijado (una muestra)
En forma anloga al caso anterior el tamao muestral adecuado para realizar una
dcima de este tipo se puede calcular definiendo previamente la precisin (d), el nivel de
significacin () y el error de tipo II () o la potencia de la dcima (K = 1-). Si uno fija
2 cualesquiera de stos parmetros a priori se puede obtener el tercero mediante la
relacin:
s 2 (Z* Z ) 2
n 2
, donde * es /2 para pruebas de 2 colas y para una cola..
d
Tamao muestral para comparar proporciones
El tamao muestral, la precisin (d) y el error de tipo II () o la potencia de la

dcima (K = 1-) se pueden obtener mediante la relacin:
( P1Q1 P2Q2 )(Z * Z ) 2

n 2
, donde * es /2 para pruebas de 2 colas y para
d
una cola. En este caso n es el tamao de cada muestra. Si existe un tamao n 1 prefijado,
entonces n2 = nn1/(2n1-n). Sin embargo, la mayor potencia se obtiene cuando n1 = n2.
Tamao muestral para comparar promedios

151
El tamao muestral, la precisin (d) y el error de tipo II () o la potencia de la
dcima (K = 1-) se pueden obtener mediante la relacin:
2sc2 (Z * Z ) 2
n , donde * es /2 para pruebas de 2 colas y para una cola. En
d 2
este caso n es el tamao de cada muestra. Si existe un tamao n 1 prefijado, entonces n2 =

nn1/(2n1-n). Sin embargo, la mayor potencia se obtiene cuando n1 = n2.
Tamao muestral para comparar promedios en muestras pareadas
El tamao muestral adecuado para realizar una dcima de este tipo se puede
calcular definiendo previamente la precisin (d), el nivel de significacin () y el error
de tipo II () o la potencia de la dcima (K = 1-). Si uno fija 2 cualesquiera de stos
parmetros a priori se puede obtener el tercero mediante la relacin:
sd2 (Z* Z ) 2
n 2
, donde * es /2 para pruebas de 2 colas y para una cola..
d
Tamao muestral para el anlisis de varianza Al igual que en el caso de dos
muestras, es posible relacionar el tamao muestral, la potencia y la precisin. Sin
embargo, en el ANOVA en general es preferible usar una funcin auxiliar que se
relaciona en forma creciente con la potencia K (a mayor, mayor K). Esta funcin se
define como:
nd 2

2ts 2
As para valores dados de n, d y s 2 es posible calcular y a partir de sta calcular

la potencia, para lo cual se disponen tablas y grficos (ver Zar, 1996). Por otra parte si se
pre define K () y d, y se tiene una estimacin previa de s 2, entonces es posible
calcular n. En forma anloga, teniendo n, es posible calcular d.
Muchas veces ya hemos realizado el ANOVA y aceptamos la hiptesis de nulidad,

y entonces queremos conocer el error II ( = 1-K), entonces podemos obtener K
considerando
(t 1)(CME CMD )
p
t CMD
152
XII.- ESTADISTICAS VITALES
XII.1.- Tablas de vida
Las tablas de vida son instrumentos que permiten resumir las caractersticas de
una poblacin de manera fcil y adems permiten extrapolar parmetros de utilidad para
predecir el comportamiento poblacional. Estas son de dos tipos: i) de seguimiento de
cohortes (horizontal) o ii) de estructura de edades en un momento dado (transversal o
vertical).
En estas tablas se incluyen las siguientes variables:
x: representa la edad o estado etario
Nx: nmero de individuos al inicio de la edad x
N
lx: proporcin de sobrevivientes al inicio de la edad x; l x N
x
dx: nmero de muertos entre la edad x y x+1; l x N x N x 1
d (l x l x 1 )
qx: probabilidad de morir entre la edad x y x+1; q x N
x
lx
. A veces es til
x
definir la probabilidad de supervivencia p 1 q

x x
(l x l x 1 )
Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx
2

Tx: tiempo remanente (o restante) al alcanzar la edad x: Tx

x
Lx
T
ex: esperanza de vida a la edad x: ex l
x
mx: nmero de cras o hijos entre x y x+1
Vx: valor reproductivo a la edad x; Este representa el potencial reproductivo de una

l mx
hembra de la edad x; Vx
x
x lx
153
Parmetros derivados:
Ro: Tasa reproductiva neta o bsica de una poblacin. Esta representa la contribucin en
nmero de cras que deja una hembra de una generacin a la siguiente;

R0 l x m x
0
e0: Esperanza de vida al nacer. Esta representa la edad que se espera que viva un
individuo de acuerdo a los parmetros poblacionales (rgimen demogrfico) imperantes;
e0 = e0.
G: Tiempo generacional. Este corresponde al tiempo promedio que dura una generacin;
yl mx x
G x
En este caso y representa la edad media en el intervalo.
R0
Ejemplo 1.-
Se tiene la siguiente informacin de un insecto:
Edad (das) Nmero de Nmero de huevos

insectos(Nx) depositados (mx)
0 1000 0
1 1000 0
2 990 13266
3 830 9877
4 510 2346
5 360 1656
6 0 0
A partir de esta informacin se puede construir la siguiente tabla de vida:
E Y Nx lx dx qx Lx Tx ex mx lxmx Vx Xlx
mx
0 0. 1000 1 0 0 1 4.1 4.1 0 0 0 0
154
5 9 9
1 1. 1000 1 10 0.0 0.9 3.1 3.1 0 0 0 0
5 1 9 9 9
2 2. 990 0.9 160 0.1 0.9 2.1 2.2 13266 13133 2335 3283
5 9 6 1 9 1 7 3
3 3. 830 0.8 320 0.3 0.6 1.2 1.5 9877 8197 1203 2869
5 3 9 7 9 4 7 2
4 4. 510 0.5 150 0.2 0.4 0.6 1.2 2346 1196 4685 5384
5 1 9 4 1 1
5 5. 360 0.3 360 1.0 0.1 0.1 0.5 1656 596 1656 3278
5 6 0 8 8
6 6. 0 0 0 0 0
5
Ro = 23123 G= 3.035
Es decir esta poblacin de insectos es capaz de dejar 23123 nuevos insectos por cada
hembra, cada 3.035 das. Adems cada uno de stos insectos tiene una esperanza de vida
al nacer de 4.19 das.
XII.2.- Comparacin de curvas de supervivencia
Muchas veces en estudios poblacionales y en estudios de supervivencia a

tratamientos mdicos es necesario comparar curvas de supervivencia. Los mtodos para
compararlas son simples, derivados de la distribucin 2.
Una prueba simple es la de Mantel-Haenszel o Logrank. Existe tambin una

variante bastante similar el Logrank de Peto & Peto (ver Pike & Thompson 1986).
La prueba consiste en registrar para cada unidad de tiempo el nmero observado

de muertes (Oi) y retiros (Ci) y calcular a partir de las muestras los valores esperados de
muertes (Ei). Finalmente se usa el estadgrafo:
t
(Oi Ei ) 2
2
t 1

1 Ei
Ejemplo 2.-
Supongamos que se quiere comparar las supervivencias de dos grupos A y B cada

uno de 10 personas iniciales durante 12 das y se obtiene la siguiente tabla:
Tiempo Muertos en A Muertos en B Retiros en A Retiros en B

155
(OA) (OB) (CA) (CB)
1 1 0 0 0
2 0 0 0 0
3 0 0 1 0
4 2 0 0 1
5 1 1 0 0
6 0 1 0 0
7 0 0 0 0
8 1 0 1 0
9 2 0 0 0
10 0 2 0 0
11 0 0 0 0
12 0 0 0 0
A partir de esta tabla podemos calcular los valores esperados:
Tiempo Muertos Muertos Muertos Retiros Retiros Total Total Total EA EB =

en A en B totales en A en B individuos individuos individuos =nA(m/n) nB(m/n)
(OA) (OB) (m) (CA) (CB) en en (n)
observacin observacin
A (nA) A (nB)
1 1 0 1 0 0 10 10 20 0.5 0.5
2 0 0 0 0 0 9 10 19 0 0
3 0 0 0 1 0 9 10 19 0 0
4 2 0 2 0 1 8 10 18 0.89 1.11
5 1 1 2 0 0 6 9 15 0.8 1.2
6 0 1 1 0 0 6 8 14 0.42 0.57
7 0 0 0 0 0 6 7 13 0 0
8 1 0 1 0 0 6 7 13 0.46 0.54
9 2 0 2 0 0 4 7 11 0.72 1.27
10 0 2 2 0 0 2 7 9 0.44 1.56
11 0 0 0 0 0 2 5 7 0 0
12 0 0 0 0 0 2 5 7 0 0
Total 7 4 4.23 6.75
Entonces ahora se puede calcular el valor:
(7 4.23) 2 ( 4 6.75) 2
1
2
2.93 y como el valor crtico es 3.84 y 2.93 < 3.84, no es
4.23 6.75
posible rechazar H0.
Ejercicios de estadsticas vitales
1.- Se tiene informacin de las poblaciones de 3 insectos A, B y C:
Insecto A
Edad (das) NX Mx
156
0 100 0
1 79 1000
2 28 500
3 8 100
4 4 2
5 1 0
Insecto B
Edad (das) Nx Mx
0 100 0
1 79 100
2 65 500
3 60 500
4 50 2
5 2 0
Insecto C
Edad (das) Nx Mx
0 100 0
1 80 0
2 60 5000
3 40 10
4 20 0
5 1 0
Grafique Nx vs Edad para los tres insectos. Comente los grficos.

Haga las tablas de vida para cada insecto y compare sus resultados.
Compare las supervivencias con la prueba de Mantel-Haenszel.
157
XIII.- REGRESION LOGISTICA
XIII.1.- Bases
En muchas ocasiones interesa predecir o explicar el comportamiento de una

variable cualitativa (I) a partir de una o varias variables cuantitativas (X). En estos casos
no corresponde un modelo de regresin. El caso ms habitual, y el mas simple, la
variable dependiente (I) es binaria, por ejemplo on-off o presencia-ausencia.
En este caso se podra plantear el modelo probabilstico P( I = 1)= P = + X, sin

embargo la probabilidad vara en forma continua entre 0 y 1, por lo que se prefiere
modelar el logaritmo de la chance o transformacin logito (log-likelihood):
P
log( )
1 P
De esta manera se plantea el modelo:
P 1
log( ) X P
1 P 1 e ( X )
As es posible ahora hacer una regresin lineal entre X y el logito de P,

determinando los parmetros.
XIII.2.- Pruebas de hiptesis
En la regresin logstica interesa probar si el coeficiente de regresin (la

pendiente) es diferente de 0: H0: = 0 vs H1: 0. Esto se hace mediande el estadgrafo
de Wald (W) que se distribuye como 2 con un grado de libertad:
2
W ( )
S
En este caso, es la estimacin de y S su error estndar.
Un parmetro til en la regresin logstica es R 2 (o seudo R2) , que al igual que en

la regresin simple representa la proporcin e la variabilidad de la variable dependiente
que es explicada por el modelo. Esta se calcula como:
( m2 2 p )
R2 donde m2 es el valor del 2 del modelo, L(0) es el mximo valor del logito
2 L(0)
considerando slo la constante y p es el nmero de parmetros.
158
XIII.3.- La razn de chances (odds ratio)
En el caso dicotmico, puede ser interesante la pregunta acerca de cuanto ms

probable es un evento (I =1), para un X dado, que para otro valor de X (X*). En este
px
1 p x e ( x ) ( x x*)
caso OR e .
p x* e ( x*)
1 p x*
Ejemplo 1.-
Supongamos que interesa predecir el comportamiento de una variable dicotmica

I (I = 1 muerte, I = 0 supervivencia), a partir de un predictor X, continuo y que se tiene
la siguiente informacin:
I 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
X 1 2 3 4 5 6 8 12 13 14 11 12 13 14 15 16 17 18 19 20
Al realizar la regresin logstica se obtiene:

2 P
0.61 0.308 3.92 < 0.05
-7.27 3.99
Es decir, el modelo es:
1
P
1 e 7.27 0.61 X
Adems R2 = 0.56, es decir un 56% de la variabilidad del logito es explicada por

el modelo.
Si se quiere saber la probabilidad de morir cuando X = 5, esta es:
1
P( I 1 / X 5) 0.0017
1 e 7.27 0.615
Si se quiere saber adems, cuanto ms probable es morir cuando se tiene X = 14

que cuando se tiene X = 5, entonces: OR e 0.61(145 ) 242.25 . En otras palabras con un
159
aumento desde X = 5 a X = 14 aument en 242.25 veces la chance de morir. O sea ahora
es 242.25x0.0017 = 0.414.
160
XIV.- SERIES DE TIEMPO
XIV.1.- Bases
En muchas ocasiones es necesario estudiar el comportamiento de una variable en

funcin del tiempo. La tendencia natural es graficar la variable X en funcin del tiempo
y realizar un anlisis de regresin, donde t es la variable independiente. Sin embargo en
estos casos se violan dos supuestos bsicos de la regresin, superando la robustez del
mtodo. Por un lado en general se tiene un valor de X para cada t, y mas importante, la
variable X en tiempo t (Xt) no es independiente de Xt-1. En ocasiones lo anterior es
vlido cuando la variable independiente es una posicin espacial (s) y ocurre que Xs es
dependiente de Xs1.
En una serie temporal (Xt) o espacial (Xs) se tiene un conjunto discreto {t} (o {s})
que indica el tiempo en que se mide la variable y la variable {Xt}. Esta ltima depende
de dos factores: de la misma variable {X t-1, Xt-2..} (Autoregresin) y de fluctuaciones
o movimientos aleatorios {at, at-1, at-2,}. As en trminos generales se puede expresar
una serie de tiempo como:
p q
X t at i ( X t i ) i ( at i )
1 1
En palabras, una variable actual dependera de la fluctuacin aleatoria actual, de

los valores y fluctuaciones aleatorias anteriores. Este modelo se denomina ARIMA
(Auto regresive integrated moving average).
As, en este tipo de modelo interesa estimar los coeficientes i y i, junto a los
valores de p y q (orden).
XIV.2.- Autocorrelacin y autocorrelacin parcial
Dada una serie de tiempo Xt con n elementos, es posible formar los (n k) pares
{Xt, Xt-k} y definir autocorrelacin, temporal o espacial segn el caso, como la
correlacin entre estos pares:
COV [ X t , X t k ]
k
V [ X t ]V [ X t k ]
Un estimador natural de k es el coeficiente de correlacin:

161
i n k
(X t
X )( X t k X )
rk i 1
i n
(X
i 1
t
X)
El grfico de rk en funcin de k, se conoce como correlograma o FAC (funcin de

autocorrelacin).
As como se puede definir la autocorrelacin, es posible definir la autocorrelacin

parcial en forma similar a como se define correlacin parcial (ver mas adelante). Estas
se pueden definir como las autocorrelaciones entre pares de variables ( j,k), cuando las
dems estn fijas. Por ejemplo entre X t y Xt-1 dejando fijas Xt-1, Xt-2,.etc. Su grfico
se llama FACP.
XIV.3.- Algunos modelos
Modelos auto regresivos
Un modelo auto regresivo de orden 1 (AR1) es del tipo:
X t 1 ( X t 1 ) at
En una serie de este tipo es posible demostrar que la FAC muestra un decaimiento
exponencial (directo o alternado segn el signo de 1), que en la FACP slo la primera
autocorrelacin parcial es diferente de 0, y adems 1 = r1. As estudiando la FAC y
FACP es posible calcular los parmetros del modelo.
En un AR2: X ( X ) ( X ) a el decrecimiento de la FAC es

t 1 t 1 2 t 2 t
ms lento y en la FACP slo los dos primeros coeficientes son distintos de 0.

1 12
Adems r1 r
y 2 2 1
1 2 2
Modelos aleatorios (MA)
Los modelos MA se reconocen por el nmero autocorrelaciones diferentes de 0 en

la FAC: si slo una es distinta de 0, es MA1, si son las dos primeras es MA2 etc..

X t at 1 ( a t 1 ) , adems r1 1 2
1
Por ejemplo, en un MA1:
1
162
UNIDAD VI: INTRODUCCION AL ANALISIS

MULTIVARIADO
163
XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA)
XV.- Anlisis multivariado o univariado?
Cuando se tiene un conjunto de variables medidas {X i} y se tienen hiptesis

acerca de ellas, surge inmediatamente la pregunta: estudio cada una por separado o
todas en conjunto? O, de otra forma si no se encuentran diferencias entre cada una de
las variables, es que dichas diferencias no existen? Por ejemplo, supongamos que se
midieron dos variables X1 y X2 en dos grupos A y B, y que al realizar las pruebas de
hiptesis correspondientes se concluye que X1 es igual en A y en B y que X2 tambin es
igual en A y en B. Significar esto que la respuesta conjunta, o el vector (X1,X2), es igual
en A y en B?
En el grfico observamos que es evidente que los grupos A y B son diferentes, sin
embargo, el rango de X1 en A y en B y el rango de X2 en A y en B son prcticamente
iguales. Es decir la evidente diferenciacin de los grupos no es explicada ni por X 1 ni
por X2 en forma aislada, sino por la variacin conjunta de ambas, en este caso
probablemente por una combinacin lineal de X1 y X2 (aX1+bX2). En ciencias
encontramos muchos conjuntos de variables que intervienen en esta forma, lo que da
origen a los fenmenos que coloquialmente llamamos multifactoriales.
Cuando sospechamos que existe una relacin de este tipo donde probablemente
existe interaccin entre las variables medidas, estamos en el terreno del anlisis
multivariado.
164
XV.2.- MANOVA
En su expresin ms simple, un MANOVA consiste en dos grupos a comparar, a

los que se ha medido un conjunto de p variables {X i} ={X1,X2,Xp}. Se trata
entonces de un MANOVA de una va, con dos tratamientos.
Si recordamos que cuando comparbamos dos promedios en el anlisis

univariado, lo hacamos con un test t de Student, tiene entonces sentido derivar un
estadgrafo semejante para el anlisis multivariado. Por razones prcticas se utiliza su
cuadrado (T2 de Hotelling):
n1 n2 [ X 1 X 2 ]T [ ]1 [ X 1 X 2 ] (n 1)[1 ] (n2 1)[ 2 ]

T2 donde [] 1
n1 n2 n1 n2 2
En este caso los parntesis [] indican que se trata de matrices, los exponentes T
y -1 corresponden a la matriz traspuesta y la matriz inversa respectivamente, y []
corresponde a la matriz varianza-covarianza. La expresin (DM):
DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] tiene la estructura de una distancia y se conoce como
distancia de Mahalanobis. El valor de T2 es finalmente un escalar que es posible docimar
mediante una distribucin F:
(n1 n2 p 1)T 2
Fp ,n1 n 2 p 1
( p (n1 n2 2))
Cuando se quieren comparar ms de dos grupos, las expresiones algebraicas

matriciales son ms complejas, sin embargo, siempre es posible docimar el efecto de los
factores mediante diferentes estadgrafos. Los ms conocidos son la traza de Hottelling-
Lowley (To2) y -Wilks, que siguen distribuciones 2.
165
XVI.- REGRESION MULTIPLE
XVI.- Expresin matricial de una regresin
En un anlisis de regresin se tiene un conjunto de pares ordenados {X i,Yi} que se

pueden expresar en el modelo general:
y 0 1 x , donde representa la fluctuacin aleatoria.
Desarrollando el modelo para cada yi, se obtiene:
y1 0 1 x1
y 2 0 1 x2
.
.
y n 0 1 xn
Esto es equivalente a la expresin matricial:
y1 1 x1 1
y 1 x
2 2 0 2

. .1 1 .

yn 1 xn n
166
O, en trminos ms simples: [Y ] [ X ] [] []
Con esta notacin, el vector de estimadores de los coeficientes de regresin es

simplemente:
] [ X T X ]1 [ X ]T [Y ]
[
XVI.2.- Regresin mltiple
En el anlisis de regresin mltiple, no se tiene slo una variable independiente (o

predictor), sino que un conjunto {Xi} con p de ellas, por lo que ahora el modelo en
trminos matriciales se escribe:
y1 1 .1 xx p1 0 1
y .1 xx
2 12 p2 1 2

. . . . .

y n 1n .1 xx pn p n
Lo que en trminos simples es completamente anlogo al caso de una regresin
univariada, una ecuacin lineal: [Y ] [ X ] [] [] .
Las ecuaciones normales de la regresin se expresan simplemente como:

167
] [ X ]T [Y ]
[ X T X ] [
Los coeficientes de regresin se calculan igual que antes:
] [ X T X ]1 [ X ]T [Y ]
[
Es importante notar que si [XTX] no es invertible (matriz singular) no es posible

obtener coeficientes de regresin. Esto ocurre cuando las variables predictoras estn
altamente correlacionadas, es decir son colineales. En general cuando las correlaciones
simple entre variables son mayores que 0.8 se dice que son colineales.
La tabla de ANOVA:
Fuente de Grados de Suma de Cuadrados Fp,n-p+1

variacin libertad cuadrados medios
Modelo P ][ X T Y ] n[Y ]2
[ SC/gl CMmod/CME
Error n-(p+1) [Y T Y ] [ ]T [ X T Y ] SC/gl=Syx2
Total n-1 [Y T Y ] n[Y ]2
SC mod elo
Del mismo modo que en la regresin simple, R2
SCT
Los supuestos son la extensin multivariada de la regresin univariada:

Normalidad multivariante e idntica de los errores, e independencia.
Se puede observar que a pesar de las frmulas aparentemente ms complicadas

todas son enteramente anlogas a las de una regresin simple. Observamos sin embargo,
que ahora hay un intercepto (0) y un conjunto de coeficientes de regresin o
pendientes ({i }). Ahora no es una recta de regresin sino un plano o un hiperplano.
Los coeficientes de regresin en este caso deben interpretarse como las pendientes
directoras de dicho plano y son diferentes de las pendientes que se obtendran
realizando regresiones aisladas entre la variable Y y cada una de las {X i}. Las
pendientes obtenidas en un modelo de regresin mltiple corresponden a coeficientes
obtenidos en presencia de las otras variables y son por tanto llamados coeficientes de
regresin parcial. Puede ocurrir en ocasiones que al realizar una regresin entre Y y X 1
la pendiente 1 sea positiva y que al realizar la regresin entre Y y {X 1,X2} el coeficiente
1 sea drticamente diferente, e incluso negativo. Esto ocurre frecuentemente cuando
parte de la variabilidad de X1 esta explicada por X2 o a la inversa, es decir X1 y X2 se
encuentran correlacionados.
XVI.3.- El aporte de cada variable

168
En una regresin mltiple la mayora de las veces interesa determinar el aporte de

cada variable y si este tiene significacin. Es decir si la pendiente correspondiente (i) es
igual o diferente a 0.
Afortunadamente la suma de cuadrados del modelo de regresin se puede

descomponer en las contribuciones que provienen de cada variable.
Consideremos el caso de dos predictores X1 y X2. El modelo correspondiente es

Y = 0 + 1X1+ 2X2 + y en este caso la suma de cuadrados del modelo se puede
escribir como: SC(1, 2/ 0), es decir aquella variabilidad explicada por las pendientes
directoras y no por la constante. Si no consideramos la variable X 2 entonces la suma de
cuadrados del modelo sera: SC(1/0) y entonces podemos determinar el aporte de X2
como: SC(2/1,0) = SC(1,2/0) SC(1/0). En forma completamente anloga el
aporte de X1 lo medimos con SC(1/2,0) = SC(1,2/0) SC(2/0). As extendiendo el
razonamiento al caso de p variables, es posible descomponer la suma de cuadrados del
modelo completo en las contribuciones aportadas por cada variable:
SC ( 1 , 2 ,... p / 0 ) SC ( 1 / 0 ,., 2 ... p ) SC ( 2 / 0 , 1 ... p ) ....SC ( p / 0 , 2 ... p 1 )

La suma de cuadrados del modelo tiene p grados de libertad, aportando cada
variable con un grado de libertad. As cada variable X i tiene asociada una F1,n-(p+1) (F
parcial) que permite docimar H0: i = 0 vs H1: 0.
XVI.4.- Correlacin mltiple, simple y parcial
Cuando se realiza un anlisis de regresin mltiple, es posible obtener el

coeficiente de determinacin (R2). Esto permite definir el coeficiente de correlacin
mltiple como
rM R2
Adems si se tiene el conjunto ordenado de predictores y la variable dependiente

{Xi,Y}, es posible establecer en la forma habitual la correlacin simple entre cada una
de las variables y ordenarlas en una matriz de correlacin:
169
1 r12 r13 . r1 y
1 r23 . r2 y

1 . .

. .
1
Cada uno de los elementos de esta matriz corresponde a una correlacin simple
entre dos variables en ausencia de las dems. Sin embargo al igual que el caso de los
coeficientes de regresin, surge la pregunta si cambiaran las correlaciones cuando se
consideran las dems variables.
Cuando se incluyen las dems variables se puede obtener un coeficiente de

correlacin parcial, que corresponde a una correlacin entre dos variables cuando las
dems permanecen constantes, de esta manera mide la correlacin que le es exclusiva a
las dos variables. Por ejemplo, se podra tener una correlacin simple entre X 1 e Y, r1y =
0.8, y una correlacin simple entre X2 e Y, r2y = 0.9, pero al calcular la correlacin
parcial entre X1 e Y podra ocurrir que fuera r 1.y = 0.2. Esto ocurre cuando las variables
X1 y X2 estn correlacionadas y entonces al calcular las correlaciones simples en
realidad se est incorporando el efecto indirecto de la variable no considerada. En el
caso mencionado gran parte de la correlacin entre X1 e Y, estara explicada por el efecto
que produce X2 sobre X1 o la correlacin entre estas.
El clculo de los coeficientes de correlacin parcial es algo engorroso y pasa

primero por obtener la matriz inversa de [bij ] . Las correlaciones parciales se
1
pueden calcular a partir de esta como:
b jh b jy
rj .h y en particular rj . y
b jj bhh b jj byy
XVI.5.- Seleccin de variables
En muchas ocasiones, cuando se realiza un anlisis de regresin mltiple, interesa

obtener un modelo predictivo que slo considere aquellas variables que aportan
significativamente al modelo, o sea con altos F parciales. Para este efecto existen al
menos tres procedimientos: Bacward elimination, Forward selection y Stepwise
selection.
Bacward elimination En este procedimiento se realiza el siguiente algoritmo:
b) Se realiza una regresin incluyendo todas las variables predictoras,

170
c) Se calculan los F parciales para cada variable, designando como F L
al menor,
d) Si FL es menor que el F crtico para prefijado, sacar la variable
correspondiente, y
e) Volver a a) con las variables que quedan hasta que F L sea mayor
que el crtico.
Forward selection El algoritmo es el siguiente:
a) Se realiza un estudio de correlacin simple entre los predictores y

la variable dependiente,
b) Seleccionar la variable con mayor riy y ajustar el modelo, si su F
parcial es mayor que el crtico se incluye la variable,
c) Calcular los coeficientes de correlacin parcial entre las variables
restantes e Y pero incluyendo a la variable ya seleccionada (ri.y/xi)
d) Ajustar el modelo, si F parcial mayor que el crtico, queda en el
modelo, y
e) Volver a b) hasta que la variable a incluir no alcance el F crtico.
Stepwise selection El procedimiento stepwise o paso a paso, tiene el mismo

algoritmo anterior, pero en cada paso pueden salir variables que ya hayan entrado que,
con la incorporacin de nuevas variables desciendan su F parcial por debajo del crtico.
Ejemplo 1.-
Supongamos que se pretende explicar la conducta de una variable Y a partir de

tres variables independientes X1, X2 y X3, y se tiene la siguiente tabla:
Y X1 X2 X3
2 1 2 1
4 2 3 2
6 3 4 1
8 4 5 2
10 4 6 1
12 5 7 2
14 6 8 1
171
16 7 9 2
19 8 10 1
20 9 11 2
22 10 12 1
24 11 14 2
25 12 15 1
28 13 16 2
30 14 17 1
32 15 18 2
34 16 19 1
36 17 19 2
37 18 20 1
40 19 21 2
44 20 22 1
Si realizamos un anlisis de regresin mltiple obtenemos:
Y = 0.819 + 0.373X1+0.346X2+0.375X3; F3,17 = 1398.5; p << 0.001, con un R2=0.995 y

rM=0.998.
Es decir obtenemos un modelo lineal con un 99.5 % de la variabilidad explicada

por el modelo. Sin embargo si realizamos un procedimiento de bacward selection, se
obtiene:
Y = 0.664 + 2.1X1; F1,19= 4259.6; p << 0.001, con un R2 = 0.995 y r = 0.998.
Es decir de las tres variables slo es relevante la X 1, obteniendo una variabilidad

explicada prcticamente igual.
XVI.6.- Anlisis de vas (o sendas)
Este anlisis tiene por objetivo descomponer la correlacin entre un predictor (Xk)
y una variable dependiente (Y) en los efectos directos sobre ella y los efectos indirectos.
O sea, los provocados a travs o por mediacin de algn otro predictor ({Xi}).
Si en una regresin mltiple estimada: Y = b0 +b1X1 +..bpXp hacemos el cambio

yy xx
de variables y' y x' se obtiene Y = bs1X1+.bspXp, donde bsi
sy sx
corresponde al coeficiente de regresin parcial estandarizado:
172
s xi bi
bsi
sy
Despus de algn trabajo algebraico sobre las ecuaciones normales de la regresin

es posible lograr, en los casos bivariado y trivariado las descomposiciones:
bs1 r12 bs 2 r13bs 3 r1 y

bs1 r12 bs 2 r1 y
y r12 bs1 bs 2 r23bs 3 r2 y
r12 bs1 bs 2 r2 y
r13bs1 r23bs 2 bs 3 r3 y
A los coeficientes bs se les denomina coeficientes de va. En forma natural, la

descomposicin se puede extender al caso de ms variables.
Si los predictores son independientes entre s, entonces los coeficientes de va

corresponden a las correlaciones simples entre los predictores e Y: b r . si iy
Adems la variabilidad explicada esta dada por el coeficiente de determinacin

R 2 riy2
y por lo tanto la es posible calcular la variabilidad no explicada como
rUy2 1 R 2
Cuando existe correlacin entre los predictores, se puede escribir la ecuacin

general:
b 2
si
2 bsi bsj rij ruy2 1
i j
El anlisis de vas o sendas es un anlisis muy poderoso ya que permite proponer

y docimar un modelo pre-establecido entre los predictores y la variable dependiente.
Adems combinado con un procedimiento de seleccin se pueden eliminar variables y
en aquellas variables que quedan en el modelo se puede estudiar que proporcin de los
efectos son directos y que proporcin es indirecta.
XVI.7.- Regresin logstica mltiple
La regresin logstica simple se puede extender fcilmente al caso multivariado,

por ejemplo p variables, y al caso de variables cualitativas multiestado, por ejemplo k
estados. En este caso la funcin logstica es de la forma:
1
P( I j ) ( j i xi )
1 e i
173
En este caso, se obtienen k funciones que solo difieren en la constante , una para
cada estado.
En algunas ocasiones la funcin logstica se utiliza con un fin heurstico pudiendo

hacer seleccin de variables mediante un procedimiento stepwise. En otras ocasiones,
lo que es muy habitual en anlisis multivariado, se utiliza la funcin logstica con un fin
de clasificacin o discriminacin de grupos o estados, siendo una alternativa al anlisis
discriminante (ver mas adelante). En estos casos, los coeficientes i representan el
peso que tiene cada variable Xi en la discriminacin de los estados o grupos. Adems
en base a las funciones logsticas se establecen valores puntuales que permiten decidir la
pertenencia a uno u otro grupo de un caso a partir de las medidas de las {X i}. Utilizando
la funcin logstica en forma recursiva sobre los casos que permitieron construirla y los
puntos de discriminacin se puede obtener una tabla de clasificacin:
Tabla de Clasificacin
Predicho (+) Predicho(-) Total
Observado(+) A b A+b
Observado(-) C d C+d
Total a+c b+d N = a+b+c+d
Esta tabla es exactamente igual a las tablas usadas en diagnstico mdico, por lo
que pueden ser descritas con las medidas habituales de Sensibilidad, Especificidad,
Valores predictivos y Certeza, en este caso no de un examen, sino de la funcin logstica.
Adems es posible realizar un anlisis de concordancia.
Anlisis de concordancia
El anlisis de concordancia permite comparar la certeza de un examen (en este

caso la funcin) con la certeza que podra esperarse por simple azar.
En la tabla observamos que la certeza es C = (a+c)/n. Sin embargo, si calculamos

los valores esperados para las celdas de la diagonal de la tabla en la forma habitual usada
en tablas de contingencia, estos son: (a+c)(a+b)/n y (b+d)(c+d)/n, por lo que por simple
azar podra esperarse una certeza de
(a c)( a b) (b d )(c d )

n n (a c)( a b) (b d )(c d )
Cz
n n2
174
De esta manera, existe un rango de certeza restringido entre el valor de azar C =
Cz y la certeza mxima C = 1, que podra ser atribuible a la funcin. Entonces tiene
sentido el estadgrafo:
C Cz

1 Cz
Este representa la fraccin de concordancia no azarosa, cuyo valor mximo es 1.
Es posible probar H0: = 0 vs 0 mediante:

z
C z (1 C z )
n
Ejemplo 2.-
Supongamos que despus de un anlisis de regresin logstica se obtuvo la

siguiente tabla de clasificacin:
Tabla de Clasificacin
Predicho (+) Predicho(-) Total
Observado(+) 16 2 18
Observado(-) 5 4 9
Total 21 6 27
Entonces C = 20/27 = 0.74. Los valores esperados por azar en la diagonal seran:
21x(18/27) = 14 y 6x(9/27) = 2, por lo que al azar se podra tener una concordancia de
0.74 0.5926
Cz =(14+2)/27 = 0.5926. Entonces:
1 0.5926
0.361
Para ver si esta concordancia es diferente de 0, calculamos:

175
0.361
z 3.81
0.5926(1 0.5926) , y como 3.81 > 1.96, se rechaza H0 y se concluye
27
que la capacidad de clasificacin es mayor que la esperada por azar.
176
XVII.- ANALISIS DISCRIMINANTE
XVII.1.- Fundamento
Como lo dice su nombre, el objetivo del anlisis discriminante es discriminar

grupos a partir de un conjunto de variables medidas {X i}. Se intenta responder la
pregunta Cul es la mejor combinacin de variables que permite diferenciar entre dos o
mas grupos previamente conocidos? Es por tanto, un mtodo a posteriori, que necesita
de conocer a que grupo pertenecen las variables medidas.
El caso ms sencillo es aqul en que se tienen dos grupos o poblaciones ( i, i =

1,2), de tamaos ni en los que se estudian un conjunto de p variables {X j}. En este caso
se busca una funcin (funcin lineal discriminante) que sea una combinacin lineal de
las variables, del tipo:
L 1 X 1 2 X 2 ........ p X p o, en trminos matriciales L [ X ]T []
Se requiere adems que esta funcin tenga una mxima discriminacin.
Si dividimos la variabilidad total (o suma de cuadrados (T)): T ( Lik L ) en 2
i ,k
sus dos componentes clsicos, la suma de cuadrados dentro de grupo (W, de within) y
la suma de cuadrados entre grupos (B, de between), de manera que T = B + W, se
obtiene:
W ( Lik Li ) 2 y B ni ( Li L ) 2 n1n2 ( L1 L2 ) 2
i ,k i n1 n2
A partir de esta descomposicin, ahora es posible definir discriminacin (D) como

el cuociente entre la suma de cuadrados entre y dentro de grupos:
D B /W
El problema se reduce ahora a encontrar los coeficientes { i} que hacen mxima

la discriminacin D. Es decir {i}, tal que: D/i = 0.
Se puede demostrar que esto matemticamente conduce a un problema de valores

(Eigenvalues: i) y vectores propios. La solucin indica que el conjunto de coeficientes
{i} para el caso de dos poblaciones es el vector propio de [D], asociado a su valor
propio ():
177
[] []1 [ X 1 X 2 ] []1 [d ]
Este es un resultado muy til pues por su estructura la matriz de coeficientes ([B]
o {i}) es muy similar a la distancia de Mahalanobis, por lo tanto a T 2 de Hottelling y,
entonces se puede docimar a travs de una F (ver MANOVA):
DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] [d ]T []
Este razonamiento se extiende naturalmente al caso de ms poblaciones, por

ejemplo q poblaciones. En este caso se obtienen q-1 funciones discriminantes, a
menudo llamadas ejes cannicos. Cada funcin tiene asociado un valor propio ( i) que
da cuenta de la proporcin de discriminacin explicada por dicha funcin, y un vector
propio que contiene los coeficientes {i}.
Se puede probar la capacidad de discriminacin de cada funcin o eje cannico a
pq
travs de {n 1 }ln(1 j)
2
j i
que se distribuye siguiendo a 2p+q-2j.
i 2
XVII.2.- Clasificacin
El anlisis discriminante puede ser usado a posteriori como una funcin de

clasificacin en el mismo sentido que la regresin logstica. Por ejemplo para dos
L1 L2
poblaciones se puede escoger un punto L* ( ) que permite decidir si un caso al
2
que se le han medido las p variables {X i} pertenece a la primera o segunda poblacin.
En forma completamente anloga al caso de la regresin logstica se puede obtener una
tabla de clasificacin, con sus respectivos parmetros y realizar un anlisis de
concordancia.
178
Ejemplo 1.-
Supongamos que nuestro inters es discriminar dos grupos A y B a partir de tres

variables X1, X2 y X3, y que se tiene la siguiente tabla:
X1 X2 X3
A 4 1 1
A 5 2 2
A 4 1 3
A 4 2 4
A 5 1 5
B 2 2 3
B 3 1 4
B 3 2 5
B 4 1 6
B 2 2 7
Al realizar un anlisis discriminante, se obtiene la funcin:

FD = 1.004X1+0.267X2-0.647X3, con un valor propio = 2.79; con un valor 23 = 5.59, p
= 0.036 y usando el criterio FD = 0, una certeza del 100%.
Es decir la funcin discriminante es excelente (100% de certeza), con una

capacidad de discriminacin significativa (p<0.05). Adems en la funcin pesan
especialmente las variables X1 y X3.
Este mismo problema se puede abordar con regresin logstica mltiple. En este
caso se obtiene:
1
P ( I A) con un 23 = 13.83, p = 0.0031 y una certeza del
1 e ( 5.7 10.1 X 1 0.7 X 2 7.6 X 3 )
100%.
179
XVIII.- ANALISIS DE COMPONENTES PRINCIPALES
XVIII.1.- Fundamentos
A diferencia del anlisis discriminante, cuyo fin es discriminar grupos

previamente conocidos, el anlisis de componentes principales tiene como fin
fundamental buscar combinaciones de variables que expliquen la variabilidad del
fenmeno, reduciendo el nmero de variables. Su fin secundario, aunque muy habitual
es ordenar en base a las nuevas variables obtenidas, un conjunto de poblaciones. En este
caso se debe notar que el mtodo no tiene por objetivo discriminar sino ordenar y que es
a priori, es decir que para construir las nuevas variables no necesita conocer los grupos.
Dado un conjunto de p variables medidas a una o ms poblaciones {X i}, interesa

un conjunto de i variables construidas como combinacin lineal de las {Xi} y que
adems sean ortogonales o independientes entre s. Tales variables son del tipo:
y k vk 1 X 1 vk 2 .......vkp ; k 1,2,... p
Xi X
Realizando la estandarizacin habitual Z i si
la relacin anterior se puede
escribir matricialmente:
[ ] [V ]T [ Z ] ,
donde la matriz [] corresponde a la matriz de coeficientes { k= yki
estandarizados}, [V] es la matriz de coeficientes {vki} y [Z] el vector de variables
estandarizadas.
Se puede demostrar fcilmente que la esperanza E[] es la matriz nula, y que la

varianza V [ ] [V ]T []Z [V ] [V ]T [][V ]
Matemticamente la idea es encontrar un conjunto de coeficientes {v ki} tales que

i) la matriz varianza covarianza sea diagonal, es decir k independientes entre s y que
adems ii) la varianza sea mxima. Si adems introducimos la condicin normalizadora
de que iii) los coeficientes {vki} tengan mdulo 1 (vkTvk = 1; o v2k = 1), entonces
introduciendo multiplicadores de Lagrange, se puede demostrar que:
[V [ ]]
0 [ I ] v k 0
v k
Es decir, los coeficientes buscados {vk} son los vectores propios asociados a cada
valor propio {i} de la matriz de correlacin entre las variables ([ ]). Adems la traza
180
de [ ] = i = p, y entonces la proporcin de la varianza que explica cada componente
k es k/p. As un componente con un valor propio menor que 1 es con toda seguridad
irrelevante.
Observamos entonces que en el anlisis de componentes principales se maximiza

la variabilidad total y no la discriminacin, y que en la prctica la extraccin de
componentes principales slo consiste en encontrar valores y vectores propios en la
matriz de correlacin.
Cada componente k tiene esperanza 0 y varianza k. Si definimos ahora fk = k/(

k), entonces fk es un componente estandarizado con esperanza 0 y varianza 1. Entonces
la matriz [F] = [fk] se puede escribir:
1 / 1 . 0

[F ] 0 . 0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ]
0 0 1 / p

Con esta ltima estandarizacin la matriz [F s] se denomina Factor score

coefficients y da informacin de la composicin de cada factor f k estandarizado para
varianza 1.
Por otra parte, es posible establecer la correlacin entre las variables

estandarizadas (Zi) y los componentes estandarizados f k. Esta matriz de correlacin
([FL]) se denomina Factor structure que contiene a los factor loadings:
1 1 1 1
[ FL ]
n
( Z i Z )( f i f ) T n Z i f i n Z i [ L1 / 2V T Z i ]T n VL1 / 2
Adems, como V V T L ,
[ FL ] VL1 / 2
Podemos escribir entonces las variables en funcin de los componentes

estandarizados:
[ Z ] [ FL ][ F ]
Esta expresin nos muestra que cada variable se puede expresar como
combinacin lineal de los componentes y los coeficientes o factor loadings muestran el
peso de la variable en dicho componente.
181
Con esta estandarizacin adems FLk2 representa la proporcin de la variabilidad
de Zk relacionada con los factores, por lo que se denomina comunalidad, y entonces la
fraccin no explicada 1- FLk2 es la especificidad de la variable.
Cuando se realiza un anlisis de componentes principales, interesa primero saber

si se justifica hacerlo. Esta pregunta se refiere a lo siguiente: si las variables medidas no
estuvieran correlacionadas de partida, entonces no tiene sentido la bsqueda de
componentes ortogonales. A raz de esto Bartlet propuso primero estudiar la matriz de
correlacin y someter a prueba de hiptesis H 0: 0 vs H1: 0 . Para esto propuso, el
siguiente estadgrafo:
1
{( n 1)
6
( 2 p 5)} ln que se distribuye como 2p(p+1)/2.
Adems despus del anlisis importa saber cuantos componentes son relevantes
para dar cuenta de la variabilidad total. Esto tiene una solucin muy prctica y usada:
usar todos los componentes cuyo valor propio es mayor que 1. Otra solucin es
considerar q componentes y someter a prueba si la correlacin residual es o no
diferente de 0: H0: residual 0 vs H1: residual 0 . En este caso se usa el estadgrafo:
residual
1 2 C
{( n 1) ( 2 p 5) q} ln C donde q p j p q
6 3
1
j (
pq
)
En este caso se inicia con q = 1, subiendo progresivamente hasta que la

correlacin residual sea irrelevante, es decir hasta aceptar H0.
Ejemplo 1.-
Usando la misma tabla del captulo anterior, podramos estar interesados en cuales
son las combinaciones de variables que dan cuenta de la variabilidad de las poblaciones
A y B (no en discriminar). En este caso un anlisis de componentes principales muestra:
CP1 = 0.55X1-0.667X2+0.50X3
CP2 = -0.65X1+0.035X2+0.76X3
CP3 = 0.52X1+0.74X2+0.41X3
Componente (Factor (Factor (Factor score Valor propio %

score de X1) score de X2) de X3) () acumulado
de la
182
varianza
CP1 0.53 -0.44 -0.40 1.57 52.6
CP2 0.037 -0.69 0.71 0.88 82.18
CP3 -0.4 0.80 0.56 0.53 100.0
Esto indica que slo el primer componente es relevante ( >1). Los factor loadings
son -0.84; 0.69 y 0.63 para X 1, X2 y X3 respectivamente, por lo que CP1 est
fundamentalmente asociado a X1. Adems podran usarse los valores de los dos primeros
componentes en cada caso para graficar ambas poblaciones, ordenndolas.
2
1
1
2 2
1
var5
0
1 1
-1
1
-2
-2 -1 0 1 2
var4
Grfico de las poblaciones A y B codificadas respectivamente como 1 y 2, en

funcin de los dos primeros componentes principales (Software SATATA 8.0 ).
183
XIX.- CORRELACION CANONICA, ANALISIS DE
CORRESPONDENCIA Y ANALISIS CANONICO DE CORRESPONDENCIA
XIX.1.- Correlacin cannica
Supongamos que en una poblacin se miden un conjunto {W i} en el que podemos

separar dos tipos de ellas {Xi} e {Yi}, que miden atributos diferentes, por ejemplo
variables ambientales y fisiolgicas, o habilidades verbales y matemticas etc. En
muchas ocasiones interesa estudiar la forma en que se asocian o correlacionan estas
variables. Matemticamente esto consiste en buscar pares de funciones lineales
[Uk ,Vk ], del tipo:
U k a k 1 X 1 .........a kp X p
Vk bk 1Y1 ...........bkqYq
tales que la correlacin entre Uk y Vk sea mxima.
Si ordenamos las variables {X1.Xp,Y1..Yp} en una matriz de correlacin, esta

se puede dividir en cuatro sectores, cada uno con una matriz: [A] con las correlaciones
entre las {Xi}; [B] con las correlaciones entre las {Y i}; y [C] con las correlaciones entre
Xi e Yi. De esta manera la matriz se puede escribir:
[ A] [C ]

[C ]
T
[ B ]
El problema de correlacin mxima como ya es habitual se resuelve como un

problema de valores y vectores propios:
[( B 1C T A 1C I )V ] [O ]
Los valores propios obtenidos (k) corresponden a Rk2, es decir representan la

parte de la determinacin que le corresponde al par {U k,Vk} . Adems los coeficientes
{bi} de la funcin V corresponden a los vectores propios de la ecuacin caracterstica y
los coeficientes {ai} de la funcin U estn dados por:
ai [ A]1 [C ]bi
As mediante este mtodo se obtienen pares de funciones lineales que dan cuenta
de la correlacin entre las variables. Esto permite visualizar como se correlacionan las
configuraciones o combinaciones de variables. Por ejemplo si se tiene un par U 1 =
0.4X1+0.1X2+0.8X3 y V1=0.3Y1+0.6Y2+0.04Y3 con un 1=0.6; esto indica que el par
U1,V1 determina el 60% de la asociacin y que en U 1 son determinantes las variables X1
y X3 y en V1 predomina Y2. Esto sugiere una relacin entre stas.
184
Se puede probar el nmero de pares de funciones cannicas necesarios para dar

cuenta de la correlacin probando la hiptesis H0: H0: 0 vs H1: 0 mediante:
1 r
2k {n ( p q 1)} ln(1 i ) donde r es el menor entre p y q, y k varia desde 0 a r.
2 i 1 k
Es decir se rechaza H0 y se van removiendo los pares hasta que su contribucin a la

correlacin se vuelva irrelevante. Este estadgrafo se distribuye siguiendo a 2(p-k)(q-k).
Ejemplo 1.-
Si usamos la tabla del ejemplo1 del captulo de regresin mltiple, e intentamos

un anlisis de correlacin cannica considerando Y y X1 como un tipo de variables y X2
y X3 como un segundo tipo, obtenemos un primer par cannico de funciones:
U1 = -0.38Y-0.62X1; V1 = -X1 + 0.0265X2 con un valor propio 1 = 0.993 y un 24 = 87.1;

p <<0.001. El segundo par cannico (U 2,V2) es irrelevante, con un 2 = 0.006 y un 24 =
0.11; p = 0.7. La correlacin cannica del primer par es R = 0.9965 (1).
XIX.2.- Anlisis de correspondencia
El objetivo de ste anlisis es la bsqueda de asociacin o correspondencia entre

dos o ms conjuntos de variables cualitativas mltiples, por ejemplo {X i} e {Yi}.
Bsicamente consiste en la bsqueda de un conjunto de races y sus eigenvalues que den
cuenta de la asociacin entre estos dos o ms grupos de variables. Cuando se trata de dos
grupos de variables, se analiza la tabla de doble-entrada (contingencia) que contiene las
frecuencias de presentacin de stas. Por ejemplo {X i} puede ser un conjunto de
especies (Spi), {Yi} puede ser un conjunto de biomas (Bi), lo que conduce a la tabla:
B1 B2 .. Bq
Sp1 n11 n12 . n1q
Sp2 n21 n22 . n2q
. . . .
Spp np1 np2 . npq
En sta tabla el anlisis obvio para la bsqueda de asociacin es el test de 2 para

tablas de contingencia. Como el valor de este estadgrafo depende de la frecuencia total
(nOO), se ha definido como medida de asociacin, la Inercia (I) que se expresa:

2
I
nOO
185
El anlisis permite descomponer la inercia (o asociacin) en un conjunto de

dimensiones (vectores propios) ortogonales que explican esta asociacin. El mximo
nmero de dimensiones extrables corresponde al valor mnimo entre (filas-1) y
(columnas-1).
Ejemplo 2.-
Supongamos que tenemos 4 especies A, B, C, D distribuidas en 3 ambientes K, L

y M, y que hemos registrado las frecuencias en la siguiente tabla:
K L M
A 1 2 4
B 4 3 5
C 5 6 7
D 6 4 3
Si realizamos un anlisis de correspondencia obtenemos una inercia de I = 0.065 y

las primeras races o dimensiones: U1 = (-0.44;-0.027;-0.061; 0.35) y V1 = (0.31; 0.016;
-0.28), con un valor propio 1 = 0.06 y R = 0.245. Sin embargo 26 = 3.26, p = 0.77. Es
decir en este caso no existe una asociacin significativa entre las especies y los
ambientes.
Reciprocal averaging
Este mtodo permite una variacin sobre el anlisis anterior. Al igual que en el
caso anterior, se tiene una matriz de datos donde las filas se ordenan segn una variable
(X) o sus niveles, las columnas se ordenan segn otra variable o sus niveles (Y) y las
celdas de la matriz son ocupadas por las frecuencias de presentacin de las
combinaciones o bien cualquier caracterstica de inters, por ejemplo la biomasa de las
especies.
B1 B2 .. Bq
Sp1 n11 n12 . n1q
Sp2 n21 n22 . n2q
. . . .
Spp np1 np2 . npq
Se pueden buscar las races o dimensiones que maximizan la asociacin entre los
pares {Bk,Spk}. Esto se puede hacer por el mtodo de reciprocal averaging. En este
mtodo se calculan iterativamente los promedios ponderados (weighted average)
186
renormalizados de filas y columnas y hasta lograr la estabilizacin. El vector estable
corresponde a la primera dimensin y tiene asociado un eigenvalue ( k ).Se puede
demostrar que al igual que la correlacin cannica, conduce a pares de funciones
lineales con su valor propio asociado k, que corresponde a k=Rk2. Cada par de
funciones es ortogonal al anterior. Esto se logra porque una vez obtenido el primer par
de funciones, se contina con el anlisis estableciendo la correlacin con la funcin
anterior y trabajando con los residuales.
187
XX.- ANALISIS DE CONGLOMERADOS (CLUSTER)
XX.1.- Fundamentos
El objetivo del anlisis de conglomerados es la bsqueda de grupos o una

organizacin jerrquica de ciertas unidades, a partir de un conjunto de variables medidas
en ellas {Xi}. En este sentido por ejemplo, es muy til para agrupar especies animales a
partir de caractersticas morfolgicas. Necesita del conocimiento previo de las unidades
para hacer el anlisis, por lo que ste es a posteriori. Necesita tambin de una medida de
similitud entre las unidades, o bien una medida de distancia entre ellas.
XX.2.- Medidas de similitud y distancia
Las medidas de similitud y distancia entre dos unidades (j y k), cada una
caracterizada por los valores de las variables medidas {X i}, pueden ser de diferentes
tipos dependiendo de la naturaleza de las variables: medidas de distancia, medidas de
correlacin y medidas de asociacin.
Medidas de distancia
Cuando se usan medidas de distancia, la mxima similitud corresponde a la

mnima distancia, o sea cero.
Si las variables son cualitativas de doble estado (presencia-ausencia: 1 o 0) podra

usarse por ejemplo como medida de distancia la diferencia promedio de caracteres
(Mean carcter difference MCD), que representa la proporcin de diferencia entre dos
unidades.
p
X ij X ik
MCD i 1
Si las variables son cualitativas ordinales de mltiples estados (variables

multiestado) tiene sentido usar la distancia de Manhattan (DM) que acumula las
diferencias de orden de cada variable entre las unidades:
p
DM X ij X ik
i 1
188
Si las variables son cuantitativas o predominantemente cuantitativas se puede usar
la distancia Euclidea (en sentido matemtico) o Taxonmica (D):
p
D (X
i 1
ij
X ik )
Tambin en este ltimo caso es posible usar alguna distancia que incorpore la
variabilidad como la distancia de Mahalanobis o usar una distancia en coordenadas
polares como la distancia de Nei. Sin embargo, stas se utilizan menos, o tienen uso mas
restringido.
Medidas de correlacin
As como entre dos unidades se puede establecer una distancia, tambin se puede
medir la similitud entre ellas usando el coeficiente de correlacin. En el caso que las
variables sean cuantitativas continuas esta indicado el coeficiente de correlacin de
Pearson. Si en cambio algunas variables no son continuas o son simplemente ordinales,
se puede usar el coeficiente de correlacin de Spearman. En este caso la mxima
similitud es 1.
Medidas de asociacin
Cuando se caracterizan unidades es muy habitual usar variables doble-estado o

presencia-ausencia. En este caso se pueden usar medidas de asociacin que permiten
valorar en forma diferencial las coincidencias y desacuerdos. Por ejemplo vale lo
mismo que dos especies tengan una mancha roja (1,1) a que ambas no la tengan (0,0)?
Debemos observar que ambas son coincidencias y que la diferencia media de caracteres
las valora igual, en ambos casos X ij-Xik = 0. Existen muchas medidas de asociacin para
estos casos, cuyo uso depende del problema a estudiar.
Si agrupamos las observaciones en una tabla de 2x2, obtenemos:
UNIDAD 1
1 0
UNIDAD 2 1 A B
0 C D
En este caso los nmeros a y d representan las coincidencias y los nmeros b y c

los desacuerdos. A partir de esta tabla existen diferentes medidas:
ad
Apareamiento simple (simple matching): SM
abcd
189
a
Coeficiente de Jaccard: J
abcd
ad
Coeficiente de Roger y Tanimoto: RT
a 2b 2c d
2a
Coeficiente de Dice: CD
2a b c
2( a d )
Coeficiente de Sokal y Sneath: SS
2(a d ) b c
(a d ) (b c )
Coeficiente de Hamann: H
abcd
XX.2.- Mtodos de agrupacin
Los mtodos de agrupacin parten desde la matriz [D] que contiene las distancias
o similitudes entre las unidades a agrupar. Cuando contiene similitudes es preferible
convertirlas a distancia para facilitar el uso del algoritmo. Por ejemplo si el mximo de
similitud es S = 1, se puede usar como distancia D = 1-S.
Todos los mtodos consisten en ir agrupando en grupos o niveles jerrquicos

mayores a aquellos pares de unidades que tienen la menor distancia. Sin embargo, los
mtodos difieren en la ponderacin que se le pueda dar al nmero de elementos que
tenga cada unidad (weighted pair group) o en el algoritmo que se sigue despus de que
se han formado unidades jerrquicas mayores. En este ltimo caso hay que definir las
distancias entre una unidad particular (P) y un grupo jerrquico mayor (distancia DG)
que contiene por ejemplo dos unidades (A y B). Se puede observar en este caso que
existe una distancia PA y una PB y entonces se puede caracterizar la distancia DG como
DA DB
la distancia promedio (Mtodo de la distancia promedio): DG
2
, como la
distancia menor (simple linkage) o la distancia mayor de las dos (complete linkage). Lo
ms habitual es el uso del mtodo UPGMA o mtodo de agrupacin promedio de los
pares no ponderados. Es decir sin ponderacin y distancia promedio.
Ejemplo 1.-
190
Supongamos que se estudiaron 5 especies obteniendo la siguiente matriz de
distancias:
A B C D E
A 0 1 0.5 3 2
B 0 0.4 3 2
C 0 1 4
D 0 2
E 0
Escogemos la distancia menor que en este caso es D(BC) = 0.4 y formamos en

primer cluster BC. Para determinar las distancias desde cada especie al grupo BC
usaremos simple linkage (distancia menor). Entonces esta matriz conduce a:
A BC D E
A 0 0.5 3 2
BC 0 1 2
D 0 2
E 0
Nuevamente escogemos la distancia menor D(A-BC) = 0.5 obteniendo el cluster

ABC y calculamos las nuevas distancias:
ABC D E
ABC 0 1 2
D 0 2
E 0
Ahora la distancia menor es D(D-(ABC)) = 1, formndose el grupo ABCD. A

continuacin:
ABCD E
ABCD 0 2
E 0
Entonces E se incorpora al grupo a una distancia 2. Finalmente se puede graficar

como:
191
Si en cambio utilizamos UPGMA, a partir de la primera matriz obtendramos la

siguiente:
A BC D E
A 0 0.75 3 2
BC 0 2 3
D 0 2
E 0
Y a continuacin:
ABC D E
ABC 0 2.33 2.67
D 0 2
E 0
Notamos que para calcular las distancias desde una especie a un grupo o cluster
tenemos que volver a la matriz inicial y promediar las distancias. Ahora la distancia
menor es D(E-(ABC)) = 2. Y llegamos a la matriz:
192
ABCE D
ABCE 0 2.25
D 0
Entonces ahora podemos graficar:

193
BIBLIOGRAFIA
Azocar MR (1974) Probabilidad Matemtica. Universidad Catlica de Chile, Instituto

de Matemticas (Apunte).
Brown D & Rothery P (1993) Models in Biology: Mathematics, Statistics and

Computing. John Wiley & Sons, New Jork.
Cochran WG (1980) Tcnicas de Muestreo. Compaa editorial Continental SA,

Mexico.
Cramer H (1945) Mtodos Matemticos en Estadstica. Aguilar SA, Madrid.
Cramer (1966) Elementos de la Teora de Probabilidades. Aguilar SA, Madrid.
Feller W (1968) An Introduction To Probability Theory And Its Applications. John

Wiley & Sons, New Jork.
Hair JF, Anderson RE, Tatham RL & Black WC (1999) Anlisis Multivariante . Prentice
Hall, Madrid.
Hollander M & Wolf DA (1972) Nonparametric Statistical Methods. John Wiley &
Sons, New York.
Manley FJ (1986) Multivariate Statistical Methods, A Primer. Chapmann & Hall,

London.
Sackett DL, Strauss SS, Richardson WS, Rosenberg W & Haynes RB (2001) Medicina
Basada En La Evidencia. Harcourt, Madrid.
Siegel S & Castellan NJ (1988) Nonparametric Statistics For The Behavioral Sciences.
McGraw-Hill, New Jork.
Silva C & Cumsille F (1984) Calculo de Probabilidades. Universidad de Chile, Escuela

de Salud Pblica. (apunte).
Snedecor GW & Cochran WG (1980) Statistical Methods. The Iowa University Press,
Iowa.
Sokal RR & Rohlf FJ (1995) Biometry: The Principles And Practice Of Statistics In
Biology Research. WH Freeman, New Jork.
194
Steel RGD & Torrie JH (1980) Bioestadstica: Principios Y Procedimientos. McGraw-
Hill Latinoamericana SA, Bogot.
Taucher E (1997) Bioestadstica. Editorial Universitaria, Santiago, Chile.
Zar JH (1996) Biostatistical Anlisis. Prentice Hall, New Jersey.

195
ANEXO I.- FORMULAS UTILES
II.- ESTADSTICA DESCRIPTIVA
Frecuencia relativa hi ni / n
i j
Frecuencia acumulada N j ni
i 1
i j
Frecuencia acumulada relativa H j hi

i 1
x
Promedio x i
Promedio si la serie ha sido agrupada y

ni yi
hi yi
n
c L ( n / 2 N L 1 )
Mediana Me y ' L1 nL
c L ( np / 100 N L 1 )
Percentil de orden p Pp y ' L 1 nL
xi2
Varianza s x 2
2
n
ni yi2
Varianza en una serie agrupada s 2 y 2 hi yi2 y 2
n
Desviacin estndar s s2
Coeficiente de Variacin CV s / x
Error estndar (Es): Es s / n

196
III.- PROBABILIDADES
casosfavorables
Probabilidad P( A)
casosposibles
Aditividad finita: Si Ai Bi = , para cualquier i, j, entonces P ( Ai) = P (Ai)
Probabilidad Compuesta: P(A B) = P(A) + P(B) P(A B)
Probabilidad de que ocurra al menos un evento: P( Ai)= 1 P( AiC), lo que se

interpreta como P(alguno) = 1 P (ninguno)
P( A B)
Probabilidad condicional P( A / B)
P( B)
Probabilidad conjunta Si A y B son independientes, entonces P(A B) = P(A) P(B)

(teorema de la y)
Probabilidad total P( A) i P( A / Bi ) P( Bi )
P( A / Bi ) P( Bi )
Teorema de Bayes P( Bi / A)
j P( A / B j ) P( B j )
p
Chance u odds O
1 p
a
Sensibilidad S P( / E )
ab
d
Especificidad Sp P ( / noE )
cd
a
Valor predictivo positivo VPP P ( E / )
ac
d
Valor predictivo negativo VPN P ( noE / )
bd
ad
Certeza diagnstica P (C )
n
197
S
Razn de verosimilitud (+) LR P( / E ) / P( / noE ) P( / E ) /(1 P( / noE )) 1 Sp
Razn de verosimilitud (-) LR (1 S ) / Sp
1 1 1 1
IC1 [log LR Z / 2 ]
a d ab cd
Chance a posteriori Op LR Oo
a
Tasa de evento en el control CER P (evento / control )
ac
b
Tasa de evento en el grupo experimental EER P(evento / ex)
bd
1 1 1 1
Riesgo relativo RR EER / CER IC1 [log RR Z / 2
a b ac bd
]
Reduccin absoluta del riesgo ARR CER EER
Nmero necesario a tratar para un beneficio NNT 1/ ARR
Reduccin relativa del riesgo RRR (CER EER) / CER
Aumento absoluto del riesgo ARA EER CER
Aumento relativo del riesgo RRA ( EER CER ) / CER
Nmero necesario de expuestos para un dao NNH 1 / ARA
a / c ad
Razn de disparidades de la chance (Odds ratio) OR
b / d bc
1 1 1 1
IC1 [log OR Z / 2 ]
a b c d
IV.- VARIABLES ALEATORIAS
Distribucin de Bernoulli E[X] = p, V[X] = pq.

198
n k n k
Distribucin binomial P(X k) p (1 p)
k
E[X] = np, V[X] = npq.
N NpNp

Distribucin Hiergeomtrica
(XP k) kn k
N

n
E[X] = np, V[X] = npq(N-n)/(N-1).
k
Distribucin de Poisson P( X k ) e
k!
E[X] = V[X] =
Distribucin exponencial f ( x ) e x
E[X] = 1/ y V[X] = 1/2
199
x 2
DISTRIBUCIN NORMAL f ( x) (1/ 2 ) e (1 / 2 )[
]
E[X] = y V[X] = 2
V.- ESTIMACIN
Intervalo de confianza para una proporcin P y para la diferencia P1-P2
IC1 [ p Z / 2 pq / n ] IC1 [( p1 p 2 ) Z / 2 ( p1q1 / n1 p 2 q 2 / n2 ]
Intervalo de confianza para el promedio x y para la diferencia x1-x2
Si se conoce la varianza poblacional IC1 [ x Z / 2 / n ]
Si no se conoce IC1 [ x t (1 / 2 ) s / n]
Para la diferencia de promedios

(n1 1) s12 (n2 1) s 22
IC1 [( x1 x 2 ) t (1 / 2 ) Es ] donde Es (1 / n1 1/ n2 )
n1 n2 2
Estimadores en Medicina
Proporciones Sensibilidad, Especificidad, Valores

predictivos, certeza diagnstica, CER y
EER
Diferencia de proporciones Reduccin y aumento absoluto del riesgo:
ARR y ARA
Nmeros necesarios : NNT y NNH Ambos estn definidos como los valores inversos de
ARR y ARA respectivamente, por lo que en estos casos, se calculan los lmites de
confianza para ARR y ARA y se calcula su inverso.
Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR)
1 1 1 1
Para log RR: IC1 [log RR Z / 2
a b ac bd
]
1 1 1 1
Para log OR: IC1 [log OR Z / 2 ]
a b c d
1 1 1 1
Para log LR: IC1 [log LR Z / 2
a d ab cd
]
200
Z 2 / 2 PQ
Tamao muestral para estimar una proporcin n
d2
t12 / 2 s 2 Z 2 / 2 s 2
Tamao muestral para estimar un promedio n
d2 d2
Para confianzas del 95% se suele aproximar z2/2 = 4.
VI.- DOCIMASIA O PRUEBA DE HIPTESIS
VALOR DE VERDAD de
Ho
V (H1F) F (H1V)
DECISIN Rechazo Ho ERROR I () K = 1-
Acepto Ho C = 1- ERROR II ()
Dcimas para una muestra

p p0
Z
Dcima para una proporcin (P) p0 q0
n
x 0
t n 1
Dcima para un promedio s
n
Dcimas para dos muestras
( p 1 p 2 ) P0
Z p n p 2 n2
Dos proporciones 1 1 donde p0 1 1
p0 q0 ( ) n1 n2
n1 n2
Dcimas para dos promedios
Muestras independientes
c) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos:
x1 x 2 0
t n n 2 (n1 1) s12 (n2 1) s 22
donde sc
2
1 2
1 1
sc2 ( ) n1 n2 2
n1 n2
201
d) si no hay homocedasticidad, entonces usamos:
x1 x2 0
t gl
s12 s 22 pero los grados de libertad gl los estimamos mediante
( )
n1 n2
2
s12 s22

n n
gl 12 2 2
s12 s22

n1 n2
n1 1 n2 1
d
Muestras dependientes (pareadas) t n 1
sd / n
s M2
Dcima de Homocedasticidad F( n 1),( n 2 1)

1
s m2
VII.- ANLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS
( o e) 2
La distribucin 2 para tablas de contingencia ( r 1)( c 1)
2
i, j e
N ! N ! N ! N !
Prueba exacta de Fisher PF x P ( X x ); dondeP( X x) 1, 0 2,0 0 ,1 0 ,1
N 1 ,1 N 1,1! N1, 2 ! N 2 ,1! N 2 , 2 ! N 0 , 0 !
(o e) 2
La distribucin 2 para bondad de ajuste n2 p 1 e
n ( p p)
en donde p i ni p1 / n
i i
La distribucin 2 para proporciones 2 1
n 1
pq
202
VIII.- ESTADSTICA DE DISTRIBUCIN LIBRE O NO-PARAMTRICA
Prueba de los signos de Fisher B bi
Prueba de los rangos signados de Wilcoxon T bi Ri
no
Prueba de la suma de rangos de Wilcoxon- Mann-Whitney T1 Ri

1
(B C )2 ( B C 1) 2
Dcima de McNemar 12 o 2
(B C ) (B C)
1
IX.- ANLISIS DE LA VARIANZA (ANOVA o ANDEVA)
Anlisis de la varianza de 1 va o factor (ANOVA de 1 va).
FV SC Gl CM=SC/gl F P
T (entre) (Y 2
i0 / n) Y / nt
2
00 t-1 F =
i
CME/CMD
(dentro o yij Yi 0 / n t(n-1)
2 2
ij i
error)
TOTAL yij2 Y002 / nt
ij
nt-1
Transformaciones
Distribucin (y) Transformacin f(y)

Normal C = constante Y
Binomial (proporciones) y(1-y) arcsen(y)
Poisson (sucesos raros) Y y
Sin homocedasticidad y2 ln(y) o ln(y+1)
y4 1/y o 1/(y+1)
Binomial negativa arcsen(y)
Decreciente y2
L
Contrastes ortogonales t gle CMD c 2 / n
j
i i
yi 0 ycontrol
Prueba de Dunnet t d
2CMD / n
203
L2
Prueba de Scheff Ft 1, gle (t 1) CMD c 2 / n
i i
yi 0 y j 0
Qt , gle
Prueba de Tukey (CMD / 2) (
1 1
)
ni n j
Diseo de bloques aleatorizados

B1 T1 T3 T2
B2 T3 T2 T1
B3 T2 T1 T3
Diseo de medidas repetidas

T1 T2 T3
I1
I2
I3
I4
Diseos anidados, encajados o jerrquicos
T1 T2 T3
N1 N2 N1 N2 N1 N2
Cuadrado latino
b1 B2 B3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2
204
Parcelas divididas (split-plot)

B1 T1 t1 T3 T1 T2 t1
t2 T2 t2
B2 T3 t1 T2 T1 T1 t1
t2 T2 t2
B3 T2 t1 T1 T1 T3 t1
t2 T2 t2
2
t R
12
H 3(n 1)
0j
Prueba de Kruskall-Wallis: N ( N 1) 1 n j
N t
Relacin entre Kruskall-Wallis y ANOVA sobre rangos F H
( N 1 H )(t 1)
R0 j R0 k
Q , ,t
Comparaciones mltiples de Nemenyi (post- K-W) n(nt )(nt 1)
12
12
Prueba de Friedman t
2
R02 j 3b(t 1)
bt (t 1) j
R0 j R0 k
Q , ,t
Comparaciones mltiples post-Friedman b(t )(t 1)
12
X.- CORRELACIN Y REGRESIN
( x x )( y y ) x y nx y
Coeficiente de correlacin r
i i i i
( x x ) ( y y)
i
2
i
2
( x nx )( yi2 ny 2 )
i
2 2
r n2
Prueba de Hiptesis t n 2
1 r2
xi y i / n x y
Regresin: Pendiente e Intercepto B1 B0 y B1 x
xi2 / n x 2
Varianzas de la pendiente e intercepto
S yx2 1 x ei2
V [ B1 ] y V [ B0 ] S yx2 ( ) donde S yx2
(x i x)2 n ( xi x ) 2 n2
205
B*
Pruebas de Hiptesis tn2
V [ B* ]
ANOVA de la regresin
Fuente de SC Gl CM F1,n-2 P
variacin
Modelo ( yi' y ) 2 B12 ( xi2 nx 2 ) 1 SC/gl CMmodelo/CMresiduo
(Regresin)
Residuo (por diferencia) n-2 SC/gl
= Syx2
Total ( y i
y ) 2 yi2 ny 2 n-1
SCregresi n
Coeficiente de determinacin (R2) R2
SCTotal
ei2
Error tpico de la estima S yx S yx2
n2
Prediccin de un valor y para un valor xk (y/xk)
1 ( xk x ) 2
IC1- : y t n2 S yx 1
'
n xi2 ( xi ) 2 / n
k
Prediccin del valor y para xk
1 ( xk x ) 2
IC1- : y k t n2 S yx
'
n xi2 ( xi ) 2 / n
in
6 d i2
Correlacin no-paramtrico de Spearman (rs) r 1 i 1
n n
s 3
ANCOVA
Factor A
A1 A2 A3
Y X Y X Y X
206
Comparacin de dos pendientes:
11 12
t n1 n 2 4 SCresiduo1 SCresiduo 2
1 1 donde
2
S yxc
2
S yxc ( ) n1 n2 4
x12i x22i
XII.- ESTADISTICAS VITALES
x: representa la edad o estado etario
Nx: nmero de individuos al inicio de la edad x
N
lx: proporcin de sobrevivientes al inicio de la edad x; l x N
x
dx: nmero de muertos entre la edad x y x+1; l x N x N x 1
d (l x l x 1 )
qx: probabilidad de morir entre la edad x y x+1; q x N
x
lx
. A veces es til
x
definir la probabilidad de supervivencia p 1 q x x
(l x l x 1 )
Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx
2
Tx: tiempo remanente (o restante) al alcanzar la edad x: Tx

x
Lx
T
ex: esperanza de vida a la edad x: ex l
x
mx: nmero de cras o hijos entre x y x+1

l x mx
Vx: valor reproductivo a la edad x Vx x lx
Ro: Tasa reproductiva neta o bsica de una poblacin. R0

0
l x mx
207
e0: Esperanza de vida al nacer. e0 = e0.
yl m x x
G: Tiempo generacional. G x
R0
XII.2.- Comparacin de curvas de supervivencia
t
(Oi Ei ) 2
Prueba de Mantel-Haenszel o Logrank.
2
t 1
1 Ei
XIII.- REGRESION LOGISTICA
P 1
Modelo: log( ) X P
1 P 1 e ( X )
2
Estadgrafo de Wald (W) que se distribuye como 2 con un grado de libertad W ( )
S
( m2 2 p )
Seudo coeficiente de determinacin: R
2
2 L(0)
px
1 p x e ( x ) ( x x*)
La razn de chances (odds ratio) OR e .
p x* e ( x*)
1 p x*
XIV.- SERIES DE TIEMPO

p q
Modelo ARIMA X t at i ( X t i ) i ( at i )
1 1
i n k
(X t
X )( X t k X )
Autocorrelacin rk
i 1
i n
(X
i 1
t
X)
AR1 X t 1 ( X t 1 ) at
208
AR2: X ( X ) ( X ) a el decrecimiento de la FAC es ms lento y en

t 1 t 1 2 t 2 t
la FACP slo los dos primeros coeficientes son distintos de 0.
1 12
Adems r1 r
y 2 2 1
1 2 2

X t at 1 ( X t 1 ) , adems r1 1 2
1
MA1:
1
XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA)
T2 de Hotelling:
n1 n2 [ X 1 X 2 ]T [ ]1 [ X 1 X 2 ] (n 1)[1 ] (n2 1)[ 2 ]

T2 donde [] 1
n1 n2 n1 n2 2
Distancia de Mahalanobis DM [ X 1 X 2 ]T []1 [ X 1 X 2 ]
(n1 n2 p 1)T 2
Dcima Fp ,n1 n 2 p 1 ( p (n1 n2 2))
209
XVI.- REGRESION MULTIPLE
y1 1 x1 1
y 1 x
2 2 0 2
Expresin matricial de una regresin

. .1 1 .

y n 1 xn n
O, en trminos ms simples: [Y ] [ X ] [] []
Estimadores de los coeficientes de regresin ] [ X T X ]1 [ X ]T [Y ]

[
Regresin mltiple Modelo [Y ] [ X ] [] [] .
Ecuaciones normales de la regresin: ] [ X ]T [Y ]

[ X T X ] [
Coeficientes de regresin ] [ X T X ]1 [ X ]T [Y ]
[
La tabla de ANOVA:
Fuente de Grados de Suma de Cuadrados Fp,n-p+1

variacin libertad cuadrados medios
Modelo P
[][ X Y ] n[Y ]
T
SC/gl 2
CMmod/CME
Error n-(p+1) [Y Y ] [] [ X Y ] SC/gl=Syx2
T T T
Total n-1 [Y T Y ] n[Y ]2

210
SC mod elo
R2
SCT
Coeficiente de correlacin mltiple rM R2
Matriz inversa de correlacin 1 [bij ]
b jh b jy
Correlaciones parciales rj .h y en particular rj . y
b jj bhh b jj byy
Bacward elimination En este procedimiento se realiza el siguiente algoritmo:
f) Se realiza una regresin incluyendo todas las variables predictoras,

g) Se calculan los F parciales para cada variable, designando como F L
al menor,
h) Si FL es menor que el F crtico para prefijado, sacar la variable
correspondiente, y
i) Volver a a) con las variables que quedan hasta que F L sea mayor
que el crtico.
Forward selection El algoritmo es el siguiente:
a) Se realiza un estudio de correlacin simple entre los predictores y

la variable dependiente,
b) Seleccionar la variable con mayor riy y ajustar el modelo, si su F
parcial es mayor que el crtico se incluye la variable,
c) Calcular los coeficientes de correlacin parcial entre las variables
restantes e Y pero incluyendo a la variable ya seleccionada (ri.y/xi)
d) Ajustar el modelo, si F parcial mayor que el crtico, queda en el
modelo, y
e) Volver a b) hasta que la variable a incluir no alcance el F crtico.
Stepwise selection El procedimiento stepwise o paso a paso, tiene el mismo algoritmo

anterior, pero en cada paso pueden salir variables que ya hayan entrado que, con la
incorporacin de nuevas variables desciendan su F parcial por debajo del crtico.
s bi
Coeficiente de regresin parcial estandarizado o coeficiente de va bsi s
xi
y
211
bs1 r12 bs 2 r13bs 3 r1 y
bs1 r12 bs 2 r1 y
Descomposicin de la correlacin y r12 bs1 bs 2 r23bs 3 r2 y
r12 bs1 bs 2 r2 y
r13bs1 r23bs 2 bs 3 r3 y
Descomposicin general bsi 2 bsi bsj rij ruy2 1

2
i j
1
Regresin logstica mltiple, Modelo P( I j ) ( j i xi )
1 e i
Anlisis de concordancia
(a c)( a b) (b d )(c d )

Certeza azarosa C n n (a c)( a b) (b d )(c d )
z
n n2
C C
Concordancia 1 C
z

z
Prueba de Hiptesis C z (1 C z )
n
XVII.- ANALISIS DISCRIMINANTE
Discriminacin D B / W
Coeficientes de la funcin [] []1 [ X 1 X 2 ] []1 [d ]
Distancia de Mahalanobis DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] [d ]T []
pq
Prueba de Hiptesis {n 1 }ln(1 j)
2
j i
i 2
XVIII.- ANALISIS DE COMPONENTES PRINCIPALES
212
[V [ ]]
Maximizacin de la varianza total 0 [ I ] vk
v k
L os coeficientes buscados {vk} son los vectores propios asociados a cada valor propio
{i} de la matriz de correlacin entre las variables ([ ]). Adems la traza de [ ] = i
= p, y entonces la proporcin de la varianza que explica cada componente k es k/p.
Factor score coefficients

1 / 1 . 0

[F ] 0 . 0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ]
0 0 1 / p

Factor loadings [ FL ] VL1 / 2
Variables [ Z ] [ FL ][ F ]
Comunalidad FLk2
Especificidad 1- FLk2
Dcima de Bartlet: H0: 0 vs H1: 0
1
{( n 1)
6
( 2 p 5)} ln que se distribuye como 2p(p+1)/2.
Dcima de componentes relevantes H0: residual 0 vs H1: residual 0
residual
1 2 C
{( n 1) ( 2 p 5) q} ln C donde q p j pq
6 3
1
j (
pq
)
XIX.- CORRELACION CANONICA Y ANALISIS DE CORRESPONDENCIA
[ A] [C ]
Matriz de Correlacin [C ]T [ B]

Problema de valores y vectores propios [( B 1C T A 1C I )V ] [O ]
Los valores propios obtenidos (k) corresponden a Rk2, es decir representan la parte de la
determinacin que le corresponde al par {U k,Vk} . Adems los coeficientes {bi} de la
213
funcin V corresponden a los vectores propios de la ecuacin caracterstica y los
coeficientes {ai} de la funcin U estn dados por: ai [ A]1[C ]bi
Nmero de pares de funciones cannicas necesarias: H0: 0 vs H1: 0
1 r
2k {n ( p q 1)} ln(1 i ) Este estadgrafo sigue a 2(p-k)(q-k).
2 i 1 k
XX.- ANALISIS DE CONGLOMERADOS (CLUSTER)
Mean carcter difference MCD

X
i 1
ij X ik
n
Distancia de Manhattan DM X ij X ik
i 1
Distancia Euclidea o Taxonmica D (X

i 1
ij X ik )
ad
Apareamiento simple (simple matching): SM
abcd
a
Coeficiente de Jaccard: J
abcd
ad
Coeficiente de Roger y Tanimoto: RT
a 2b 2c d
2a
Coeficiente de Dice: CD
2a b c
2( a d )
Coeficiente de Sokal y Sneath: SS
2(a d ) b c
(a d ) (b c )
Coeficiente de Hamann: H
abcd
214
ANEXO II.- TABLAS SIMPLIFICADAS
A.- DISTRIBUCION NORMAL (N(0,1))
rea desde z a ; Valores crticos para 1 cola () ( = 0.05) y dos colas () ( = 0.05)
Z Area
0 0.5000
0.1 0.4602
0.2 0.4207
0.3 0.3821
0.4 0.3446
0.5 0.3085
0.6 0.2743
0.7 0.2420
0.8 0.2119
0.9 0.1841
1.0 0.1587
1.1 0.1357
1.2 0.1151
1.3 0.0968
1.4 0.0808
1.5 0.0668
1.6 0.0548
1.64 () 0.0500
1.7 0.0446
1.8 0.0359
1.9 0.0287
1.96 () 0.0250
2.0 0.0228
2.5 0.0062
3.0 0.0013
215
B.- DISTRIBUCION t DE STUDENT
Valores crticos para una ( = 0.05) y dos colas ( = 0.025)
Grados de libertad = 0.05 = 0.025

5 2.01 2.57
6 1.94 2.45
7 1.90 2.36
8 1.86 2.31
9 1.83 2.26
10 1.81 2.23
15 1.75 2.13
20 1.72 2.09
25 1.71 2.06
30 1.70 2.04
1.64 1.96
216
C.- DISTRIBUCION 2
Valores crticos para = 0.05
Grados de libertad Valor crtico

1 3.84
2 5.99
3 7.81
4 9.49
5 11.1
6 12.6
7 14.1
8 15.5
9 16.9
10 18.3
11 19.7
12 21.0
13 22.4
14 23.7
15 25.0
16 26.3
17 27.6
18 28.9
19 30.1
20 31.4
25 37.7
30 43.8
217
D.- DISTRIBUCION F
Valores crticos para = 0.05
Grados De Libertad Del Numerador

Gr. libertad 1 2 3 4 5 8 10
denominador
3 10.13 9.55 9.28 9.12 9.01 8.84 8.78 8.53
4 7.71 6.94 6.59 6.39 6.26 6.04 5.96 5.63
5 6.61 5.79 5.41 5.19 5.05 4.82 4.74 4.36
6 5.99 5.14 4.76 4.53 4.39 4.15 4.06 3.67
7 5.59 4.74 4.35 4.12 3.97 3.73 3.63 3.23
8 5.32 4.46 4.07 3.84 3.69 3.44 3.34 2.93
9 5.12 4.26 3.86 3.63 3.48 3.23 3.13 2.71
10 4.96 4.10 3.71 3.48 3.33 3.07 2.97 2.54
15 4.54 3.68 3.29 3.06 2.90 2.64 2.55 2.07
20 4.35 3.49 3.10 2.87 2.71 2.45 2.35 1.84
25 4.24 3.38 2.99 2.76 2.60 2.34 2.24 1.71
30 4.17 3.32 2.92 2.69 2.53 2.27 2.16 1.62
40 4.08 3.23 2.84 2.61 2.45 2.18 2.07 1.51
50 4.03 3.18 2.79 2.56 2.40 2.13 2.02 1.44
60 4.00 3.15 2.76 2.52 2.37 2.10 1.99 1.39
3.84 2.99 2.60 2.37 2.21 1.94 1.83 1.00
Observacin: Si el nmero de grados de libertad del denominador es mayor que 3, lo que

es lo habitual, entonces cualquier valor calculado de F mayor que 10 permite rechazar
H0 para = 0.05, sin necesidad de mirar ninguna tabla.
218
E.- DISTRIBUCION DEL RANGO STUDENTIZADO: Q
Valores crticos para = 0.05 para diferentes nmeros de tratamientos (t)
T
Gr. libertad 2 3 4 5 8 10
5 3.64 4.60 5.22 5.67 6.58 6.99
10 3.15 3.88 4.33 4.65 5.30 5.60
15 3.01 3.67 4.08 4.37 4.94 5.20
20 2.95 3.58 3.96 4.23 4.77 5.01
2.77 3.31 3.63 3.86 4.29 4.47
219
F.- DISTRIBUCION de WILCOXON (Rangos signados)
Valor crtico para = 0.05, vs n
N Valor crtico
4 10
5 14
6 19
7 24
8 30
9 37
10 44
15 89
220
G.- DISTRIBUCION DE WILCOXON-MANN-WHITNEY (Suma de Rangos)
Valores crticos ( = 0.05) para diferentes valores de n1 y n2
n2=2 3 4 5 10
n1 = 3 10 15
4 12 17 24
5 13 20 27 36
6 15 23 30 40
7 16 24 33 43
8 18 27 36 47
9 20 29 39 50
10 22 32 42 54 127

Li Broest Adi Stica

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Li Broest Adi Stica

Uploaded by

Copyright:

Available Formats

CURSO DE ESTADISTICA UNIVERSITARIA

DR. MAURICIO CANALS LAMBARRI

FACULTAD DE CIENCIAS UNIVERSIDAD DE CHILE

La primera unidad corresponde a Estadstica descriptiva, donde se sientan las

La unidad 5 corresponde a una serie de tpicos, habitualmente no tratados en los

La ltima unidad introduce el anlisis multivariado, ya que cada da se toma

Este libro es el resultado de varios aos dictando cursos bsicos de estadstica. El

INTRODUCCIN: CIENCIA Y ESTADISTICA 8

I.1.- Bases e historia 11

II.- ESTADSTICA DESCRIPTIVA 14

II.1.- Observaciones, variables y escalas 14

Ejercicios de estadstica descriptiva 22

II UNIDAD: ESTADISTICA MATEMATICA 24

III.1.- Experimento Aleatorio, Espacio Muestral 25

IV.- VARIABLES ALEATORIAS 46

IV.1.- Distribucin de una variable aleatoria 46

IV.6.- Distribucin uniforme 55

Ejercicios de variables aleatorias 63

III UNIDAD: INFERENCIA ESTADISTICA 66

VI.- DOCIMASIA O PRUEBA DE HIPTESIS 76

Ejercicios de Pruebas de Hiptesis para una y dos muestras 89

VII.- ANLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS 93

Ejercicios de anlisis de datos enumerativos 103

VIII.- ESTADSTICA DE DISTRIBUCIN LIBRE O NO-PARAMTRICA 105

VIII.1.- Alternativas no paramtricas a las dcimas para dos muestras 106

Ejercicios de estadstica no-paramtrica 112

IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION Y REGRESION 114

IX.- ANLISIS DE LA VARIANZA (ANOVA o ANDEVA) 115

IX.1.-El Problema de Bonferroni 115

Ejercicios de anlisis de la varianza 131

X.- CORRELACIN Y REGRESIN 134

X.1.- Correlacin 134

Ejercicios de correlacin y regresin 144

V UNIDAD.- TOPICOS ESPECIALES 145

XI.- BASES DE MUESTREO 146

XI.1.- Muestreo en poblaciones finitas e infinitas 146

XII.- ESTADISTICAS VITALES 150

XII.1.- Tablas de vida 150

Ejercicios de estadsticas vitales 154

XIII.- REGRESION LOGISTICA 155

XIII.1.- Bases 155

XIV.- SERIES DE TIEMPO 158

XIV.1.- Bases 158

UNIDAD VI: INTRODUCCION AL ANALISIS MULTIVARIADO 160

XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA) 161

XV.1.- Anlisis multivariado o univariado? 161

XVI.- REGRESION MULTIPLE 163

XVI.- Expresin matricial de una regresin 163

XVI.4.- Correlacin mltiple, simple y parcial 166

XVII.- ANALISIS DISCRIMINANTE 173

XVII.1.- Fundamento 173

XVIII.- ANALISIS DE COMPONENTES PRINCIPALES 176

XVIII.1.- Fundamentos 176

XIX.- CORRELACION CANONICA Y ANALISIS DE CORRESPONDENCIA 180

XIX.1.- Correlacin cannica 180

XX.- ANALISIS DE CONGLOMERADOS (CLUSTER) 184

XX.1.- Fundamentos 184

ANEXO I.- FORMULAS UTILES 192

ANEXO II.- TABLAS SIMPLIFICADAS 211

INTRODUCCIN: CIENCIA Y ESTADISTICA

El objetivo de la ciencia es captar el orden de los fenmenos para hacerlos

La deduccin es una forma de generacin de proposiciones lgicas. Estas

La induccin por el contrario, genera proposiciones generales a partir de la

El proceso del conocer requiere de un mtodo. Este es conocido como mtodo