Professional Documents
Culture Documents
CONTENIDO
Pg.
CONTENIDO ........................................................................................................................ i
CAPITULO I. INTRODUCCIN AL DISEO DE EXPERIMENTOS ........................... 3
1.1 Conceptos De Mtodos Estadsticos Para La Investigacin............................................... 3
1.2 Diseos experimentales. ................................................................................................. 29
1.3 Conceptos bsicos del Diseo Experimental ................................................................... 31
1.3. Utilizacin de los mtodos estadsticos en la experimentacin. ...................................... 35
1.4. Importancia del anlisis de varianza. ............................................................................. 36
1.5 Clasificacin y seleccin de los diseos experimentales ................................................. 38
1.6. Aplicacin de paquetes Estadisticos .............................................................................. 39
CAPITULO II. CONCEPTOS DE PROBABILIDAD.......................................................... 40
2.1. Probabilidad y sus axiomas ........................................................................................... 40
2.2. Funciones de la probabilidad ......................................................................................... 43
2.3. Variable aleatoria y distribucin de probabilidades. ....................................................... 46
2.4. Mtodos de estimacin de parmetros ........................................................................... 49
2.5. Mtodo de mxima verosimilitud .................................................................................. 50
2.6. Distribucin de probabilidades de variables aleatorias continuas. .................................. 50
CAPITULO III PRUEBAS DE RANGO MULTIPLE ........................................................ 74
3.1. Introduccin .................................................................................................................. 74
3.2. Prueba de Rangos Mltiples de Tukey HSD .................................................................. 74
3.3. Diferencia Minima Significativa de Fisher o (LSD) ....................................................... 78
3.4. Prueba de Rangos Mltiples de Duncan ......................................................................... 79
3.5. Puebla de Student-Newman-Keuls (SNK) ..................................................................... 80
3.6. Prueba de Comparacin de Dunnet ................................................................................ 81
3.7. Transformacin de datos ............................................................................................... 81
CAPITULO IV DISEO COMPLETAMENTE AL AZAR (DCA) ................................... 83
4.1. Caractersticas principales ............................................................................................. 83
4.2 Modelo estadstico Lineal............................................................................................... 83
4.3 Esquema del diseo Completamente al Azar .................................................................. 83
4.4. Estimaciones ................................................................................................................. 84
4.5 Suma de cuadrados......................................................................................................... 84
4.6 Grados de libertad .......................................................................................................... 84
4.7 Cuadrado medio esperado .............................................................................................. 84
4.8 Anlisis de varianza ....................................................................................................... 84
4.9. Prueba estadstica de hiptesis ....................................................................................... 85
4.10. Ventajas del Diseo Completamente al Azar ............................................................... 85
4.11. Desventajas del Diseo Completamente al Azar .......................................................... 86
4.12. Usos del Diseo Completamente al Azar ..................................................................... 86
4.13. Problemas de aplicacin .............................................................................................. 86
CAPITULO V DISEO EN BLOQUE COMPLETO AL AZAR (DBCA) ......................... 91
5.1. Definicin ..................................................................................................................... 91
5.2. Caractersticas: .............................................................................................................. 91
5.3. Modelo estadstico lineal ............................................................................................... 91
CAPITULO VI DISEO DE CUADRADO LATINO (DCL) ............................................. 96
6.1 Caractersticas: ............................................................................................................... 96
6.2 Modelo estadstico Lineal............................................................................................... 97
CAPITULO VII EXPERIMENTOS FACTORIALES ....................................................... 103
7.1 Introduccin ................................................................................................................. 103
7.2 Definiciones bsicos..................................................................................................... 103
Edited with the trial version of
Foxit Advanced PDF Editor
To remove this notice, visit:
www.foxitsoftware.com/shopping
ii
Edited with the trial version of
Foxit Advanced PDF Editor
To remove this notice, visit:
Mtodos Estadsticos para la Investigacin Ing. Roberto Alfarowww.foxitsoftware.com/shopping
Que es estadstica?
1. (Describir)
2. Explorar
3. Entender
4. Probar
5. Predecir
. . . basados en muestras de datos colectados de poblaciones, usando algunas estrategias de muestreo.
Poblaciones y muestras
Preguntas
* Cual es la naturaleza del conjunto de datos (lineage, variables . . . )?
* Cual es la relacin del conjunto de datos a la poblacin fundamental?
Tcnicas
* Grficas (visualizacin): humanos son usualmente buenos en seleccionar patrones.
* Numricas: resumen de caractersticas sobresalientes (estadstica descriptiva)
Paso 2: Entender
Si hay un proceso fundamental del cual la data muestreada es una muestra representativa . . .
. . . entonces los datos nos permiten inferir la naturaleza del proceso
Ejemplo: la distribucin de metales pesados en suelo es el resultado de:
* Material madre
* Contaminantes transportados por viento, agua, o humanos
* Transformaciones en el suelo desde la deposicin
* Movimiento de materiales dentro y a travs del suelo
*...
Resumir el entendimiento con un modelo
Paso 3: Probar
Paso 4: Predecir
En orden del contenido de informacin (menor a mayor), estas variables pueden ser:
1. Nominal
2. Ordinal
3. Intervalar
4. Razon
Variable Nominal
Variable Ordinal
Variable Intervalar
Valores son medidos en una escala continua con unidades de medicin bien-definidas pero no hay
origen natural de la escala, i.e. el cero es arbitrario, as que las diferencias son significativas pero no
ratios
Ejemplo: Temperatura en C.
Es dos veces tan caliente como hoy es sin sentido, aun cuando Hoy es 20C y ayer fue 10C
puede ser verdad.
* (Para distinguir esto, probar la misma declaracin con temperaturas Farenheit)
Estadsticos significativos: cuantiles, media, varianza
Valores estn medidos en una escala continua con unidades de medicin bien definidas y un origen
natural de la escala, i.e. el cero es significativo
Ejemplos: Temperatura en K; concentracin de un qumico en solucin
There is twice a much heat in this system as that es significativo, si un sistema est en 300K y el
otro en 150K
Estadsticos significativos: cuantiles, media, varianza; tambin el coeficiente de variacin. (Recuerdo:
CV = SD / Media; esto un ratio).
No continuos en el estricto sentido matemtico (puesto que la computadora puede slo representar
nmeros racionales)
Inferencia Estadstica
Usando la muestra para inferir hechos acerca de la poblacin fundamental del cual (esperamos) sea
representativa
Ejemplo: valor verdadero de una media poblacional, estimado de la media muestral y su error
estndar
* intervalos de confianza: tienen una probabilidad conocida de contener el valor verdadero
* Para una muestra de una variable normalmente-distribuida, 95% probabilidad (a=0.05):
x 1.96 s x x 1.96 s x
* El error estandar es estimado de la varianza muestral:
sx2
sx
n
Inferencia de pequeas muestras
x ta 0.05, n 1 s x x ta 0.05,n 1 s x
De tablas t ; t z cuando n
Existe nicamente una probabilidad de 1 en 20 que el valor verdadero de la media poblacional este
fuera de este intervalo.
Hiptesis Nula H0: Aceptado hasta que se pruebe lo contrario (inocente hasta que se prueba lo
culpable)
Hiptesis Alternativa H1: Algo habamos querido probar, pero queremos estar medianamente seguros
En la ausencia de informacin previa, la hiptesis nula es que no existe relacin
* Ejemplo clsico: una nueva variedad de cultivo no (nula) tiene un ms alto rendimiento que la
variedad actual (note hiptesis una-cola en este caso)
Pero puede usar informacin previa para una hiptesis nula informativa
a es el riesgo de una afirmativo falso (rechazando la hiptesis nula cuando ello de hecho es
verdadero), el error Tipo I
* La probabilidad de condenar una persona inocente (hiptesis nula: inocente hasta que se pruebe
lo contrario)
es el riesgo de una negativa falsa (aceptando la hiptesis nula cuando esto es de hecho falso), el
error Tipo II.
* La probabilidad de liberar una persona culpable
a determinado por analizador, depende de la forma de la prueba
Esto debe ser balanceado dependiendo de las consecuencias de generacin de cada tipo de tipo de error.
por ejemplo:
El costo de introduccin de una nueva variedad de cultivo si esto no es realmente mayor (Tipo I), vs.
Preguntas de la Investigacin
Cuales son las preguntas de la investigacin, son supuestos que son respondidas con la ayuda de estos
datos?
Si los datos son colectados en puntos conocidos en el espacio geogrfico, deberemos visualizarlos en
ese espacio.
Postplots: donde estan esos valores?
Postplots Geograficos: con imgenes, mapas de uso de suelo etc. como fondo: hacer aparecer all
alguna explicacin para la distribucin de valores?
Estructura espacial: rango, direccin, resistencia . . .
Existe anisotropia? En qu direccin(es)?
Poblaciones: una o varias?
Modelamiento Espacial
Si los datos son colectados en puntos conocidos en el espacio geogrfico, ello puede ser posible modelar
esto.
Modela la estructura espacial
* Modelos locales (dependencia espacial)
* Modelos globales (tendencias geogrficas, caracterstica predictores espaciales)
* Modelos mixtos
Prediccin
Enunciado:
155 muestras tomadas sobre un soporte de 10x10 m de la parte superior 0-20 cm de suelos aluviales en
un sector 5x2 km de la planicie de inundacin de un rea en particular llamada Ilpa. Las variables que se
toman en cuenta son:
id nmero de punto
este, norte coordenadas E y N en coordenadas UTM, en metros
cadmio concentracin en el suelo, en mg kg-1
cobre concentracin en el suelo, en mg kg-1
plomo() concentracin en el suelo, en mg kg-1
zinc concentracin en el suelo, en mg kg-1
elev elevacin sobre nivel de referencia local, en metros
om materia orgnica, perdida de material en ignicion, en porcentaje
ffreq clase de frecuencia de inundacin, 1: anual, 2: 2-5 aos, 3: cada 5 aos
suelo clase de suelo, codificado
lime ha sido la tierra aqui limed? 0 1 = F V
usosuelo uso de terreno, codificado
dist.m distancia del canal principal Ro Ilpa, en metros
3. Distribuciones
4. Normalidad, transformaciones
> summary(ilpa)
> attach(ilpa)
> plot(este,norte)
> stem(cadmio)
> boxplot(cadmio)
> boxplot(cadmio, horizontal = T)
> points(mean(cadmio),1, pch=20, cex=2, col="blue")
> hist(cadmio) #automatic bin selection
> hist(cadmio, n=16) #specifica el numero de bins
> hist(cadmio, breaks=seq(0,20, by=1)) #especifica breakpoints
> stem(cadmio)
> summary(cadmio)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.200 0.800 2.100 3.246 3.850 18.100
> var(cadmio)
[1] 12.41678
s x2 CV
sx
sx
n x
> sd(cadmio)
[1] 3.523746
> sqrt(var(cadmio))
[1] 3.523746
> round((sqrt(var(cadmio))/mean(cadmio))*100,0)
[1] 109
Precaucin
sx
se
n
> t.test(cadmio)
t = 11.4679, df = 154, p-value = < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
2.68668 3.80494
sample estimates:
mean of x
3.24581
Aun si la suposicin de una poblacin con una distribucin normal es verdad, por chance podemos
conseguir valores extremos
La Distribucin Normal
Surge naturalmente en muchos procesos: una variable que puede ser modelada como una suma de
muchas pequeas contribuciones, cada una con la misma distribucin de errores (teorema de lmite
central)
Algunos procedimientos estadsticos requieren que una variable sea al menos aproximadamente
distribuido normalmente.
Nota: Aun si una variable misma no est distribuida normalmente, su media puede ser, desde que las
desviaciones de la media pueden ser la suma de muchos errores pequeos.
1 1 x 2
f ( x) exp f ( x) 1
x
2 2
F ( z) f ( x)
x
> rnorm(8, 1.6, .2) #8 variable normal con media 1.6, var .2
[1] 1.771682 1.910130 1.518092 1.712963 1.365242 1.837332 1.777395
1.749878
> qnorm(seq(0.80,0.95, by=.05),1.6,.2) #z-values para esta probs.
[1] 1.768324 1.807287 1.856310 1.928971
Estandarizacin
Toda variable distribuida normalmente puede ser directamente comparada por estandarizacin:
sustraendo , dividiendo por .
= 0, = 1
1 x2
f ( x) exp
2 2
Evaluando la Normalidad
Grafica
* Histogramas
Numerical
* Todos estos funcionan para comparar la distribucin observada con la distribucin normal terica
teniendo parmetros estimados de lo observado, y calculando la probabilidad que lo observado es
una realizacin del terico.
> shapiro.test(cadmio)
> summary(log(cadmio))
> stem(log(cadmio))
> hist(log(cadmio))
> hist(log(cadmio), n=20)
> boxplot(log(cadmio), horizontal=T)
> points(mean(log(cadmio)),1, pch=20, cex=2, col="blue")
> qqnorm(log(cadmio), main="Q-Q plot for log(cadmio ppm)")
> qqline(log(cadmio))
> shapiro.test(log(cadmio))
Muestra la relacin de dos variables en un espacio caracterstico (un plano puede estar constituido de
dos variables rangos)
* No-estandarizado: con valores originales en los ejes (y el mismo cero); muestra magnitudes
relativas
* Nota: algunos muestran automaticamente escala de los ejes, so that non-standardized looks like
standardized
Graficos de dispersion de dos metales pesados; automatico vs. misma escala; tambien log-transformada;
estandarizada y no estandarizada.
> plot(plomo,zinc)
> abline(v=mean(plomo)); abline(h=mean(zinc))
> lim<-c(min(min(plomo,zinc)), max(max(plomo,zinc)))
> plot(plomo, zinc, xlim=lim, ylim=lim)
> abline(v=mean(plomo)); abline(h=mean(zinc))
> plot(log(plomo), log(zinc))
> abline(v=mean(log(plomo))); abline(h=mean(log(zinc)))
> plot(log(plomo), log(zinc), xlim=log(lim), ylim=log(lim))
> abline(v=mean(log(plomo))); abline(h=mean(log(zinc)))
> sdze<-function(x) { (x-mean(x))/sd(x) }
> plot(sdze(plomo), sdze(zinc)); abline(h=0);abline(v=0)
> plot(sdze(log(plomo)), sdze(log(zinc))); abline(h=0); abline(v=0)
Cov ( X , Y ) E( X X )(Y Y )
Cov ( X , Y ) XY
El coeficiente correlacin terico: covarianza normalizada por desviaciones estndar poblacional;
rango [1. . .1]:
Cov ( X , Y )
XY
X Y
XY
XY
X Y
Midiendo la resistencia de una relacin bivariada: estimado de muestra
1 n
s xy ( xi x ) ( yi y )
n 1 i 1
s xy
rxy
sx s y
rxy
(x x) ( y y)
i i
2 2
( x x ) ( y y)
i i
> cor.test(plomo,zinc)
Pearsons product-moment correlation
data: plomo and zinc
t = 39.6807, df = 153, p-value = < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9382556 0.9668269
sample estimates:
cor
0.9546913
> cor.test(plomo,dist.m)
Pearsons product-moment correlation
data: plomo and dist.m
t = -8.9269, df = 153, p-value = 1.279e-15
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.6801118 -0.4710150
sample estimates:
cor
-0.5852087
Esto explica 0.5852 = 0.342 de la variancia total.
Regresin
Un termino general para modelar la distribucion de una variable (respuesta o dependiente) desde
(sobre) otra (la predictora o independiente)
Esto logico solo si tenemos unas razones a priori (no-estadisticas) a creer en una relacin causal
Correlacion: no hace suposiciones acerca de la causalidad; ambas variables tienen el mismo status
lgico
Modelo: y = 0+1x+
Los parmetros 0 y 1 son seleccionados para minimizar en alguna medida resumen de sobre todos
los puntos de muestreo
Dado el modelo de ajuste, podemos predecir en los puntos de datos originales: y i ; estos son llamados
los valores ajustados.
Entonces podemos calcular las desviaciones del ajuste a partir de los valores medidos:
Las desviaciones pueden ser resumidas para dar una medida global de bondad de ajuste
Anscombe desarrollo cuatro diferentes conjuntos de datos bivariados, todos con la misma correlacin
exacta r = 0.81 y regresin lineal y = 3+0.5x:
1. bi-variada normal
2. cuadratica
3. bi-variada normal con un atipico
4. un punto de palanca alto (leverage)
Calcular los parmetros para minimizar la suma de los cuadrados de las desviaciones
s XY
Pendiente: 1
s 2X
Tenga en cuenta la forma similar con covarianza, excepto aqu estandarizamos slo por la predictora,
por lo que la regresin de x sobre y da una pendiente diferente de la de y sobre x.
Tenga en cuenta que siempre conocemos la media, por lo que la variabilidad total se refiere a la
variabilidad alrededor de la media
n n n
( yi y )2 ( yi y )2 ( yi yi )2
i 1 i 1 i 1
Cada componente puede ser probado por significancia vs. la hiptesis nula que no contribuye al ajuste
del modelo
suma total de las desviaciones al cuadrado se divide en sumas de cuadrados del modelo (regresin) y
errores (residuales)
Estos son cada uno dividido por sus grados de libertad para la obtencin de la media de las SS
Grafico de dispersin
> plot(om,log(cadmio))
Modelo Altamente-significativo, pero contenido de material organica explica solo cerca del 35% de la
variabilidad de log(Cd).
R2 puede ser altamente significativa (rechazar la hiptesis nula de ninguna relacin), pero . . .
En otras palabras, solo una pequena porcion de la varianza es explicada por el modelo
Dos posibilidades
Diagnostico de la Regresion
Hay una tendencia en la falta de ajuste? (ms alejado en parte del rango)
* ! un modelo no lineal
Podemos ver problemas en las concentraciones de metales bajos. Esto es probablemente un artefacto
de la precisin de la medicin en estos niveles (cerca o por debajo del lmite de deteccin).
Estos son casi todos en clase de frecuencia de inundacin 3 (rara vez inundada)
Valores de Cd debajo de 1mg kg-1 son poco confiables; reemplazarlas todas con 1 mg kg-1 y volver a
analizar:
Mucho ms alto R2 y mejores diagnsticos. An as, hay un montn de diseminacin en cualquier valor
de la predictora (materia organica).
La relacin parece ms coherente en los suelos frecuentemente inundados; volver a analizar este
subconjunto
ANOVA Categorico
Modela la respuesta por una variable categorica (nominal); variables ordinales son tratadas como
nominales
The j represent the deviations of each class mean from the grand mean
EDA Categorico
Ejemplo ANOVA
Por ejemplo:
una media es un estimado de un parametro de posicion de alguna distribucin asumida (ej. punto
medio de la normal normal, proporcin esperada de suceso de una binomial, . . . )
una mediana es simplemente el valor en el cual la mitad de muestra son menores y la mitad mayores,
sin conocer nada acerca de la distribucin subyacente en el proceso que produjo la muestra.
Asi los metodos inferenciales no parametricos son aquellos que no presuponen acerca de la
distribucin de los valores de los datos, slo su orden (rango).
Como un ejemplo de metodos no parametricos, considerar la medida de asociacion entre dos variables,
comnmente llamada correlacion (co-rrelacion).
La medida estandar es parametrica, es decir, el Pearsons Product Moment Correlation (PPMC); esto es
calculado a partir de la covariancia muestral de dos variables:
1 n
Cov( X , Y ) ( xi x )( yi y )
n 1 i 1
Cov( X , Y )
rXY
s X sY
Considerar los siguientes dos casos: (1) 20 muestras normales bivariadas que deberan estar no
correlacionadas; (2) lo mismo, pero con un valor reemplazado por un valor muy alto (ya no una
distribucin normal).
n<-20
par(mfrow=c(2,3))
for (i in 1:3)
{ x<-rnorm(n, 20, 3); y<-rnorm(n, 20, 4);
plot(x,y, pch=20, cex=2, xlim=c(12,28), ylim=c(12,28));
Correlacin No-paramtrica
La solucion aqui es usar un metodo tal como correlacion de Spearman, el cual correlaciona los rangos,
no los valores; por tanto la distribucion (diferencias entre valores) no tiene influencia.
> n<-10
> (x<-rnorm(n, 20, 4))
[1] 15.1179 23.7801 21.2801 21.5191 23.0096 18.5065 19.1448 24.9254
29.3211
[10] 14.1453
> (ix<-(sort(x, index=T)$ix))
[1] 10 1 6 7 3 4 5 2 8 9
Si cambiamos el mayor de ellos en cualquier valor grande, el rango no cambia:
> x[ix[n]]<-120; x
[1] 15.1179 23.7801 21.2801 21.5191 23.0096 18.5065 19.1448 24.9254
[9] 120.0000 14.1453
> (ix<-(sort(x, index=T)$ix))
[1] 10 1 6 7 3 4 5 2 8 9
pearsons<-vector(); spearmans<-vector()
> n<-10
> for (i in 1:n)
+ { x<-rnorm(n, 20, 4); y<-rnorm(n, 20, 4);
+ pearsons[i]<-cor(x,y);
+ spearmans[i]<-cor(x,y, method="spearman")}
> round(pearsons, 2); round(spearmans, 2)
[1] -0.29 -0.02 -0.49 -0.01 -0.17 0.16 0.06 -0.07 -0.11 0.37
[1] 0.32 0.16 -0.25 0.01 0.35 -0.42 0.03 -0.33 0.68 -0.12
> for (i in 1:n)
+ { x<-c(rnorm((n-1), 20, 4), 120); y<-c(rnorm((n-1), 20, 4), 120);
+ pearsons[i]<-cor(x,y);
+ spearmans[i]<-cor(x,y, method="spearman") }
> round(pearsons, 2); round(spearmans, 2)
[1] 0.98 0.99 0.98 0.99 0.98 0.98 0.99 0.99 0.99 0.99
[1] 0.25 0.08 0.49 0.03 0.61 -0.04 0.36 0.26 -0.25 0.36
El coeficiente de Pearson (parametrico) es completamente cambiado por un par de valor alto, mientras
que el de Spearman no se ve afectada.
Para tener una idea de este tema tan importante, se presenta un ejemplo tpico, que: un ingeniero quiere
estudiar la resistencia de una pieza plstica sometida a temperaturas cambiantes. La pieza puede ser
elaborada con tres tipos de plstico distintos. De ah que se plantee las siguientes preguntas:
Existe algn material con el que la pieza resulte ms resistente que con cualquiera de los otros dos
independientemente de la temperatura?
El diseo de un experimento. Es la secuencia completa de los pasos que se deben tomar de antemano,
para planear y asegurar la obtencin de toda la informacin relevante y adecuada al problema bajo
investigacin, la cual ser analizada estadsticamente para obtener conclusiones vlidas y objetivas con
respecto a los objetivos planteados.
Un Diseo Experimental. Es una prueba o serie de pruebas en las cuales existen cambios deliberados
en las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar
las causas de los cambios que se producen en la respuesta de salida.
Un proceso suele visualizarse como una Caja Negra en donde existe una transformacin de lo que entra
al proceso, y que se observa en las salidas que produce.
Este proceso puede ser una combinacin de mquinas, mtodos, personas y otros recursos que
transforman las entradas (a menudo un material) en las salidas que tienen una o ms respuestas
observables. Algunas de las variables del proceso digamos X1, X2.,Xn son controlables, mientras que
otras como Z1, Z2, ..,Zn son incontrolables (no controlables). Cuando se realiza un diseo
experimental es necesario tener en cuenta los siguientes objetivos:
1. Determinar cules variables tienen mayor influencia en la respuesta o variable dependiente ( Y).
2. Determinar el mejor valor de las (X) que influyen en (Y), de modo que (Y) tenga casi siempre un
valor cercano al valor nominal deseado.
3. Determinar el mejor valor de las (X) que influyen en (Y), de modo que la variabilidad de (Y) sea
pequea.
4. Determinar el mejor valor de las (Z) que influyen en (Y), de modo que se minimicen los efectos de
las variables incontrolables Z1, Z2,.., Zn.
Los siguientes conceptos que se definen a continuacin se utilizarn en el desarrollo de las unidades
posteriores; los cuales fueron retomados de Douglas C. Montgomery, ao 2001 y de Gutirrez et al,
ao 2008.
Diseo: Consiste en planificar la forma de hacer el experimento, materiales y mtodos a usar, etc. El
diseo es definido tcnicamente como la configuracin de puntos en el espacio de los factores y el orden
en el cual se efecta, en el tiempo y espacio, la toma de observaciones.
El diseo implica un modelo, y este a su vez implica anlisis estadstico, pues la ms importante funcin
del diseo es controlar la varianza. Desde esta perspectiva, el diseo es un conjunto de instrucciones
para que el investigador rena y analice los datos en determinada forma, de modo tal que
estadsticamente sea posible maximizar la varianza sistemtica, regular la varianza sistemtica extraa
minimizar la varianza del error.
Experimento: Conjunto de pruebas o ensayos cuyo objetivo es obtener informacin, que permita
mejorar el producto o el proceso en estudio.
Un experimento es una interrogante planeada para obtener nuevos factores o para confirmar o denegar
los resultados de experimento previos o anteriores donde tal interrogante ayudar a una decisin tal
como recomendacin de una variedad de planta, aplicacin de producto qumico, etc.
Factor. Es un tipo particular de tratamiento, que vara segn el deseo del investigador. Son factores por
ejemplo, Temperatura, humedad, tipos de suelos, etc.
Niveles del factor. Son diversas categoras de un factor. (Por ejemplo, los niveles de temperatura son
20C, 30C, etc.). Un factor Cuantitativo tiene niveles asociados con puntos ordenados en alguna escala
de medicin, como temperatura; mientras que los niveles de un factor cualitativo representan distintas
categoras o clasificaciones, como tipo de suelo, que no se puede acomodar conforme a alguna
magnitud. Por ejemplo, si en un experimento se estudia la influencia de la velocidad y la temperatura, y
se decide probar cada una en dos niveles, entonces cada combinacin de niveles (velocidad,
temperatura) es un tratamiento. En este caso habra cuatro tratamientos, como se muestra en la tabla 1.1.
Es necesario probar cada tratamiento y obtener el correspondiente valor de y.
De acuerdo con estas definiciones, en el caso de experimentar con un solo factor, cada nivel es un
tratamiento.
Rplica. La obtencin de rplicas permite obtener una estimacin del error experimental as como
calcular una respuesta ms precisa el efecto a estudio. Entre mayor sea el nmero de repeticiones para
cada experimento, mejor ser el resultado obtenido.
Unidad experimental. Es la unidad del material experimental que recibe la aplicacin de un simple
tratamiento, en el que se mide y se analiza la variable que se investiga. En el experimento de
laboratorio, la unidad experimental ser una placa petri, un tubo de ensayo, etc.; en el invernadero ser
una bandeja, una maceta, etc.; en el campo ser una parcela, en el campo de la zootecnia ser un animal,
etc. para aclarar mejor se caracteriza por:
Es el material experimental unitario que recibe la aplicacin de un tratamiento.
Es la entidad fsica o el sujeto expuesto al tratamiento independientemente de las otras unidades. La
unidad experimental una vez expuesta al tratamiento constituye una sola rplica del tratamiento.
Es el objeto o espacio al cual se aplica el tratamiento y donde se mide y analiza la variable que se
investiga.
Es el elemento que se est estudiando.
Figura 1.3: Variable dependiente resistencia del concreto, donde los factores relacin agua/cemento
tiene 4 niveles y relacin cemento/arena tiene 5 niveles; el nmero de tratamientos es igual a 4*5 = 20
tratamientos.
Unidad muestral: Es una fraccin de la unidad experimental que se utiliza para medir el efecto de un
tratamiento.
Error experimental: Es una medida de variacin que existe entre dos o ms unidades experimentales,
que han recibido la aplicacin de un mismo tratamiento de manera idntica e independiente.
Factores controlables: Son aquellos parmetros o caractersticas del producto o proceso, para los
cuales se prueban distintas variables o valores con el fin de estudiar cmo influyen sobre los resultados.
Factores incontrolables: Son aquellos parmetros o caractersticas del producto o proceso, que es
imposible de controlar al momento de desarrollar el experimento.
Variabilidad natural: es la variacin entre las unidades experimentales, que el experimentador no
puede controlar ni eliminar.
Variable dependiente: es la variable que se desea examinar o estudiar en un experimento. (Variable
Respuesta).
Hiptesis:
Es una suposicin o conjetura que se plantea el investigador de una realidad desconocida.
Es el supuesto que se hace sobre el valor de un parmetro (constante que caracteriza a una poblacin)
el cual puede ser validado mediante una prueba estadstica
Tratamiento: Es un conjunto particular de condiciones experimentales definidas por el investigador; y
son el conjunto de circunstancias creadas por el experimento, en respuesta a la hiptesis de
investigacin y son el centro de la misma.
Tipos de tratamientos. A continuacin se presentan ejemplos de tratamientos en algunas reas, tales
como:
1) Experimentaciones Agrcolas, un tratamiento puede referirse a:
Marca de Fertilizante.
Cantidad de Fertilizante.
Profundidad del Sembrado.
Variedad de Semilla.
Combinacin de Cantidad de Fertilizante y Profundidad de Sembrado; esto es una combinacin
de tratamientos.
etc.
2) Experimentaciones de Nutricin Animal, un tratamiento puede referirse a:
Cra de Ganado Lanar
Sexo de los Animales
Padre del Animal Experimental
Tipo de Alimento
Racin Particular de Alimento de un Animal.
Raza del Animal
etc.
4) Estudios Resistencia del Concreto, un tratamiento puede referirse a:
Relacion Agua Cemento
Contenido de Aire Incorporado
Relacion Cemento Agregado
Modulo de Fineza de Agregados
etc.
de investigacin. Por lo tanto, el investigador debe asegurarse que los tratamientos elegidos concuerden
con la hiptesis de investigacin.
las tcnicas estadsticas en la experimentacin requiere que el investigador considere los siguientes
puntos:
a) Uso del conocimiento no estadstico del problema.
Se debe tomar en cuenta que los investigadores conocen a fondo su campo de especialidad; ya sea
porque tienen una considerable experiencia prctica o una formacin acadmica. Muchas veces se puede
utilizar una gran cantidad de teora para explicar las relaciones que hay entre los factores y la variable
respuesta. Este tipo de conocimiento no estadstico se debe tomar en cuenta para elegir los factores y las
respuestas, tambin al decidir el nmero de rplicas que se quieren realizar, al analizar los datos, etc. Es
por tanto que la estadstica no puede sustituir el hecho de reflexionar sobre el problema.
b) Mantener el Diseo y el Anlisis tan simple como sea posible.
Casi siempre, lo ms adecuado son los mtodos de diseo y anlisis estadstico ms simples. Por lo
tanto, es recomendable el uso de tcnicas estadsticas poco complejas y muy refinadas. Si se realiza el
diseo cuidadosamente y correctamente, el anlisis se espera que sea relativamente sencillo. Sin
embargo, es poco probable que aun la estadstica ms compleja y elegante corrija la situacin si se ha
actuado indebidamente en la elaboracin del diseo.
c) Reconocer la diferencia entre la significacin prctica y estadstica.
No hay seguridad de que una diferencia sea suficientemente grande, desde el punto de vista prctico, por
el slo hecho de que dos condiciones experimentales producen respuestas medias, estadsticamente
diferentes. Por ejemplo, un ingeniero puede determinar que una modificacin en el sistema de inyeccin
de gasolina de un automvil mejora el rendimiento medio en un 0.1mi/gal. ste es un resultado
estadsticamente significativo. Sin embargo, esta diferencia es demasiado pequea desde el punto de
vista prctico si el costo de la modificacin es de 1,000 dlares.
d) Usualmente los experimentos son iterativos.
En las primeras etapas de un estudio no es conveniente disear experimentos demasiado extensos; ya
que slo se requiere que se conozcan los factores importantes, los intervalos en que estos factores van a
ser investigados, el nmero apropiado de niveles para cada factor y las unidades de medicin adecuadas
a cada factor y la respuesta. Por lo general, al principio de un experimento no se est en capacidad de
definir estos aspectos, pero es posible conocerlos a medida que se avanza la experimentacin. Esto
favorece al empleo del enfoque iterativo o secuencial; pero por regla general, la mayora de los
experimentos son iterativos.
Cuadro 01. En el siguiente cuadro se presentan las diferentes situaciones que se pueden dar con la
hiptesis nula(Ho).
Decisin Ho es cierta Ho es falsa
Aceptar Ho Decisin Correcta Error tipo II ()
Rechazar Ho Error tipo I () Decisin Correcta
La utilizacin del anlisis de varianza justifica la disminucin de la probabilidad de cometer el error tipo
I en el experimento.
Por ejemplo: Supongamos que se desea probar la igualdad de cinco medias usando la prueba de
hiptesis mltiple.
Ho: 1= 2= 3=4=5
Ha: 12 2 3 34 45
12 345
14 25
15 34
!
Como se puede observar el nmero de comparaciones es Ha, es: = =10
! !
Es decir existen 10 posibles pares de medias, y si la probabilidad de aceptar correctamente la hiptesis
nula (H0) en cada una de las Pruebas Individuales es 1. =.95 (5 % de probabilidad de rechazar H0),
entonces la probabilidad de aceptar correctamente la hiptesis nula en las 10 pruebas es (0.95)10 = 0.6
(40% de probabilidad para rechazar H0 ) si estas son independientes. Es as como se produce un
incremento sustancial del error tipo I, al utilizar la prueba de Hiptesis mltiple.
Por lo tanto, el procedimiento apropiado para probar la igualdad de varias medias es el Anlisis de
Varianza. Probablemente esta es la tcnica ms til en el campo de la inferencia estadstica.
Incluye procedimientos de anlisis estadstico como regresin, anlisis de varianza, anlisis de datos
categrico, anlisis multivariado, anlisis de Series de Tiempo, etc.
El espacio muestral, denotado por , es la coleccion de todos los posibles eventos origina de un
experimento conceptual o de una operacin que implica oportunidad.
Aunque significa un espacio muestral continuo con un numero infinito de puntos, uno puede tambin
usar una representacin discreta de considerando un numero finito de estados. Cmo se define el
espacio muestral discreto dependiendo del juicio del ingeniero. Esta principalmente relacionado al
problema especfico y el uso que se hace del modelo y se ve limitada por la resolucin del instrumento,
como un indicador del nivel de agua en un depsito, que se utiliza en las mediciones.
Un evento es una coleccin de puntos muestrales en el espacio muestral de un experimento. Un
evento puede consistir de un simple punto muestral llamado un evento simple o elemental, o puede
estar formado por dos o ms puntos muestrales conocidos como un evento compuesto.
Definicion: Evento. Un evento (denotado por una letra mayuscula A) es un subconjunto del espacio
muestral .
El evento A definido como A = 4 {S: 3c/4 S < c} es un simple evento, ya que esto corresponde a un
simple punto muestral (para esta discretizacion). Por otro lado, el evento B se define como B = 1 + 2
{S: 0 S < c/2} es un evento compuesto, porque esto comprende la coleccin de dos eventos simpes,
es decir A1 = 1 {S: 0 S < c/4} y A2 = 2 {S: c/4 S < 2c/4}. Otros eventos posibles son
mostrados por los diagramas de torta.
Ejemplo 2.3. Almacenamiento de Reservorio. Dado {S: 0 S < c} el espacio muestral continuo
asociado al volumen de agua almacenado en un reservorio multipropsito en un cierto tiempo.
Because mitigation of the downstream flood hazard is usually one of the objectives for construction of a
reservoir, a portion of its capacity must be left empty at the beginning of the flood season. Dado w < c
denote the residual reservoir capacity available for flood control storage. At the beginning of the flood
season, the reservoir manager must investigate the event A {S: 0 S c w}, which corresponds to
the availability of sufficient flood storage in the reservoir (ver Fig. 2.1.1). El complemento de A es el
evento Ac {S: c w < S < c} el cual significa que el reservorio tiene capacidad residual insuficiente
para cumplir con la reserva de control de inundaciones. Tanto A y Ac son eventos compuestos en
relacion a Fig. 2.1.2.
Fig. 2.1.2 (a) Almacenamiento de Reservorio es representado por cuatro estados, 1, 2, 3, y 4. (b)
Los anchos de los rectngulos en el extremo derecho son proporcionales a las frecuencias relativas de
estos estados. (c) Los eventos indicados en el texto estan representados por rectangulos at the center on
the right with areas proportional to the relative frequencies of these events. (d) los diagramas de torta
muestran todos los posibles eventos (sombreados) y tambin el estado vaco (no sombreado). Por
ejemplo, A = A4 significa que 3c/4 S < c en Ejemplo 2.2.
Ejemplo 2.4.- Se est tratando de determinar el riesgo de inundacin en las reas bajas de un rio
importante y encuentra que, de las observaciones de avenidas que se tienen para los ltimos 150 aos (n
= 150), han registrado una inundacin en la ubicacin de inters durante 20 de esos aos (nA = 20). El
evento de inters es A = una inundacin ocurre en las reas bajas del ro XXX. La probabilidad de
este evento es determinado como
nA 20
P( A) 0.1333...
n 150
i.e., esta es una inundacin en la ubicacin de inters aproximadamente 13 de entre 100 aos.
Si n es la misma para cualquier evento, se dice que el evento A ocurre con una probabilidad p, definida
como:
p = P(A) vr
0 P(A) 1
Por otra parte, cuando, para un evento E, ocurre que nA = n, se dice que el evento E es seguro y
entonces:
P(E) = 1
Para que un evento sea seguro debe incluir todos los posibles casos o resultados del experimento
(espacio muestral). As, en el caso del escurrimiento del ro, el evento seguro es:
E: 0 V
P(V<0) = 0
Se dice que dos eventos son mutuamente excluyentes cuando no pueden ocurrir simultneamente. Por
ejemplo, el evento
y el evento
B: V < 10 000 m3
Son mutuamente excluyentes. Si la frecuencia del evento A es v1 y la del evento B es v2, entonces la
frecuencia de la unin de los dos es v = v1 + v2; por lo tanto, la probabilidad de C = AUB es:
La ley de probabilidades que describe el comportamiento estadstico de una variable aleatoria - que en el
caso mencionado anteriormente es el volumen de escurrimiento mensual - se puede representar de varias
maneras, entre las que cabe mencionar la funcin masa de probabilidad discreta, la funcin de
distribucin de probabilidad acumulada, la funcin de densidad de probabilidad y la funcin de
distribucin de probabilidad. A continuacin se har un breve recordatorio de estas funciones y sus
propiedades.
P ( A B ) P ( A) P ( A' ) 1 P ( A B ) P ( A) P ( B ) P ( A B )
P ( A B ) P ( A) P ( A') 1
P ( A / B ) P ( A B ) / P ( A)
P ( A B ) P ( A ). P ( B / A )
P ( A B ) P ( A ). P ( B )
n
P ( A) P ( A / Bi ).P ( Bi )
i 1
P ( B / A) P ( A B ) / P ( A)
1. P ( A ). P ( Bj / A ) P ( Bj ). P ( A / Bj ) (Prob. Condicional)
n
2. P ( A ) P ( A / Bi ) . P ( Bi ) (Prob. Total)
i 1
Dividiendo (1) entre (2) se obtiene finalmente la formula conocida como la regla de Bayes:
P ( Bj ). P ( A / Bj )
n
P ( Bj / A )
i 1
P ( A / Bi ) . P ( Bi )
2.2.5. Permutaciones
Si consideramos n objetos diferentes del cual seleccionamos y ordenamos en lnea, r, de los n objetos. A
tal ordenamiento se le llama permutacin de r objetos. Al nmero posible de tales permutaciones se le
designa por:
n Pr n(n 1)............(3).(2).(1) n!
Como ejemplo tomemos las permutaciones tomadas dos a dos de las letras a, b, c, d: 4P2=n!/(n-
r)!=4!/2!=12. Estos son: ab, ba, ac, ca, ad, da, bc, cb, bd, db, cd, dc.
2.2.6. Combinaciones
Si se esta interesado solamente en los objetos seleccionados, cuando entre n se eligen r, sin tener en
cuenta su ordenacin, entonces a la seleccin no ordenada se le llama combinacin.
n n!
(n Pr)/ r!
r (n r)!r!
n! 2 .en .nn1/ 2
El error de aproximacin es menor del 1% para n=10 y el porcentaje de error decrece al aumentar el
valor de n.
Como ejemplo podemos citar el nmero de combinaciones de dos letras seleccionadas de entre las
cuatro siguientes: a, b, c, d:
X es una funcin definida sobre un espacio muestral esto significa que a cada elemento ei del espacio
1). El numero de valores para los cuales X tiene una probabilidad positiva es finito o a lo mas infinito
numerable.
2). Cada intervalo finito en la escala de nmeros reales contiene a lo mas un numero finito de los valores
de X.
Sea una variable aleatoria discreta, X, entonces la funcin definido por f (x) p(x x0 ) , se le llama
funcin de densidad discreta de x0 . Por Ejemplo si tomamos el caso del lanzamiento de 2 monedas y
definimos X como el nmero total de caras se tiene:
f (0) 1 / 4
f (1) 1 / 2
f (2) 1 / 4
Para juzgar, como se distribuye una variable aleatoria, es decir como cambia su probabilidad cuando
cambia la variable, es til representar la funcin de densidad por medio de un grafico.
Una funcin de densidad de una variable aleatoria continua X, es una funcin F(x) que cumple las
siguientes propiedades:
f(x)
1. f ( x) 0
2. f (x).d(x) 1
b
3. f ( x )dx P (a X b )
a
dF ( x )
f ( x) y F ( x) f ( x ).dx
dx
En la prctica se escoge, siempre que es posible, la media como origen de la variable X para el clculo
de los otros momentos. Estos momentos se llaman momentos centrados y se escriben de la siguiente
forma:
= [ ( )] = ( ) = ( )
M1 0
2 2
M 2 M 2
M 1
3
M 3 M 3
3M 2 M 1 2M 1
4
M 4 M 4
4 M 3M 1 6M 2
.M 1
3M 1
M 2 E (x )2 M 2 M 12 2
var iancia
M 32 M
1 3
33/ 2
M2 M2
M 4 M 4
2 2
4
M 2
Normalmente no se conocen todos los valores de la variable aleatoria para calcular un parmetro de
la poblacin, sin
2 e . x
E (x )2 (x )2
x!
Pero adems: 2
M 2 M 2 M 12 E ( x ) 2 E ( x ) 2
e . x . x 2 e . x . x e . x .( x 1 1 )
E ( x)2 M 2
x! ( x 1 )! ( x 1 )!
x .1 x .( x 1)
E ( x) 2 e e
( x 1)! ( x 1)!
x x.
E ( x)2 e e
( x 1 )! ( x 2 )!
Como x es una V. A. D. podemos expandir el segundo miembro como una serie de Taylor:
2 1 2 3 2 3 4
E( x) e ( ...........) e ( ...........)
0! 1! 2! 0! 1! 2!
2 3
E ( x ) 2 ( e . e . 2 ) (1 .......... .......... ..)
1! 2! 3!
E ( x ) 2 e . e e . 2 e 2
2
Por lo tanto ( 2 ) (2 )
Sea X1, X2,. . ., Xn una m.a.s. de una distribucin con funcin de densidad f(x; 1, 2).
Como tenemos 2 parmetros, tomemos los dos primeros momentos respecto al origen,
conjunta: f ( x1, x2 ,.....,xn ,1,2 ,...........,m ) . Dado que para una muestra aleatoria los valores de
n
L(1 , 2 ,..........., m ) f ( xi , 1 , 2 ,..........., m )
i 1
Los parmetros son desconocidos por lo tanto la estimacin de estos se realizan teniendo presente que
deben maximizar la funcin de verosimilitud. Esto es posible tomando la derivada parcial de L ( i ),
e ( x 1 )
2
/( 2 22
f ( x) Para x
2. . 22
22 2 (Variancia)
e ( x ) /( 2
2 2
f (x) Para x
2 . .
Que es una funcin contina y simtrica con respecto a por lo tanto el coeficiente de asimetra es
cero.
Si una variable aleatoria X tiene distribucin normal con media y variancia 2 y adems y=a+bx,
1 2
f (z) ez /2 Para: x
2 . .
z 1 2
f ( z ) P ( z z0 ) e t / 2 dt
2
0 y 2 1
La distribucin uniforme con parmetros a y , esta definida por la funcin de densidad siguiente:
f ( x ) 1 /( a ) Para a x
f ( x ) 1 /( x a ) /( a ) Para a x
E ( x) ( a ) / 2 2 ( a ) 2 / 12
Los estimados para los parmetros a y obtenidos por el mtodo de momentos son:
a xS 3 ; xS 3
x
f ( x ) .e . x f ( x ) .e .t dt 1 e x
0
1 1
E ( x) Var ( x) 2
2
2.6.5. Distribucin gamma
x 1e x /
F ( x) ; Para X>0
.r ( )
F(x)=0; para x 0.
r ( ) x 1e x dx. ; Para x>0
0
r ( 1) ( ) ; Si >0.
(1) ( 2) 1
(1 / 2)
( 1)
( ) ; Si <0.
E ( x ) . ; Var ( x ) 2 . 2 ; g 2/
Los estimadores para los parmetros de la distribucin gamma por el mtodo de momentos son:
2
S2 x
2
x S
Por el mtodo de la mxima verosimilitud los estimadores para los parmetros y son:
Ln( ) ( ) Ln ( x / x g )
. x
n
x g ( xi )1 / n ( x1 .x 2 .x3 ...........x n .) 1 / n
i 1
d
( x) .Ln ( ( x))
dx
Thom (1958) propuso una relacin aproximada para el estimador del parmetro , basado en la
truncacion de la serie expandida de mxima probabilidad.
4y
1 1
3
4y
Donde: y Ln x Ln x
= termino de correccin
Factor de correccin ( ) para el estimador del parmetro por el mtodo de mxima probabilidad
0.2 0.034 1.0 0.009 1.8 0.004
0.3 0.029 1.1 0.008 1.9 0.003
0.4 0.025 1.2 0.007 2.2 0.003
0.5 0.021 1.3 0.006 2.9 0.002
0.6 0.017 1.4 0.006 3.1 0.002
0.7 0.014 1.5 0.005 3.2 0.001
0.8 0.012 1.6 0.005 5.5 0.001
0.9 0.011 1.7 0.004 5.6 0.000
La tabla anterior muestra los valores de en funcin de comprendido entre 0.2 y 5.6. Para
4y
1 1
3
en un primer momento que sea igual a y luego calcular el valor de , de la tabla,
4y
x
correspondiente al valor inicial. Para estimar el parmetro se tiene que .
Thom (1958), comprob que para 10 el mtodo de momentos genera estimados inaceptables para
y para cercanos a uno, el mtodo de momentos usa solo 50% de la informacin de la muestra
para estimar y solo el 40% para estimar . Esto indica con la mitad de observaciones.
Greenwood y Durand (1960) presentaron la siguiente relacin para los estimadores de mxima
probabilidad.
2
( 0 . 5000876 0 . 1648852 y 0 . 0544274 y ) / y
2
8 . 898919 9 . 05995 y 0 . 9775373 y
y ( 17 . 79726 11 . 968477 y y2)
Donde: y Ln x Lnx
Las expresiones anteriores tienen un ligero sesgo asinttico, para pequeas muestras, este puede ser
apreciable.
Bowman y Shenton (1968) presentaron la siguiente relacin aproximada para estimar el sesgo en el
parmetro , cuando se emplean la ecuacin de Thom, Greenwood y Durand.
0 . 111 0 . 032
E ( ) ( 3 0 . 677 ) /( n 3 )
Para n 4 y 4
N = tamao de muestra.
Bowman y Shenton (1968) sugieren que el sesgo en , puede ser aproximado por:
3 ( n 3 )
E ( ) ; Con: E ( ) ; n4
n n
puede esperar una variable Y=Ln X, tambin con distribucin normal con media y y variancia y2 .
La funcin de densidad de distribucin normal para Y es:
2
1 Y y
1 2 y
f ( y) e Para Y
2 X y
dy
La relacin entre f(x) y f(y) es: f ( x ) f ( y )
dx
Como Y= Ln X entonces.
dy 1
, X>0
dx x
2
1 LnX y
1 2 y
f ( y) e Para X>0
2 X y
Y=Ln X tiene distribucin normal, mientras que X tiene distribucin log-normal. Los parmetros y
2
Y Y i /n y S y2 ( Y i 2 n Y ) /( n 1)
Chow (1954), presento la siguiente relacin para calcular Y y S y2 sin que sea necesario transformar
2
Y
1
Ln
X S y2 Ln(Cv2 1)
2 C v2 1
Cv S x / X
Brakensiek (1958), propuso las siguientes relaciones para obtener la media y variancia de la distribucin
log normal.
1
( y 2y ) 2y
x E( X ) e 2
Var ( X ) x2 .(e 1)
C e 1
1/ 2
2y
v - coeficiente de variacin
Las tablas de distribucin normal estndar pueden ser usados para evaluar la distribucin log normal.
f ( z)
f ( x) Donde: Z (y y )/ y
X . y
2
1 Ln ( x x 0 ) y
1 2 y
f (x) .e
Para x x0
( x y 0 ). 2 y
x0 = parmetro de posicin.
Los momentos de X pueden obtenerse de los correspondientes momentos de la distribucin log normal
de dos parmetros, debido a que las variedades aleatorias defieren solo en el parmetro de posicin x0 :
x x0 H
x 0 =parmetro de Posicin.
E ( x) x x0 E ( H ) x0 H
E ( x x ) 2 x2 H2
1
( y 2y )
x E ( x) x0 e 2
y2 ( 2 y 2y )
x2 Var ( x ) ( e 1).e
y2 2y
g (e 1).(e 2)
Consideramos una muestra de tamao n consistente en x1, x2 , x3 ,........xn observaciones, donde f(x)
n
( Y0) P(X1 Y0).P(X2 Y0).............P(Xn Y0) P(X Y0)
F(y) PY
dF ( y )
nP ( X Y0 P ( X Y0 )
n 1
F ( y)
dy
Se le conoce tambin como Gumbel, este tipo de distribucin es usado frecuentemente para estudio de
magnitud-duracin y frecuencias de lluvias (Hershfield, 1961) y como la distribucin de valores
mximos de caudales anuales de un ri.
Gumbel (1958), estudio la aplicacin para datos de descargas diarias. La funcin de densidad de
probabilidad para la distribucin de valores extremos tipo I es:
e ( X ) / a e
(X ) /a
f (x)
a
Para X ; ;a 0
El signo (+) se aplica para valores mnimos y el signo (-) se aplica para valores mximos.
E ( x ) 0.577a (Mximo)
E ( x ) 0.577a (Mnimo)
g=-1.1396 (mnimo)
Si se hace la transformacin: Y (x ) /a
Y
La funcin de densidad ser: f ( y ) e ( Y e )
y
f ( y ) e e - (mximo)
y
f ( y) 1 e e - (mnimo)
f ( y ) min 1 F ( Y ) max
Los estimadores para los parmetros a y , por el mtodo de momentos (LOWERY Y NASH 1970)
son:
S
a , x 0.45( S ) - mximo
1.283
x 0.45( S ) -mnimo
a x ( X i e x / a ) / e x / a
i i
xi / a
aLn (
e )
n
no tienen solucin explicita, por lo que es necesario una solucin por mtodos numricos. Segn
Lowery y Nash, el mtodo de momentos da resultados satisfactorios en el clculo de estos parmetros.
La distribucin de valores extremos tipo III (tiene gran aplicacin para eventos hidrolgicos mnimos.
Esta distribucin se le conoce como la distribucin de Weibull de 2 parmetros y su funcin de densidad
es:
f ( x) aX a 1 a e ( X / )
a
Donde: X 0; a, 0
a
F ( x) 1 e ( X / )
E ( x ) (1 1 / a )
Var ( x ) 2 2 (1 2 / a ) 2 (1 1 / a )
El coeficiente de asimetra, segn Hahnan y Shapiro (1967), es.
(1 3 / a ) 3 (1 2 / a ) (1 1 / a ) 2 3 (1 1 / a )
g
(1 2 / a ) (1 1 / a )
2 3/ 2
Los estimadores de los parmetros a y , por el mtodo de momentos se obtienen resolviendo las
ecuaciones simultneas correspondientes a la media y variancia muestral.
n n
n / xi
a
y
a n n
a
i 1 ( xi Lnxi Lnxi )
i 1 i 1
f ( x ) a ( x )a 1 ( ) a e ( x ) /( )
a
f ( x ) 1 e ( x ) /( )
a
Y ( x ) /( )
a
Tenemos que: F ( y) 1 e y
E ( x ) ( ) (1 1 / a )
var( x ) ( ) 2 (1 2 / a ) 2 (1 1 / a )
El coeficiente de asimetra es lo mismo que en el caso de la distribucin de Weibull de 2 parmetros.
Resolviendo algebraicamente las ecuaciones correspondientes a E(x) y Var(x), podemos resolver para:
. A(a ) ; .B (a )
Donde:
A(a ) = 1 (1 1 / a ) (a )
B (a ) = (1 2 / a ) 2 (1 1 / a )
1 / 2
g 1/ a A(a ) B (a ) g 1/ a A(a ) B (a )
-1.000 0.02 0.446 40.005 2.000 1.00 0.000 1.000
-0.971 0.03 0.444 26.987 2.309 1.10 -0.040 0.867
-0.917 0.04 0.442 20.481 2.640 1.20 -0.077 0.752
-0.867 0.05 0.439 16.576 2.996 1.30 -0.109 0.652
-0.638 0.10 0.425 8.737 3.382 1.40 -0.136 0.563
-0.254 0.20 0.389 4.755 3.802 1.50 -0.160 0.486
0.069 0.30 0.346 3.370 4.262 1.60 -0.180 0.418
0.359 0.40 0.297 2.634 4.767 1.70 -0.196 0.359
0.631 0.50 0.246 2.159 5.323 1.80 -0.208 0.308
0.896 0.60 0.193 1.815 5.938 1.90 -0.217 0.308
1.160 0.70 0.142 1.549 6.619 2.00 -0.224 0.224
1.430 0.80 0.092 1.334 7.374 2.10 -0.227 0.190
1.708 0.90 0.044 1.154 8.214 2.20 -0.229 0.161
xa 1 (1 x) 1
f ( x) Para: 0 x 1 , a , 0
B (a )
1
a 1
Funcin beta= B(a , ) x (1 x) 1dx
0
a ,
B (a , )
(a )
a .
E ( x)
(a )
a .
Var ( x ) 2
(a 1)(a ) 2
x
2
( t a ) /( 0 1t 2t ..................)dt
f ( x) e
La distribucin Pearson tipo III, tiene gran aplicacin en hidrologa especialmente en el anlisis de
caudales mximos (picos), su funcin de densidad se puede escribir como:
( x x 0 ) 1 e ( x x 0 ) /
f (x) Para: x x
( ) 0
x 0
1
Y e Y Y Y 1
e Y
f ( y) y P ( Y Y 0 ) F (Y ) dY
( ) 0 ( )
El estimado para los parmetros por el mtodo de momentos es:
E ( x ) x 0 . Media
E (x )2 2
2 . Variancia
g 2/ Sesgo
( LnX Y 0 ) 1 e ( LnX Y0 ) /
f (x)
( )
( Z Z 0 ) 1 e ( Z Z 0 ) /
f (z) Donde Z=Ln(X)
( )
Z0 =Parmetro de posicin.
=Parmetro de escala
=Parmetro de forma.
x ez o x x0 e z
E ( z ) z 0 . Media
2
E (z 2 )2 2 2 . Variancia
g 2/ Sesgo
0 5
( )=
0
b) Est entre 1 y 3?
Solucin
De la ecuacin ( ) = 1 , se tiene:
0 5
f ( x )dx f ( x)dx f ( x)dx f ( x)dx 1
0 5
5 125
(0) + + ( 0) = = = =1
3 0 3
3
Por lo tanto: a =
125
3
( )=
125
( )=
125
Entonces:
8
a) F(2) = P(X 2) =
125
9 1 8
b) P(1 X 3) = F(3) - F(1) =
125 125 125
64 61
c) P(X 4) = 1 P(X 4) = 1 F(4) = 1 -
125 125
d) P(X 6) = 1 P(X 6) = 1 1 = 0
e) P(X = 2.5) = 0
Ejemplo 2. Los gastos mximos anuales registrados en la estacin hidromtrica Las Perlas en el ro
Coatzacoalcos se muestran en el cuadro siguiente.
a) Cul es la probabilidad de que, en un ao cualquiera, el gasto sea mayor o igual a 7 500 m3/s?
b) Se planea construir cerca de este sitio un bordo para proteccin contra inundaciones. Cul debe ser
el gasto de diseo si se desea que el periodo de retorno sea de 60 aos?
Supngase que los datos del cuadro siguiente siguen una distribucin normal.
Solucin
25
xi
i 1
X= = 3 886 m3/s
n
25
( xi x)
I 1
S= = 1 825.9 m3/s
n 1
= x = 3886 m3/s
= S = 1825.9 m3/s
x 7500 3886
z= 1.98
1825.9
( ) = ( ) = ( 7500) = 0.9761
Por lo que la probabilidad de que el gasto mximo anual sea mayor o igual que 7500 m3/s resulta.
1 1
T=
P ( X x) 1 P( X x)
Por lo tanto:
T 1
P (X x) =
T
59
F (x) = P (X x) = = 0.9833
60
z = 2.126
x = 7 775.2 m3/s
Entonces, segn la distribucin normal el gasto de diseo para un periodo de retorno de 60 aos es
7775.2 m3 /s.
Solucin
La media y desviacin estndar de los datos, son estimadores de las media y desviacin estndar de la
poblacin, son.
25
ln xi
a 8.162
i 1 25
1/2
25 (ln xi 8.162)2
0.451
i1 25
Y por lo tanto
T 1
b) Nuevamente, de P (X x) = se tiene:
T
De la tabla de la distribucin normal estndar acumulada o resolviendo la ecuacin por tanteo, para este
valor de F(z) se obtiene
z = 2.13
Despejando x de la ecuacin
ln
=
= exp( + )
Solucin
( ) /
=
25
xi38863 / 25
= i 1 (1825.9)
3
1.258
Entonces
1 = 2 2 =
2 2
= 2.526
1.258
a1 = S
1825.91 1148.8
1 2.526
x2 = 2y = 2(5.672) = 11.344
v = 21 = 2(2.526) = 5.05
De la tabla de la funcin Gamma (Aparicio, 1991) se obtiene, para estos valores de x2 y v, con 5 grados
de libertad
F(x) = 95.5 %
Por lo tanto,
. = 14.1
De la ecuacin
( )= ( / )= (2 /2 )
y = 14.1 = 7.05
2
Y de
N y sy N y sy
10 0.4952 0.9496 60 0.5521 1.1747
15 0.5128 1.0206 65 0.5535 1.1803
20 0.5236 1.0628 70 0.5548 1.1854
25 0.5309 1.0914 75 0.5559 1.1898
30 0.5362 1.1124 80 0.5569 1.1938
35 0.5403 1.1285 85 0.5578 1.1974
40 0.5436 1.1413 90 0.5586 1.2007
45 0.5463 1.1518 95 0.5593 1.2037
50 0.5485 1.1607 100 0.5600 1.2065
55 0.5504 1.1682
Solucin
y = 0.5309; y = 1.0914
( ) = exp exp ( )
( ) = exp[exp[0.000548(7500 2997.8)]]
F(x) = 0.9345
Por lo tanto:
1
( )=
9.38 y 9.54:
Despejando x:
T
x = = 1 ln.ln = 2997.8 - 1 ln ln
a T 1
0.000548
1 =
9827.1 m3/s.
0.9833
Ejemplo 9.6. Resolver el ejemplo 9.2 usando una funcin de distribucin de probabilidad para dos
poblaciones. Suponiendo que ambas tienen una funcin de distribucin Gumbel.
Solucin.
En la tabla 9.7 se muestran los gastos mximos anuales ordenados de mayor a menor.
Supngase que los siete primeros gastos fueron producidos por una tormenta ciclnica. De este modo,
Nn = 18, NT = 25 y:
p = 18 = 0.72
25
Los parmetros a1, a2, 1 y 2 son, entonces, de acuerdo con las ecuaciones 9.58 y 9.59:
donde los valores de y1, y1, y2, y y2, se interpolaron en la tabla 9.6.
F (7500) = 0.9 16
Por lo tanto:
F(x) = 0.9833
De la ecuacin
X (m3/s) F(X)
9000 0.9710
10000 0.9840
9800 0.9822
9900 0.9831
X = 9900 m3/s
3.1. Introduccin
El investigador desea conocer si los tratamientos tienen algn efecto sobre la variable que se estudia. Es
decir desea saber si las medias estimadores de las de las poblaciones de los tratamientos son
iguales o distintas. Es propsito de todo investigador que realiza un anlisis de variancia de un
experimento en particular, realizar la prueba sobre el efecto de los tratamientos en estudio, para ello
hace uso de la prueba F el cual indicar si los efectos de todos los tratamientos son iguales o diferentes;
en caso de aceptar la hiptesis de que todos los tratamientos no tienen el mismo efecto, entonces es
necesario realizar pruebas de comparacin de promedios a fin de saber entre que tratamientos hay
diferencias, y para esto es necesario realizar pruebas de comparacin mltiple como las siguientes:
1. Prueba de Rangos Mltiples de Tukey HSD
2. Diferencia Minima Significativa (LSD)
3. Prueba de Rangos Mltiples de Duncan
4. Prueba de Comparacin de Dunnet
5. Pruebla de Student-Newman-Keuls (SNK)
3.2. Prueba de Rangos Mltiples de Tukey HSD
Este procedimiento es llamado tambin Diferencia Honestamente Significativa, se utiliza para realizar
comparaciones mltiples de medias; esta prueba es similar a la prueba de Duncan en cuanto a su
procedimiento y adems es ms exigente. La prueba Tukey se usa en experimentos que implican un
nmero elevado de comparaciones o se desea usar una prueba ms rigurosa que la de Duncan. Es de
fcil clculo puesto que se define un solo comparador, resultante del producto del error estndar de la
media por el valor tabular en la tabla de Student-Newman-Keuls y usando como numerador el nmero
de tratamientos y como denominador los grados de libertad del error. Debe considerarse que esta
prueba es ms estricta en su clasificacin; asi el 5% de Tukey casi es equivalente al 1% de Duncan
MSE
X i X j q (a , r , GL ) (1)
n
MSE 1 1
X i X j q (a , r , GL) (2)
2 ni n j
Donde: ec. (2) cuando n de cada grupo son iguales y ec (2) cuando n de cada grupo es distinto
Ejemplos de aplicacin
Se tiene las influencias de las drogas A, B y C en la produccin de clulas. Realizar la prueba de Tukey.
A B C
24.15 36.3 19.35
24.6 44.1 21.9
25.1 39.15 31.1
22.55 49.9 15.4
22.65 50.35 18.3
26.85 50.6 27.1
40.2 31.7 22.15
63.2 69.25 22.15
79.6 138.6 22.75
59.1 72.95 66.7
64.6 80.05 19.35
102.45 90.3 37.85
ANLISIS DE VARIANZA
Origen de las Suma de Grados de Promedio de Valor crtico
Probabilidad
variaciones cuadrados libertad los cuadrados F para F
Entre grupos 7688.63514 2 3844.317569 6.31 0.0048 3.28491765
Dentro de los grupos
20117.7138 33 609.6276894
Total 27806.3489 35
Con este anlisis podemos concluir que si existe diferencia significativa, entre alguno o algunos de los
grupos, ante lo cual relizaremos el anlisis mediante Tukey, para saber entre cuales.
qa 3.3600
MSE 609.6277
n 12
HSD 23.9486
En la siguiente tabla calcularemos la diferencia de las medias entre cada uno de los grupos, y hallaremos
cul de las diferencias es mayor que la HSD.
A B C
A -16.5166667 19.2458333
B 16.5166667 35.7625
C -19.2458333 -35.7625
Segn estos resultados existe diferencia significativa, entre los grupos B y C
Es un procedimiento comnmente usado para comparar la diferencia entre un grupo de medias y para
comparar cada uno de los grupos de medias con un tratamiento estndar. Se justifica slo en las
siguientes condiciones: a. La prueba F resulta significativa. b. Las comparaciones fueron planeadas
antes de ejecutar el experimento. c. Es solamente valido para algunas comparaciones especficas, ya que
al incrementarse el nmero de comparaciones se incrementa el error tipo I. d. No controla en forma
eficiente el error referido al experimento, su uso no es recomendable para comparaciones mltiples de
todos los pares de medias de un experimento.
1 1
X i X j t (a / 2, GL ) MSE (1)
ni n j
Donde:
2 MSE
Al valor t0.01, v, se le llama diferencia mxima
excede a la LSD, habr significacin. n
significativa. Esta prueba es apropiada si la comparacin de medias grandes con pequeas en un grupo
de v tratamientos medios; es decir, que sin tener efectos diferentes en los tratamientos habr variabilidad
entre los promedios debido exclusivamente a la variabilidad comn: Pues cuanto mayor sea el nmero
de tratamientos, habr rechazos indebidos en las comparaciones extremas, ya que en ellas el tc seria
mayor que el t0.05.
Problemas de aplicacin
Probando con el modelo Bonferroni
La prueba de rango mltiple Duncan es una comparacin de las medias de tratamientos todos contra
todos de manera que cualquier diferencia existente entre cualesquier tratamiento contra otro se ver
reflejado en este anlisis. Utiliza un nivel de significancia variable que depende del nmero de medias
que entran en cada etapa de comparacin. La idea es que a medida que el nmero de medias aumenta, la
probabilidad de que se asemejen disminuye. Para obtener los comparadores Duncan, se toman de la
tabla de Duncan los valores de acuerdo al nmero de tratamientos y con los grados de libertad del error.
Cada uno de estos valores ser multiplicado por el error estndar de la media y stos sern los
comparadores para determinar cules diferencias son significativas. Este procedimiento es utilizado para
realizar comparaciones mltiples de medias; para realizar esta prueba no es necesario realizar
previamente la prueba F y que sta resulte significativa; sin embargo, es recomendable efectuar esta
prueba despus que la prueba F haya resultado significativa, a fin de evitar contradicciones entre ambas
pruebas. Las caractersticas son las siguientes: El nmero de tratamientos de comparaciones con t
t (t 1)
tratamientos es El Fc en el anlisis de variancia puede ser significativo o no. Tiene el
2
inconveniente cuando se cuenta con un alto nmero de tratamientos dado que el nivel de significacin
se modifica en funcin de ellos. Para su aplicacin se utiliza la siguiente
MSE
formula: xi x j qa (r , GLerror ) n
Ejemplos de aplicacin
MSE
xi x j qa (r , GLerror ) n
Keuls)
MSE = cuadrado medio del error
r=5 r=6
r=2 r=3 r=4
los nmeros observados son pequeos (de 2 a 10), se prefiere la transformacin (y+0.5)1/2, en especial
cuando algunos de los nmeros observados son cero.
Coeficiente de variabilidad Es una medida de variabilidad relativa (sin unidades de medida) cuyo uso
es para cuantificar en trminos porcentuales la variabilidad de las unidades experimentales frente a la
aplicacin de un determinado tratamiento. En experimentacin no controlada (condiciones de campo) se
considera que un coeficiente de variabilidad mayor a 35% es elevado por lo que se debe tener especial
cuidado en las interpretaciones y conclusiones; en condiciones controladas (laboratorio) se considera
un coeficiente de variabilidad mayor como elevado. La expresin estimada del coeficiente de
variabilidad es:
El diseo completamente al azar, es aquel en el cual los tratamientos se asignan completamente al azar a
las unidades experimentales o viceversa. Este diseo es usado ampliamente. Por lo tanto se considera
que es un diseo eficiente cuando las unidades experimentales de las que se dispone son muy
homogneas.
4.1. Caractersticas principales
1. Aplicable slo cuando las unidades experimentales son homogneas (verificar si existe tal
homogeneidad).
2. Los tratamientos pueden tener igual o diferente nmero de unidades experimentales.
3. La distribucin de los tratamientos es al azar en las unidades experimentales.
El nmero de tratamientos est en funcin del nmero de unidades experimentales que se dispone. Es
conveniente tener pocos tratamientos y ms unidades experimentales que muchos tratamientos con
pocas unidades experimentales.
4.2 Modelo estadstico Lineal
Este modelo lineal es la siguiente:
Yij i ij
i = 1,, t;
t = nmero de tratamientos
j = 1,,n;
n = nmero de repeticiones por tratamiento
Donde:
= es el efecto medio
4.4. Estimaciones
La tcnica para hacer el anlisis de varianza, mediante los mnimos cuadrados, no permite hallar
aquellos estimadores que nos aseguraran una suma de cuadrados del error mnimo.
.
- (suma de cuadrados del error)
.
..
- (Suma de cuadrados totales)
Para hallar el valor esperado de una variable, cada uno de los posibles valores de la variable es
multiplicado por su correspondiente probabilidad y el producto resultante es sumado. Tambin se lo
define como el valor medio de una variable aleatoria si el mismo experimento aleatorio se repite una y
otra vez.
El cuadrado medio esperado (ECM), es una valiosa ayuda para el investigador, dado que indica el
procedimiento adecuado a seguir en la estimacin de parmetros o para la prueba de hiptesis acerca de
los parmetros dentro del marco de trabajo en el modelo supuesto.
Es una tcnica matemtica que nos permite descomponer una fuente de variacin total en sus
componentes atribuibles a fuentes de variacin conocida. La tabla nos muestra el anlisis generalizado
para el diseo completo al Azar.
Tabla 4.2.
Anlisis de varianza del Diseo Completamente al Azar (DCA)
F. de. V. (G.L.) ( S.C.) ( C. M.) MODELO MODELO II
I
TRATAMIENTOS ( t-1) .
+
- ..
( )
= + ( )
ERROR t(n-1) - .
=
( )
.
.
TOTAL (tn-1) - ..
Llamada F de Snedecor (lo que se halla en las tablas) tabulares. La prueba de F exige que sean dos c2
centrales o dos c2 no centrales.
Efectese anlisis de variancia para probar con un nivel de significancia de 0.05 si las diferencias entre
las medias muestrales en las tres posiciones son significativas
Cuadro 4.1
Resultado de Anlisis de variancia de prueba de laboratorio
F. de V. GL SC CM Fc Ft P>F Sig.
Tratamientos 2 234.453125 117.226563 2.3327 0.132
Error 14 703.546875 50.253349
Total 16 938.000000
C.V. = 7.8766 %
data problema;
input p$ y@@;
datalines;
p1 90 p2 105 p3 83
p1 82 p2 89 p3 89
p1 79 p2 93 p3 80
p1 98 p2 104 p3 94
p1 83 p2 89
p1 91 p2 95
p2 86
proc print;
proc anova;
class p;
model y=p;
means p/tukey;
run;
Ejemplo 02. Se realizan tres pruebas de la resistencia a la compresin en seis muestras de concreto. La
fuerza que fractura cada muestra de forma cilndrica, medida en kilogramos, est dada en la siguiente
tabla:
Muestra
A B C D E F
Prueba 1 110 125 98 95 104 115
Prueba 2 105 130 107 92 96 121
Prueba 3 145 136 142 148 129 130
data flores;
input D$ R@@;
datalines;
d1 110 d2 105 d3 145
d1 125 d2 130 d3 136
d1 98 d2 107 d3 142
d1 95 d2 92 d3 148
d1 104 d2 96 d3 129
d1 115 d2 121 d3 130
proc print;
proc anova;
class D;
model R=D;
means D/tukey alpha=0.05;
run;
4 d1 125
5 d2 130
6 d3 136
7 d1 98
8 d2 107
9 d3 142
10 d1 95
11 d2 92
12 d3 148
13 d1 104
14 d2 96
15 d3 129
16 d1 115
17 d2 121
18 d3 130
data Eduardo;
input x$ y@@;
datalines;
d1 175 d2 75 d3 75
d1 200 d2 75 d3 50
d1 225 d2 100 d3 75
d1 150 d2 75 d3 75
d1 125 d2 75 d3 50
d1 125 d2 50 d3 75
proc print;
proc anova;
class x;
model y=x;
means x/tukey;
run;
data eduardo;
input x$ y@@;
datalines;
DATA CEBADA;
DO TRAT='A', 'B' ,'C' ,'D';
DO REP=1 TO 5;
INPUT DATO @@;
OUTPUT;
END;
END;
CARDS;
730 730 730 750 750
740 740 740 740 750
680 690 690 690 700
710 710 720 720 730
;
PROC ANOVA;
CLASS TRAT;
MODEL DATO=TRAT;
MEANS TRAT/DUNCAN ALPHA=0.05;
RUN;
5.1. Definicin
Se llama tambin experimento con dos criterios de clasificacin, porque tiene dos fuentes de variacin;
estas son tratamientos y bloques: este diseo es un modelo estadstico en el que:
1. Se distribuyen las unidades experimentales en grupos o bloques, de tal manera que las unidades
experimentales dentro de un bloque sean homogneas, pero entre grupos haya heterogeneidad y que en
el nmero de unidades experimentales dentro de un bloque sea igual al nmero de tratamientos por
investigar.
2. Lo tratamientos son designados al azar a las unidades experimentales dentro de cada bloque.
5.2. Caractersticas:
1. Las unidades experimentales son heterogneas.
2. Las unidades homogneas estn agrupadas formando los bloques.
3. En cada bloque se tiene un nmero de unidades igual al numero de Tratamientos (bloques completos)
4. Los tratamientos estn distribuidos al azar en cada bloque.
5. El nmero de repeticiones es igual al nmero de bloques.
Yij= + i + j + ij
i = 1, 2, 3, , t = nmero de tratamientos
j = 1, 2, 3, , r = nmero de bloques
donde:
ij = error experimental
Tabla 5.1
.Representacin simblica de los datos en un diseo en Bloque Completo Al Azar con t tratamientos y
r repeticiones
Tratamientos Repeticiones j = 1, 2, 3, , r
i= 1, , t 1 2 j r Total Media
Media Y Y Y Y Y Y
Tabla 5.2
Anlisis de Varianza generalizado para un Diseo en Bloque Completo Aleatorio
Grados
Fuentes de de Suma de Cuadrados E ( CM )
Variacion Libertad Cuadrados Medios Modelo I Modelo II
+
. ..
Bloques ( r- 1) - ( 1) ( ) +t
+
Tratamiento
..
.
s (t-1) - ( 1) ( ) +
..
Total (rt 1)
Ejemplo 01.- Se dise un experimento para estudiar el rendimiento de cuatro (04) detergentes
diferentes. Las siguientes lecturas de blancura se obtuvieron con un equipo especialmente diseada
para 12 cargas de lavado distribuidas en tres (03) modelos de lavadoras:
Detergente A 45 43 51
Detergente B 47 46 52
Detergente C 48 50 55
Detergente D 42 32 49
Considerando los detergentes como tratamientos y las lavadoras como bloques, efectuar el anlisis de
variancia y su prueba con un nivel de significacin de 0.01 si existen diferencias entre los detergentes o
entre las lavadoras. Adems, efectuar la prueba de Rango Mltiple de Duncan a la probabilidad de 0.01.
data experimento;
input lavadoras detergent rendto;
cards;
1 1 45
1 2 47
1 3 48
1 4 42
2 1 43
2 2 46
2 3 50
2 4 37
3 1 51
3 2 52
3 3 55
3 4 49
proc print;
proc anova;
class lavadoras detergent;
model rendto= lavadoras detergent;
means detergent/Duncan alpha=0.01;
run;
RESULTADO DE SAS
Obs lavadoras detergent rendto
1 1 1 45
2 1 2 47
3 1 3 48
4 1 4 42
5 2 1 43
6 2 2 46
7 2 3 50
8 2 4 37
9 3 1 51
10 3 2 52
11 3 3 55
12 3 4 49
Alpha 0.01
Error Degrees of Freedom 6
Error Mean Square 3.138889
Number of Means 2 3 4
Critical Range 5.363 5.564 5.676
Means with the same letter are not significantly different.
DATA PAPA;
INPUT TRAT $ REP Y;
R=(1000/20)*Y;
CARDS;
A 1 10
A 2 9
A 3 11
A 4 10
B 1 12
B 2 11
B 3 12
B 4 13
C 1 15
C 2 15
C 3 16
C 4 15
D 1 11
D 2 10
D 3 10
D 4 11
;
PROC PRINT;
PROC ANOVA;
CLASS TRAT REP;
MODEL Y=TRAT REP;
MEANS TRAT REP;
DATA PAPA2;
SET PAPA;
IF TRAT='A' THEN N=0; /*SENTENCIAS QUE */
ELSE IF TRAT='B' THEN N=50; /* RECODIFICAN A */
ELSE IF TRAT='C' THEN N=100; /*TRATAMIENTOS PARA */
ELSE IF TRAT='D' THEN N=150; /*EFECTUAR LA REGRESION */
GLM;
CLASSES TRAT REP;
MODEL R=REP N N*N N*N*N;
RUN;
PROC GLM;
MODEL R=N N*N/P;
RUN;
6.1 Caractersticas:
1. Las U.E. se distribuyen en grupos , bajo dos criterios de homogeneidad dentro de la fila y dentro de la
columna y heterogeneidad en otra forma.
2. En cada fila y en cada columna, el nmero de unidades es igual al nmero de tratamientos.
3. Los tratamientos son asignados al azar en las unidades experimentales dentro de cada fila y dentro de
cada columna.
4. El nmero de filas = nmero de columnas = nmero de tratamientos.
5. Los anlisis estadsticos T-student, Duncan, Tuckey y en pruebas de contraste se procede como el
diseo completo al azar y el diseo de bloques. La desviacin estandar de la diferencia de promedios y
la desviacin estandar del promedio, estn en funcin del cuadrado medio del error experimental.
El nombre de cuadrado Latino se debe a R.A. Fisher [The Arrangement of Field Experiments, J.
Ministry Agric., 33: 503-513 (1926)]. Las primeras Aplicaciones fueron en el campo agronmico,
especialmente en los casos de suelos con tendencias en fertilidad en dos direcciones.
Formacin de cuadrados latinos
Suponga 4 tratamientos A,B,C y D, con estos tratamientos se pueden formar 4 cuadros diferentes
llamadas tpicas o estandar (en la primera fila y en la primera columna se tiene la misma distribucin).
Este diseo presenta las siguientes caractersticas:
La disposicin de las variantes del experimento sobre el terreno se hace en dos direcciones
perpendiculares recprocas y esto es lo que lo diferencia del bloque al azar.
En este las variantes se agrupan adems de bloques en columnas lo que es un nuevo elemento en ste
diseo.
Se puede utilizar en experimentos agrotcnicos, as como de seleccin de variedades, pero no es
recomendable en experimentos donde se utilice la mecanizacin.
Elimina la variabilidad de la fertilidad del suelo en dos direcciones.
En este diseo el nmero de filas y columnas y de tratamientos son iguales.
Presenta la dificultad de que el mismo no se puede estudiar un nmero grande de variante o tratamiento.
COLUMNAS
C1 C2 C3 C4
HILERAS
A B C D H1
B C D A H2
C D A B H3
D A B C H4
Ventajas
1. Disminuyen los efectos de dos fuentes de variabilidad de las unidades experimentales en los
promedios de los tratamientos y en el error experimental.
2. El anlisis de variancia es simple, aun cuando es ligeramente ms complicado que el DBCA.
3. En el caso de que se pierden todas las unidades experimentales de un mismo tratamiento, el
resto de tratamientos siguen ajustados a las caractersticas del cuadrado latino. Si se pierde
ntegramente un bloque o columna, el diseo queda ajustado al DBCA.
4. Cuando los bloques y las columnas estn relacionados con variaciones definidas de dos criterios
de clasificacin, ellos pueden ser considerados como tratamientos.
Desventajas
1. Como el nmero de tratamientos depende del nmero de bloques y columnas y por consiguiente
el nmero de unidades experimentales, esto le resta flexibilidad al diseo para su uso. Es por
esto que no es recomendable para mayor nmero de tratamientos.
2. A igualdad de numero de tratamientos y repeticiones, este diseo tiene menos grados de libertad
para el error experimental.
3. El error experimental tiende a incrementarse al aumentar el ancho de los bloques y el largo de
las columnas, como consecuencia principalmente del aumento del nmero de tratamientos.
Ejemplo 01.- Aplicar el Diseo de cuadrado latino, para comparar tres mtodos de soldadura
(A, B y C), para conductores elctricos, con tres diferentes operadores y utilizando tres diversos
fundentes para soldar y el experimento es de dos repeticiones:
REPT I REPT II
A B C C B A
OPE 1
14 16.5 11 10 16.5 13
OPE 2 C A B A C B
9.5 17 15 12 12 14
OPE 3 B C A B A C
Analice como cuadrado latino a la probabilidad de 0.01 y efectuar la prueba de rango mltiple
de Duncan.
DATA CUADRADO;
INPUT REPET HILERA COLUM TRAT RDTO;
CARDS;
1 1 1 1 14.00
1 1 2 2 16.50
1 1 3 3 11.00
1 2 1 3 9.50
1 2 2 1 17.00
1 2 3 2 15.00
1 3 1 2 11.00
1 3 2 3 12.00
1 3 3 1 13.50
2 1 1 3 10.00
2 1 2 2 16.50
2 1 3 1 13.00
2 2 1 1 12.00
2 2 2 3 12.00
2 2 3 2 14.00
2 3 1 2 13.50
2 3 2 1 18.00
2 3 3 3 11.50
PROC PRINT;
PROC GLM;
CLASS REPET HILERA COLUM TRAT;
MODEL RDTO= REPET HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/DUNCAN;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;
RESULTADO DE SAS
4 3 4 2011
4 4 3 1886
4 5 1 812
4 6 5 1596
5 1 1 1262
5 2 2 2143
5 3 3 2242
5 4 4 2229
5 5 5 2066
5 6 6 1898
6 1 5 1624
6 2 3 1885
6 3 1 1089
6 4 2 1879
6 5 6 1343
6 6 4 1245
PROC PRINT;
PROC GLM;
CLASS HILERA COLUM TRAT;
MODEL RDTO= HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/DUNCAN;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;
DATA EXAMEN;
INPUT REPET$HILERA$ COLUM$ TRAT$ RDTO @@;
DATALINES
;
I H1 C1 A 16.00
I H1 C2 B 17.50
I H1 C3 C 14.00
I H1 C4 D 14.00
I H2 C1 D 19.00
I H2 C2 A 17.00
I H2 C3 B 18.00
I H2 C4 C 14.10
I H3 C1 C 12.00
I H3 C2 D 18.00
I H3 C3 A 16.00
I H3 C4 B 19.00
I H4 C1 B 20.00
I H4 C2 C 15.00
I H4 C3 D 13.00
I H4 C4 A 22.00
PROC PRINT;
PROC ANOVA;
CLASS HILERA COLUM TRAT;
MODEL RDTO= HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/TUKEY ALPHA=0.05;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;
DO FILA = 1 TO 4;
DO COLUM = 1 TO 4;
INPUT VARIED $ RDTO;
OUTPUT;
END;
CARDS;
B2
D2
A6
C8
A7
C5
D7
D5
B4
C9
A 10
C6
A9
D5
B5
;
PROC PRINT; RUN;
PROC GLM;
CLASS FILA COLUM VARIED;
MODEL RDTO=FILA COLUM VARIED;
MEANS FILA COLUM VARIED/DUNCA; RUN;
7.1 Introduccin
Por lo tanto, se puede definir a los experimentos factoriales como aquellos en los que se
comparan o estudian simultneamente dos o ms factores principales, incluyendo los diferentes
niveles o modalidades de cada uno.
El Anova en experimentos factoriales constituye una tcnica estadstica para analizar el efecto
de dos ms variables independientes (factores) sobre una variable respuesta. Hasta el
momento se ha estudiado el efecto de un factor sobre la variable respuesta, pero en muchas
situaciones prcticas es necesario investigar el efecto de varios factores. Como en estos
experimentos los tratamientos se forman combinando cada nivel de un factor con cada uno de
los niveles del otro (o de los otros, si hubiere ms de dos), este tipo de experimento permite
adems evaluar los efectos de las interacciones. Se dice que entre dos factores hay interaccin
si los efectos de un nivel de un factor dependen de los niveles del otro. Dicho con otras
palabras la respuesta de un factor es influenciada en forma diferenciada por los niveles del otro.
La existencia de interacciones indica que los efectos de los factores sobre la respuesta no son
aditivos y por tanto no pueden separarse los efectos de los factores.
b) Factor. Es un tipo particular de tratamiento, que vara segn el deseo del investigador. Son
factores por ejemplo, la temperatura, el nitrgeno, el peso, la densidad, las concentraciones
qumicas, variedad de semilla, etc.
c) Factores cualitativos, Son aquellos en los cuales los niveles definen o expresan una
modalidad particular de las caractersticas del factor; cada nivel tiene un inters intrnseco o
independiente de los otros niveles. Estos factores responden a las caractersticas de las
variables cualitativas. Ejemplo :
d) Factores cuantitativos: Son aquellos cuyos valores corresponden a cantidades numricas,
es decir valores inherentes a una variable cuantitativa.
Ej: Supongamos que en una experiencia se prueba fertilizar con diferentes dosis de Nitrgeno
N: 0-10-20-30 Kg/ha.
e) Niveles. Son los varios valores que se asignan al factor en estudio. ejemplos:
Niveles del factor temperatura: 0 oC, 50oC, 100C, 150C, etc.
Niveles de nitrgeno: 40, 80, 120, 160 Kg/ha.
f) Respuesta. Es el resultado de una unidad experimental. As, el rendimiento de maz, altura
de planta. Generalmente se miden muchas variables en el mismo experimento.
g) Efecto. Es la medida de cambio en la respuesta, producido por el cambio en el nivel del
factor. As, cuando el factor que se estudia tiene dos niveles, el efecto es la diferencia entre
el promedio de las respuestas de todas las unidades con el primer nivel del factor y el
promedio de las respuestas de las que llevan el segundo nivel del mismo factor. Cuando se
estudian mas de dos niveles, las diferencias entre promedios de respuesta pueden ser
expresadas de varias maneras, esto es, efecto lineal, efecto cuadrtico, efecto cubico, etc.
h) Notacin. Se usa para reconocer factores y niveles; As:
Cuando se tiene dos niveles de factor A y dos niveles de factor B, se tendr el factorial 2n,
donde n = numero de factores tomados a dos niveles, es decir 2x2 2 2.
Cuando se tiene dos factores con tres nivelescada uno, se denotara: 3n, donde n = a los
factores tomados a tres niveles, es decir 32 3x3.
Los factores que se usan en el experimento se denotan con letras maysculas; as: A, B y C.
Los niveles se denotaran con letras minsculas y subscritos: N: no, n1, n2, A: ao, a1, a2.
La combinacin de los tratamientos esta dada por el producto de los niveles; as: ao no, a1 no,
etc.
i) Interaccin. Ostle (1974), define a la interaccin, como la respuesta diferencia a un factor
en combinacin con niveles variables de un segundo factor aplicado simultneamente. Es
7.3 Factorial 2n
El factorial 22 es igual a 2 n, donde n es el numero de factores, en este caso 2, tomados a dos
niveles. En un diseo completamente al azar, que involucra t tratamientos y n unidades
experimentales.
TABLA 5.1Representacin simblica de un experimento factorial; dos factores a y b niveles de cada factores a y b niveles de cada factor
en un diseo completamente aleatorizado
FACTOR A
1 2 a
Factor B: 1 2 ... b 1 2 b 1 2 b
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Total AB:
Promedio: 11. 12. 1b. 21. 22. 2b. a1. a2. ab.
Total A:
Total B:
Total
General Prom:
F. de V. GL SC CM Fc Ft Sig.
a b
Tratamiento (t-1) Y ij .2 SCtratam CM tratam
I 1 j1 Y . . 2.
CM error
n abn (t 1)
a
A (a-1) SC A C M A
Y i .2.
I 1 Y . .2. ( a 1) C M error
n abn
b
B (b-1) SC B C M B
Y . 2j .
j1 Y . . 2. (b 1) C M error
n abn
( a 1)(b 1) C M error
Error ab(n-1) a b n
2
a b
2 S C err or
Y
i 1 j 1 k 1
ijk
I 1 j 1
Y ij .
a b ( n 1)
Total (abn-1) a b n
Y . . 2.
Y i j2k
i1 j1 k 1 abn
Factorial 23
Cuando el factorial de tres factores esta asociado a un diseo completamente al azar que implica n
unidades experimentales por combinacin de tratamientos, el modelo estadstico es:
F. de V. G.L. SC CM Fc Ft Sig.
a b c
Tratamiento (t-1) 2 SCtratam. CMtratam
Y ijk .
y2
i 1 j 1 k 1
.... (t 1) CM error
n abcn
a
A (a-1) 2 SC ( A) C M
i 1
Y i ...
y . 2. . . C M
( A )
( a 1) error
b c n a b c n
B b
2 SC( B ) CM ( B )
Y
j 1
. j ..
y 2
(b 1) CM error
....
a cn ab cn
c
C (c-1) Y . .2k SC( C ) CM
.
y .2. . .
(C )
k 1
CM
abn abcn (c 1) er r o r
AxB (a-1)(b-1) a b
S C ( A xB ) C M ( AxB )
Y i j2. .
i 1 j 1 y .2. . . ( a 1)( b 1) CM
er ror
cn abcn
AxC (a-1)(c- a c
SC( AxC ) CM ( AxC )
2
1) Y
i 1 k 1
i . k ..
y 2
.... (a 1)(c 1) CM error
bn abcn
BxC (b-1)(c- b c
2 SC( BxC ) CM ( BxC )
1) Y
j 1 k 1
ij ..
y 2
(b 1)( c 1) CM error
....
an a bcn
AxBxC (a-1)(b- SC( AxBxC ) CM ( AxBxC )
1)(c-1) SC ( AxBxC )
( a 1)(b 1)(c 1) CM error
Total Abcn-1 a b c
y....2
Y
i 1 j 1 k 1
ijkl
abcn
SC( AxBxC) SCtratam SC( A) SC(B) SC(C) SC( AxB) SC( AxC) SC(BxC)
TABLA 5.4.
Analisis de varianza generalizado del factorial de dos factores en un DBCA
Problema de aplicacin
Un bao qumico de cido sulfrico caliente se emplea para remover el oxido de la superficie de un metal
antes de ser niquelado, se requiere determinar qu factores adems de la concentracin del cido
sulfrico podra afectar a la conductividad elctrica del bao. Se cree que la concentracin de sal y la
temperatura del bao podran afectar la conductividad elctrica; por ello se planea un experimento que
determine los efectos individuales y conjuntos de estas tres variables ejercen sobre la conductividad
elctrica del bao. Con el fin de cubrir los niveles de concentraciones y las temperaturas comnmente
encontradas, se decide usar los siguientes niveles de los tres factores:
Factor Nivel Nivel Nivel Nivel
1 2 3 4
A. Concentracin de cido 0 6 12 18
(%)
B. Concentracin de sal (%) 0 10 20
C. Temperatura (oF) 80 100
DATA FACTORIAL;
INPUT REP A B C CE;
CARDS;
1 1 1 1 0.99
1 1 1 2 1.15
1 1 2 1 0.97
1 1 2 2 0.87
1 1 3 1 0.95
1 1 3 2 0.91
1 2 1 1 1.00
1 2 1 2 1.12
1 2 2 1 0.99
1 2 2 2 0.96
1 2 3 1 0.97
1 2 3 2 0.94
1 3 1 1 1.24
1 3 1 2 1.12
1 3 2 1 1.15
1 3 2 2 1.11
1 3 3 1 1.03
1 3 3 2 1.12
1 4 1 1 1.24
1 4 1 2 1.32
1 4 2 1 1.14
1 4 2 2 1.20
1 4 3 1 1.02
1 4 3 2 1.02
2 1 1 1 0.93
2 1 1 2 0.99
2 1 2 1 0.91
2 1 2 2 0.86
2 1 3 1 0.86
2 1 3 2 0.85
2 2 1 1 1.17
2 2 1 2 1.13
2 2 2 1 1.04
2 2 2 2 0.98
2 2 3 1 0.95
2 2 3 2 0.99
2 3 1 1 1.22
2 3 1 2 1.15
2 3 2 1 0.95
2 3 2 2 0.95
2 3 3 1 1.01
2 3 3 2 0.96
2 4 1 1 1.20
2 4 1 2 1.24
2 4 2 1 1.10
2 4 2 2 1.19
2 4 3 1 1.01
2 4 3 2 1.00
PROC PRINT;
PROC ANOVA;
CLASS REP A B C;
MODEL CE= REP A B C A*B A*C B*C A*B*C;
MEANS A B C A*B A*C B*C A*B*C/DUNCAN;
RUN;
RESULTADO DE MULTIFACTORIAL
The SAS
Obs REP A B C CE
1 1 1 1 1 0.99
2 1 1 1 2 1.15
3 1 1 2 1 0.97
4 1 1 2 2 0.87
5 1 1 3 1 0.95
6 1 1 3 2 0.91
7 1 2 1 1 1.00
8 1 2 1 2 1.12
9 1 2 2 1 0.99
10 1 2 2 2 0.96
11 1 2 3 1 0.97
12 1 2 3 2 0.94
13 1 3 1 1 1.24
14 1 3 1 2 1.12
15 1 3 2 1 1.15
16 1 3 2 2 1.11
17 1 3 3 1 1.03
18 1 3 3 2 1.12
19 1 4 1 1 1.24
20 1 4 1 2 1.32
21 1 4 2 1 1.14
22 1 4 2 2 1.20
23 1 4 3 1 1.02
24 1 4 3 2 1.02
25 2 1 1 1 0.93
26 2 1 1 2 0.99
27 2 1 2 1 0.91
28 2 1 2 2 0.86
29 2 1 3 1 0.86
30 2 1 3 2 0.85
31 2 2 1 1 1.17
32 2 2 1 2 1.13
33 2 2 2 1 1.04
34 2 2 2 2 0.98
35 2 2 3 1 0.95
36 2 2 3 2 0.99
37 2 3 1 1 1.22
38 2 3 1 2 1.15
39 2 3 2 1 0.95
40 2 3 2 2 0.95
41 2 3 3 1 1.01
42 2 3 3 2 0.96
43 2 4 1 1 1.20
44 2 4 1 2 1.24
45 2 4 2 1 1.10
46 2 4 2 2 1.19
47 2 4 3 1 1.01
48 2 4 3 2 1
The ANOVA Procedure
Class Level Information
Class Levels Values
REP 2 1 2
A 4 1 2 3 4
B 3 1 2 3
C 2 1 2
Number of observations 48
Dependent Variable: CE
Sum of
Source DF
Squares Mean Square F Value Pr > F
Model 24
0.58765000 0.02448542 7.53 <.0001
Error 23
0.07474792 0.00324991
Corrected Total 47
0.66239792
R-Square Coeff Var Root MSE CE Mean
0.887156 5.454221 0.057008 1.045208
Source DF Anova SS Mean Square F Value Pr > F
REP 1 0.01650208 0.01650208 5.08 0.0341
A 3 0.27503958 0.09167986 28.21 <.0001
B 2 0.22621667 0.11310833 34.80 <.0001
C 1 0.00016875 0.00016875 0.05 0.8218
A*B 6 0.02881667 0.00480278 1.48 0.2297
A*C 3 0.00850625 0.00283542 0.87 0.4697
B*C 2 0.00420000 0.00210000 0.65 0.5333
A*B*C 6 0.02820000 0.00470000 1.45 0.2404
Duncan's Multiple Range Test for CE
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
rate.
Alpha 0.05
Error Degrees of Freedom 23
Error Mean Square 0.00325
Number of Means 2 3 4
Critical Range .04814 .05056 .05211
Means with the same letter are not significantly different.
Duncan Grouping Mean N A
A 1.14000 12 4
B 1.08417 12 3
C 1.02000 12 2
D 0.93667 12 1
La diferencia entre correlacin y regresin debe ser identificada en orden a aplicar e interpretar
cualquiera de los mtodos. Estas distinciones son muy marcadas aunque ellos pueden parecer de pequea
importancia porque de la similitud del procedimiento de clculo. Un problema de regresin considera la
distribucin de frecuencia de una variable cuando otra permanece fija en cada uno de varios niveles. Un
problema de correlacin considera la variacin conjunta de dos mediciones, ninguna de los cuales es
restringida por el experimento.
La confiabilidad de una regresin es medida por el error estndar, el cual es la desviacin estndar de la
distribucin (asumida normal) de los residuos alrededor de la lnea de regresin (Figura 10.1 muestra la
distribucin de los residuos). Este error estndar es tambin llamado como el error estndar de regresin
y como la desviacin estndar de la regresin.
Nuestra primera preocupacin debe ser formular bien el problema a investigar, una vez formulado el
problema correctamente podemos elegir el mtodo ms apropiado para resolverlo, una respuesta
apropiada puede no ser exacta, como es el caso del resultado de pruebas estadsticas.
En la tabla 10.1 podemos apreciar los mtodos estadsticos ms utilizados de acuerdo a la escala de las
variables; las variables se pueden dividir en dos grupos: a) variable dependiente, y b) variables
independientes.
Cuando iniciamos un problema de regresin con una variable dependiente el cual necesitamos para
predecir desde una o ms variables independientes. Las variables independientes son valores o
caractersticas las cuales se miran o son relacionadas fsicamente a la variable dependiente. Luego
necesitamos un modelo el cual describa la manera en el cual las variables independientes estn
relacionadas a la variable dependiente. El modelo deber estar de acuerdo con los principios fsicos
conocidos, pero su forma exacta puede ser fijada por los datos usados.
y 0 1 x y 0 1 x 2 x 2
y 0 1 x 2 x 2 3 x 3
yy0011 xx2 2 zz y 0 1 x 2 z 2 x z
Note que a pesar que dos de los grficos en la figura 10.2 son curvadas, todas las ecuaciones de los
modelos son en forma lineal. Esta linealidad de la ecuacin del modelo es un requerimiento para la
solucin directa de mnimos cuadrados. La linealidad puede a veces ser lograda por transformacin de
variables.
Fluctuaciones en las variables medidas (dependiente) pueden ser a menudo ser atribuidas (en parte) a
otras variables (independiente). El ANOVA identifica probablemente las variables independientes. Los
mtodos de Regresin cuantifican la relacin entre las variables dependientes e independientes.
y 0 1 x
La mejor lnea que ajuste estos puntos puede ser:
y 0 1 x
i yi yi
n
Debemos hacer que
i 1
i sea mnimo, sin embargo, tal como ocurri en la definicin de la
n 2 n 2
y
i 1
i y i y i ( 0 1 xi )
i 1
Reordenando:
n n
yi 0 n 1 x i )
i 1 i 1
n n n
x y i i 0 xi 1 xi2
i 1 i 1 i 1
Estas son las ecuaciones normales que nos da los valores de 0, 1 para la recta de mejor ajuste. Por el
mtodo de mnimos cuadrados. Se sigue el mismo procedimiento para encontrar las ecuaciones normales
para regresin curvilnea, y regresin lineal mltiple.
Los clculos de una ecuacin de regresin usando el modelo y 0 1 x es demostrado usando los
datos dados en la tabla 10.2. Esta tabla tambin muestra clculos de medias, productos cruz y cuadrados.
Los productos cruz individuales y cuadrados no requieren ser apuntados; la suma de productos cruz, o
cuadrados, pueden ser acumulados sobre un calculador de escritorio. Tales clculos son ordinariamente
chequeados por repeticin de la operacin. Los coeficientes 0 y 1 en la ecuacin de regresin, y el error
estndar de estimacin son calculados como se muestra abajo.
Ejemplo 1. Se tienen los datos de precipitacin y escorrenta anual de una cuenca, se desea conocer la
correlacin entre estas dos variables.
X Y
XY N XY N X Y
1
2
X 2 2
X NX 2
X
N
(1,801)(1,799)
192,042
1 18 1.325 Coeficiente de regresin
2
189,291
1,801
18
Entonces
Y 0 1 X 32.6 1.32X
AO Escorrenta 1 Precipitacion2
(Y) (X) XY X2 Y2
1928 125 110 13750 12100 15625
1929 67 73 4891 5329 4489
1930 68 74 5032 5476 4624
1931 71 91 6461 8281 5041
1932 118 108 12744 11664 13924
1933 144 130 18720 16900 20736
1934 169 152 25688 23104 28561
1935 138 134 18492 17956 19044
1936 102 98 9996 9604 10404
1937 91 90 8190 8100 8281
1938 125 119 14875 14161 15625
1939 87 77 6699 5929 7569
1940 84 100 8400 10000 7056
1941 58 84 4872 7056 3364
1942 79 85 6715 7225 6241
1943 124 115 14260 13225 15376
1944 62 70 4340 4900 3844
1945 87 91 7917 8281 7569
Suma 1799.0 1801.0 192042.0 189291.0 197373.0
Media 99.944 100.056
1 Escorrenta Anual como porcentaje de la media (Ro Oriental)
2 Precipitacin Anual como porcentaje de la media (en laguna Saytococha)
X 2
18012
X2 N
189291
18
s x2
N 1 17
Y 2
Y N2
197373
17992
s 2y 18
N 1 17
s y2 1033.71 Variancia de Y.
N 1 2 17
s y x
N 2
s y b 2 s x2
16
1033 .71 (1.325) 2 (534 .76) 100 .8
1 s x 23.13
r (1.325) 0.95 Coeficiente de correlacin
sy 32.15
150
125
100
75
50
70 80 90 100 110 120 130 140 150 160
Precipitacion Anual, Laguna Saytococha, % de la media
Figura 10.3: Ploteo de datos de la tabla 10.2 mostrando lnea de regresin calculada.
s y2. x 100 .8
sb2 2
0 .011
(x ) 189291 (1801) 2 / 18
1 1.325 0
t n 2 12.6
sb 0.105
De la tabla de t, t16,0.01 2.92; por consiguiente 1 es significativamente diferente de cero. Los limites
de confianza al 99 % para son:
Modelos de Regresin y clculos son mas fcilmente calculados con ayuda de software especializado en
estadstica o libreras de software general.
X Y
0.5 0.413
2.0 2.1453
3.0 1.9466
4.0 3.0742
7.0 3.759
Coefficients:
(Intercept) X I(X^2)
0.03707 0.98011 -0.06414
Graficando esta ecuacin sobre los ejes, tal como fueron medidos.
plot(X, Y,pch=20,main="Relacion Absorcion del
Suelo",xlab="X",ylab="Y")
lines(X,ajustesuelo$fit,col="red",lwd=2)
3.5
3.0
2.5
Y
2.0
1.5
1.0
0.5
1 2 3 4 5 6 7
summary(ajustesuelo)
anova(ajustesuelo)
Y 1X 1 2 X 2 ......... p X p
Donde:
Y = es la variable dependiente
Y 1 2 X 3
Y 1 2 X 3e ( 4X )
2
Y 1 2X 2 3X 3
Y1 1 X 1 .1 2 X 1 .2 ...... p X 1.p
Y2 1X 2 .1 2 X 2 .2 ...... p X 2. p
Yn 1X n .1 2 X n .2 ...... p X n.p
Donde:
p
La ecuacin se puede generalizar Y i
j 1
jX ij 1 para i=1, 2, 3,, n.
Cuando el modelo se escribe en forma matricial, es fcil observar que la matriz de la variable
dependiente. Y Es de nx1, elementos.
La matriz de las variables independientes X tiene nxp en elementos y la matriz de los parmetros
El modelo discutido en el capitulo anterior Y a . X , viene a ser un caso especial del modelo de
regresin lineal mltiple con
X 1 .1 1, X 1 .2 X ,1 a , 2
De acuerdo al procedimiento seguido en el capitulo VIII los parmetros j pueden ser estimados
p
ei Yi Yi Yi ( j . X ij )
j 1
Notacin:
e =Matriz de errores.
Entonces e i
2
( e ' )( e ) ( Y X . j )'.( Y X . j )
Estas ecuaciones se conocen como las ecuaciones normales y la solucin se obtiene multiplicando por
( X' X)1
2
(Y 'Y ) 1 nY 2 ( ' X 'Y nY ) (Y 'Y ' X 'Y )
2
1) nY = suma de cuadrados de la media.
2
2) Y 'Y ' X 'Y (Y X ) e' e ei2 (Yi Yi ) =suma de cuadrados residual.
2 2
3) ' X ' Y n.Y (Yi Yi ) =suma de cuadrados de la regresin.
El coeficiente de determinacin mltiple ( R2 ), se calcula de la siguiente relacin:
2
suma .de.cuadrdos .de.la .regresion ( ' X 'Y n.Y )
R2 2
suma .de.cuadrados .de.la .media (Y ' Y nY )
Var( ) 2 S2 Donde:
Se desea construir un modelo de regresin para obtener el volumen de madera de un cerezo negro
en funcin de la altura del tronco y del dimetro del mismo a un metro sobre el suelo. Se ha tomado una
muestra de 31 rboles. Las unidades de longitudes son pies y de volumen pies cbicos.
plot(ajustearbol, lwd=2)
20
18
16
diametro
14
12
10
8
85
80
altura
75
70
65
10 20 30 40 50 60 70
volumen
8 10 12 14 16 18 20 10 20 30 40 50 60 70
Residuals:
Min 1Q Median 3Q Max
-6.4065 -2.6493 -0.2876 2.2003 8.4847
Coefficients:
Response: volumen
Df Sum Sq Mean Sq F value Pr(>F)
altura 1 2901.2 2901.2 192.53 4.503e-14 ***
diametro 1 4783.0 4783.0 317.41 < 2.2e-16 ***
Residuals 28 421.9 15.1
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Diagnosis
10
31 31
Falta Linealidad
Standardized residuals
2
2
2
5
Residuals
1
0
0
-1
-5
18
18
10 20 30 40 50 60 70 -2 -1 0 1 2
3
31
1.5
31
Standardized residuals
0.5
Standardized residuals
18
2
2
3
1.0
1
0
0.5
-1
Cook's distance 18
-2
0.0
0.5
Estos grficos controlan las bases de suposicin para el clsico modelo ANOVA normalmente
distribuido, independiente y de error constante.
La homocedasticidad (varianza del error es constante) es muy importante (i.e. error en el modelo es
constante e independiente de los niveles del factor). El QQplot comprueba la distribucin normal. Los
datos atipicos pueden ser detectados en el grafico de distancia de Cook.
31 2.5 2 1.5 31
0.6
Cook's distance
Cook's distance
0.4
0.4
1
0.2
0.2
3 18
18 3
0.5
0.0
0.0
Transformacin
Volumen k Altura diametro 2
log Volumen 0 1 log Altura 2 log Diametro Error
plot(ajustearbolog, lwd=2)
Call:
lm(formula = log(volumen) ~ log(altura) + log(diametro), data =
arbol)
Residuals:
Min 1Q Median 3Q Max
-0.168561 -0.048488 0.002431 0.063637 0.129223
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.63162 0.79979 -8.292 5.06e-09 ***
log(altura) 1.11712 0.20444 5.464 7.81e-06 ***
log(diametro) 1.98265 0.07501 26.432 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Response: log(volumen)
Df Sum Sq Mean Sq F value Pr(>F)
log(altura) 1 3.4957 3.4957 527.76 < 2.2e-16 ***
log(diametro) 1 4.6275 4.6275 698.63 < 2.2e-16 ***
2
0.10
Standardized residuals
1
Residuals
0.00
0
-0.10
-1
16
18 16
-2
15
-0.20
18 15
0.5
2
15 18
16 11 17
Standardized residuals
Standardized residuals
1
1.0
0
0.5
-1
-2
0.5
Cook's distance
18
0.0
2.5 3.0 3.5 4.0 0.00 0.05 0.10 0.15 0.20 0.25
Interpretacin
Se comprueba grficamente que la distribucin de los residuos es compatible con las hiptesis de
normalidad y homocedasticidad.
El volumen est muy relacionada con la altura y el dimetro del rbol (R2= 97.8%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
La varianza residual es 0.006623, es decir sR=0.081 que indica que el error relativo del modelo en la
prediccin del volumen es del 8.1%.
BIBLIOGRAFIA
1. Alfaro, R. Apuntes del Curso de Estadstica y Probabilidades, FIA UNA PUNO, 2008.
2. Alvarado P., L.; Agurto M., H. (2009). Estadstica para Administracin y Economa con
Aplicaciones en Excel, Editorial San Marcos.
3. Anderson, M.J. and Whitcomb, P.J. (2000). DOE Simplified: Practical Tools for Effective
Experimentation. Portland, Oregon, USA, Productivity Inc.
4. Barton, R. (1999). Graphical Methods for the Design of Experiments. NY, USA, Springer-
Verlag.
5. Benjamin, J. R. and C. A. Cornell, (2010), Probability, Statistics, and Decision for Civil
Engineers, 2ed., McGraw-Hill, New York.
6. Box, G.E.P., Hunter, W.G. and Hunter, J.S. (1978). Statistics for Experimenters. NY, John
Wiley.
7. CHOW VEN TE 1964, Handbook of Applied Hydrology. McGraw Hill Book Company New
York USA
8. Dean, A. and Voss, D.T. (1999). Design and Analysis of Experiments. USA, Springer Verlag.
9. G. HOEL PAUL 1976, Introduccin a la Estadstica Matemtica. Edit. ARIEL Barcelona.
10. Helsel, D. R. and R. M. Hirsch, (2002), Statistical Methods in Water Resources, U.S.
Geological Survey, Techniques of Water-Resources Investigations Book 4, Chapter A3.
11. HOLMAN, J. P. Mtodos Experimentales para Ingenieros. Mc GRAW-HILL, Cuarta Edicin.
Impreso en Mxico.
12. Kottegoda, N. T. and R. Rosso, (2008), Applied Statistics for Civil and Environmental
Engineers, Wiley-Blackwell Publishing, UK.
13. LITTLE, T. M. y HILLS, F. J. 1991. Mtodos Estadsticos para la Investigacin en la
Agricultura. Editorial Trillas. Impreso en Mxico.
14. Lochner, R.H. and Matar, J.E. (1990). Designing for Quality- An Introduction to the Best of
Taguchi and Western Methods of Experimental Design. London, UK, Chapman and Hall
Publishers.
15. MARTINEZ, G. A. Diseos Experimentales (Mtodos y Elementos de Teora). Editorial
Trilla. Primera Edicin. Impreso en Mxico.
16. Mejia Marcacuzco, A. (1991), Mtodos Estadsticos en Hidrologa, UNALM, Concytec, Lima
Peru.
17. Mendiburu Delgado, Felipe de; 2008. Anlisis Estadstico con R, Centro Internacional de la
Papa-Universidad Nacional Agraria, Lima http://tarwi.lamolina.edu.pe/~fmendiburu/
18. Montgomery, D.C. (2001). Design and Analysis of Experiments. USA, John Wiley and Sons.
19. Snedecor, G.W. and Cochran, WG. Statistical methods. Iowa State University Press, Ames,
Iowa, 7th edition, 1980.
ANEXOS
TABLAS ESTADISTICAS
Tabla 3: distribucin c2