Metodos2015 Ingalfaro PDF

Edited with the trial version of
Foxit Advanced PDF Editor

To remove this notice, visit:
www.foxitsoftware.com/shopping
CONTENIDO
Pg.
CONTENIDO ........................................................................................................................ i
CAPITULO I. INTRODUCCIN AL DISEO DE EXPERIMENTOS ........................... 3
1.1 Conceptos De Mtodos Estadsticos Para La Investigacin............................................... 3
1.2 Diseos experimentales. ................................................................................................. 29
1.3 Conceptos bsicos del Diseo Experimental ................................................................... 31
1.3. Utilizacin de los mtodos estadsticos en la experimentacin. ...................................... 35
1.4. Importancia del anlisis de varianza. ............................................................................. 36
1.5 Clasificacin y seleccin de los diseos experimentales ................................................. 38
1.6. Aplicacin de paquetes Estadisticos .............................................................................. 39
CAPITULO II. CONCEPTOS DE PROBABILIDAD.......................................................... 40
2.1. Probabilidad y sus axiomas ........................................................................................... 40
2.2. Funciones de la probabilidad ......................................................................................... 43
2.3. Variable aleatoria y distribucin de probabilidades. ....................................................... 46
2.4. Mtodos de estimacin de parmetros ........................................................................... 49
2.5. Mtodo de mxima verosimilitud .................................................................................. 50
2.6. Distribucin de probabilidades de variables aleatorias continuas. .................................. 50
CAPITULO III PRUEBAS DE RANGO MULTIPLE ........................................................ 74
3.1. Introduccin .................................................................................................................. 74
3.2. Prueba de Rangos Mltiples de Tukey HSD .................................................................. 74
3.3. Diferencia Minima Significativa de Fisher o (LSD) ....................................................... 78
3.4. Prueba de Rangos Mltiples de Duncan ......................................................................... 79
3.5. Puebla de Student-Newman-Keuls (SNK) ..................................................................... 80
3.6. Prueba de Comparacin de Dunnet ................................................................................ 81
3.7. Transformacin de datos ............................................................................................... 81
CAPITULO IV DISEO COMPLETAMENTE AL AZAR (DCA) ................................... 83
4.1. Caractersticas principales ............................................................................................. 83
4.2 Modelo estadstico Lineal............................................................................................... 83
4.3 Esquema del diseo Completamente al Azar .................................................................. 83
4.4. Estimaciones ................................................................................................................. 84
4.5 Suma de cuadrados......................................................................................................... 84
4.6 Grados de libertad .......................................................................................................... 84
4.7 Cuadrado medio esperado .............................................................................................. 84
4.8 Anlisis de varianza ....................................................................................................... 84
4.9. Prueba estadstica de hiptesis ....................................................................................... 85
4.10. Ventajas del Diseo Completamente al Azar ............................................................... 85
4.11. Desventajas del Diseo Completamente al Azar .......................................................... 86
4.12. Usos del Diseo Completamente al Azar ..................................................................... 86
4.13. Problemas de aplicacin .............................................................................................. 86
CAPITULO V DISEO EN BLOQUE COMPLETO AL AZAR (DBCA) ......................... 91
5.1. Definicin ..................................................................................................................... 91
5.2. Caractersticas: .............................................................................................................. 91
5.3. Modelo estadstico lineal ............................................................................................... 91
CAPITULO VI DISEO DE CUADRADO LATINO (DCL) ............................................. 96
6.1 Caractersticas: ............................................................................................................... 96
6.2 Modelo estadstico Lineal............................................................................................... 97
CAPITULO VII EXPERIMENTOS FACTORIALES ....................................................... 103
7.1 Introduccin ................................................................................................................. 103
7.2 Definiciones bsicos..................................................................................................... 103
7.3 Factorial 2n ................................................................................................................... 105

7.4 Modelo aditivo Lineal .................................................................................................. 105
CAPITULO VIII REGRESION Y CORRELACION ...................................................... 112
8.1 Modelos de Regresin .................................................................................................. 113
8.2 Obtencin de las Ecuaciones Normales ........................................................................ 114
8.3 Regresin lineal Simple................................................................................................ 115
8.4 Uso de Libreras y Software ......................................................................................... 117
8.5 Regresin Lineal Mltiple ............................................................................................ 119
BIBLIOGRAFIA .................................................................................................................. 129
ANEXOS ............................................................................................................................... 130
ii
Mtodos Estadsticos para la Investigacin Ing. Roberto Alfarowww.foxitsoftware.com/shopping
CAPITULO I. INTRODUCCIN AL DISEO DE EXPERIMENTOS

1.1 Conceptos De Mtodos Estadsticos Para La Investigacin
1.1.1 Proceso de Investigacin

La investigacin cientfica es un proceso, trmino que significa dinmico, cambiante y continuo. Este
proceso est compuesto por una serie de etapas, las cuales se derivan unas de otras. Por ello al realizar
un estudio no podemos omitir etapas ni alterar su orden. Quienes han dudado de este requisito de la
investigacin cientfica, violndolo han pagado muy caro precio: La investigacin resultante no es
vlida o confiable, o no cumple con sus propsitos por los cuales se realiza, deja de ser cientfica.
La principal caracterstica de la investigacin cientfica es que debemos seguir ordenada y

rigurosamente el proceso.
Los pasos o fases del proceso de investigacin son:
1. Concebir la idea a investigar

2. Plantear el problema de investigacin, implica a su vez: Establecer los objetivos, desarrollar las
preguntas de la investigacin, justificar la investigacin y su viabilidad.
3. Elaborar el marco terico esta implica la revisin de la literatura
4. Definir si la investigacin se inicia como exploratoria, descriptiva, correlacional o explicativa.
5. Establecer las hiptesis: Detectar las variables, definir conceptualmente las variables, definir
operacionalmente.
6. Seleccionar el diseo apropiado de la investigacin: diseo experimental, pre-experimental o cuasi
experimental, diseo no experimental
7. Seleccionar la muestra: determinar el universo, extraer la muestra
8. Recoleccin de los datos: elaborar el instrumento de medicin y aplicada, calcular la validez y
confiabilidad del instrumento de medicin, codificar los datos, crear un archivo que contenga los
datos
9. Analizar los datos: Seleccionar las pruebas estadsticas, Realizar los anlisis
10. Presentar los resultados: Elaborar el reporte de investigacin, presentar el reporte
Que es estadstica?
Dos comunes usos de la palabra:
1. Estadstica Descriptiva: resmenes numricos y grficos de conjuntos de datos

2. Estadstica Inferencial: la determinacin de la probabilidad de lo posible (Davis 2002, p. 11)
Ejemplos:
Descriptiva Los errores de transformacin para 14 puntos de control GPS que van desde 3.63 a 8.36 m
con una media aritmtica de 5.145
Inferencial El error medio para un conjunto de puntos GPS ajustados por este procedimiento de
georeferenciacin se sita entre 4.274 y 6.015 m; esta afirmacin tiene un 5% de probabilidad de ser
incorrecto.
Que es anlisis estadstico?
Este trmino se refiere a un amplio rango de tcnicas para. . .
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 3

1. (Describir)
2. Explorar
3. Entender
4. Probar
5. Predecir
. . . basados en muestras de datos colectados de poblaciones, usando algunas estrategias de muestreo.
Por que se usa el anlisis estadstico?
1. Necesitamos resumir algunos datos en un formato mas corto.

2. Hacemos un experimento para comprender algunos procesos y posible prediccin basada sobre este
entendimiento.
As necesitaremos un modelo de ello, i.e. crear un modelo conceptual o representacin matemtica,
del cual podemos inferir el proceso.
Pero como sabemos si el modelo es correcto?
* Estamos imaginando relaciones donde ello no hay?
* Son ellos relaciones verdaderas no tenemos establecido?
Anlisis estadstico nos da una manera para cuantificar la confianza que podemos tener en nuestra
inferencia.
Poblaciones y muestras
Poblacin: un conjunto de elementos (individuals)

* Finito vs. Infinito
Muestra: un subconjunto de elementos tomada de una poblacin
* Representativa vs. sesgada (biased)
Hacemos inferencias acerca de una poblacin a partir de una muestra tomada de esta.
En algunas situaciones podemos examinar la poblacin entera; entonces no hay inferencia alguna
desde una muestra. Ejemplo: todos los pixels en una imagen.
Paso 1: Explorar & Describir
Preguntas
* Cual es la naturaleza del conjunto de datos (lineage, variables . . . )?
* Cual es la relacin del conjunto de datos a la poblacin fundamental?
Tcnicas
* Grficas (visualizacin): humanos son usualmente buenos en seleccionar patrones.
* Numricas: resumen de caractersticas sobresalientes (estadstica descriptiva)

* Estos pueden sugerir hiptesis y apropiadas tcnicas analticas
Paso 2: Entender
Si hay un proceso fundamental del cual la data muestreada es una muestra representativa . . .
. . . entonces los datos nos permiten inferir la naturaleza del proceso
Ejemplo: la distribucin de metales pesados en suelo es el resultado de:
* Material madre
* Contaminantes transportados por viento, agua, o humanos
* Transformaciones en el suelo desde la deposicin
* Movimiento de materiales dentro y a travs del suelo
*...
Resumir el entendimiento con un modelo
Que es un modelo estadstico?
Una representacin matemtica de un proceso o su resultado . . .

. . . con un nivel calculable de incertidumbre
. . . segn suposiciones (mas o menos plausible o proveable)
Este es un ejemplo de un modelo emprico. Ello puede implicar el proceso fundamental, pero no
necesitamos. Ello podra ser til para prediccin, aun si est en una caja negra.
Supocisiones: no es parte del modelo, pero puede ser verdad para que el modelo sea correcto.
(Nota: Un modelo de proceso explcitamente representa el proceso fundamental e intenta simular ello.)
Paso 3: Probar
Un siguiente paso es probar, en algn sentido, una afirmacin acerca de la naturaleza.

Ej. Contaminacin de Suelo en este rea es causada por inundacin de ros; contaminantes se originan
aguas arriba en reas industriales.
El modelo puede ser plausible! evidencia de causalidad
Con que confianza podemos afirmar que nuestra comprensin (modelo) es correcto?
Nada puede ser probado absolutamente; estadstica nos permite acumular evidencia
Podemos determinar estrategias de muestreo para lograr un nivel de confianza dado
suposiciones fundamentales no pueden ser proveable, nicamente- plausible
Paso 4: Predecir
El modelo puede ser aplicado para entidades no-muestreadas en la poblacin fundamental.

* Interpolacin: dentro del rango de la muestra original

* Extrapolacin: fuera del rango
El modelo puede ser aplicado para eventos futuros; esto asume que las condiciones futuras (el
contexto en el cual los eventos tomaran lugar) son las mismas que las pasadas condiciones (c.f.
uniformismo de Hutton y Playfair).
Un modelo geo-estadstico puede ser aplicado para ubicaciones no-muestreadas; esto asume que el
proceso en estas ubicaciones es la misma como en las ubicaciones muestreadas.
Punto crucial: debemos asumir que la muestra sobre el cual el modelo est basado es representativa
de la poblacin en el cual las predicciones son hechas.
1.1.2: Tipos de variables

En general las Variables pueden ser Dependientes o Independientes
Independiente, predictora o explicativa: Su valor es fijado por el investigador generalmente esta

representado por x.
Dependiente o de Respuesta: Es aleatoria y est relacionada con el valor que toma la variable
independiente, en muchos casos est representada por y.
En orden del contenido de informacin (menor a mayor), estas variables pueden ser:
1. Nominal
2. Ordinal
3. Intervalar
4. Razon
Variable Nominal
Valores son de un conjunto de clases con ordenacin no natural

Ejemplo: Usos de suelo (agricultura, bosque, residencial . . . )
Puede determinar igualdad, pero no rango
Estadsticos muestrales significativos: moda (clase con ms observaciones); distribucin de frecuencia
(cuantas observaciones en cada clase)
Nmeros pueden ser usados para designar las clases pero estos son arbitrarios y no tienen significado
numrico. (la primera clase puede ser mejor la tercera); ordenando esto por conveniencia (ej.
alfabtico)
R: factores desordenados

Variable Ordinal
Valores son de un conjunto de clases naturalmente ordenados/organizados con unidades de

medicin no significantes
Ejemplo: grado estructural de suelo (0 = falto de estructura, 1 = muy endeble, 2 = endeble, 3 = medio,
4 = fuerte, 5= muy fuerte )
N.b . Esta ordenacin es una parte intrnseca de la definicin de clase
Puede determinar rango (mas grande, menor que)
Estadsticos muestrales significativos: moda; distribucin de frecuencia
Nmeros se pueden usar para designar las clases; su orden es significativo, pero no los intervalos
entre clases adyacentes no estn definidos (ej. el intervalo de 1 a 2 vs. el de 2 a 3)
R: factores ordenados
Variable Intervalar
Valores son medidos en una escala continua con unidades de medicin bien-definidas pero no hay
origen natural de la escala, i.e. el cero es arbitrario, as que las diferencias son significativas pero no
ratios
Ejemplo: Temperatura en C.
Es dos veces tan caliente como hoy es sin sentido, aun cuando Hoy es 20C y ayer fue 10C
puede ser verdad.
* (Para distinguir esto, probar la misma declaracin con temperaturas Farenheit)
Estadsticos significativos: cuantiles, media, varianza
Variable Razn (ratio)
Valores estn medidos en una escala continua con unidades de medicin bien definidas y un origen
natural de la escala, i.e. el cero es significativo
Ejemplos: Temperatura en K; concentracin de un qumico en solucin
There is twice a much heat in this system as that es significativo, si un sistema est en 300K y el
otro en 150K
Estadsticos significativos: cuantiles, media, varianza; tambin el coeficiente de variacin. (Recuerdo:
CV = SD / Media; esto un ratio).
Continuas vs. discretas
Variables Intervalar y razn pueden ser:

Discreta Toman uno de un limitado conjunto de valores discretos, e.g. enteros
Continua Pueden tomar cualquier valor (limitado por precisin) en un rango definido

No continuos en el estricto sentido matemtico (puesto que la computadora puede slo representar
nmeros racionales)
1.1.3: Inferencia Estadstica

Una de los principales usos de la estadstica es para inferir de una muestra a una poblacin, e.g.
el valor verdadero de algn parmetro de inters (e.g. media)
el grado de respaldo para o contra una hiptesis
Esto es un asunto contencioso; aqu usamos simples nociones de frecuencia.
Inferencia Estadstica
Usando la muestra para inferir hechos acerca de la poblacin fundamental del cual (esperamos) sea
representativa
Ejemplo: valor verdadero de una media poblacional, estimado de la media muestral y su error
estndar
* intervalos de confianza: tienen una probabilidad conocida de contener el valor verdadero
* Para una muestra de una variable normalmente-distribuida, 95% probabilidad (a=0.05):
x 1.96 s x x 1.96 s x
* El error estandar es estimado de la varianza muestral:
sx2
sx
n
Inferencia de pequeas muestras
Probabilidades estn referidas a la distribucin t (de Student), preferiblemente que la distribucin z

(Normal)
Esto es correcto por el hecho de que estamos estimando la media y varianza de la misma muestra, y la
varianza es difcil estimar de pequeas muestras.
x ta 0.05, n 1 s x x ta 0.05,n 1 s x
De tablas t ; t z cuando n
ta 0.05 ,10 2.228, ta 0.05,30 2.042, ta 0.05,120 1.98
En qu medida esto es realmente la media?
Existe nicamente una probabilidad de 1 en 20 que el valor verdadero de la media poblacional este
fuera de este intervalo.

* Si la muestra es representativa de la poblacin

* Si la distribucin de valores en la muestra satisface los requerimientos del mtodo inferencial
Si repetimos la misma estrategia de muestreo otra vez (colectando una nueva muestra), existe
nicamente una probabilidad de 1 en 20 que el intervalo de confianza construido de esa muestra no
contendr el valor de la media de esta primera muestra
Esto no media que 95% de la muestra o poblacin esta dentro de este intervalo
La Hiptesis Nula y Alterna
Hiptesis Nula H0: Aceptado hasta que se pruebe lo contrario (inocente hasta que se prueba lo
culpable)
Hiptesis Alternativa H1: Algo habamos querido probar, pero queremos estar medianamente seguros
En la ausencia de informacin previa, la hiptesis nula es que no existe relacin
* Ejemplo clsico: una nueva variedad de cultivo no (nula) tiene un ms alto rendimiento que la
variedad actual (note hiptesis una-cola en este caso)
Pero puede usar informacin previa para una hiptesis nula informativa
Niveles de Significancia y tipos de error
a es el riesgo de una afirmativo falso (rechazando la hiptesis nula cuando ello de hecho es
verdadero), el error Tipo I
* La probabilidad de condenar una persona inocente (hiptesis nula: inocente hasta que se pruebe
lo contrario)
es el riesgo de una negativa falsa (aceptando la hiptesis nula cuando esto es de hecho falso), el
error Tipo II.
* La probabilidad de liberar una persona culpable
a determinado por analizador, depende de la forma de la prueba
Tabla 1: Errores en pruebas de hiptesis

Decision Situacin verdadera
Hiptesis verdadera Hiptesis falsa
Aceptar hiptesis No error Error tipo II
Rechazar hiptesis Error tipo I No error
Seleccionando un nivel de confianza
Esto debe ser balanceado dependiendo de las consecuencias de generacin de cada tipo de tipo de error.
por ejemplo:
El costo de introduccin de una nueva variedad de cultivo si esto no es realmente mayor (Tipo I), vs.

La prdida de ganancias por no empleo de la variedad mejor verdaderamente (Tipo II)

El sistema legal Britnico est excesivamente cargado para bajar errores Tipo I (i.e. mantiene la
persona inocente fuera de prisin)
El sistema Napolenico acepta ms error Tipo I en orden a aminorar el error Tipo II (i.e. mantiene al
delincuente desconectado de las calles)
(O, los sistemas Britnico y Napolenico pueden tener hiptesis nula opuestas)
1.1.4: Estrategia de Anlisis de Datos

1. Plantear las preguntas de la investigacin
2. Examinando rubros de datos y su soporte
3. Anlisis de Datos Exploratorio no-espacial
4. Modelamiento No-espacial
5. Anlisis de Datos Exploratorio Espacial
6. Modelamiento Espacial
7. Prediccin
8. Respuesta a las preguntas de la investigacin
Preguntas de la Investigacin
Cuales son las preguntas de la investigacin, son supuestos que son respondidas con la ayuda de estos
datos?
Rubro de Datos y su soporte
Cmo son los datos colectados (plan de muestreo)?

Cuales son las variables y lo que ellos representan?
Cules son las unidades de medida?
Que tipo de variables son estas (nominal, ordinal, intervalar, o ratio)?
Cuales rubros de datos pueden ser usados para estratificar la poblacion?
Cuales rubros de datos son pretendidos como variables respuesta, y cuales como predictores?
Modelamiento No-espacial
Descripciones Univariadas: prueba de normalidad, resumen estadstico

Transformaciones son necesarios y justificado
Relaciones Bivariadas entre variables (correlacin)
Relaciones Multivariadas entre variables
Anlisis de Varianza (ANOVA) en factores predictivos (confirmar subpoblaciones)

Anlisis de Datos Exploratorio Espacial
Si los datos son colectados en puntos conocidos en el espacio geogrfico, deberemos visualizarlos en
ese espacio.
Postplots: donde estan esos valores?
Postplots Geograficos: con imgenes, mapas de uso de suelo etc. como fondo: hacer aparecer all
alguna explicacin para la distribucin de valores?
Estructura espacial: rango, direccin, resistencia . . .
Existe anisotropia? En qu direccin(es)?
Poblaciones: una o varias?
Modelamiento Espacial
Si los datos son colectados en puntos conocidos en el espacio geogrfico, ello puede ser posible modelar
esto.
Modela la estructura espacial
* Modelos locales (dependencia espacial)
* Modelos globales (tendencias geogrficas, caracterstica predictores espaciales)
* Modelos mixtos
Prediccin
Valores en puntos o bloques

Valores resumen (e.g. promedios regionales)
Incertidumbre de predicciones
Respuestas a las preguntas de la investigacin
Cmo responden los datos la pregunta de investigacin?

Son necesarios mas datos? Si es as, cuntos y dnde?
Ejemplo: La contaminacin de suelo Ilpa por metales pesados

Este es un ejemplo de un conjunto de datos ambiental el cual puede ser usado para responder una
variedad de preguntas de investigacin terica y prctica. Se tiene el archivo ilpa.csv, cargando asi
# Fijar el directorio de trabajo

setwd('d:/practicas-R')
ilpa<-read.csv("ilpa.csv")

Enunciado:
155 muestras tomadas sobre un soporte de 10x10 m de la parte superior 0-20 cm de suelos aluviales en
un sector 5x2 km de la planicie de inundacin de un rea en particular llamada Ilpa. Las variables que se
toman en cuenta son:
id nmero de punto
este, norte coordenadas E y N en coordenadas UTM, en metros
cadmio concentracin en el suelo, en mg kg-1
cobre concentracin en el suelo, en mg kg-1
plomo() concentracin en el suelo, en mg kg-1
zinc concentracin en el suelo, en mg kg-1
elev elevacin sobre nivel de referencia local, en metros
om materia orgnica, perdida de material en ignicion, en porcentaje
ffreq clase de frecuencia de inundacin, 1: anual, 2: 2-5 aos, 3: cada 5 aos
suelo clase de suelo, codificado
lime ha sido la tierra aqui limed? 0 1 = F V
usosuelo uso de terreno, codificado
dist.m distancia del canal principal Ro Ilpa, en metros
1.1.5: EDA univariado no-espacial y anlisis de distribucin

1. Anlisis Exploratorio de Datos (EDA)
2. Estadstica descriptiva

3. Distribuciones
4. Normalidad, transformaciones
EDA Univariado Grafico

Diagrama de Caja, Diagrama de Tallo y Hoja, Histograma
Preguntas
* Una poblacin o varias?
* Atpicos?
* Centrada o sesgada (media vs. mediana)?
* Colas Heavy o light (kurtosis)?
> summary(ilpa)
> attach(ilpa)
> plot(este,norte)
> stem(cadmio)
> boxplot(cadmio)
> boxplot(cadmio, horizontal = T)
> points(mean(cadmio),1, pch=20, cex=2, col="blue")
> hist(cadmio) #automatic bin selection
> hist(cadmio, n=16) #specifica el numero de bins
> hist(cadmio, breaks=seq(0,20, by=1)) #especifica breakpoints
> stem(cadmio)
Resumen Estadstico (1)
Estos resmenes son de una muestra nica de una variable nica
Resumen 5-nmeros (min, 1er Q, mediana, 3er Q, max)
Media y varianza muestral
> summary(cadmio)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.200 0.800 2.100 3.246 3.850 18.100
> var(cadmio)
[1] 12.41678
Resumen Estadstico (2)
Desviacin estndar de la muestra (mismas unidades que la media), CV
s x2 CV
sx
sx
n x
> sd(cadmio)
[1] 3.523746

> sqrt(var(cadmio))
[1] 3.523746
> round((sqrt(var(cadmio))/mean(cadmio))*100,0)
[1] 109
Precaucin
Los cuantiles, incluyendo la mediana, son siempre significativos

La media y varianza son matemticamente significativos, a menos que la muestra sea
aproximadamente normal
Esto implica una poblacin (unimodal)
> quantile(cadmio, probs=seq(0, 1, .1))
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
0.20 0.20 0.64 1.20 1.56 2.10 2.64 3.10 5.64 8.26 18.10
Precisin de la media muestral
Error estndar de la media: desviacin estndar ajustada por tamao de la muestra
sx
se
n
Esto es tambin escrito como sx

Note que el incremento de la muestra incrementa la precisin del estimado (pero como n , no n)
> sd(cadmio)/sqrt(length(cadmio))
[1] 0.2830341
Intervalo de Confianza de la media muestral
Estimado de la media muestral y error estndar, usando la distribucin t.
Distribucin de los estimados de la media es normal, aun si la distribucin de la variable no lo es.
Test contra la hiptesis nula de 0:
> t.test(cadmio)
t = 11.4679, df = 154, p-value = < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
2.68668 3.80494
sample estimates:
mean of x
3.24581

Prueba si es menor que un valor objetivo; configurar a (nivel de confianza):
> t.test(cadmio, alt="less", mu=3, conf.level = .99)

t = 0.8685, df = 154, p-value = 0.8068
alternative hypothesis: true mean is less than 3
-Inf 3.91116
sample estimates:
mean of x
3.24581
Note que el intervalo de confianza es unilateral: desde 3. . .3.91116; no nos importa que si la media es
menor que 3.
Poblaciones & Atpicos
La mayora de las muestras de la naturaleza son bastante pequeas
Aun si la suposicin de una poblacin con una distribucin normal es verdad, por chance podemos
conseguir valores extremos
Cmo podemos determinar si un valor inusual es un atipico?
Cmo podemos determinar si tenemos varias poblaciones?
Respuesta: buscar un factor fundamental (co-variado), separar dentro de sub-poblaciones y probar su

diferencia
La Distribucin Normal
Surge naturalmente en muchos procesos: una variable que puede ser modelada como una suma de
muchas pequeas contribuciones, cada una con la misma distribucin de errores (teorema de lmite
central)
Fcil manipulacin matemtica
Ajusta muchas distribuciones observadas de errores o efectos aleatorios
Algunos procedimientos estadsticos requieren que una variable sea al menos aproximadamente
distribuido normalmente.
Nota: Aun si una variable misma no est distribuida normalmente, su media puede ser, desde que las
desviaciones de la media pueden ser la suma de muchos errores pequeos.
Funcin de Densidad de Probabilidad (pdf) con media , desviacin estndar
1 1 x 2
f ( x) exp f ( x) 1
x
2 2

Funcin de Densidad Acumulada (cdf)

F ( z) f ( x)
x
> rnorm(8, 1.6, .2) #8 variable normal con media 1.6, var .2
[1] 1.771682 1.910130 1.518092 1.712963 1.365242 1.837332 1.777395
1.749878
> qnorm(seq(0.80,0.95, by=.05),1.6,.2) #z-values para esta probs.
[1] 1.768324 1.807287 1.856310 1.928971
Estandarizacin
Toda variable distribuida normalmente puede ser directamente comparada por estandarizacin:
sustraendo , dividiendo por .
normal Estandarizado: todas las variables tienen la misma escala y desviacin:
= 0, = 1
1 x2
f ( x) exp
2 2
> sdze<-function(x) { (x-mean(x))/sd(x) }
Evaluando la Normalidad
Grafica
* Histogramas
* Graficas Cuantil-Cuantil QQplots (grafica probabilidad normal)
Numerical
* Varios tests incluyendo Kolmogorov-Smirnov, Anderson-Darling, Shapiro-Wilk
* Todos estos funcionan para comparar la distribucin observada con la distribucin normal terica
teniendo parmetros estimados de lo observado, y calculando la probabilidad que lo observado es
una realizacin del terico.
> qqnorm(cadmio); qqline(cadmio)
> shapiro.test(cadmio)
Variabilidad de pequeas muestras de una distribucin normal
Podemos inferior que la poblacion es normal de una pequea muestra?

> for (i in 1:r) v[,i]<-rnorm(4, 180, 20)

> for (i in 1:r) {
+ hist(v[,i], xlim=c(120, 240), ylim=c(0, 4/3.5),
+ breaks=seq(100, 260, by=10),
+ main="", xlab=paste("Sample", i)) ;
+ x<-seq(120, 240, by=1)
+ points(x,dnorm(x, 180, 20)*4*10, type="l"",
+ col="blue, lty=1, lwd=1.8)
+ points(x,dnorm(x, mean(v[,i]), sd(v[,i]))*4*10, type="l",
+ col="red", lty=2, lwd=1.8)
+ }
Transformando a Normalidad: Basado en que criterio?
Estos son listados en orden de preferencia:
1. Entendimiento a priori del proceso
e.g. lognormal se eleva si multiplica variables contribuyentes, ms bien que adicionar
2. EDA: impresin visual de que deber estar hecho
3. Resultados: variable transformada surge y prueba normal
Transformando a Normalidad: Cual transformacin?
x = ln(x+a): logartmico; remueve asimetria positiva
nota: debe adicionar un pequeo adaptacin para ceros
x = x : raz cuadrada: remueve sesgo moderado

x = sin1 x: arcseno: para proporciones x [0. . .1]
Extiende la distribucion cerca a las colas
x = ln[x/(1x)]: logistico (logistic) para proporciones x [0. . .1]
nota: debe adicionar un pequeo acomodo para ceros
Ejemplo: transformacin log de una variable con asimetra positiva
> summary(log(cadmio))
> stem(log(cadmio))
> hist(log(cadmio))
> hist(log(cadmio), n=20)
> boxplot(log(cadmio), horizontal=T)
> points(mean(log(cadmio)),1, pch=20, cex=2, col="blue")
> qqnorm(log(cadmio), main="Q-Q plot for log(cadmio ppm)")

> qqline(log(cadmio))
> shapiro.test(log(cadmio))
Esto no es aun normal, pero es mucho ms simtrico
1.1.6: EDA Bivariado y anlisis de correlacin

Bivariado: dos variables las cuales sospechamos estn relacionadas
Pregunta: cul es la naturaleza de la relacin?
Pregunta: que tan fuerte es la relacin?
Grfico de Dispersin Bivariado
Muestra la relacin de dos variables en un espacio caracterstico (un plano puede estar constituido de
dos variables rangos)
Muestra dos maneras:
* No-estandarizado: con valores originales en los ejes (y el mismo cero); muestra magnitudes
relativas
* Estandarizado a cero media muestral y variancia unitaria: muestra spreads relativa
* Nota: algunos muestran automaticamente escala de los ejes, so that non-standardized looks like
standardized
Graficos de dispersion de dos metales pesados; automatico vs. misma escala; tambien log-transformada;
estandarizada y no estandarizada.
> plot(plomo,zinc)
> abline(v=mean(plomo)); abline(h=mean(zinc))
> lim<-c(min(min(plomo,zinc)), max(max(plomo,zinc)))
> plot(plomo, zinc, xlim=lim, ylim=lim)
> abline(v=mean(plomo)); abline(h=mean(zinc))
> plot(log(plomo), log(zinc))
> abline(v=mean(log(plomo))); abline(h=mean(log(zinc)))
> plot(log(plomo), log(zinc), xlim=log(lim), ylim=log(lim))
> abline(v=mean(log(plomo))); abline(h=mean(log(zinc)))
> sdze<-function(x) { (x-mean(x))/sd(x) }
> plot(sdze(plomo), sdze(zinc)); abline(h=0);abline(v=0)
> plot(sdze(log(plomo)), sdze(log(zinc))); abline(h=0); abline(v=0)
Midiendo la resistencia de una relacin bivariada: terica
La covarianza terica de dos variables X e Y

Cov ( X , Y ) E( X X )(Y Y )
Cov ( X , Y ) XY
El coeficiente correlacin terico: covarianza normalizada por desviaciones estndar poblacional;
rango [1. . .1]:
Cov ( X , Y )
XY
X Y
XY
XY
X Y
Midiendo la resistencia de una relacin bivariada: estimado de muestra
En la prctica, estimamos la covariancia de la poblacin y correlacin desde una muestra:
1 n
s xy ( xi x ) ( yi y )
n 1 i 1
s xy
rxy
sx s y
rxy
(x x) ( y y)
i i
2 2
( x x ) ( y y)
i i
Muestra vs. poblacion covarianza y correlacion
x Muestral estima X poblacional
sx Muestral estima x poblacional
rxy Muestral estima xy poblacional
Ejemplo de correlacion & intervalo confianza: positivo, fuerte
> cor.test(plomo,zinc)
Pearsons product-moment correlation
data: plomo and zinc
t = 39.6807, df = 153, p-value = < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
0.9382556 0.9668269

sample estimates:
cor
0.9546913
Esto explica 0.9552 = 0.912 de la variancia total.
Ejemplo de correlacin & intervalo confianza: negativo, dbil
> cor.test(plomo,dist.m)
Pearsons product-moment correlation
data: plomo and dist.m
t = -8.9269, df = 153, p-value = 1.279e-15
alternative hypothesis: true correlation is not equal to 0
-0.6801118 -0.4710150
sample estimates:
cor
-0.5852087
Esto explica 0.5852 = 0.342 de la variancia total.
Regresin
Un termino general para modelar la distribucion de una variable (respuesta o dependiente) desde
(sobre) otra (la predictora o independiente)
Esto logico solo si tenemos unas razones a priori (no-estadisticas) a creer en una relacin causal
Correlacion: no hace suposiciones acerca de la causalidad; ambas variables tienen el mismo status
lgico
Regresion: asume que una variable es la predictora y la otra la respuesta
Actual vs. causalidad ficcion
Ejemplo: proporcion de arena fina en un topsoil y estrato subsuelo
Una "causa" la otra?
Tienen una causa comn?
Puede ser utilizado para predecir la otra?
Por qu sera til?
Regresin Lineal Simple (un predictor)

Modelo: y = 0+1x+
0: intercepcion, constante cambio de x a y
1: pendiente, cambio en y para un cambio equivalente en x
: error, o mejor, variacin no explicada
Los parmetros 0 y 1 son seleccionados para minimizar en alguna medida resumen de sobre todos
los puntos de muestreo
Dado el modelo de ajuste, podemos predecir en los puntos de datos originales: y i ; estos son llamados
los valores ajustados.
Entonces podemos calcular las desviaciones del ajuste a partir de los valores medidos:
ei ( yi yi ) ; estos son llamados los residuales
Las desviaciones pueden ser resumidas para dar una medida global de bondad de ajuste
Mira antes de saltar!
Anscombe desarrollo cuatro diferentes conjuntos de datos bivariados, todos con la misma correlacin
exacta r = 0.81 y regresin lineal y = 3+0.5x:
1. bi-variada normal
2. cuadratica
3. bi-variada normal con un atipico
4. un punto de palanca alto (leverage)
Estimado de Minimos cuadrados (Least squares)
Calcular los parmetros para minimizar la suma de los cuadrados de las desviaciones
s XY
Pendiente: 1
s 2X
Tenga en cuenta la forma similar con covarianza, excepto aqu estandarizamos slo por la predictora,
por lo que la regresin de x sobre y da una pendiente diferente de la de y sobre x.
Intercepto: Para hacer que las medias ajustadas y muestrales coincidan: 0 y 1 x
Suma de Cuadrados (SS)
La regresin particiona la variabilidad en la muestra en dos partes:

1. explicada por el modelo
2. No explicado, sobrante, es decir residual
Tenga en cuenta que siempre conocemos la media, por lo que la variabilidad total se refiere a la
variabilidad alrededor de la media
Pregunta: cunto ms de la variabilidad se explica por el modelo?
SS Total = SS Regresion + SS Residual
n n n
( yi y )2 ( yi y )2 ( yi yi )2
i 1 i 1 i 1
La estimacin de mnimos cuadrados maximiza la SS de regresin y minimiza la SS residual
Anlisis de Varianza (ANOVA)
Particin la varianza total en una poblacin en el modelo y residual
Si el modelo tiene ms de un trmino, tambin particiones en la varianza del modelo en componentes

debido a cada trmino
Se puede aplicar a cualquier diseo lineal aditivo especificado por un modelo
Cada componente puede ser probado por significancia vs. la hiptesis nula que no contribuye al ajuste
del modelo
ANOVA para regresin lineal simple
suma total de las desviaciones al cuadrado se divide en sumas de cuadrados del modelo (regresin) y
errores (residuales)
Su ratio es el coeficiente de determinacin R2
Estos son cada uno dividido por sus grados de libertad para la obtencin de la media de las SS
Su relacin se distribuye como F y se puede probar por significancia
Anlisis Bivariado: metales pesados vs. materia organica
Grafico de dispersin
Grafico de dispersin por frecuencia de avenida
Regresin de metal sobre materia orgnica (por que este orden?)
Mismo, incluyendo frecuencia de avenidas en el modelo
> plot(om,log(cadmio))

> plot(om,log(cadmio), col=as.numeric(ffreq), cex=1.5, pch=20)
Modelo: Regresion de metal en material organica
> m<-lm(log(cadmio) ~ om)

> summary(m)
Residuals:
Min 1Q Median 3Q Max
-2.3070 -0.3655 0.1270 0.6079 2.0503
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.04574 0.19234 -5.437 2.13e-07 ***
om 0.21522 0.02339 9.202 2.70e-16 ***
---
Residual standard error: 0.9899 on 151 degrees of freedom
Multiple R-Squared: 0.3593, Adjusted R-squared: 0.3551
F-statistic: 84.68 on 1 and 151 DF, p-value: 2.703e-16
Modelo Altamente-significativo, pero contenido de material organica explica solo cerca del 35% de la
variabilidad de log(Cd).
Bondad de Ajuste vs. Ajuste significativo
R2 puede ser altamente significativa (rechazar la hiptesis nula de ninguna relacin), pero . . .
. . . la prediccion puede ser pobre
En otras palabras, solo una pequena porcion de la varianza es explicada por el modelo
Dos posibilidades
1. incorrecto o modelo incompleto
(a) otros factores son ms predictivos
(b) otros factores pueden ser incluidos para mejorar el modelo
(c) forma del modelo es incorrecto
2. modelo correcto, datos ruidosos
Diagnostico de la Regresion
Objetivo: para ver si la regresin representa verdaderamente la presunta relacin
Objetivo: para ver si los mtodos de clculo son adecuados
Principal herramienta: graficar de valores residuales estandarizados vs. valores ajustados

Medidas numericas: leverage, grandes residuales
Examinando el grafico de dispersion con la linea ajustada
Hay una tendencia en la falta de ajuste? (ms alejado en parte del rango)
* ! un modelo no lineal
Hay una tendencia en la diseminacion?
* !heteroscedaticidad (varianza desigual) por lo que un modelo lineal no es vlido
Hay puntos que, si se eliminan, cambiara sustancialmente el ajuste?
* ! alto apalancamiento, aislado en el rango y lejos de otros puntos
Diagnostico de modelo: regresion de metal en materia organica
> m<-lm(log(cadmio) ~ om)

> plot(om, log(cadmio), col=as.numeric(ffreq), cex=1.5, pch=20);
abline(m)
> plot(log(cadmio[!is.na(om)]),fitted(m), col=as.numeric(ffreq),
pch=20)
> abline(0,1)
> plot(fitted(m),studres(m), col=as.numeric(ffreq), pch=20)
> abline(h=0)
> qqnorm(studres(m), col=as.numeric(ffreq),
pch=20);qqline(studres(m))
Podemos ver problemas en las concentraciones de metales bajos. Esto es probablemente un artefacto
de la precisin de la medicin en estos niveles (cerca o por debajo del lmite de deteccin).
Estos son casi todos en clase de frecuencia de inundacin 3 (rara vez inundada)
Modelo Revisado: lmite de deteccin Cd
Valores de Cd debajo de 1mg kg-1 son poco confiables; reemplazarlas todas con 1 mg kg-1 y volver a
analizar:
> cdx<-ifelse(cadmio>1, cadmio, 1)

> plot(om, log(cdx), col=as.numeric(ffreq), cex=1.5, pch=20)
> m<-lm(log(cdx) ~ om); summary(m)
Residuals:
-1.0896 -0.4250 -0.0673 0.3527 1.5836
Coefficients:

(Intercept) -0.43030 0.11092 -3.879 0.000156 ***

om 0.17272 0.01349 12.806 < 2e-16 ***
---
Multiple R-Squared: 0.5206,Adjusted R-squared: 0.5174
F-statistic: 164 on 1 and 151 DF, p-value: < 2.2e-16
> abline(m)
> plot(log(cdx[!is.na(om)]),fitted(m),col=as.numeric(ffreq),pch=20);
abline(0,1)
> plot(fitted(m),studres(m),col=as.numeric(ffreq),pch=20);
abline(h=0)
> qqnorm(studres(m),col=as.numeric(ffreq),pch=20); qqline(studres(m))
Mucho ms alto R2 y mejores diagnsticos. An as, hay un montn de diseminacin en cualquier valor
de la predictora (materia organica).
Modelo Revisado: inundacion clase 1
La relacin parece ms coherente en los suelos frecuentemente inundados; volver a analizar este
subconjunto
> ilpa.1<-ilpa[ffreq==1,]; attach(meuse.1)

> plot(om, log(cadmio), cex=1.6, pch=20)
> m<-lm(log(cadmio) ~ om); summary(m)
Residuals:
-1.04064 -0.31782 -0.04348 0.32210 1.13034
Coefficients:
(Intercept) 0.17639 0.11999 1.47 0.145
om 0.14099 0.01286 10.96 <2e-16 ***
---
Multiple R-Squared: 0.6003,Adjusted R-squared: 0.5954
F-statistic: 120.2 on 1 and 80 DF, p-value: < 2.2e-16
> abline(m)
> plot(log(cadmio[!is.na(om)]),fitted(m)); abline(0,1)
> plot(fitted(m),studres(m)); abline(h=0)
> qqnorm(studres(m)); qqline(studres(m))
R2 an ms alta y excelentes diagnsticos. Todava hay un montn de diseminacion en cualquier valor

de la predictora (materia orgnica), as OM no es una predictora eficaz de Cd

ANOVA Categorico
Modela la respuesta por una variable categorica (nominal); variables ordinales son tratadas como
nominales
Modelo: y 0 j x ; where each observation x is multiplied by the betaj corresponding to the

class to which it belongs (of n classes)
The j represent the deviations of each class mean from the grand mean
Ejemplo: contaminacion de suelo Ilpa
Pregunta: do metals depend on flood frequency (3 of these)
EDA: boxplots categorico
Analisis: one-way ANOVA on the frequency
EDA Categorico
> boxplot(cadmio ~ ffreq,xlab="Clase de frecuencia de

inundacion",ylab="Cadmio (ppm)")
Ejemplo ANOVA
> m<-lm(log(cadmio) ~ ffreq)

> summary(m)
Residuals:
-1.8512 -0.7968 -0.1960 0.7331 1.9354
Coefficients:
(Intercept) 1.32743 0.09351 14.196 < 2e-16 ***
ffreq2 -1.95451 0.15506 -12.605 < 2e-16 ***
ffreq3 -1.08566 0.20168 -5.383 2.72e-07 ***
Multiple R-Squared: 0.5169, Adjusted R-squared: 0.5105
Diferencia entre clases
> TukeyHSD(aov(log(cadmio) ~ ffreq))

Tukey multiple comparisons of means,
95% family-wise confidence level
Fit: aov(formula = log(cadmio) ~ ffreq)
$ffreq
diff lwr upr

2-1 -1.9545070 -2.3215258 -1.5874882

3-1 -1.0856629 -1.5630272 -0.6082986
3-2 0.8688442 0.3544379 1.3832504
Todas las diferencias de clase por pares son significativas (intervalo de confianza no incluye cero).
1.1.7: Estadistica No-parametrica

Un estadistico no-parametrico es uno que no asume cualquier distribucin de datos subyacente.
Por ejemplo:
una media es un estimado de un parametro de posicion de alguna distribucin asumida (ej. punto
medio de la normal normal, proporcin esperada de suceso de una binomial, . . . )
una mediana es simplemente el valor en el cual la mitad de muestra son menores y la mitad mayores,
sin conocer nada acerca de la distribucin subyacente en el proceso que produjo la muestra.
Asi los metodos inferenciales no parametricos son aquellos que no presuponen acerca de la
distribucin de los valores de los datos, slo su orden (rango).
Estadistica No parametrica: Correlacion
Como un ejemplo de metodos no parametricos, considerar la medida de asociacion entre dos variables,
comnmente llamada correlacion (co-rrelacion).
La medida estandar es parametrica, es decir, el Pearsons Product Moment Correlation (PPMC); esto es
calculado a partir de la covariancia muestral de dos variables:
1 n
Cov( X , Y ) ( xi x )( yi y )
n 1 i 1
Entonces el coeficiente de correlacin de Pearson muestral es calculado como:
Cov( X , Y )
rXY
s X sY
Correlacion Parametrica ejemplo de uso inapropiado
Considerar los siguientes dos casos: (1) 20 muestras normales bivariadas que deberan estar no
correlacionadas; (2) lo mismo, pero con un valor reemplazado por un valor muy alto (ya no una
distribucin normal).
n<-20
par(mfrow=c(2,3))
for (i in 1:3)
{ x<-rnorm(n, 20, 3); y<-rnorm(n, 20, 4);
plot(x,y, pch=20, cex=2, xlim=c(12,28), ylim=c(12,28));

text(15,15, paste("r =",round(cor(x,y),3)), font=2, cex=1.2)

}
for (i in 1:3)
{ x<-c(rnorm((n-1), 20, 3), 120); y<-c(rnorm((n-1), 20, 4), 120);
plot(x,y, pch=20, cex=2, xlim=c(12, 122), ylim=c(12, 122));
points(120, 120, col="red", cex=3);
text(30,80, paste("r =",round(cor(x,y),3)), font=2, cex=1.2)
}
Correlacin No-paramtrica
La solucion aqui es usar un metodo tal como correlacion de Spearman, el cual correlaciona los rangos,
no los valores; por tanto la distribucion (diferencias entre valores) no tiene influencia.
Desde nmeros a rangos:
> n<-10
> (x<-rnorm(n, 20, 4))
[1] 15.1179 23.7801 21.2801 21.5191 23.0096 18.5065 19.1448 24.9254
29.3211
[10] 14.1453
> (ix<-(sort(x, index=T)$ix))
[1] 10 1 6 7 3 4 5 2 8 9
Si cambiamos el mayor de ellos en cualquier valor grande, el rango no cambia:
> x[ix[n]]<-120; x
[1] 15.1179 23.7801 21.2801 21.5191 23.0096 18.5065 19.1448 24.9254
[9] 120.0000 14.1453
> (ix<-(sort(x, index=T)$ix))
[1] 10 1 6 7 3 4 5 2 8 9
Compare los dos coeficientes de correlacion:
pearsons<-vector(); spearmans<-vector()
> n<-10
> for (i in 1:n)
+ { x<-rnorm(n, 20, 4); y<-rnorm(n, 20, 4);
+ pearsons[i]<-cor(x,y);
+ spearmans[i]<-cor(x,y, method="spearman")}
> round(pearsons, 2); round(spearmans, 2)
[1] -0.29 -0.02 -0.49 -0.01 -0.17 0.16 0.06 -0.07 -0.11 0.37
[1] 0.32 0.16 -0.25 0.01 0.35 -0.42 0.03 -0.33 0.68 -0.12
> for (i in 1:n)
+ { x<-c(rnorm((n-1), 20, 4), 120); y<-c(rnorm((n-1), 20, 4), 120);
+ pearsons[i]<-cor(x,y);
+ spearmans[i]<-cor(x,y, method="spearman") }
> round(pearsons, 2); round(spearmans, 2)
[1] 0.98 0.99 0.98 0.99 0.98 0.98 0.99 0.99 0.99 0.99
[1] 0.25 0.08 0.49 0.03 0.61 -0.04 0.36 0.26 -0.25 0.36

El coeficiente de Pearson (parametrico) es completamente cambiado por un par de valor alto, mientras
que el de Spearman no se ve afectada.
Otros metodos no parametricos
t-test para equivalencia de medias ! Mann-Whitney test para equivalencia de medianas
One-way ANOVA Kruskal-Wallis
c2 bondad de ajuste Kolmogorov-Smirnov bondad de ajuste
1.2 Diseos experimentales.

Es una tcnica estadstica que permite identificar y cuantificar las causas de un efecto dentro de un
estudio experimental. En un diseo experimental se manipulan deliberadamente una o ms variables,
vinculadas a las causas, para medir el efecto que tienen en otra variable de inters. El diseo
experimental prescribe una serie de pautas relativas qu variables hay que manipular, de qu manera,
cuntas veces hay que repetir el experimento y en qu orden para poder establecer con un grado de
confianza predefinido la necesidad de una presunta relacin de causa-efecto. Ronald Fisher es
considerado el padre del diseo experimental en sus estudios de agronoma en el primer tercio del siglo
XX. A la lista de los pioneros de su uso hay que aadir los de Frank Yates, W.G. Cochran y G.E.P.
Box. Muchas de las aplicaciones originarias del diseo experimental estuvieron relacionadas con la
agricultura y la biologa, disciplinas de las que procede parte de la terminologa propia de dicha tcnica.
Para tener una idea de este tema tan importante, se presenta un ejemplo tpico, que: un ingeniero quiere
estudiar la resistencia de una pieza plstica sometida a temperaturas cambiantes. La pieza puede ser
elaborada con tres tipos de plstico distintos. De ah que se plantee las siguientes preguntas:
Qu efecto tienen la composicin de la pieza y la temperatura en la resistencia de la pieza?
Existe algn material con el que la pieza resulte ms resistente que con cualquiera de los otros dos
independientemente de la temperatura?
El diseo de un experimento. Es la secuencia completa de los pasos que se deben tomar de antemano,
para planear y asegurar la obtencin de toda la informacin relevante y adecuada al problema bajo
investigacin, la cual ser analizada estadsticamente para obtener conclusiones vlidas y objetivas con
respecto a los objetivos planteados.

Un Diseo Experimental. Es una prueba o serie de pruebas en las cuales existen cambios deliberados
en las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar
las causas de los cambios que se producen en la respuesta de salida.
Un proceso suele visualizarse como una Caja Negra en donde existe una transformacin de lo que entra
al proceso, y que se observa en las salidas que produce.
Este proceso puede ser una combinacin de mquinas, mtodos, personas y otros recursos que
transforman las entradas (a menudo un material) en las salidas que tienen una o ms respuestas
observables. Algunas de las variables del proceso digamos X1, X2.,Xn son controlables, mientras que
otras como Z1, Z2, ..,Zn son incontrolables (no controlables). Cuando se realiza un diseo
experimental es necesario tener en cuenta los siguientes objetivos:
Figura1.1. Esquema de un proceso o sistema:
1. Determinar cules variables tienen mayor influencia en la respuesta o variable dependiente ( Y).
2. Determinar el mejor valor de las (X) que influyen en (Y), de modo que (Y) tenga casi siempre un
valor cercano al valor nominal deseado.
3. Determinar el mejor valor de las (X) que influyen en (Y), de modo que la variabilidad de (Y) sea
pequea.
4. Determinar el mejor valor de las (Z) que influyen en (Y), de modo que se minimicen los efectos de
las variables incontrolables Z1, Z2,.., Zn.

Propsitos de un diseo experimental. El propsito de cualquier Diseo Experimental, es

proporcionar una cantidad mxima de informacin pertinente al problema que se est investigando. Y
ajustar el diseo que sea lo ms simple y efectivo; para ahorrar dinero, tiempo, personal y material
experimental que se va a utilizar. Es de acotar, que la mayora de los diseos estadsticos simples, no
slo son fciles de analizar, sino tambin son eficientes en el sentido econmico y en el estadstico.
De lo anterior, se deduce que el diseo de un experimento es un proceso que explica tanto la
metodologa estadstica como el anlisis econmico.
1.3 Conceptos bsicos del Diseo Experimental
Los siguientes conceptos que se definen a continuacin se utilizarn en el desarrollo de las unidades
posteriores; los cuales fueron retomados de Douglas C. Montgomery, ao 2001 y de Gutirrez et al,
ao 2008.
Diseo: Consiste en planificar la forma de hacer el experimento, materiales y mtodos a usar, etc. El
diseo es definido tcnicamente como la configuracin de puntos en el espacio de los factores y el orden
en el cual se efecta, en el tiempo y espacio, la toma de observaciones.
El diseo implica un modelo, y este a su vez implica anlisis estadstico, pues la ms importante funcin
del diseo es controlar la varianza. Desde esta perspectiva, el diseo es un conjunto de instrucciones
para que el investigador rena y analice los datos en determinada forma, de modo tal que
estadsticamente sea posible maximizar la varianza sistemtica, regular la varianza sistemtica extraa
minimizar la varianza del error.
Experimento: Conjunto de pruebas o ensayos cuyo objetivo es obtener informacin, que permita
mejorar el producto o el proceso en estudio.
Un experimento es una interrogante planeada para obtener nuevos factores o para confirmar o denegar
los resultados de experimento previos o anteriores donde tal interrogante ayudar a una decisin tal
como recomendacin de una variedad de planta, aplicacin de producto qumico, etc.
Factor. Es un tipo particular de tratamiento, que vara segn el deseo del investigador. Son factores por
ejemplo, Temperatura, humedad, tipos de suelos, etc.
Niveles del factor. Son diversas categoras de un factor. (Por ejemplo, los niveles de temperatura son
20C, 30C, etc.). Un factor Cuantitativo tiene niveles asociados con puntos ordenados en alguna escala
de medicin, como temperatura; mientras que los niveles de un factor cualitativo representan distintas
categoras o clasificaciones, como tipo de suelo, que no se puede acomodar conforme a alguna
magnitud. Por ejemplo, si en un experimento se estudia la influencia de la velocidad y la temperatura, y
se decide probar cada una en dos niveles, entonces cada combinacin de niveles (velocidad,
temperatura) es un tratamiento. En este caso habra cuatro tratamientos, como se muestra en la tabla 1.1.
Es necesario probar cada tratamiento y obtener el correspondiente valor de y.

Tabla 1.1 Puntos de diseo o tratamientos.
De acuerdo con estas definiciones, en el caso de experimentar con un solo factor, cada nivel es un
tratamiento.
Rplica. La obtencin de rplicas permite obtener una estimacin del error experimental as como
calcular una respuesta ms precisa el efecto a estudio. Entre mayor sea el nmero de repeticiones para
cada experimento, mejor ser el resultado obtenido.
Unidad experimental. Es la unidad del material experimental que recibe la aplicacin de un simple
tratamiento, en el que se mide y se analiza la variable que se investiga. En el experimento de
laboratorio, la unidad experimental ser una placa petri, un tubo de ensayo, etc.; en el invernadero ser
una bandeja, una maceta, etc.; en el campo ser una parcela, en el campo de la zootecnia ser un animal,
etc. para aclarar mejor se caracteriza por:
Es el material experimental unitario que recibe la aplicacin de un tratamiento.
Es la entidad fsica o el sujeto expuesto al tratamiento independientemente de las otras unidades. La
unidad experimental una vez expuesta al tratamiento constituye una sola rplica del tratamiento.
Es el objeto o espacio al cual se aplica el tratamiento y donde se mide y analiza la variable que se
investiga.
Es el elemento que se est estudiando.
Figura 1.3: Variable dependiente resistencia del concreto, donde los factores relacin agua/cemento
tiene 4 niveles y relacin cemento/arena tiene 5 niveles; el nmero de tratamientos es igual a 4*5 = 20
tratamientos.

Unidad muestral: Es una fraccin de la unidad experimental que se utiliza para medir el efecto de un
tratamiento.
Error experimental: Es una medida de variacin que existe entre dos o ms unidades experimentales,
que han recibido la aplicacin de un mismo tratamiento de manera idntica e independiente.
Factores controlables: Son aquellos parmetros o caractersticas del producto o proceso, para los
cuales se prueban distintas variables o valores con el fin de estudiar cmo influyen sobre los resultados.
Factores incontrolables: Son aquellos parmetros o caractersticas del producto o proceso, que es
imposible de controlar al momento de desarrollar el experimento.
Variabilidad natural: es la variacin entre las unidades experimentales, que el experimentador no
puede controlar ni eliminar.
Variable dependiente: es la variable que se desea examinar o estudiar en un experimento. (Variable
Respuesta).
Hiptesis:
Es una suposicin o conjetura que se plantea el investigador de una realidad desconocida.
Es el supuesto que se hace sobre el valor de un parmetro (constante que caracteriza a una poblacin)
el cual puede ser validado mediante una prueba estadstica
Tratamiento: Es un conjunto particular de condiciones experimentales definidas por el investigador; y
son el conjunto de circunstancias creadas por el experimento, en respuesta a la hiptesis de
investigacin y son el centro de la misma.
Tipos de tratamientos. A continuacin se presentan ejemplos de tratamientos en algunas reas, tales
como:
1) Experimentaciones Agrcolas, un tratamiento puede referirse a:
Marca de Fertilizante.
Cantidad de Fertilizante.
Profundidad del Sembrado.
Variedad de Semilla.
Combinacin de Cantidad de Fertilizante y Profundidad de Sembrado; esto es una combinacin
de tratamientos.
etc.
2) Experimentaciones de Nutricin Animal, un tratamiento puede referirse a:
Cra de Ganado Lanar
Sexo de los Animales
Padre del Animal Experimental
Tipo de Alimento
Racin Particular de Alimento de un Animal.
Raza del Animal

etc.
4) Estudios Resistencia del Concreto, un tratamiento puede referirse a:
Relacion Agua Cemento
Contenido de Aire Incorporado
Relacion Cemento Agregado
Modulo de Fineza de Agregados
etc.
5) Estudios Psicolgicos y Sociolgicos, un tratamiento puede referirse a:

Edad
Sexo
Grado de Educacin
Estatura
etc.
6) En una investigacin de los efectos de varios Factores en la eficiencia del lavado de ropa en casa,
los tratamientos pueden ser varias combinaciones:
Tipo de Ropa (dura y suave)
Temperatura del Agua
Tipo de Detergente
Duracin del tiempo de Lavado
Tipo de Lavadora
Duracin del Agente Limpiador, etc.
7) En un Experimento para estudiar el Rendimiento de cierto Proceso qumico, Los tratamientos
pueden ser todas las combinaciones de:
La temperatura a la cual se ejecuta el Proceso
La cantidad de Catalizador Usada
etc.
8) En un estudio de investigacin y desarrollo concerniente a Bateras, los tratamientos podran ser
varias combinaciones:
La cantidad de Electrolito
La Temperatura a la cual fue Activada la Batera
etc.
Es muy importante que cuando se elijan los tratamientos, stos deben dar respuesta a una hiptesis de
investigacin. La hiptesis de investigacin establece un conjunto de circunstancias y sus
consecuencias. Los tratamientos deben ser una creacin de las circunstancias para el experimento. As,
es necesario identificar los tratamientos con el papel que cada uno tiene en la evaluacin de la hiptesis

de investigacin. Por lo tanto, el investigador debe asegurarse que los tratamientos elegidos concuerden
con la hiptesis de investigacin.
Algunos experimentos reales plantendose las hiptesis de investigacin

A continuacin se presentan algunos experimentos reales; plantendose las hiptesis de investigacin de
cada uno de ellos y sus respectivos tratamientos, que dan respuesta a dicha hiptesis.
La hiptesis es: La velocidad del trnsito depende del ancho de los carriles en las calles.
Para responder a esta hiptesis, los tratamientos se deben definir seleccionando carriles con diferente
anchura y se mide la velocidad de los automviles en cada uno de ellos.
La hiptesis es: La reproduccin de los microbios del suelo depende de las condiciones de humedad.
Para responder a esta hiptesis, se establecen tratamientos con distintos niveles de humedad para medir
la reproduccin de los microbios.
La hiptesis es: El mtodo para medir retrasos del trnsito depende del tipo de configuracin usada en
la sealizacin.
Para responder a esta hiptesis, los tratamientos deben ser en relacin a la evaluacin de varios mtodos
para medir los retrasos del trnsito en intersecciones con diferentes tipos de configuraciones en los
semforos.
La hiptesis es: Ciertas caractersticas demogrficas familiares afectan de manera favorable el
desarrollo de un nio.
Para responder a esta hiptesis, los tratamientos deben ser en relacin con el desarrollo de la adaptacin
social en nios pequeos segn su relacin con:
1) Educacin de los padres,
2) Ingreso de los padres,
3) Estructura familiar y
4) Edad del nio.
La hiptesis es: La energa requerida al reunir comida para la colonia de las abejas productoras de miel
es independiente de la temperatura.
Para responder a esta hiptesis, los tratamientos deben ser en relacin al estudio de la cintica de bebida
de las abejas productoras de miel a diferentes temperaturas ambientales.
La hiptesis es: La temperatura ambiental en la cual las bateras son activadas altera su vida til.
Para responder a esta hiptesis, el tratamiento ser temperatura y se debe probar un nmero determinado
de bateras a diferentes niveles de temperatura.
1.3. Utilizacin de los mtodos estadsticos en la experimentacin.

La mayora de las investigaciones que se realizan en el campo de la ingeniera, ciencia en la industria es
emprica y utiliza mucho la experimentacin. El uso de los mtodos estadsticos puede incrementar la
eficiencia de los experimentos y, ayudar a justificar las conclusiones que se obtienen. La utilizacin de

las tcnicas estadsticas en la experimentacin requiere que el investigador considere los siguientes
puntos:
a) Uso del conocimiento no estadstico del problema.
Se debe tomar en cuenta que los investigadores conocen a fondo su campo de especialidad; ya sea
porque tienen una considerable experiencia prctica o una formacin acadmica. Muchas veces se puede
utilizar una gran cantidad de teora para explicar las relaciones que hay entre los factores y la variable
respuesta. Este tipo de conocimiento no estadstico se debe tomar en cuenta para elegir los factores y las
respuestas, tambin al decidir el nmero de rplicas que se quieren realizar, al analizar los datos, etc. Es
por tanto que la estadstica no puede sustituir el hecho de reflexionar sobre el problema.
b) Mantener el Diseo y el Anlisis tan simple como sea posible.
Casi siempre, lo ms adecuado son los mtodos de diseo y anlisis estadstico ms simples. Por lo
tanto, es recomendable el uso de tcnicas estadsticas poco complejas y muy refinadas. Si se realiza el
diseo cuidadosamente y correctamente, el anlisis se espera que sea relativamente sencillo. Sin
embargo, es poco probable que aun la estadstica ms compleja y elegante corrija la situacin si se ha
actuado indebidamente en la elaboracin del diseo.
c) Reconocer la diferencia entre la significacin prctica y estadstica.
No hay seguridad de que una diferencia sea suficientemente grande, desde el punto de vista prctico, por
el slo hecho de que dos condiciones experimentales producen respuestas medias, estadsticamente
diferentes. Por ejemplo, un ingeniero puede determinar que una modificacin en el sistema de inyeccin
de gasolina de un automvil mejora el rendimiento medio en un 0.1mi/gal. ste es un resultado
estadsticamente significativo. Sin embargo, esta diferencia es demasiado pequea desde el punto de
vista prctico si el costo de la modificacin es de 1,000 dlares.
d) Usualmente los experimentos son iterativos.
En las primeras etapas de un estudio no es conveniente disear experimentos demasiado extensos; ya
que slo se requiere que se conozcan los factores importantes, los intervalos en que estos factores van a
ser investigados, el nmero apropiado de niveles para cada factor y las unidades de medicin adecuadas
a cada factor y la respuesta. Por lo general, al principio de un experimento no se est en capacidad de
definir estos aspectos, pero es posible conocerlos a medida que se avanza la experimentacin. Esto
favorece al empleo del enfoque iterativo o secuencial; pero por regla general, la mayora de los
experimentos son iterativos.
1.4. Importancia del anlisis de varianza.

En el caso que nos encontremos con experimentos en donde hay que realizar varias pruebas de hiptesis
a la vez, y se trabaje con el mismo nivel de confianza (_); es decir, aquellos experimentos en los cuales
es necesario hacer la comparacin de ms de dos tratamientos simultneos, podra utilizarse Prueba de
hiptesis mltiples (Comparacin por pares), pero es recomendable aplicar el anlisis de varianza;
que es la tcnica estadstica que sirve para analizar la variacin total de los resultados experimentales de

un diseo en particular, descomponindolo en fuentes de variacin independientes atribuibles a cada

uno de los efectos en que se constituye el diseo experimental. Esta tcnica tiene como objetivo
identificar la importancia de los diferentes factores o tratamientos en estudio y determinar cmo
interactan entre s.
Al llevar a cabo la prueba de hiptesis pueden cometerse dos tipos de errores, que son:
a) Error tipo I: Se da cuando la hiptesis nula (Ho) es rechazada siendo verdadera.
b) Error tipo II: Se comete cuando la hiptesis nula (Ho) no es rechazada siendo falsa.
Las probabilidades de cometer estos tipos de errores generalmente se denotan por:
= P(Error tipo I)
= P(Error tipo II).
Cuadro 01. En el siguiente cuadro se presentan las diferentes situaciones que se pueden dar con la
hiptesis nula(Ho).
Decisin Ho es cierta Ho es falsa
Aceptar Ho Decisin Correcta Error tipo II ()
Rechazar Ho Error tipo I () Decisin Correcta
La utilizacin del anlisis de varianza justifica la disminucin de la probabilidad de cometer el error tipo
I en el experimento.
Por ejemplo: Supongamos que se desea probar la igualdad de cinco medias usando la prueba de
hiptesis mltiple.
Las hiptesis a probar son: 12 345
Ho: 1= 2= 3=4=5
Ha: 12 2 3 34 45
12 345
14 25
15 34
!
Como se puede observar el nmero de comparaciones es Ha, es: = =10
! !
Es decir existen 10 posibles pares de medias, y si la probabilidad de aceptar correctamente la hiptesis
nula (H0) en cada una de las Pruebas Individuales es 1. =.95 (5 % de probabilidad de rechazar H0),
entonces la probabilidad de aceptar correctamente la hiptesis nula en las 10 pruebas es (0.95)10 = 0.6
(40% de probabilidad para rechazar H0 ) si estas son independientes. Es as como se produce un
incremento sustancial del error tipo I, al utilizar la prueba de Hiptesis mltiple.

Por lo tanto, el procedimiento apropiado para probar la igualdad de varias medias es el Anlisis de
Varianza. Probablemente esta es la tcnica ms til en el campo de la inferencia estadstica.
1.5 Clasificacin y seleccin de los diseos experimentales

Existen muchos diseos experimentales para estudiar la gran diversidad de problemas o situaciones que
ocurren en la prctica. Esta cantidad de diseos hace necesario saber cmo elegir el ms adecuado para
una situacin dada y, por ende, es preciso conocer cmo es que se clasifican los diseos de acuerdo con
su objetivo y su alcance.
Los cinco aspectos que ms influyen en la seleccin de un diseo experimental, en el sentido de que
cuando cambian por lo general nos llevan a cambiar de diseo, son:
1. El objetivo del experimento.
2. El nmero de factores a estudiar.
3. El nmero de niveles que se prueban en cada factor.
4. Los efectos que interesa investigar (relacin factores-respuesta).
5. El costo del experimento, tiempo y precisin deseada.
En la figura 1.5 se muestra la clasificacin general de los diseos experimentales de acuerdo con su
objetivo.
Figura 1.5 Clasificacin de los diseos experimentales.

1.6. Aplicacin de paquetes Estadisticos

En el presente curso se dar una introduccin de diferentes paquetes estadsticos, tales como son: R,
MINITAB, Librerias Excel, entre otros, en este caso se dara mayor nfasis a la aplicacin a mtodos
estadsticos del ambiente de programacin y calculo estadstico R.
El lenguaje R es un entorno con capacidad de programacin y graficacin, desarrollado originalmente

(S y S-Plus) en los laboratorios Bell por John Chambers y colegas, es fcil de usar (por lo menos para
aquellos que han experimentado otros lenguajes tales como C y C++, Matlab, Octave, Mathematica), y
se ha convertido en un proyecto de colaboracin entre investigadores a lo largo del mundo, es gratis, se
lo puede bajar por Internet en el sitio oficial del proyecto (R project), as como en otros sitios espejos.
R es un sistema para anlisis estadsticos y graficos creado por Ross Ihaka y Robert Gentleman.
R es distribuido por la Comprehensive R Archive Network (CRAN) cuyo website es http://cran.r-

project.org/.
Incluye procedimientos de anlisis estadstico como regresin, anlisis de varianza, anlisis de datos
categrico, anlisis multivariado, anlisis de Series de Tiempo, etc.

CAPITULO II. CONCEPTOS DE PROBABILIDAD
2.1. Probabilidad y sus axiomas

Los eventos aleatorios pueden ser mejor descritos por el supuesto de que un experimento se ha realizado
y una serie de observaciones tomadas en condiciones uniformes, de modo que no existe un sesgo hacia
ningn resultado particular. (Kottegoda, 2008).
El espacio muestral, denotado por , es la coleccion de todos los posibles eventos origina de un
experimento conceptual o de una operacin que implica oportunidad.
Ejemplo 2.1. Almacenamiento de Reservorio. La cantidad de agua S almacenada en un reservorio

varia en el tiempo desde 0 a c, la capacidad de reservorio activa, debido al efecto combinado de las
entradas y salidas (ver Fig. 2.1).
El espacio muestral del experimento medido como el volumen de agua en el reservorio en un tiempo
dado puede ser definido como {S : 0 S < c}. Esto es un conjunto de puntos muestrales en el
intervalo [0, c).
Fig. 2.1 Almacenamiento en un reservorio multiproposito.
Aunque significa un espacio muestral continuo con un numero infinito de puntos, uno puede tambin
usar una representacin discreta de considerando un numero finito de estados. Cmo se define el
espacio muestral discreto dependiendo del juicio del ingeniero. Esta principalmente relacionado al
problema especfico y el uso que se hace del modelo y se ve limitada por la resolucin del instrumento,
como un indicador del nivel de agua en un depsito, que se utiliza en las mediciones.
Un evento es una coleccin de puntos muestrales en el espacio muestral de un experimento. Un
evento puede consistir de un simple punto muestral llamado un evento simple o elemental, o puede
estar formado por dos o ms puntos muestrales conocidos como un evento compuesto.
Definicion: Evento. Un evento (denotado por una letra mayuscula A) es un subconjunto del espacio
muestral .
Ejemplo 2.2. Almacenamiento de Reservorio. Esto es conveniente para definir almacenamiento de

reservorio S por una secuencia de k estados 1, 2, . . . , k . El espacio muestral esta
correspondientemente dado por el conjunto
{Ai , with i = 1, 2, . . . , k},
donde Ai {S: (i 1)c/k S < ic/k}, i = 1, 2, . . . , k es un conjunto de eventos.
Considerar cuatro estados de un reservorio: i {S: (i 1)c/4 S < ic/4}, i = 1, . . . , 4, como se
muestra en la Fig. 2.1.2.

El evento A definido como A = 4 {S: 3c/4 S < c} es un simple evento, ya que esto corresponde a un
simple punto muestral (para esta discretizacion). Por otro lado, el evento B se define como B = 1 + 2
{S: 0 S < c/2} es un evento compuesto, porque esto comprende la coleccin de dos eventos simpes,
es decir A1 = 1 {S: 0 S < c/4} y A2 = 2 {S: c/4 S < 2c/4}. Otros eventos posibles son
mostrados por los diagramas de torta.
Ejemplo 2.3. Almacenamiento de Reservorio. Dado {S: 0 S < c} el espacio muestral continuo
asociado al volumen de agua almacenado en un reservorio multipropsito en un cierto tiempo.
Because mitigation of the downstream flood hazard is usually one of the objectives for construction of a
reservoir, a portion of its capacity must be left empty at the beginning of the flood season. Dado w < c
denote the residual reservoir capacity available for flood control storage. At the beginning of the flood
season, the reservoir manager must investigate the event A {S: 0 S c w}, which corresponds to
the availability of sufficient flood storage in the reservoir (ver Fig. 2.1.1). El complemento de A es el
evento Ac {S: c w < S < c} el cual significa que el reservorio tiene capacidad residual insuficiente
para cumplir con la reserva de control de inundaciones. Tanto A y Ac son eventos compuestos en
relacion a Fig. 2.1.2.
Fig. 2.1.2 (a) Almacenamiento de Reservorio es representado por cuatro estados, 1, 2, 3, y 4. (b)
Los anchos de los rectngulos en el extremo derecho son proporcionales a las frecuencias relativas de
estos estados. (c) Los eventos indicados en el texto estan representados por rectangulos at the center on
the right with areas proportional to the relative frequencies of these events. (d) los diagramas de torta

muestran todos los posibles eventos (sombreados) y tambin el estado vaco (no sombreado). Por
ejemplo, A = A4 significa que 3c/4 S < c en Ejemplo 2.2.
Ejemplo 2.4.- Se est tratando de determinar el riesgo de inundacin en las reas bajas de un rio
importante y encuentra que, de las observaciones de avenidas que se tienen para los ltimos 150 aos (n
= 150), han registrado una inundacin en la ubicacin de inters durante 20 de esos aos (nA = 20). El
evento de inters es A = una inundacin ocurre en las reas bajas del ro XXX. La probabilidad de
este evento es determinado como
n = 150 (150 aos de registro)
nA = 20 (20 aos de inundacin registrado)
nA 20
P( A) 0.1333...
n 150
i.e., esta es una inundacin en la ubicacin de inters aproximadamente 13 de entre 100 aos.
Se define como frecuencia vr del evento A al cociente:
Si n es la misma para cualquier evento, se dice que el evento A ocurre con una probabilidad p, definida
como:
p = P(A) vr
Obviamente, 0 nA n, de donde se desprende que 0 vr 1. Extendiendo esta idea de frecuencia

relativa vr a probabilidad se tiene el primer axioma de la teora de la probabilidad:
0 P(A) 1
Por otra parte, cuando, para un evento E, ocurre que nA = n, se dice que el evento E es seguro y
entonces:
P(E) = 1
Para que un evento sea seguro debe incluir todos los posibles casos o resultados del experimento
(espacio muestral). As, en el caso del escurrimiento del ro, el evento seguro es:
E: 0 V
La ecuacin P(E) = 1 constituye el segundo axioma de la teora de la probabilidad. Una consecuencia

de este axioma es que la probabilidad de que no se presente ninguno de los posibles eventos del espacio
muestral es nula. As, por ejemplo,

P(V<0) = 0
Se dice que dos eventos son mutuamente excluyentes cuando no pueden ocurrir simultneamente. Por
ejemplo, el evento
A: V > 500 000 m3
y el evento
B: V < 10 000 m3
Son mutuamente excluyentes. Si la frecuencia del evento A es v1 y la del evento B es v2, entonces la
frecuencia de la unin de los dos es v = v1 + v2; por lo tanto, la probabilidad de C = AUB es:
P(C) = P(AUB) = P(A) + P(B)
Que es el tercer axioma de la teora de la probabilidad.
La ley de probabilidades que describe el comportamiento estadstico de una variable aleatoria - que en el
caso mencionado anteriormente es el volumen de escurrimiento mensual - se puede representar de varias
maneras, entre las que cabe mencionar la funcin masa de probabilidad discreta, la funcin de
distribucin de probabilidad acumulada, la funcin de densidad de probabilidad y la funcin de
distribucin de probabilidad. A continuacin se har un breve recordatorio de estas funciones y sus
propiedades.
2.2. Funciones de la probabilidad

2.2.1. Definicin
Meja (1991), menciona, si se define A y B como eventos aleatorios en el espacio muestral S, donde la
probabilidad de A y B son respectivamente P (A) y P (B) y E1, E2, E3,En son experimentos, se
tiene.
Figura. Diagramas de Ven
P ( A B ) P ( A) P ( A' ) 1 P ( A B ) P ( A) P ( B ) P ( A B )
Si A es un conjunto que pertenece a S pero no pertenece a A se tiene:
P ( A B ) P ( A) P ( A') 1

2.2.2. Probabilidad condicional

Meja (1993) afirma que, si la probabilidad de un evento tal como B, depende de la ocurrencia de otro
evento A, se tiene una probabilidad condicional. En otras palabras P(B) esta condicionada por P(A).
P ( A / B ) P ( A B ) / P ( A)
P ( A B ) P ( A ). P ( B / A )
Y para eventos independientes, P (B/A) = P (b), se tiene:
P ( A B ) P ( A ). P ( B )
2.2.3. Teorema de probabilidad total

Si B1, B2, B3,..., Bn representan eventos mutuamente excluyentes y colectivamente eventos completos,
se puede determinar la probabilidad de otro evento A del modo siguiente:
n
P ( A) P ( A / Bi ).P ( Bi )
i 1
Figura 2.1. Diagrama de Ven
2.2.4. Teorema de Bayes

De la definicin de probabilidad condicional se sabe que:
P ( B / A) P ( A B ) / P ( A)
Podemos escribir para eventos independientes:
1. P ( A ). P ( Bj / A ) P ( Bj ). P ( A / Bj ) (Prob. Condicional)
n
2. P ( A ) P ( A / Bi ) . P ( Bi ) (Prob. Total)
i 1
Dividiendo (1) entre (2) se obtiene finalmente la formula conocida como la regla de Bayes:

P ( Bj ). P ( A / Bj )
n
P ( Bj / A )

i 1
P ( A / Bi ) . P ( Bi )
El teorema de Bayes, permite estimar las probabilidades de un evento mediante la observacin de un

segundo evento.
2.2.5. Permutaciones
Si consideramos n objetos diferentes del cual seleccionamos y ordenamos en lnea, r, de los n objetos. A
tal ordenamiento se le llama permutacin de r objetos. Al nmero posible de tales permutaciones se le
designa por:
n Pr n(n 1)............(n r 1) n!/(n r)!
Donde: nPr se le denomina al nmero de permutaciones de n objetos tomados en grupos de r. si se elige

r de forma tal que sea igual a n entonces se tiene:
n Pr n(n 1)............(3).(2).(1) n!
Donde: n! es denominado factorial de n.
Como ejemplo tomemos las permutaciones tomadas dos a dos de las letras a, b, c, d: 4P2=n!/(n-
r)!=4!/2!=12. Estos son: ab, ba, ac, ca, ad, da, bc, cb, bd, db, cd, dc.
2.2.6. Combinaciones
Si se esta interesado solamente en los objetos seleccionados, cuando entre n se eligen r, sin tener en
cuenta su ordenacin, entonces a la seleccin no ordenada se le llama combinacin.
n n!
(n Pr)/ r!
r (n r)!r!
El factorial de n, (n!), puede aproximarse mediante la formula de Stirling:
n! 2 .en .nn1/ 2
El error de aproximacin es menor del 1% para n=10 y el porcentaje de error decrece al aumentar el
valor de n.
Como ejemplo podemos citar el nmero de combinaciones de dos letras seleccionadas de entre las
cuatro siguientes: a, b, c, d:
4 4! Estas combinaciones son: ab, ac, ad, bc, bd, cd.

6
2 ( 2 )!. 2!

2.3. Variable aleatoria y distribucin de probabilidades.

2.3.1. Variable aleatoria
Se le conoce como variable aleatoria, porque su valor queda determinado por el resultado de un
experimento. Tales resultados se deben a la operacin de causas no predicables. Una variable aleatoria
X es una funcin definida sobre un espacio muestral esto significa que a cada elemento ei del espacio
muestral S, corresponde un numero real nico, cuyo valor es X.
e1, e2 , e3 ,..............,en Experimentos realizados
X1, X 2 , X3 ,..............,Xn Resultados de los experimentos
2.3.2. Variable aleatoria discreta (V. A. D.)

Se dice que una variable aleatoria X es discreta, si tiene las siguientes propiedades.
1). El numero de valores para los cuales X tiene una probabilidad positiva es finito o a lo mas infinito
numerable.
2). Cada intervalo finito en la escala de nmeros reales contiene a lo mas un numero finito de los valores
de X.
Si un intervalo a<X<b, no contiene ni uno solo de estos valores, entonces P(a<X<b) = 0
2.3.3. Funcin de densidad y funcin de distribucin de la V. A. D.
Sea una variable aleatoria discreta, X, entonces la funcin definido por f (x) p(x x0 ) , se le llama
funcin de densidad discreta de x0 . Por Ejemplo si tomamos el caso del lanzamiento de 2 monedas y
definimos X como el nmero total de caras se tiene:
f (0) 1 / 4
f (1) 1 / 2
f (2) 1 / 4
Para juzgar, como se distribuye una variable aleatoria, es decir como cambia su probabilidad cuando
cambia la variable, es til representar la funcin de densidad por medio de un grafico.
2.3.4. Variable aleatoria continua (V. A. C.)

Una variable aleatoria es continua si puede tomar cualquier valor dentro del campo de los nmeros
reales.
2.3.5. Funcin de densidad y funcin de distribucin de la V. A. C.

Una funcin de densidad de una variable aleatoria continua X, es una funcin F(x) que cumple las
siguientes propiedades:
f(x)
1. f ( x) 0

2. f (x).d(x) 1

b
3. f ( x )dx P (a X b )
a
Donde a y b son valores cualesquiera de X, que cumplen la condicin de que a<b.
La relacin entre la funcin de densidad y la funcin de distribucin acumulada es:
dF ( x )
f ( x) y F ( x) f ( x ).dx
dx
2.3.6. Momentos de distribuciones

Los momentos son magnitudes fundamentales asociadas a las leyes de probabilidad. Se demuestra, en
efecto que hay una ley de probabilidad se halla descrito completamente por sus momentos.
2.3.7. Momento respecto al origen
Se define como M n E( X n ) X n . f ( X ).dX
Mn Es el momento de orden n, n=1, 2, 3, 4,
2.3.8. Esperanza matemtica

Dado la variable aleatoria X, se designa por esperanza matemtica de X, la suma de los productos de los
valores que puede tomar para sus probabilidades correspondientes. Se le conoce tambin como el valor
esperado de X: E( X ) X . f ( X ).dX por lo tanto la esperanza matemtica es el momento de orden
1 y corresponde al valor del parmetro MEDIA ARITMETICA, de la distribucin por lo que

E (X ) M 1 media . aritemtica .
2.3.9. Momentos centrados

En la prctica se escoge, siempre que es posible, la media como origen de la variable X para el clculo
de los otros momentos. Estos momentos se llaman momentos centrados y se escriben de la siguiente
forma:
= [ ( )] = ( ) = ( )
Mn=momento centrado de orden n; n=1, 2, 3, 4,. A continuacin se tienen algunos momentos

centrados:
M1 0
2 2
M 2 M 2
M 1

3
M 3 M 3
3M 2 M 1 2M 1
4
M 4 M 4
4 M 3M 1 6M 2
.M 1
3M 1
2.3.10. Variancia de una distribucin

Al momento centrado de orden 2 se le conoce como la VARIANCIA de una distribucin.
M 2 E (x )2 M 2 M 12 2
var iancia
2.3.11. Coeficiente de asimetra de Pearson

Se obtiene con los momentos centrados de 2do y 3er. Orden:
M 32 M
1 3
33/ 2
M2 M2
2.3.12. Coeficiente de apuntamiento o curtosis

Aumenta con la extensin y aplanamiento de la curva de densidad.
M 4 M 4
2 2
4
M 2

2.3.13. Estimacin de parmetros

La funcin de densidad y la funcin de distribucin acumulada pueden escribirse como una funcin de
la variable aleatoria y en general como una funcin de sus parmetros:
f ( X , 1 , 2 ,....., m ) F ( X ,1,2 ,.....,m )
Normalmente no se conocen todos los valores de la variable aleatoria para calcular un parmetro de
la poblacin, sin

2 e . x
E (x )2 (x )2
x!
Pero adems: 2
M 2 M 2 M 12 E ( x ) 2 E ( x ) 2
Por lo que debemos primero calcular el trmino E(x) : 2
e . x . x 2 e . x . x e . x .( x 1 1 )
E ( x)2 M 2
x! ( x 1 )! ( x 1 )!
x .1 x .( x 1)
E ( x) 2 e e
( x 1)! ( x 1)!
x x.
E ( x)2 e e
( x 1 )! ( x 2 )!
Como x es una V. A. D. podemos expandir el segundo miembro como una serie de Taylor:
2 1 2 3 2 3 4
E( x) e ( ...........) e ( ...........)
0! 1! 2! 0! 1! 2!
Factorizando convenientemente se tiene:
2 3
E ( x ) 2 ( e . e . 2 ) (1 .......... .......... ..)
1! 2! 3!
E ( x ) 2 e . e e . 2 e 2
2
Por lo tanto ( 2 ) (2 )
En conclusin: los parmetros media y variacin para la distribucin estudiada es; 2
2.4. Mtodos de estimacin de parmetros

2.4.1. Mtodo de los momentos
Este mtodo fue propuesto por Pearson (1857-1936) y consiste en igualar un determinado nmero de
momentos tericos de la distribucin de la poblacin con los correspondientes momentos mustrales,
Para obtener una o varias ecuaciones que, resueltas, permitan estimar los parmetros desconocidos de la
distribucin poblacional.
Sea X1, X2,. . ., Xn una m.a.s. de una distribucin con funcin de densidad f(x; 1, 2).
Como tenemos 2 parmetros, tomemos los dos primeros momentos respecto al origen,

2.5. Mtodo de mxima verosimilitud
Se asume que tenemos n observaciones aleatorias: x1, x2 ,.....,xn y su funcin de probabilidad
conjunta: f ( x1, x2 ,.....,xn ,1,2 ,...........,m ) . Dado que para una muestra aleatoria los valores de
Xi son independientes, su funcioin de probabilidad conjunta puede ser escrito como:
f ( x1,1,2 ,...........,m ) f ( x2 ,1,2 ,...........,m ).............. f ( xn ,1,2 ,...........,m )
Donde: (1 , 2 ,..........., m ) son los parmetros de la funcin.
La expresin anterior es proporcional a la probabilidad de que una observacin aleatoria, en particular,

en particular, sea obtenida de la poblacin y es conocida como funcin de mxima verosimilitud o
mxima probabilidad.
n
L(1 , 2 ,..........., m ) f ( xi , 1 , 2 ,..........., m )
i 1
Los parmetros son desconocidos por lo tanto la estimacin de estos se realizan teniendo presente que
deben maximizar la funcin de verosimilitud. Esto es posible tomando la derivada parcial de L ( i ),
Respecto a cada e igualando a cero.
2.6. Distribucin de probabilidades de variables aleatorias continuas.
2.6.1. Distribucin normal

La distribucin normal, es una distribucin de dos parmetros cuya funcin de densidad es:
e ( x 1 )
2
/( 2 22
f ( x) Para x
2. . 22
Los parmetros 1 y 22 , estimamos por el mtodo de momentos o mxima verosimilitud son:

1 (media aritmtica)
22 2 (Variancia)
Por esta razn la distribucin normal se expresa generalmente como:

e ( x ) /( 2
2 2
f (x) Para x
2 . .
Que es una funcin contina y simtrica con respecto a por lo tanto el coeficiente de asimetra es
cero.
Si una variable aleatoria X tiene distribucin normal con media y variancia 2 y adems y=a+bx,
la distribucin y tambin es normal con media y a b y la variancia 2 b 2 . 2 .
2.6.2. Distribucin normal estndar
Es la distribucin normal en trminos de la variable aleatoria estndar Z (x ) / y tiene

como funcin de densidad:
1 2
f (z) ez /2 Para: x
2 . .
La funcin de distribucin acumulada F (z) es:
z 1 2
f ( z ) P ( z z0 ) e t / 2 dt
2
Una caracterstica fundamental de la distribucin normal estndar es que:
0 y 2 1
De la misma forma, el 58.27% de valores se encuentran en el rango ( ) , el 95.45% dentro del

rango ( 2 ) y el 99.73% dentro del rango ( 3 ) .
2.6.3. Distribucin uniforme o rectangular
La distribucin uniforme con parmetros a y , esta definida por la funcin de densidad siguiente:
f ( x ) 1 /( a ) Para a x
La funcin de distribucin acumulativa es:
f ( x ) 1 /( x a ) /( a ) Para a x
La media y la variancia para la distribucin uniforme son:

E ( x) ( a ) / 2 2 ( a ) 2 / 12
Los estimados para los parmetros a y obtenidos por el mtodo de momentos son:
a xS 3 ; xS 3
2.6.4. Distribucin exponencial.

La funcin de densidad f(x), y la funcin de distribucin f(x), son:
x
f ( x ) .e . x f ( x ) .e .t dt 1 e x
0
Para X>0 y >0

La media y la variancia de la distribucin exponencial son:
1 1
E ( x) Var ( x) 2
2
2.6.5. Distribucin gamma
La distribucin gamma, con parmetros y , tiene la siguiente funcin de densidad.
x 1e x /
F ( x) ; Para X>0
.r ( )
F(x)=0; para x 0.
La funcin gamma de r ( ) ; est definida por la siguiente funcin matemtica:


r ( ) x 1e x dx. ; Para x>0
0
2.6.6. Propiedades de la funcin Gamma
r ( ) ( 1)! ; Si =1, 2, 3,.
r ( 1) ( ) ; Si >0.
(1) ( 2) 1
(1 / 2)
( 1)
( ) ; Si <0.

La media, la varianza y el coeficiente de asimetra para la distribucin gamma son:
E ( x ) . ; Var ( x ) 2 . 2 ; g 2/
La distribucin exponencial se deriva de la distribucin gamma, para el caso particular de 1 y

. 1 / 1 .
Los estimadores para los parmetros de la distribucin gamma por el mtodo de momentos son:
2
S2 x
2
x S
x =media aritmtica S 2 =Varianza muestral
Por el mtodo de la mxima verosimilitud los estimadores para los parmetros y son:
Ln( ) ( ) Ln ( x / x g )
. x
Donde: x g = es la medida geomtrica de la muestra.

n
x g ( xi )1 / n ( x1 .x 2 .x3 ...........x n .) 1 / n
i 1
d
( x) .Ln ( ( x))
dx
Thom (1958) propuso una relacin aproximada para el estimador del parmetro , basado en la
truncacion de la serie expandida de mxima probabilidad.
4y
1 1
3

4y
Donde: y Ln x Ln x
= termino de correccin
Factor de correccin ( ) para el estimador del parmetro por el mtodo de mxima probabilidad

0.2 0.034 1.0 0.009 1.8 0.004
0.3 0.029 1.1 0.008 1.9 0.003
0.4 0.025 1.2 0.007 2.2 0.003
0.5 0.021 1.3 0.006 2.9 0.002
0.6 0.017 1.4 0.006 3.1 0.002
0.7 0.014 1.5 0.005 3.2 0.001
0.8 0.012 1.6 0.005 5.5 0.001
0.9 0.011 1.7 0.004 5.6 0.000
La tabla anterior muestra los valores de en funcin de comprendido entre 0.2 y 5.6. Para
a 5.6 la correccin es despreciable. El procedimiento para calcular el facto de correccin consiste

4y
1 1
3
en un primer momento que sea igual a y luego calcular el valor de , de la tabla,
4y
x
correspondiente al valor inicial. Para estimar el parmetro se tiene que .

Thom (1958), comprob que para 10 el mtodo de momentos genera estimados inaceptables para
y para cercanos a uno, el mtodo de momentos usa solo 50% de la informacin de la muestra
para estimar y solo el 40% para estimar . Esto indica con la mitad de observaciones.
Greenwood y Durand (1960) presentaron la siguiente relacin para los estimadores de mxima
probabilidad.
2
( 0 . 5000876 0 . 1648852 y 0 . 0544274 y ) / y
Para 0 y 0 . 5772 con un error mximo de 0.0088%.
2
8 . 898919 9 . 05995 y 0 . 9775373 y

y ( 17 . 79726 11 . 968477 y y2)
Para 0 . 5772 y 17 . 0 con un error mximo de 0.0054.
Donde: y Ln x Lnx
Las expresiones anteriores tienen un ligero sesgo asinttico, para pequeas muestras, este puede ser
apreciable.
Bowman y Shenton (1968) presentaron la siguiente relacin aproximada para estimar el sesgo en el
parmetro , cuando se emplean la ecuacin de Thom, Greenwood y Durand.
0 . 111 0 . 032
E ( ) ( 3 0 . 677 ) /( n 3 )

Para n 4 y 4
Donde: E ( ) = sesgo de , con un error menor que 1.4%.
N = tamao de muestra.
Bowman y Shenton (1968) sugieren que el sesgo en , puede ser aproximado por:

3 ( n 3 )
E ( ) ; Con: E ( ) ; n4
n n
Distribucin log-normal de dos parmetros.

Por el teorema de limite central, tenemos que si X es una variable aleatoria con distribucin normal, se
puede esperar una variable Y=Ln X, tambin con distribucin normal con media y y variancia y2 .
La funcin de densidad de distribucin normal para Y es:
2
1 Y y

1 2 y
f ( y) e Para Y
2 X y
dy
La relacin entre f(x) y f(y) es: f ( x ) f ( y )
dx
Como Y= Ln X entonces.
dy 1
, X>0
dx x
2
1 LnX y

1 2 y
f ( y) e Para X>0
2 X y
- es la funcin de densidad de la distribucin normal para Y con media y y la variancia de y2 .
f (x ) - es la funcin de densidad de la distribucin log-normal para X con parmetros y y y2 .
Y=Ln X tiene distribucin normal, mientras que X tiene distribucin log-normal. Los parmetros y
y y2 pueden se estimados por y y S y2 mediante la transformacin Yi LnX i .
2
Y Y i /n y S y2 ( Y i 2 n Y ) /( n 1)
Chow (1954), presento la siguiente relacin para calcular Y y S y2 sin que sea necesario transformar
los datos previamente en sus logaritmos:
2
Y
1
Ln
X S y2 Ln(Cv2 1)
2 C v2 1

Donde: Cv es el coeficiente de variacin de los datos originales.
Cv S x / X
Brakensiek (1958), propuso las siguientes relaciones para obtener la media y variancia de la distribucin
log normal.
1
( y 2y ) 2y
x E( X ) e 2
Var ( X ) x2 .(e 1)
C e 1
1/ 2
2y
v - coeficiente de variacin
g 3Cv Cv3 -coeficiente de asimetra
Las tablas de distribucin normal estndar pueden ser usados para evaluar la distribucin log normal.
Como f(x)=f(y)/x : pero f(y) es una distribucin normal tenemos:
f ( z)
f ( x) Donde: Z (y y )/ y
X . y
Distribucin log-normal de tres parmetros.

Esta difiere de la distribucin log normal de dos parmetros por la introduccin de un lmite inferior
x0 , tal que: Y Ln ( x x0 ) la funcin de densidad de X es:
2
1 Ln ( x x 0 ) y

1 2 y
f (x) .e
Para x x0
( x y 0 ). 2 y
x0 = parmetro de posicin.
y =parmetro de escala o media.
y2 =parmetro de forma o variancia.
Los momentos de X pueden obtenerse de los correspondientes momentos de la distribucin log normal
de dos parmetros, debido a que las variedades aleatorias defieren solo en el parmetro de posicin x0 :

x x0 H
X=variable aleatoria con distribucin log-normal de 3 parmetros.
H= variable aleatoria con distribucin log-normal de 2 parmetros.
x 0 =parmetro de Posicin.
E ( x) x x0 E ( H ) x0 H
E ( x x ) 2 x2 H2
1
( y 2y )
x E ( x) x0 e 2
y2 ( 2 y 2y )
x2 Var ( x ) ( e 1).e
El coeficiente de asimetra, g, esta dado por:
y2 2y
g (e 1).(e 2)
Y de forma aproximada puede ser: g 0.52 4.85 y2
Distribucin de valores extremos.
Consideramos una muestra de tamao n consistente en x1, x2 , x3 ,........xn observaciones, donde f(x)
es la funcin densidad y F(x) es la funcin de distribucin acumulada y f(y) la funcin de densidad

entonces.
n
( Y0) P(X1 Y0).P(X2 Y0).............P(Xn Y0) P(X Y0)
F(y) PY
dF ( y )
nP ( X Y0 P ( X Y0 )
n 1
F ( y)
dy
Distribucin de valores extremos tipo I (Gumbel)
Se le conoce tambin como Gumbel, este tipo de distribucin es usado frecuentemente para estudio de
magnitud-duracin y frecuencias de lluvias (Hershfield, 1961) y como la distribucin de valores
mximos de caudales anuales de un ri.

Gumbel (1958), estudio la aplicacin para datos de descargas diarias. La funcin de densidad de
probabilidad para la distribucin de valores extremos tipo I es:
e ( X ) / a e
(X ) /a
f (x)
a
Para X ; ;a 0
El signo (+) se aplica para valores mnimos y el signo (-) se aplica para valores mximos.
El parmetro a se le conoce como el parmetro de escala.
El parmetro se le conoce como parmetro de posicin.
La media y la variancia de la distribucin del valor extremo tipo I son:
E ( x ) 0.577a (Mximo)
E ( x ) 0.577a (Mnimo)
Var ( x ) 1.645a 2 (Para ambos)
El coeficiente de asimetra es: g=1.1396 (mximo)
g=-1.1396 (mnimo)
Si se hace la transformacin: Y (x ) /a
Y
La funcin de densidad ser: f ( y ) e ( Y e )
El signo + se emplea para eventos mnimos y el signo para eventos mximos.
La funcin de distribucin acumulada es:
y
f ( y ) e e - (mximo)
y
f ( y) 1 e e - (mnimo)
f ( y ) min 1 F ( Y ) max

Los estimadores para los parmetros a y , por el mtodo de momentos (LOWERY Y NASH 1970)
son:
S
a , x 0.45( S ) - mximo
1.283
x 0.45( S ) -mnimo
Por el mtodo de mxima verosimilitud (Lowery y Nash, 1970) son:
a x ( X i e x / a ) / e x / a
i i
xi / a
aLn (
e )
n
Desafortunadamente las ecuaciones de mxima verosimilitud para el estimado de los parmetros a y
no tienen solucin explicita, por lo que es necesario una solucin por mtodos numricos. Segn
Lowery y Nash, el mtodo de momentos da resultados satisfactorios en el clculo de estos parmetros.
Distribucin de valores extremos Tipo III (Weibull)
La distribucin de valores extremos tipo III (tiene gran aplicacin para eventos hidrolgicos mnimos.
Esta distribucin se le conoce como la distribucin de Weibull de 2 parmetros y su funcin de densidad
es:
f ( x) aX a 1 a e ( X / )
a
Donde: X 0; a, 0
a
F ( x) 1 e ( X / )
La media y la variancia de la distribucin son:
E ( x ) (1 1 / a )

Var ( x ) 2 2 (1 2 / a ) 2 (1 1 / a )
El coeficiente de asimetra, segn Hahnan y Shapiro (1967), es.

(1 3 / a ) 3 (1 2 / a ) (1 1 / a ) 2 3 (1 1 / a )
g
(1 2 / a ) (1 1 / a )
2 3/ 2
Los estimadores de los parmetros a y , por el mtodo de momentos se obtienen resolviendo las
ecuaciones simultneas correspondientes a la media y variancia muestral.
Por el mtodo de mxima verosimilitud, calculamos haciendo:
a , por consiguiente los estimadores son:
n n
n / xi
a
y
a n n
a
i 1 ( xi Lnxi Lnxi )
i 1 i 1
Simultneamente para a , y , tenemos: ( ) 1/ a
La distribucin de Weibull de 2 parmetros, tiene la siguiente funcin de densidad:
f ( x ) a ( x )a 1 ( ) a e ( x ) /( )
a
f ( x ) 1 e ( x ) /( )
a
Usando la siguiente transformacin:
Y ( x ) /( )
a
Tenemos que: F ( y) 1 e y
La media y la variancia de la distribucin de Weibull de tres parmetros son:
E ( x ) ( ) (1 1 / a )

var( x ) ( ) 2 (1 2 / a ) 2 (1 1 / a )
El coeficiente de asimetra es lo mismo que en el caso de la distribucin de Weibull de 2 parmetros.
Resolviendo algebraicamente las ecuaciones correspondientes a E(x) y Var(x), podemos resolver para:
. A(a ) ; .B (a )

Donde:
A(a ) = 1 (1 1 / a ) (a )

B (a ) = (1 2 / a ) 2 (1 1 / a )
1 / 2
Los valores de 1/ a , A(a ) , y B (a ) como funcin de g se muestran en el siguiente cuadro.
Cuadro. Valores de 1/ a , A(a ) , y B (a ) como funcin de g
g 1/ a A(a ) B (a ) g 1/ a A(a ) B (a )
-1.000 0.02 0.446 40.005 2.000 1.00 0.000 1.000
-0.971 0.03 0.444 26.987 2.309 1.10 -0.040 0.867
-0.917 0.04 0.442 20.481 2.640 1.20 -0.077 0.752
-0.867 0.05 0.439 16.576 2.996 1.30 -0.109 0.652
-0.638 0.10 0.425 8.737 3.382 1.40 -0.136 0.563
-0.254 0.20 0.389 4.755 3.802 1.50 -0.160 0.486
0.069 0.30 0.346 3.370 4.262 1.60 -0.180 0.418
0.359 0.40 0.297 2.634 4.767 1.70 -0.196 0.359
0.631 0.50 0.246 2.159 5.323 1.80 -0.208 0.308
0.896 0.60 0.193 1.815 5.938 1.90 -0.217 0.308
1.160 0.70 0.142 1.549 6.619 2.00 -0.224 0.224
1.430 0.80 0.092 1.334 7.374 2.10 -0.227 0.190
1.708 0.90 0.044 1.154 8.214 2.20 -0.229 0.161
4.2.3 Distribucin beta

Funcin de densidad:
xa 1 (1 x) 1
f ( x) Para: 0 x 1 , a , 0
B (a )
1
a 1
Funcin beta= B(a , ) x (1 x) 1dx
0
La relacin entre la funcin Beta y Gamma es:
a ,
B (a , )
(a )
La media y la variancia de la distribucin Beta son:

a .
E ( x)
(a )
a .
Var ( x ) 2
(a 1)(a ) 2
A partir de estas ecuaciones se pueden calcular los estimados para a y ,
4.2.4 Distribucin de Pearson tipo III

Karl Pearson (1953), propuso que la distribucin de frecuencias puede ser representados por la siguiente
funcin de densidad:
x
2
( t a ) /( 0 1t 2t ..................)dt
f ( x) e
La distribucin Pearson tipo III, tiene gran aplicacin en hidrologa especialmente en el anlisis de
caudales mximos (picos), su funcin de densidad se puede escribir como:
( x x 0 ) 1 e ( x x 0 ) /
f (x) Para: x x
( ) 0
x 0
Variable reducida: y (x x0 ) / por lo que:
1
Y e Y Y Y 1
e Y
f ( y) y P ( Y Y 0 ) F (Y ) dY
( ) 0 ( )
El estimado para los parmetros por el mtodo de momentos es:
E ( x ) x 0 . Media
E (x )2 2
2 . Variancia
g 2/ Sesgo

Distribucin log Pearson Tipo III

La transformacin puede ser: Z=Ln(X) o Z=Ln(x-xo)
Donde: Z=variable aleatoria con distribucin Pearson III
X=Variable aleatoria con distribucin log Pearson III
La funcin de densidad para X y Z se dan a continuacin:
( LnX Y 0 ) 1 e ( LnX Y0 ) /
f (x)
( )
( Z Z 0 ) 1 e ( Z Z 0 ) /
f (z) Donde Z=Ln(X)
( )
Z0 =Parmetro de posicin.
=Parmetro de escala
=Parmetro de forma.
De acuerdo a la distribucin Pearson tipo III: x .z x 0 y en el caso de la distribucin log-

Pearson tipo IIII.
x ez o x x0 e z
La media, variancia y el sesgo para la distribucin Log-Pearson tipo III son:
E ( z ) z 0 . Media
2
E (z 2 )2 2 2 . Variancia
g 2/ Sesgo
Problemas de probabilidad aplicados a hidrologa

Ejemplo 1. Determinar el valor de la constante a de la funcin de densidad de probabilidad:

0 5
( )=
0
Cul es la probabilidad de que un valor X seleccionado aleatoriamente de esta funcin:
a) Sea menor que 2?
b) Est entre 1 y 3?
c) Sea mayor que 4?
d) Sea mayor que 6?
e) Sea igual a 2.5?
Solucin
De la ecuacin ( ) = 1 , se tiene:
0 5
f ( x )dx f ( x)dx f ( x)dx f ( x)dx 1
0 5
Sustituyendo la funcin de densidad de probabilidad en la ecuacin anterior.
5 125
(0) + + ( 0) = = = =1
3 0 3
3
Por lo tanto: a =
125
La funcin de densidad de probabilidad es entonces:
3
( )=
125
y la funcin de distribucin de probabilidad resulta
( )=
125
Entonces:
8
a) F(2) = P(X 2) =
125

9 1 8
b) P(1 X 3) = F(3) - F(1) =
125 125 125
64 61
c) P(X 4) = 1 P(X 4) = 1 F(4) = 1 -
125 125
d) P(X 6) = 1 P(X 6) = 1 1 = 0
e) P(X = 2.5) = 0
Ejemplo 2. Los gastos mximos anuales registrados en la estacin hidromtrica Las Perlas en el ro
Coatzacoalcos se muestran en el cuadro siguiente.
a) Cul es la probabilidad de que, en un ao cualquiera, el gasto sea mayor o igual a 7 500 m3/s?
b) Se planea construir cerca de este sitio un bordo para proteccin contra inundaciones. Cul debe ser
el gasto de diseo si se desea que el periodo de retorno sea de 60 aos?
Supngase que los datos del cuadro siguiente siguen una distribucin normal.
Cuadro. Datos de gasto mximo (x) del problema
Ao 1954 1955 1956 1957 1958 1959 1960

x (m3/s) 2230 3220 2246 1804 2737 2070 3682
Ao 1961 1962 1963 1964 1965 1966 1967
x (m3/s) 4240 2367 7061 2489 2350 3706 2675
Ao 1968 1969 1970 1971 1972 1973 1974
x (m3/s) 6267 5971 4744 6000 4060 6900 5565
Ao 1975 1976 1977 1978 - - -
x (m3/s) 3130 2414 1796 7430 - - -
Solucin
La media y desviacin estndar de los datos son respectivamente:
25
xi
i 1
X= = 3 886 m3/s
n
25
( xi x)
I 1
S= = 1 825.9 m3/s
n 1
La media y desviacin estndar de la poblacin pueden entonces estimarse como:

= x = 3886 m3/s
= S = 1825.9 m3/s
a) Para x = 7500 m3/s, la variable estandarizada z es
x 7500 3886
z= 1.98
1825.9
De la tabla de la distribucin normal estndar acumulada se obtiene
( ) = ( ) = ( 7500) = 0.9761
Por lo que la probabilidad de que el gasto mximo anual sea mayor o igual que 7500 m3/s resulta.
P (X 7500) = 1 - P (X 7500) = 1 - 0.9761 = 0.0239
b) De la ecuacin para el perodo de retorno se tiene que.
1 1
T=
P ( X x) 1 P( X x)
Por lo tanto:
T 1
P (X x) =
T
Entonces, para T = 60 aos, la funcin de distribucin de probabilidad es:
59
F (x) = P (X x) = = 0.9833
60
Y de la tabla de la distribucin normal estndar acumulada o resolviendo la ecuacin por tanteos, se

obtiene la variable estandarizada
z = 2.126
Por lo tanto, despejando x de la ecuacin 9.33 se tiene:
x = z + = 2.126 (1825.9) + 3886
x = 7 775.2 m3/s
Entonces, segn la distribucin normal el gasto de diseo para un periodo de retorno de 60 aos es
7775.2 m3 /s.
Ejemplo3. Resolver el ejemplo 2 usando la funcin de distribucin Log-normal.

Solucin
La media y desviacin estndar de los datos, son estimadores de las media y desviacin estndar de la
poblacin, son.
25
ln xi
a 8.162
i 1 25
1/2
25 (ln xi 8.162)2
0.451
i1 25
a) Para x = 7500 m3/s, la variable estandarizada es:
ln( 7500 ) 8.162

z= 1.687
0.451
De la tabla de la distribucin normal estndar acumulada, se obtiene
F(x) = F (z) = 0.9545
Y por lo tanto
P(x 7500) = 1 P(x 7500) = 1- F(x) = 1 - 0.9545 = 0.0455
T 1
b) Nuevamente, de P (X x) = se tiene:
T
F (z) = F(x) = 0.9833
De la tabla de la distribucin normal estndar acumulada o resolviendo la ecuacin por tanteo, para este
valor de F(z) se obtiene
z = 2.13
Despejando x de la ecuacin
ln
=
= exp( + )
= exp(2.13 0.451 + 8.162) = 9160.3 /
Ejemplo 4. Resolver el ejemplo 2 usando la funcin de distribucin Pearson III.
Solucin

a) Clculo de los valores de a1, 1 y 1. El coeficiente de sesgo es
( ) /
=
25
xi38863 / 25
= i 1 (1825.9)
3
1.258
Entonces
1 = 2 2 =
2 2
= 2.526

1.258

a1 = S
1825.91 1148.8
1 2.526
= = 3886 1148.8 2.526 = 983.9
Para 7500 m3/s, la variable estandarizada y es
y = 7500 983.9 5.672

1148.8
El valor de x2 y el nmero de grados de libertad son entonces
x2 = 2y = 2(5.672) = 11.344
v = 21 = 2(2.526) = 5.05
De la tabla de la funcin Gamma (Aparicio, 1991) se obtiene, para estos valores de x2 y v, con 5 grados
de libertad
F(x) = 95.5 %
Por lo tanto,
P (x 7 00) = l F (7500) = 1 - 95.5 = 4.5%
b) De acuerdo con los problemas anteriores:
P (X x) = F(x) = F(y) = 0.9833
De la tabla de la funcin Gamma (Aparicio, 1991) se obtiene por interpolacin para v = 5

. = 14.1
De la ecuacin
( )= ( / )= (2 /2 )
y = 14.1 = 7.05
2
Y de
x = 7.05 (1148.8) + 983.9 = 9071 m3/s.
Ejemplo 5. Resolver el ejemplo 2 usando la funcin de distribucin Gumbel.
Cuadro. Media y desviacin estndar para la distribucin Gumbel
N y sy N y sy
10 0.4952 0.9496 60 0.5521 1.1747
15 0.5128 1.0206 65 0.5535 1.1803
20 0.5236 1.0628 70 0.5548 1.1854
25 0.5309 1.0914 75 0.5559 1.1898
30 0.5362 1.1124 80 0.5569 1.1938
35 0.5403 1.1285 85 0.5578 1.1974
40 0.5436 1.1413 90 0.5586 1.2007
45 0.5463 1.1518 95 0.5593 1.2037
50 0.5485 1.1607 100 0.5600 1.2065
55 0.5504 1.1682
Solucin
Para 25 aos de registro, del cuadro anterior se tiene:
y = 0.5309; y = 1.0914
Por lo tanto, de las ecuaciones
a = 1.0914 = 0.000598 (m3/s)-1

1825.91

= X - y 3886 0.5309 = 2997.81 m3/s

a 0.000598
a) Para x = 7500 m3/s, de la ecuacin
( ) = exp exp ( )
( ) = exp[exp[0.000548(7500 2997.8)]]
F(x) = 0.9345
Por lo tanto:
P (X 7500 m3/s) = 1 - 0.9345 = 0.065
b) Para T = 60 aos, de las ecuaciones
1
( )=
9.38 y 9.54:
F(x) = T 1 = 0.9833 = e-e

T
Despejando x:
T
x = = 1 ln.ln = 2997.8 - 1 ln ln
a T 1
0.000548

1 =
9827.1 m3/s.
0.9833

Ejemplo 9.6. Resolver el ejemplo 9.2 usando una funcin de distribucin de probabilidad para dos
poblaciones. Suponiendo que ambas tienen una funcin de distribucin Gumbel.
Solucin.
En la tabla 9.7 se muestran los gastos mximos anuales ordenados de mayor a menor.
Supngase que los siete primeros gastos fueron producidos por una tormenta ciclnica. De este modo,
Nn = 18, NT = 25 y:
p = 18 = 0.72
25

Las medias y desviaciones estndar de las poblaciones no ciclnicas y ciclnicas son:
m T (aos) X (m3/S) m T (aos) X (m3/S)

1 26 7430 14 1.86 3130
2 13 7061 15 1.73 2737
3 8.67 6900 16 1.63 2675
4 6.50 6267 17 1.53 2489
5 5.20 6000 18 1.44 2414
6 4.33 5971 19 1.37 2367
7 3.71 5565 20 1.30 2350
8 3.25 4744 21 1.24 2246
9 2.89 4240 22 1.18 2230
10 2.60 4060 23 1.13 2070
11 2.36 3706 24 1.08 1804
12 2.17 3682 25 1.04 1796

13 2.00 3220
X 1 = 2712.6 m3/s; S1 = 2089.2 m3/s
X 2 = 6456.3 rn3/s; S2 = 630.6 m3/s
Los parmetros a1, a2, 1 y 2 son, entonces, de acuerdo con las ecuaciones 9.58 y 9.59:
a1 = 1.05 = 0.000503 (m3/s)-1

2089.2
a2 = 0.94 = 0.00149 (m3/s)-l

630.6
1 = 2712.6 - 0.52 = 1678.8 m3 /s

0.000503
2 = 6456.3 - 0.494 = 6124.8 rn3/s

0.00149
donde los valores de y1, y1, y2, y y2, se interpolaron en la tabla 9.6.
La funcin de distribucin de probabilidad resulta ser entonces:
F(x) = e-e 0.72 + (0.28) e-e (9.64)
a) Para x = 7500 m3/s, de la ecuacin 9.64 se tiene:
F (7500) = 0.9 16
Por lo tanto:
P (X 7500 m3/s) = 1 - 0.916 = 0.084

b) Aqu se requiere un valor de x tal que:
F(x) = 0.9833
De la ecuacin
X (m3/s) F(X)
9000 0.9710
10000 0.9840
9800 0.9822
9900 0.9831
X = 9900 m3/s

CAPITULO III PRUEBAS DE RANGO MULTIPLE
3.1. Introduccin
El investigador desea conocer si los tratamientos tienen algn efecto sobre la variable que se estudia. Es
decir desea saber si las medias estimadores de las de las poblaciones de los tratamientos son
iguales o distintas. Es propsito de todo investigador que realiza un anlisis de variancia de un
experimento en particular, realizar la prueba sobre el efecto de los tratamientos en estudio, para ello
hace uso de la prueba F el cual indicar si los efectos de todos los tratamientos son iguales o diferentes;
en caso de aceptar la hiptesis de que todos los tratamientos no tienen el mismo efecto, entonces es
necesario realizar pruebas de comparacin de promedios a fin de saber entre que tratamientos hay
diferencias, y para esto es necesario realizar pruebas de comparacin mltiple como las siguientes:
1. Prueba de Rangos Mltiples de Tukey HSD
2. Diferencia Minima Significativa (LSD)
3. Prueba de Rangos Mltiples de Duncan
4. Prueba de Comparacin de Dunnet
5. Pruebla de Student-Newman-Keuls (SNK)
3.2. Prueba de Rangos Mltiples de Tukey HSD
Este procedimiento es llamado tambin Diferencia Honestamente Significativa, se utiliza para realizar
comparaciones mltiples de medias; esta prueba es similar a la prueba de Duncan en cuanto a su
procedimiento y adems es ms exigente. La prueba Tukey se usa en experimentos que implican un
nmero elevado de comparaciones o se desea usar una prueba ms rigurosa que la de Duncan. Es de
fcil clculo puesto que se define un solo comparador, resultante del producto del error estndar de la
media por el valor tabular en la tabla de Student-Newman-Keuls y usando como numerador el nmero
de tratamientos y como denominador los grados de libertad del error. Debe considerarse que esta
prueba es ms estricta en su clasificacin; asi el 5% de Tukey casi es equivalente al 1% de Duncan
MSE
X i X j q (a , r , GL ) (1)
n
MSE 1 1
X i X j q (a , r , GL) (2)
2 ni n j
Donde: ec. (2) cuando n de cada grupo son iguales y ec (2) cuando n de cada grupo es distinto
X i X j Diferencia de medias entre los dos grupos que queremos comparar
q (a , k , GL ) valor de Tukey segn tabla

a = grado de significancia a utilizar (ej. a = 0.05)
r = nmero de grupos
GL = grados de libertad
MSE = cuadrado medio del error

Ejemplos de aplicacin
Se tiene las influencias de las drogas A, B y C en la produccin de clulas. Realizar la prueba de Tukey.
A B C
24.15 36.3 19.35
24.6 44.1 21.9
25.1 39.15 31.1
22.55 49.9 15.4
22.65 50.35 18.3
26.85 50.6 27.1
40.2 31.7 22.15
63.2 69.25 22.15
79.6 138.6 22.75
59.1 72.95 66.7
64.6 80.05 19.35
102.45 90.3 37.85
Relizando el anlisis de varianza de un factor se tiene:

Anlisis de varianza de un factor
RESUMEN
grupo 1 grupo 2 grupo 3
Cuenta 12 12 12
Suma 555.05 753.25 324.1
Promedio 46.2541667 62.7708333 27.00833333
Varianza 726.897936 908.435663 193.5494697
ANLISIS DE VARIANZA
Origen de las Suma de Grados de Promedio de Valor crtico
Probabilidad
variaciones cuadrados libertad los cuadrados F para F
Entre grupos 7688.63514 2 3844.317569 6.31 0.0048 3.28491765
Dentro de los grupos
20117.7138 33 609.6276894
Total 27806.3489 35
Con este anlisis podemos concluir que si existe diferencia significativa, entre alguno o algunos de los
grupos, ante lo cual relizaremos el anlisis mediante Tukey, para saber entre cuales.
Calculando la diferencia Honestamente significativa, utilizando la tabla Tukey
qa 3.3600
MSE 609.6277
n 12
HSD 23.9486

En la siguiente tabla calcularemos la diferencia de las medias entre cada uno de los grupos, y hallaremos
cul de las diferencias es mayor que la HSD.
A B C
A -16.5166667 19.2458333
B 16.5166667 35.7625
C -19.2458333 -35.7625
Segn estos resultados existe diferencia significativa, entre los grupos B y C
Ante lo cual podemos concluir que:

1.- SI EXISTE DIFERENCIA SIGNIFICATIVA ENTRE LOS TRES GRUPOS, rechazando la
hiptesis nula
2.- HAY DIFERENCIA ENTRE EL GRUPO B Y C, comprobado por Tukey
El anlisis en R, tiene la siguiente sintaxis:

Realizando el anlisis de varianza
Resolviendo con la librera interna de R, para la prueba Tukey HSD
Utilizando la librera agricolae

3.3. Diferencia Minima Significativa de Fisher o (LSD)
Es un procedimiento comnmente usado para comparar la diferencia entre un grupo de medias y para
comparar cada uno de los grupos de medias con un tratamiento estndar. Se justifica slo en las
siguientes condiciones: a. La prueba F resulta significativa. b. Las comparaciones fueron planeadas
antes de ejecutar el experimento. c. Es solamente valido para algunas comparaciones especficas, ya que
al incrementarse el nmero de comparaciones se incrementa el error tipo I. d. No controla en forma
eficiente el error referido al experimento, su uso no es recomendable para comparaciones mltiples de
todos los pares de medias de un experimento.
1 1
X i X j t (a / 2, GL ) MSE (1)
ni n j

Donde:
X i X j Diferencia de medias entre los dos grupos que queremos comparar
t (a / 2, GL) valor de la distribucin t a dos colas

a/2 = grado de significancia
GL = grados de libertad
Todas las diferencias de medias son comparadas con la LSD y si la diferencia de medias comparadas
2 MSE
Al valor t0.01, v, se le llama diferencia mxima
excede a la LSD, habr significacin. n
significativa. Esta prueba es apropiada si la comparacin de medias grandes con pequeas en un grupo
de v tratamientos medios; es decir, que sin tener efectos diferentes en los tratamientos habr variabilidad
entre los promedios debido exclusivamente a la variabilidad comn: Pues cuanto mayor sea el nmero
de tratamientos, habr rechazos indebidos en las comparaciones extremas, ya que en ellas el tc seria
mayor que el t0.05.
Problemas de aplicacin
Probando con el modelo Bonferroni

Utilizando la librera agricolae
3.4. Prueba de Rangos Mltiples de Duncan
La prueba de rango mltiple Duncan es una comparacin de las medias de tratamientos todos contra
todos de manera que cualquier diferencia existente entre cualesquier tratamiento contra otro se ver
reflejado en este anlisis. Utiliza un nivel de significancia variable que depende del nmero de medias
que entran en cada etapa de comparacin. La idea es que a medida que el nmero de medias aumenta, la
probabilidad de que se asemejen disminuye. Para obtener los comparadores Duncan, se toman de la
tabla de Duncan los valores de acuerdo al nmero de tratamientos y con los grados de libertad del error.
Cada uno de estos valores ser multiplicado por el error estndar de la media y stos sern los
comparadores para determinar cules diferencias son significativas. Este procedimiento es utilizado para

realizar comparaciones mltiples de medias; para realizar esta prueba no es necesario realizar
previamente la prueba F y que sta resulte significativa; sin embargo, es recomendable efectuar esta
prueba despus que la prueba F haya resultado significativa, a fin de evitar contradicciones entre ambas
pruebas. Las caractersticas son las siguientes: El nmero de tratamientos de comparaciones con t
t (t 1)
tratamientos es El Fc en el anlisis de variancia puede ser significativo o no. Tiene el
2
inconveniente cuando se cuenta con un alto nmero de tratamientos dado que el nivel de significacin
se modifica en funcin de ellos. Para su aplicacin se utiliza la siguiente
MSE
formula: xi x j qa (r , GLerror ) n
xi x j = Amplitud de Limite de Significacin de Duncan
qa (r , GLerror ) = Amplitud estudientizadas Significativas de Duncan (Tabla de Duncan)
Ejemplos de aplicacin
3.5. Puebla de Student-Newman-Keuls (SNK)

La prueba con el comparador Student-Newman-Keuls (SNK) es similar en metodologa a la de Duncan,
pero con un nivel de rigurosidad intermedio con respecto a Duncan y Tukey, es decir, ni tan exigente
como Tukey, ni tan flexible como Duncan. Este procedimiento es ms conservativo que el de Duncan en
el nmero de diferencias que declara significativa. Por lo tanto, en sistuaciones en las cuales no es
necesario ser tan conservativo se sugiere el uso de esta metodologa probabilidades ms relajado,
digamos un 10% a un ms alto.
MSE
xi x j qa (r , GLerror ) n
xi x j = Amplitud de Limite de Significacin de Student-Newman-Keuls
qa (r , GLerror ) = Amplitud estudiantizadas Significativas de S-N-K (Tabla de Student-Newman-
Keuls)
x[1] min x[ 2] x[3] x[ 4] x[5] x[6] max
r=5 r=6
r=2 r=3 r=4

3.6. Prueba de Comparacin de Dunnet

Esta prueba es til cuando el experimentador est interesado en determinar que tratamiento es diferente
de un testigo, control o tratamiento estndar, y no en hacer todas las comparaciones posibles (que
pasaran a una segunda prioridad); es decir, cuando se quiere comparar el testigo con cada uno de los
tratamientos en estudio. Tiene las siguientes caractersticas:-Se utiliza cuando existe tratamientos testigo
o control y se desea comparar este testigo con los dems tratamientos.- La prueba de F-calculado del
ANDEVA debe ser significativa.- Las comparaciones son planteadas antes de realizar el experimento.-
Es una prueba modificada de la prueba DLS.- Se utiliza un tratamiento de control como punto de
referencia con el cual comparar todos los dems tratamientos.
3.7. Transformacin de datos

La razn principal de la transformacin de datos es que de llevarse a cabo un anlisis estadstico con
resultados que no cumplan con los supuestos acerca del modelo estadstico, se puede llegar a una
conclusin equivocada. Un cambio de escala puede variar la media y la variancia de la variable as
como su relacin con respecto a otras variables. La forma de la distribucin de una variable cambia con
la escala. Mediante una transformacin adecuada puede conseguirse que un variable que no se
distribuye normalmente pase a tener una distribucin casi normal. Las poblaciones con variancias
desiguales pueden convertirse en homocedsticas (variancias homogneas) mediante una
transformacin apropiada. Las transformaciones ms usadas son: a. Transformacin logartmica El
modelo lineal (por ejemplo Yij = + ti + bj + eij) indica que el efecto del bloque, el efecto del
tratamiento y el error experimental, son todos ellos aditivos. Si los bloques y los tratamientos aumentan
o disminuyen las mediciones en un determinado porcentaje en lugar de una determinada cantidad,
entonces se dice que los efectos son multiplicativos y no aditivos. En estos casos, una transformacin
logartmica transformar en aditiva la relacin multiplicativa y en consecuencia el modelo lineal podr
ser aplicado a los nuevos datos. Para ciertos tipos de anlisis, el investigador prefiere la escala que
elimina las interacciones mientras que para otras puede preferir la escala que restituye los efectos
lineales. Lo que hay que recordar es que la relacin entre las variables est muy influenciada por las
escalas con las que se miden dichas variables. Las interpretaciones de los datos slo son vlidas en
relacin con la escala particular adoptada en un caso determinado. b. Transformacin de la raz
cuadrada Cuando los datos estn dados por nmeros enteros procedentes del conteo de objetos, como
por ejemplo el nmero de manchas en una hoja o el nmero de bacterias en una placa, los nmeros
observados tienden a presentar una distribucin de Poisson ms que una distribucin normal. Las
consideraciones tericas conducen a la transformacin de la raz cuadrada de los nmeros
observados.Normalmente esta transformacin determina que las variancias de los grupos sean ms
iguales. Tambin es aplicable a las distribuciones sesgadas puesto que acorta la cola larga. Si y es el
nmero observado, para el anlisis estadstico y la prueba de significacin utilizaremos y1/2 . Cuando

los nmeros observados son pequeos (de 2 a 10), se prefiere la transformacin (y+0.5)1/2, en especial
cuando algunos de los nmeros observados son cero.
Coeficiente de variabilidad Es una medida de variabilidad relativa (sin unidades de medida) cuyo uso
es para cuantificar en trminos porcentuales la variabilidad de las unidades experimentales frente a la
aplicacin de un determinado tratamiento. En experimentacin no controlada (condiciones de campo) se
considera que un coeficiente de variabilidad mayor a 35% es elevado por lo que se debe tener especial
cuidado en las interpretaciones y conclusiones; en condiciones controladas (laboratorio) se considera
un coeficiente de variabilidad mayor como elevado. La expresin estimada del coeficiente de
variabilidad es:

CAPITULO IV DISEO COMPLETAMENTE AL AZAR (DCA)
El diseo completamente al azar, es aquel en el cual los tratamientos se asignan completamente al azar a
las unidades experimentales o viceversa. Este diseo es usado ampliamente. Por lo tanto se considera
que es un diseo eficiente cuando las unidades experimentales de las que se dispone son muy
homogneas.
4.1. Caractersticas principales
1. Aplicable slo cuando las unidades experimentales son homogneas (verificar si existe tal
homogeneidad).
2. Los tratamientos pueden tener igual o diferente nmero de unidades experimentales.
3. La distribucin de los tratamientos es al azar en las unidades experimentales.
El nmero de tratamientos est en funcin del nmero de unidades experimentales que se dispone. Es
conveniente tener pocos tratamientos y ms unidades experimentales que muchos tratamientos con
pocas unidades experimentales.
4.2 Modelo estadstico Lineal
Este modelo lineal es la siguiente:
Yij i ij
i = 1,, t;
t = nmero de tratamientos
j = 1,,n;
n = nmero de repeticiones por tratamiento
Donde:
= es el efecto medio
i = es el efecto de i-simo tratamiento

ij = error experimental
4.3 Esquema del diseo Completamente al Azar

Tabla 4.1 Representacin simblica del Diseo Completamente al Azar (DCA)
Tratamientos (i)
1 2 3 t total
Observaciones
Y11 Y21 Y31 Yt1
(j)
Y12 Y22 Y32 Yt2
Y13 Y23 Y33 Yt3


Y1n Y2n Y3n Ytn

Total Y1. Y2. Y3. Yt Y
Numero de observaciones (nj) n n n n
media Y Y Y Y Y
4.4. Estimaciones
La tcnica para hacer el anlisis de varianza, mediante los mnimos cuadrados, no permite hallar
aquellos estimadores que nos aseguraran una suma de cuadrados del error mnimo.
4.5 Suma de cuadrados

..
- (Suma de cuadrados de tratamiento)
.
- (suma de cuadrados del error)
.
..
- (Suma de cuadrados totales)
4.6 Grados de libertad

Se define como el nmero de funciones linealmente estimables de los parmetros que pueden tener en el
experimento; pero, las funciones linealmente estimables, no son sino el numero de comparaciones en el
diseo. Otros autores, definen, como los rangos de las matrices: r(X); y el rango de las matrices lo
determinan las columnas independientes.
4.7 Cuadrado medio esperado

Conocido como esperanza matemtica o valor esperado, es definido como el valor promedio ponderado
de los valores que pueden asumir la variable.
Para hallar el valor esperado de una variable, cada uno de los posibles valores de la variable es
multiplicado por su correspondiente probabilidad y el producto resultante es sumado. Tambin se lo
define como el valor medio de una variable aleatoria si el mismo experimento aleatorio se repite una y
otra vez.
El cuadrado medio esperado (ECM), es una valiosa ayuda para el investigador, dado que indica el
procedimiento adecuado a seguir en la estimacin de parmetros o para la prueba de hiptesis acerca de
los parmetros dentro del marco de trabajo en el modelo supuesto.
4.8 Anlisis de varianza

Es una tcnica matemtica que nos permite descomponer una fuente de variacin total en sus
componentes atribuibles a fuentes de variacin conocida. La tabla nos muestra el anlisis generalizado
para el diseo completo al Azar.
Tabla 4.2.
Anlisis de varianza del Diseo Completamente al Azar (DCA)
F. de. V. (G.L.) ( S.C.) ( C. M.) MODELO MODELO II
I
TRATAMIENTOS ( t-1) .
+
- ..
( )
= + ( )
ERROR t(n-1) - .
=
( )
.
.
TOTAL (tn-1) - ..
4.9. Prueba estadstica de hiptesis

La hiptesis a probar es:
Ho: =0
Ha: 0
Para ellos se usa la prueba estadstica de F, porque la suma de cuadrados de las fuentes de variacin se
atribuyen como variables c2 (Chi-cuadrado no central), las cuales son independientes entre s, resultado
basado en el Teorema de Cochran el cual dice: Que cada fuente de variacin del diseo experimental
corresponde a una estructura algebraica que recibe el nombre de forma cuadrtica, la cual se distribuye
como una c2 y entre las fuentes de variacin.
Una prueba de F es la relacin de dos c2 (Chi cuadrados) independientes divididos cada uno en sus
respectivos grados de libertad.
c
1 .
= = =
c
( 1)
Llamada F de Snedecor (lo que se halla en las tablas) tabulares. La prueba de F exige que sean dos c2
centrales o dos c2 no centrales.
4.10. Ventajas del Diseo Completamente al Azar

1. Es sencillo de planificar

2. Existe mas grados de libertad para estimar el error experimental

3. Es flexible en cuanto a numero de repeticiones y tratamientos
4. Se puede tener diferentes nmeros de repeticiones por tratamiento sin que el anlisis se complique
5. Es til cuando las unidades experimentales tienen una sola variabilidad uniforme repartida
6. Cuando se pierde alguna parcela experimental se puede considerar que se tenia diferente numero de
repeticiones por tratamiento
7. El error experimental puede obtenerse separadamente para cada tratamiento para comprobar la
suposicin de homogeneidad del error.
4.11. Desventajas del Diseo Completamente al Azar

1. No se puede controlar el error experimental, por lo tanto no es un diseo muy preciso
2. Cuando se tiene diferente nmero de repeticiones por tratamiento, es necesario calcular un error
estndar por cada pareja de medias si se quiere comparar sus diferencias.
4.12. Usos del Diseo Completamente al Azar

1. Es muy til en ensayos de laboratorio o invernadero, donde las diferencias entre unidades experimentales
son insignificantes.
2. Se usa en ciertos tipos de experimentos con animales.
3. No se usa en experimentos de campo dado que no da facilidades para controlar el error experimental.
4.13. Problemas de aplicacin

Ejemplo. 01.
Como parte de la investigacin del derrumbe del techo de un edificio, un laboratorio prueba todos los
pernos disponibles que conectaban la estructura de acero en tres distintas posiciones del techo. Las
fuerzas requeridas para cortar cada uno de los pernos (valores codificados) son las siguientes:
Posicin 1 : 90, 82, 79, 98, 83, 91
Posicin 2 : 105, 89, 93, 104, 89, 95, 86
Posicin 3 : 83, 89, 80, 94
Efectese anlisis de variancia para probar con un nivel de significancia de 0.05 si las diferencias entre
las medias muestrales en las tres posiciones son significativas
Cuadro 4.1
Resultado de Anlisis de variancia de prueba de laboratorio
F. de V. GL SC CM Fc Ft P>F Sig.
Tratamientos 2 234.453125 117.226563 2.3327 0.132
Error 14 703.546875 50.253349
Total 16 938.000000

C.V. = 7.8766 %
Solucionario con el paquete del SAS
data problema;
input p$ y@@;
datalines;
p1 90 p2 105 p3 83
p1 82 p2 89 p3 89
p1 79 p2 93 p3 80
p1 98 p2 104 p3 94
p1 83 p2 89
p1 91 p2 95
p2 86
proc print;
proc anova;
class p;
model y=p;
means p/tukey;
run;
Resultados con el paquete del SAS

The SAS System
Obs p y
1 p1 90
2 p2 105
3 p3 83
4 p1 82
5 p2 89
6 p3 89
7 p1 79
8 p2 93
9 p3 80
10 p1 98
11 p2 104
12 p3 94
13 p1 83
14 p2 89
15 p1 91
16 p2 95
17 p2 86
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
p 3 p1 p2 p3
Number of observations 17
The SAS System
The ANOVA Procedure
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 2 234.4523810 117.2261905 2.33 0.1335
Error 14 703.5476190 50.2534014
Corrected Total 16 938.0000000
R-Square Coeff Var Root MSE y Mean
0.249949 7.876626 7.088963 90.00000
Source DF Anova SS Mean Square F Value Pr>F
p 2 234.4523810 117.2261905 2.33 0.1335
Tukey's Studentized Range (HSD) Test for y

NOTE: This test controls the Type I experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 14
Error Mean Square 50.2534

Critical Value of Studentized Range 3.70139

Comparisons significant at the 0.05 level are indicated by ***.
Difference Simultaneous
p Between 95% Confidence
Comparison Means Limits
p2 - p1 7.262 -3.060 17.584
p2 - p3 7.929 -3.701 19.558
p1 - p2 -7.262 -17.584 3.060
p1 - p3 0.667 -11.310 12.643
p3 - p2 -7.929 -19.558 3.701
p3 - p1 -0.667 -12.643 11.310
Ejemplo 02. Se realizan tres pruebas de la resistencia a la compresin en seis muestras de concreto. La
fuerza que fractura cada muestra de forma cilndrica, medida en kilogramos, est dada en la siguiente
tabla:
Muestra
A B C D E F
Prueba 1 110 125 98 95 104 115
Prueba 2 105 130 107 92 96 121
Prueba 3 145 136 142 148 129 130
Prubese con un nivel de significancia de 0.05 si estas muestras difieren en su resistencia a la

compresin.
Cuadro 4.2. Resultado de Anlisis de variancia de prueba de laboratorio

F. de V. GL SC CM Fc Ft P>F Sig.
Tratamientos 2 3641.444444 1820.722222 13.64 0.0004 **
Error 15 2001.666667 133.444444
Total 17 5643.111111
C.V. = 9.771273 %
data flores;
input D$ R@@;
datalines;
d1 110 d2 105 d3 145
d1 125 d2 130 d3 136
d1 98 d2 107 d3 142
d1 95 d2 92 d3 148
d1 104 d2 96 d3 129
d1 115 d2 121 d3 130
proc print;
proc anova;
class D;
model R=D;
means D/tukey alpha=0.05;
run;
Resultados con el paquete del SAS
The SAS System

Obs D R
1 d1 110
2 d2 105
3 d3 145

4 d1 125
5 d2 130
6 d3 136
7 d1 98
8 d2 107
9 d3 142
10 d1 95
11 d2 92
12 d3 148
13 d1 104
14 d2 96
15 d3 129
16 d1 115
17 d2 121
18 d3 130
The ANOVA Procedure

Class Levels Values
D 3 d1 d2 d3
The ANOVA Procedure
Dependent Variable: R
Sum of
Model 2 3641.444444 1820.722222 13.64 0.0004
Error 15 2001.666667 133.444444
R-Square Coeff Var Root MSE R Mean
0.645290 9.771273 11.55182 118.2222
Source DF Anova SS Mean Square F Value Pr > F
D 2 3641.444444 1820.722222 13.64 0.0004
Tukey's Studentized Range (HSD) Test for R

NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher
Type II
error rate than REGWQ.
Alpha 0.05
Critical Value of Studentized Range 3.67338
Minimum Significant Difference 17.324
Means with the same letter are not significantly different.
Tukey Grouping Mean N D
A 138.333 6 d3
B 108.500 6 d2
B 107.833 6 d1
PROGRAMAS DIVERSOS DEL DISEO COMPLETO AL AZAR
data Eduardo;
input x$ y@@;
datalines;
d1 175 d2 75 d3 75
d1 200 d2 75 d3 50
d1 225 d2 100 d3 75
d1 150 d2 75 d3 75
d1 125 d2 75 d3 50
d1 125 d2 50 d3 75
proc print;
proc anova;
class x;
model y=x;
means x/tukey;
run;
data eduardo;
input x$ y@@;
datalines;

V1 225 V2 125 V3 125

V1 225 V2 150 V3 125
V1 250 V2 150 V3 175
V1 250 V2 150 V3 125
V1 200 V2 150 V3 175
V1 150 V2 75 V3 150
V1 200 V2 125 V3 150
V1 150 V2 100
V1 150 V2 100
V1 200 V2 125
proc print;
proc anova;
class x;
model y=x;
means x/tukey;
run;
DATA CEBADA;
DO TRAT='A', 'B' ,'C' ,'D';
DO REP=1 TO 5;
INPUT DATO @@;
OUTPUT;
END;
END;
CARDS;
730 730 730 750 750
740 740 740 740 750
680 690 690 690 700
710 710 720 720 730
;
PROC ANOVA;
CLASS TRAT;
MODEL DATO=TRAT;
MEANS TRAT/DUNCAN ALPHA=0.05;
RUN;

CAPITULO V DISEO EN BLOQUE COMPLETO AL AZAR (DBCA)
5.1. Definicin
Se llama tambin experimento con dos criterios de clasificacin, porque tiene dos fuentes de variacin;
estas son tratamientos y bloques: este diseo es un modelo estadstico en el que:
1. Se distribuyen las unidades experimentales en grupos o bloques, de tal manera que las unidades
experimentales dentro de un bloque sean homogneas, pero entre grupos haya heterogeneidad y que en
el nmero de unidades experimentales dentro de un bloque sea igual al nmero de tratamientos por
investigar.
2. Lo tratamientos son designados al azar a las unidades experimentales dentro de cada bloque.
5.2. Caractersticas:
1. Las unidades experimentales son heterogneas.
2. Las unidades homogneas estn agrupadas formando los bloques.
3. En cada bloque se tiene un nmero de unidades igual al numero de Tratamientos (bloques completos)
4. Los tratamientos estn distribuidos al azar en cada bloque.
5. El nmero de repeticiones es igual al nmero de bloques.
5.3. Modelo estadstico lineal

En este diseo el valor de cada unidad experimental Yij se explica segn el siguiente modelo estadstico
lineal:
Yij= + i + j + ij
i = 1, 2, 3, , t = nmero de tratamientos
j = 1, 2, 3, , r = nmero de bloques
donde:
Yij = Unidad experimental que recibe el tratamiento i y est en el bloque j
= el verdadero efecto medio
j = el verdadero efecto del j-simo bloque
i = el verdadero efecto del i-simo tratamiento
ij = error experimental

Tabla 5.1
.Representacin simblica de los datos en un diseo en Bloque Completo Al Azar con t tratamientos y
r repeticiones
Tratamientos Repeticiones j = 1, 2, 3, , r
i= 1, , t 1 2 j r Total Media
1 Y11 Y12 Y1j Y1r Y1. Y
2 Y21 Y22 Y2j Y2r Y2. Y
i Yi1 Yi2 Yij Yir Yi. Y
t Yt1 Yt2 Ytj Ytr Yt . Yt.
Total Y.t Y.3 Y.j Y.r Y..
Media Y Y Y Y Y Y
Tabla 5.2
Anlisis de Varianza generalizado para un Diseo en Bloque Completo Aleatorio
Grados
Fuentes de de Suma de Cuadrados E ( CM )
Variacion Libertad Cuadrados Medios Modelo I Modelo II
+

. ..
Bloques ( r- 1) - ( 1) ( ) +t
+
Tratamiento
..

.
s (t-1) - ( 1) ( ) +
Error (r-1)(t-1) ( 1)( 1)

-
..
Total (rt 1)

Ejemplo 01.- Se dise un experimento para estudiar el rendimiento de cuatro (04) detergentes
diferentes. Las siguientes lecturas de blancura se obtuvieron con un equipo especialmente diseada
para 12 cargas de lavado distribuidas en tres (03) modelos de lavadoras:
Detergente Lavadora 1 Lavadora 2 Lavadora 3
Detergente A 45 43 51
Detergente B 47 46 52
Detergente C 48 50 55
Detergente D 42 32 49
Considerando los detergentes como tratamientos y las lavadoras como bloques, efectuar el anlisis de
variancia y su prueba con un nivel de significacin de 0.01 si existen diferencias entre los detergentes o
entre las lavadoras. Adems, efectuar la prueba de Rango Mltiple de Duncan a la probabilidad de 0.01.
data experimento;
input lavadoras detergent rendto;
cards;
1 1 45
1 2 47
1 3 48
1 4 42
2 1 43
2 2 46
2 3 50
2 4 37
3 1 51
3 2 52
3 3 55
3 4 49
proc print;
proc anova;
class lavadoras detergent;
model rendto= lavadoras detergent;
means detergent/Duncan alpha=0.01;
run;
RESULTADO DE SAS
Obs lavadoras detergent rendto
1 1 1 45
2 1 2 47
3 1 3 48
4 1 4 42
5 2 1 43
6 2 2 46
7 2 3 50

8 2 4 37
9 3 1 51
10 3 2 52
11 3 3 55
12 3 4 49
The ANOVA Procedure

Class Levels Values
lavadoras 3 1 2 3
detergent 4 1 2 3 4
Dependent Variable: rendto
Sum of
Model 5 246.0833333 49.2166667 15.68 0.0022
Error 6 18.8333333 3.1388889
R-Square Coeff Var Root MSE rendto Mean
0.928908 3.762883 1.771691 47.08333
lavadoras 2 135.1666667 67.5833333 21.53 0.0018
detergent 3 110.9166667 36.9722222 11.78 0.0063
Duncan's Multiple Range Test for rendto
NOTE: This test controls the Type I comparisonwise error rate, not the
experimentwise error
rate.
Alpha 0.01
Number of Means 2 3 4
Critical Range 5.363 5.564 5.676
Duncan Grouping Mean N detergent

A 51.000 3 3
A 48.333 3 2
B A 46.333 3 1
B 42.667 3 4
PROGRAMAS VARIOS DE DISEO BLOQUE COMPLETO AL AZAR
DATA PAPA;
INPUT TRAT $ REP Y;
R=(1000/20)*Y;
CARDS;
A 1 10
A 2 9
A 3 11
A 4 10
B 1 12
B 2 11
B 3 12
B 4 13
C 1 15
C 2 15
C 3 16
C 4 15

D 1 11
D 2 10
D 3 10
D 4 11
;
PROC PRINT;
PROC ANOVA;
CLASS TRAT REP;
MODEL Y=TRAT REP;
MEANS TRAT REP;
DATA PAPA2;
SET PAPA;
IF TRAT='A' THEN N=0; /*SENTENCIAS QUE */
ELSE IF TRAT='B' THEN N=50; /* RECODIFICAN A */
ELSE IF TRAT='C' THEN N=100; /*TRATAMIENTOS PARA */
ELSE IF TRAT='D' THEN N=150; /*EFECTUAR LA REGRESION */
GLM;
CLASSES TRAT REP;
MODEL R=REP N N*N N*N*N;
RUN;
PROC GLM;
MODEL R=N N*N/P;
RUN;

CAPITULO VI DISEO DE CUADRADO LATINO (DCL)
El agrupamiento de las unidades experimentales en dos direcciones (filas y columnas) y la Asignacin

de los tratamientos al azar en las unidades, de tal forma que en cada fila y en cada columna se
encuentren todos los tratamientos constituye un diseo cuadrado latino.
Este diseo es una extensin del Diseo Bloque Completo al Azar y se utiliza cuando las unidades
experimentales, a las cuales se van a aplicar los tratamientos pueden agruparse de acuerdo a dos fuentes
de variabilidad llamadas bloque (hileras) y columnas respectivamente, tambin se le conoce con el
nombre de doble bloqueo.
En la experimentacin agrcola es posible emplear este diseo principalmente cuando se quiere eliminar
el efecto de la variabilidad debido a doble pendiente del terreno. Este diseo se caracteriza que el
nmero de bloques sea igual al nmero de tratamientos, esto es r0c0t y el numero total de unidades
experimentales en el experimento debe ser igual a r2
Este diseo se recomienda cuando el nmero de tratamientos vara entre 3 y 10. Adems se puede
emplear siempre que haya homogeneidad dentro de bloques y dentro de columnas, pero alta
heterogeneidad entre bloques entre columnas.
6.1 Caractersticas:
1. Las U.E. se distribuyen en grupos , bajo dos criterios de homogeneidad dentro de la fila y dentro de la
columna y heterogeneidad en otra forma.
2. En cada fila y en cada columna, el nmero de unidades es igual al nmero de tratamientos.
3. Los tratamientos son asignados al azar en las unidades experimentales dentro de cada fila y dentro de
cada columna.
4. El nmero de filas = nmero de columnas = nmero de tratamientos.
5. Los anlisis estadsticos T-student, Duncan, Tuckey y en pruebas de contraste se procede como el
diseo completo al azar y el diseo de bloques. La desviacin estandar de la diferencia de promedios y
la desviacin estandar del promedio, estn en funcin del cuadrado medio del error experimental.
El nombre de cuadrado Latino se debe a R.A. Fisher [The Arrangement of Field Experiments, J.
Ministry Agric., 33: 503-513 (1926)]. Las primeras Aplicaciones fueron en el campo agronmico,
especialmente en los casos de suelos con tendencias en fertilidad en dos direcciones.
Formacin de cuadrados latinos
Suponga 4 tratamientos A,B,C y D, con estos tratamientos se pueden formar 4 cuadros diferentes
llamadas tpicas o estandar (en la primera fila y en la primera columna se tiene la misma distribucin).
Este diseo presenta las siguientes caractersticas:
La disposicin de las variantes del experimento sobre el terreno se hace en dos direcciones
perpendiculares recprocas y esto es lo que lo diferencia del bloque al azar.

En este las variantes se agrupan adems de bloques en columnas lo que es un nuevo elemento en ste
diseo.
Se puede utilizar en experimentos agrotcnicos, as como de seleccin de variedades, pero no es
recomendable en experimentos donde se utilice la mecanizacin.
Elimina la variabilidad de la fertilidad del suelo en dos direcciones.
En este diseo el nmero de filas y columnas y de tratamientos son iguales.
Presenta la dificultad de que el mismo no se puede estudiar un nmero grande de variante o tratamiento.
COLUMNAS
C1 C2 C3 C4
HILERAS
A B C D H1
B C D A H2
C D A B H3
D A B C H4
Ventajas
1. Disminuyen los efectos de dos fuentes de variabilidad de las unidades experimentales en los
promedios de los tratamientos y en el error experimental.
2. El anlisis de variancia es simple, aun cuando es ligeramente ms complicado que el DBCA.
3. En el caso de que se pierden todas las unidades experimentales de un mismo tratamiento, el
resto de tratamientos siguen ajustados a las caractersticas del cuadrado latino. Si se pierde
ntegramente un bloque o columna, el diseo queda ajustado al DBCA.
4. Cuando los bloques y las columnas estn relacionados con variaciones definidas de dos criterios
de clasificacin, ellos pueden ser considerados como tratamientos.
Desventajas
1. Como el nmero de tratamientos depende del nmero de bloques y columnas y por consiguiente
el nmero de unidades experimentales, esto le resta flexibilidad al diseo para su uso. Es por
esto que no es recomendable para mayor nmero de tratamientos.
2. A igualdad de numero de tratamientos y repeticiones, este diseo tiene menos grados de libertad
para el error experimental.
3. El error experimental tiende a incrementarse al aumentar el ancho de los bloques y el largo de
las columnas, como consecuencia principalmente del aumento del nmero de tratamientos.
6.2 Modelo estadstico Lineal

El resultado de una unidad experimental cualesquiera como se puede apreciar, est influenciado
Escriba aqu la ecuacin.por tres fuentes de variabilidad controlables: trataiemtos, filas y

columnas de modo que el modelo estadstico en la poblacin de unidades experimentales que

pudieron intervenir en el experimento; el valor de cada unidad experimental Yijk se aplica de
acuerdo al modelo:
= + + + +
i= 1,2,,t
j= 1,2,,t
k= 1,2,,t
Donde:
Yijk= Es la variable de respuesta de la unidad experimental
= media de la poblacin
= es el verdadero del i esimo tratamiento
Hj= es el verdadero efecto de la j-sima fila
Ck= Efecto de la k-esima columna
= error experimental
Ejemplo 01.- Aplicar el Diseo de cuadrado latino, para comparar tres mtodos de soldadura
(A, B y C), para conductores elctricos, con tres diferentes operadores y utilizando tres diversos
fundentes para soldar y el experimento es de dos repeticiones:
REPT I REPT II
FUND 1 FUND 2 FUND 3 FUND 1 FUND 2 FUND 3
A B C C B A
OPE 1
14 16.5 11 10 16.5 13
OPE 2 C A B A C B
9.5 17 15 12 12 14
OPE 3 B C A B A C
11 12 13.5 13.5 18 11.5
Analice como cuadrado latino a la probabilidad de 0.01 y efectuar la prueba de rango mltiple
de Duncan.
DATA CUADRADO;
INPUT REPET HILERA COLUM TRAT RDTO;
CARDS;

1 1 1 1 14.00
1 1 2 2 16.50
1 1 3 3 11.00
1 2 1 3 9.50
1 2 2 1 17.00
1 2 3 2 15.00
1 3 1 2 11.00
1 3 2 3 12.00
1 3 3 1 13.50
2 1 1 3 10.00
2 1 2 2 16.50
2 1 3 1 13.00
2 2 1 1 12.00
2 2 2 3 12.00
2 2 3 2 14.00
2 3 1 2 13.50
2 3 2 1 18.00
2 3 3 3 11.50
PROC PRINT;
PROC GLM;
CLASS REPET HILERA COLUM TRAT;
MODEL RDTO= REPET HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/DUNCAN;
TITLE 'DISEO DE CUADRADO LATINO';
RUN;
RESULTADO DE SAS
DISEO DE CUADRADO LATINO

Obs REPET HILERA COLUM TRAT RDTO
1 1 1 1 1 14.0
2 1 1 2 2 16.5
3 1 1 3 3 11.0
4 1 2 1 3 9.5
5 1 2 2 1 17.0
6 1 2 3 2 15.0
7 1 3 1 2 11.0
8 1 3 2 3 12.0
9 1 3 3 1 13.5
10 2 1 1 3 10.0
11 2 1 2 2 16.5
12 2 1 3 1 13.0
13 2 2 1 1 12.0
14 2 2 2 3 12.0
15 2 2 3 2 14.0
16 2 3 1 2 13.5
17 2 3 2 1 18.0
18 2 3 3 3 11.5
Class Levels Values
REPET 2 1 2
HILERA 3 1 2 3
COLUM 3 1 2 3
TRAT 3 1 2 3
Dependent Variable: RDTO
Sum of
Model 7 90.7222222 12.9603175 9.41 0.0010
Error 10 13.7777778 1.3777778
R-Square Coeff Var Root MSE RDTO Mean
0.868155 8.803408 1.173788 13.33333
Source DF Type I SS Mean Square F Value Pr > F
REPET 1 0.05555556 0.05555556 0.04 0.8449
HILERA 2 0.25000000 0.12500000 0.09 0.9140
COLUM 2 41.33333333 20.66666667 15.00 0.0010
TRAT 2 49.08333333 24.54166667 17.81 0.0005
Source DF Type III SS Mean Square F Value Pr > F

REPET 1 0.05555556 0.05555556 0.04 0.8449

HILERA 2 0.25000000 0.12500000 0.09 0.9140
COLUM 2 41.33333333 20.66666667 15.00 0.0010
TRAT 2 49.08333333 24.54166667 17.81 0.0005
Duncan's Multiple Range Test for RDTO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error
Alpha 0.05
Number of Means 2 3
Critical Range 1.510 1.578
Duncan Grouping Mean N HILERA
A 13.5000 6 1
A 13.2500 6 2
A 13.2500 6 3
NOTE: This test controls the Type I comparisonwise error rate, not the
experimentwise error
Alpha 0.05
Number of Means 2 3
Duncan Grouping Mean N COLUM
A 15.3333 6 2
B 13.0000 6 3
B 11.6667 6 1
Alpha 0.05
Number of Means 2 3
Duncan Grouping Mean N TRAT
A 14.5833 6 1
A 14.4167 6 2
B 11.0000 6 3
PROGRAMAS VARIOS DEL DISEO DE CUADRADO LATINO

DATA CUADRADO;
INPUT HILERA COLUM TRAT RDTO;
CARDS;
1 1 6 1626
1 2 5 1639
1 3 2 1617
1 4 1 1062
1 5 4 1501
1 6 3 1827
2 1 4 1816
2 2 1 1103
2 3 6 1926
2 4 5 1992
2 5 3 1682
2 6 2 1498
3 1 3 1913
3 2 4 2134
3 3 5 1881
3 4 6 1797
3 5 2 1701
3 6 1 824
4 1 2 1933
4 2 6 1995
Universidad Nacional del Altiplano - Puno Ingeniera Agrcola
100
4 3 4 2011
4 4 3 1886
4 5 1 812
4 6 5 1596
5 1 1 1262
5 2 2 2143
5 3 3 2242
5 4 4 2229
5 5 5 2066
5 6 6 1898
6 1 5 1624
6 2 3 1885
6 3 1 1089
6 4 2 1879
6 5 6 1343
6 6 4 1245
PROC PRINT;
PROC GLM;
CLASS HILERA COLUM TRAT;
MODEL RDTO= HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/DUNCAN;
RUN;
DATA EXAMEN;
INPUT REPET$HILERA$ COLUM$ TRAT$ RDTO @@;
DATALINES
;
I H1 C1 A 16.00
I H1 C2 B 17.50
I H1 C3 C 14.00
I H1 C4 D 14.00
I H2 C1 D 19.00
I H2 C2 A 17.00
I H2 C3 B 18.00
I H2 C4 C 14.10
I H3 C1 C 12.00
I H3 C2 D 18.00
I H3 C3 A 16.00
I H3 C4 B 19.00
I H4 C1 B 20.00
I H4 C2 C 15.00
I H4 C3 D 13.00
I H4 C4 A 22.00
PROC PRINT;
PROC ANOVA;
CLASS HILERA COLUM TRAT;
MODEL RDTO= HILERA COLUM TRAT;
MEANS HILERA COLUM TRAT/TUKEY ALPHA=0.05;
RUN;

101
DO FILA = 1 TO 4;
DO COLUM = 1 TO 4;
INPUT VARIED $ RDTO;
OUTPUT;
END;
CARDS;
B2
D2
A6
C8
A7
C5
D7
D5
B4
C9
A 10
C6
A9
D5
B5
;
PROC PRINT; RUN;
PROC GLM;
CLASS FILA COLUM VARIED;
MODEL RDTO=FILA COLUM VARIED;
MEANS FILA COLUM VARIED/DUNCA; RUN;

102
CAPITULO VII EXPERIMENTOS FACTORIALES
7.1 Introduccin
Un experimento factorial es un experimento cuyo diseo consta de dos o ms factores, cada

uno de los cuales con distintos valores o "niveles", y cuyas unidades experimentales cubren
todas las posibles combinaciones de esos niveles en todo los factores. Este tipo de
experimentos permiten el estudio del efecto de cada factor sobre la variable respuesta, as como
el efecto de las interacciones entre factores sobre la dicha variable.
Por lo tanto, se puede definir a los experimentos factoriales como aquellos en los que se
comparan o estudian simultneamente dos o ms factores principales, incluyendo los diferentes
niveles o modalidades de cada uno.
El Anova en experimentos factoriales constituye una tcnica estadstica para analizar el efecto
de dos ms variables independientes (factores) sobre una variable respuesta. Hasta el
momento se ha estudiado el efecto de un factor sobre la variable respuesta, pero en muchas
situaciones prcticas es necesario investigar el efecto de varios factores. Como en estos
experimentos los tratamientos se forman combinando cada nivel de un factor con cada uno de
los niveles del otro (o de los otros, si hubiere ms de dos), este tipo de experimento permite
adems evaluar los efectos de las interacciones. Se dice que entre dos factores hay interaccin
si los efectos de un nivel de un factor dependen de los niveles del otro. Dicho con otras
palabras la respuesta de un factor es influenciada en forma diferenciada por los niveles del otro.
La existencia de interacciones indica que los efectos de los factores sobre la respuesta no son
aditivos y por tanto no pueden separarse los efectos de los factores.
7.2 Definiciones bsicos

a) Factorial. Un factorial se refiere a un arreglo especial de formar las combinaciones de
tratamientos, y no un tipo bsico de diseo.
El principio de factorial involucra investigacin de dos o mas factores simultneamente. Se
debe tener en cuenta que los factoriales no son diseos experimentales, sino un arreglo de
tratamientos, los que se prueban en casi todos los diseos: Completamente al Azar, bloques
completo al azar, cuadrado latino, entre otros.

103
b) Factor. Es un tipo particular de tratamiento, que vara segn el deseo del investigador. Son
factores por ejemplo, la temperatura, el nitrgeno, el peso, la densidad, las concentraciones
qumicas, variedad de semilla, etc.
c) Factores cualitativos, Son aquellos en los cuales los niveles definen o expresan una
modalidad particular de las caractersticas del factor; cada nivel tiene un inters intrnseco o
independiente de los otros niveles. Estos factores responden a las caractersticas de las
variables cualitativas. Ejemplo :
d) Factores cuantitativos: Son aquellos cuyos valores corresponden a cantidades numricas,
es decir valores inherentes a una variable cuantitativa.
Ej: Supongamos que en una experiencia se prueba fertilizar con diferentes dosis de Nitrgeno
N: 0-10-20-30 Kg/ha.
e) Niveles. Son los varios valores que se asignan al factor en estudio. ejemplos:
Niveles del factor temperatura: 0 oC, 50oC, 100C, 150C, etc.
Niveles de nitrgeno: 40, 80, 120, 160 Kg/ha.
f) Respuesta. Es el resultado de una unidad experimental. As, el rendimiento de maz, altura
de planta. Generalmente se miden muchas variables en el mismo experimento.
g) Efecto. Es la medida de cambio en la respuesta, producido por el cambio en el nivel del
factor. As, cuando el factor que se estudia tiene dos niveles, el efecto es la diferencia entre
el promedio de las respuestas de todas las unidades con el primer nivel del factor y el
promedio de las respuestas de las que llevan el segundo nivel del mismo factor. Cuando se
estudian mas de dos niveles, las diferencias entre promedios de respuesta pueden ser
expresadas de varias maneras, esto es, efecto lineal, efecto cuadrtico, efecto cubico, etc.
h) Notacin. Se usa para reconocer factores y niveles; As:
Cuando se tiene dos niveles de factor A y dos niveles de factor B, se tendr el factorial 2n,
donde n = numero de factores tomados a dos niveles, es decir 2x2 2 2.
Cuando se tiene dos factores con tres nivelescada uno, se denotara: 3n, donde n = a los
factores tomados a tres niveles, es decir 32 3x3.
Los factores que se usan en el experimento se denotan con letras maysculas; as: A, B y C.
Los niveles se denotaran con letras minsculas y subscritos: N: no, n1, n2, A: ao, a1, a2.
La combinacin de los tratamientos esta dada por el producto de los niveles; as: ao no, a1 no,
etc.
i) Interaccin. Ostle (1974), define a la interaccin, como la respuesta diferencia a un factor
en combinacin con niveles variables de un segundo factor aplicado simultneamente. Es

104
decir, la interaccin es un efecto adicional debido a la influencia combinada de dos o mas

factores.
7.3 Factorial 2n
El factorial 22 es igual a 2 n, donde n es el numero de factores, en este caso 2, tomados a dos
niveles. En un diseo completamente al azar, que involucra t tratamientos y n unidades
experimentales.
7.4 Modelo aditivo Lineal

= + + +( ) +
i = 1,2,, a; j=1,2,,b ; k = 1,2, ,n

donde:
= efecto verdadero medio
= Efecto verdadero del i-esimo nivel del factor A
= efecto verdadero del j-esimo nivel del factor B
( ) = efecto de la interaccin del i-esimo nivel del factor A con el j-esimo nivel del factor B
= error experimental
Esquema del Diseo Experimental
TABLA 5.1Representacin simblica de un experimento factorial; dos factores a y b niveles de cada factores a y b niveles de cada factor
en un diseo completamente aleatorizado
FACTOR A
1 2 a
Factor B: 1 2 ... b 1 2 b 1 2 b

. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Total AB:
Promedio: 11. 12. 1b. 21. 22. 2b. a1. a2. ab.
Total A:
Promedio: 1.. 2.. a..
Total B:
Promedio: .1. .2. .b.
Total
General Prom:

105
F. de V. GL SC CM Fc Ft Sig.
a b
Tratamiento (t-1) Y ij .2 SCtratam CM tratam
I 1 j1 Y . . 2.
CM error
n abn (t 1)
a
A (a-1) SC A C M A
Y i .2.
I 1 Y . .2. ( a 1) C M error

n abn
b
B (b-1) SC B C M B
Y . 2j .
j1 Y . . 2. (b 1) C M error

n abn
A*B (a-1)(b-1) SCtrat-(SCA+SCB) S C A xB C M AxB
( a 1)(b 1) C M error
Error ab(n-1) a b n
2
a b
2 S C err or
Y
i 1 j 1 k 1
ijk
I 1 j 1
Y ij .
a b ( n 1)
Total (abn-1) a b n
Y . . 2.
Y i j2k
i1 j1 k 1 abn
Factorial 23
Cuando el factorial de tres factores esta asociado a un diseo completamente al azar que implica n
unidades experimentales por combinacin de tratamientos, el modelo estadstico es:
Yijkl a i j k (a ) ij (a ) ik ( ) jk (a ) ijkl ijkl
F. de V. G.L. SC CM Fc Ft Sig.
a b c
Tratamiento (t-1) 2 SCtratam. CMtratam
Y ijk .
y2
i 1 j 1 k 1
.... (t 1) CM error
n abcn
a
A (a-1) 2 SC ( A) C M

i 1
Y i ...
y . 2. . . C M
( A )
( a 1) error
b c n a b c n
B b
2 SC( B ) CM ( B )
Y
j 1
. j ..
y 2
(b 1) CM error
....

a cn ab cn
c
C (c-1) Y . .2k SC( C ) CM
.
y .2. . .
(C )
k 1
CM
abn abcn (c 1) er r o r

106
AxB (a-1)(b-1) a b
S C ( A xB ) C M ( AxB )
Y i j2. .
i 1 j 1 y .2. . . ( a 1)( b 1) CM
er ror
cn abcn
AxC (a-1)(c- a c
SC( AxC ) CM ( AxC )
2
1) Y
i 1 k 1
i . k ..
y 2
.... (a 1)(c 1) CM error

bn abcn
BxC (b-1)(c- b c
2 SC( BxC ) CM ( BxC )
1) Y
j 1 k 1
ij ..
y 2
(b 1)( c 1) CM error
....

an a bcn
AxBxC (a-1)(b- SC( AxBxC ) CM ( AxBxC )
1)(c-1) SC ( AxBxC )
( a 1)(b 1)(c 1) CM error
Error abc(n-1) SCtotal SCtratam.

SCtotal SCtratam. abc n 1
Total Abcn-1 a b c
y....2
Y
i 1 j 1 k 1
ijkl
abcn
SC( AxBxC) SCtratam SC( A) SC(B) SC(C) SC( AxB) SC( AxC) SC(BxC)

107
TABLA 5.4.
Analisis de varianza generalizado del factorial de dos factores en un DBCA
Problema de aplicacin
Un bao qumico de cido sulfrico caliente se emplea para remover el oxido de la superficie de un metal
antes de ser niquelado, se requiere determinar qu factores adems de la concentracin del cido
sulfrico podra afectar a la conductividad elctrica del bao. Se cree que la concentracin de sal y la
temperatura del bao podran afectar la conductividad elctrica; por ello se planea un experimento que
determine los efectos individuales y conjuntos de estas tres variables ejercen sobre la conductividad
elctrica del bao. Con el fin de cubrir los niveles de concentraciones y las temperaturas comnmente
encontradas, se decide usar los siguientes niveles de los tres factores:
Factor Nivel Nivel Nivel Nivel
1 2 3 4
A. Concentracin de cido 0 6 12 18
(%)
B. Concentracin de sal (%) 0 10 20
C. Temperatura (oF) 80 100
Efectuar el anlisis de variancia y sus respectivos pruebas de rango mltiple.
DATA FACTORIAL;
INPUT REP A B C CE;
CARDS;
1 1 1 1 0.99
1 1 1 2 1.15
1 1 2 1 0.97
1 1 2 2 0.87
1 1 3 1 0.95
1 1 3 2 0.91
1 2 1 1 1.00
1 2 1 2 1.12
1 2 2 1 0.99
1 2 2 2 0.96
1 2 3 1 0.97
1 2 3 2 0.94
1 3 1 1 1.24
1 3 1 2 1.12
1 3 2 1 1.15
1 3 2 2 1.11
1 3 3 1 1.03
1 3 3 2 1.12
1 4 1 1 1.24
1 4 1 2 1.32
1 4 2 1 1.14
1 4 2 2 1.20
1 4 3 1 1.02
1 4 3 2 1.02
2 1 1 1 0.93
2 1 1 2 0.99
2 1 2 1 0.91
2 1 2 2 0.86

2 1 3 1 0.86
2 1 3 2 0.85
2 2 1 1 1.17
2 2 1 2 1.13
2 2 2 1 1.04
2 2 2 2 0.98
2 2 3 1 0.95
2 2 3 2 0.99
2 3 1 1 1.22
2 3 1 2 1.15
2 3 2 1 0.95
2 3 2 2 0.95
2 3 3 1 1.01
2 3 3 2 0.96
2 4 1 1 1.20
2 4 1 2 1.24
2 4 2 1 1.10
2 4 2 2 1.19
2 4 3 1 1.01
2 4 3 2 1.00
PROC PRINT;
PROC ANOVA;
CLASS REP A B C;
MODEL CE= REP A B C A*B A*C B*C A*B*C;
MEANS A B C A*B A*C B*C A*B*C/DUNCAN;
RUN;
RESULTADO DE MULTIFACTORIAL
The SAS
Obs REP A B C CE
1 1 1 1 1 0.99
2 1 1 1 2 1.15
3 1 1 2 1 0.97
4 1 1 2 2 0.87
5 1 1 3 1 0.95
6 1 1 3 2 0.91
7 1 2 1 1 1.00
8 1 2 1 2 1.12
9 1 2 2 1 0.99
10 1 2 2 2 0.96
11 1 2 3 1 0.97
12 1 2 3 2 0.94
13 1 3 1 1 1.24
14 1 3 1 2 1.12
15 1 3 2 1 1.15
16 1 3 2 2 1.11
17 1 3 3 1 1.03
18 1 3 3 2 1.12
19 1 4 1 1 1.24
20 1 4 1 2 1.32
21 1 4 2 1 1.14
22 1 4 2 2 1.20
23 1 4 3 1 1.02
24 1 4 3 2 1.02
25 2 1 1 1 0.93
26 2 1 1 2 0.99
27 2 1 2 1 0.91
28 2 1 2 2 0.86
29 2 1 3 1 0.86
30 2 1 3 2 0.85
31 2 2 1 1 1.17
32 2 2 1 2 1.13
33 2 2 2 1 1.04
34 2 2 2 2 0.98
35 2 2 3 1 0.95
36 2 2 3 2 0.99
37 2 3 1 1 1.22
38 2 3 1 2 1.15
39 2 3 2 1 0.95

40 2 3 2 2 0.95
41 2 3 3 1 1.01
42 2 3 3 2 0.96
43 2 4 1 1 1.20
44 2 4 1 2 1.24
45 2 4 2 1 1.10
46 2 4 2 2 1.19
47 2 4 3 1 1.01
48 2 4 3 2 1
The ANOVA Procedure
Class Levels Values
REP 2 1 2
A 4 1 2 3 4
B 3 1 2 3
C 2 1 2
Dependent Variable: CE
Sum of
Source DF
Squares Mean Square F Value Pr > F
Model 24
0.58765000 0.02448542 7.53 <.0001
Error 23
0.07474792 0.00324991
Corrected Total 47
0.66239792
R-Square Coeff Var Root MSE CE Mean
0.887156 5.454221 0.057008 1.045208
REP 1 0.01650208 0.01650208 5.08 0.0341
A 3 0.27503958 0.09167986 28.21 <.0001
B 2 0.22621667 0.11310833 34.80 <.0001
C 1 0.00016875 0.00016875 0.05 0.8218
A*B 6 0.02881667 0.00480278 1.48 0.2297
A*C 3 0.00850625 0.00283542 0.87 0.4697
B*C 2 0.00420000 0.00210000 0.65 0.5333
A*B*C 6 0.02820000 0.00470000 1.45 0.2404
Duncan's Multiple Range Test for CE
rate.
Alpha 0.05
Number of Means 2 3 4
Critical Range .04814 .05056 .05211
Duncan Grouping Mean N A
A 1.14000 12 4
B 1.08417 12 3
C 1.02000 12 2
D 0.93667 12 1

rate.
Alpha 0.05
Number of Means 2 3
Critical Range .04169 .04379
Duncan Grouping Mean N B
A 1.13813 16 1
B 1.02313 16 2
C 0.97438 16 3

rate.
Alpha 0.05
Number of Means 2
Critical Range .03404
Duncan Grouping Mean N C
A 1.04708 24 2
A 1.04333 24 1

Level of Level of --------------CE-------------

A B N Mean Std Dev
1 1 4 1.01500000 0.09433981
1 2 4 0.90250000 0.04991660
1 3 4 0.89250000 0.04645787
2 1 4 1.10500000 0.07325754
2 2 4 0.99250000 0.03403430
2 3 4 0.96250000 0.02217356
3 1 4 1.18250000 0.05678908
3 2 4 1.04000000 0.10519823
3 3 4 1.03000000 0.06683313
4 1 4 1.25000000 0.05033223
4 2 4 1.15750000 0.04645787
4 3 4 1.01250000 0.00957427
Level of Level of --------------CE-------------

A C N Mean Std Dev
1 1 6 0.93500000 0.04636809
1 2 6 0.93833333 0.11565754
2 1 6 1.02000000 0.07949843
2 2 6 1.02000000 0.08318654
3 1 6 1.10000000 0.12000000
3 2 6 1.06833333 0.08886319
4 1 6 1.11833333 0.09347014
4 2 6 1.16166667 0.12624051
Level of Level of -------------CE-------------

B C N Mean Std Dev
1 1 8 1.12375000 0.12816702
1 2 8 1.15250000 0.09617692
2 1 8 1.03125000 0.09062284
2 2 8 1.01500000 0.13490738
3 1 8 0.97500000 0.05606119
3 2 8 0.97375000 0.08034524
Level of Level of Level of --------------CE-------------
A B C N Mean Std Dev
1 1 1 2 0.96000000 0.04242641
1 1 2 2 1.07000000 0.11313708
1 2 1 2 0.94000000 0.04242641
1 2 2 2 0.86500000 0.00707107
1 3 1 2 0.90500000 0.06363961
1 3 2 2 0.88000000 0.04242641
2 1 1 2 1.08500000 0.12020815
2 1 2 2 1.12500000 0.00707107
2 2 1 2 1.01500000 0.03535534
2 2 2 2 0.97000000 0.01414214
2 3 1 2 0.96000000 0.01414214
2 3 2 2 0.96500000 0.03535534
3 1 1 2 1.23000000 0.01414214
3 1 2 2 1.13500000 0.02121320
3 2 1 2 1.05000000 0.14142136
3 2 2 2 1.03000000 0.11313708
3 3 1 2 1.02000000 0.01414214
3 3 2 2 1.04000000 0.11313708
4 1 1 2 1.22000000 0.02828427
4 1 2 2 1.28000000 0.05656854
4 2 1 2 1.12000000 0.02828427
4 2 2 2 1.19500000 0.00707107
4 3 1 2 1.01500000 0.00707107
4 3 2 2 1.01000000 0.01414214

CAPITULO VIII REGRESION Y CORRELACION
La diferencia entre correlacin y regresin debe ser identificada en orden a aplicar e interpretar
cualquiera de los mtodos. Estas distinciones son muy marcadas aunque ellos pueden parecer de pequea
importancia porque de la similitud del procedimiento de clculo. Un problema de regresin considera la
distribucin de frecuencia de una variable cuando otra permanece fija en cada uno de varios niveles. Un
problema de correlacin considera la variacin conjunta de dos mediciones, ninguna de los cuales es
restringida por el experimento.
La confiabilidad de una regresin es medida por el error estndar, el cual es la desviacin estndar de la
distribucin (asumida normal) de los residuos alrededor de la lnea de regresin (Figura 10.1 muestra la
distribucin de los residuos). Este error estndar es tambin llamado como el error estndar de regresin
y como la desviacin estndar de la regresin.
Figura 10.1: Distribucin Normal de puntos ploteados respecto a la lnea de regresin.
Nuestra primera preocupacin debe ser formular bien el problema a investigar, una vez formulado el
problema correctamente podemos elegir el mtodo ms apropiado para resolverlo, una respuesta
apropiada puede no ser exacta, como es el caso del resultado de pruebas estadsticas.
En la tabla 10.1 podemos apreciar los mtodos estadsticos ms utilizados de acuerdo a la escala de las
variables; las variables se pueden dividir en dos grupos: a) variable dependiente, y b) variables
independientes.
Tabla 10.1: mtodos estadsticos utilizados de acuerdo a la escala de las variables.

Escala de las variables Escala de las variables Mtodo estadstico
dependientes independientes
Intervalar Intervalar Regresin, mltiple en el caso de ms de
una variable independiente
Intervalar Nominal u ordinal Anlisis de la varianza (ANOVA)
Intervalar Nominal e intervalar Anlisis de la covarianza (ANCOVA)
Nominal (dicotmica) Nominal e intervalar Regresin logstica

8.1 Modelos de Regresin
Cuando iniciamos un problema de regresin con una variable dependiente el cual necesitamos para
predecir desde una o ms variables independientes. Las variables independientes son valores o
caractersticas las cuales se miran o son relacionadas fsicamente a la variable dependiente. Luego
necesitamos un modelo el cual describa la manera en el cual las variables independientes estn
relacionadas a la variable dependiente. El modelo deber estar de acuerdo con los principios fsicos
conocidos, pero su forma exacta puede ser fijada por los datos usados.
Usando una variable dependiente, Y, y variables independientes, X y Z, las ecuaciones y grficos de

algunos de los ms comunes modelos de regresin son mostrados en la figura 10.2. Relaciones
Conjuntas, aquellas en las cuales incluye una variable que es producto de otras dos variables. El producto
de dos variables es llamado un trmino de interaccin.
y 0 1 x y 0 1 x 2 x 2
y 0 1 x 2 x 2 3 x 3
yy0011 xx2 2 zz y 0 1 x 2 z 2 x z
Figura 10.2: Ecuaciones y graficas de los modelos de regresin ms comunes.

Note que a pesar que dos de los grficos en la figura 10.2 son curvadas, todas las ecuaciones de los
modelos son en forma lineal. Esta linealidad de la ecuacin del modelo es un requerimiento para la
solucin directa de mnimos cuadrados. La linealidad puede a veces ser lograda por transformacin de
variables.
Fluctuaciones en las variables medidas (dependiente) pueden ser a menudo ser atribuidas (en parte) a
otras variables (independiente). El ANOVA identifica probablemente las variables independientes. Los
mtodos de Regresin cuantifican la relacin entre las variables dependientes e independientes.
8.2 Obtencin de las Ecuaciones Normales
Teniendo el modelo lineal, para una n cantidad de pares (x,y)
y 0 1 x
La mejor lnea que ajuste estos puntos puede ser:
y 0 1 x
Donde 0, 1 son constantes, entonces i
i yi yi
El Problema es determinar 0, 1 de tal manera que los errores i sean mnimos
n
Debemos hacer que
i 1
i sea mnimo, sin embargo, tal como ocurri en la definicin de la
desviacin estndar trabajaremos con los cuadrados de estos errores (o desviaciones)
n 2 n 2
y
i 1
i y i y i ( 0 1 xi )
i 1
Derivando parcialmente respecto a 0, 1 , tenemos

n
2 yi ( 0 1 xi )(1) 0
i 1
n
2 yi ( 0 1 xi )( xi ) 0
i 1
Reordenando:

n n
yi 0 n 1 x i )
i 1 i 1
n n n
x y i i 0 xi 1 xi2
i 1 i 1 i 1
Estas son las ecuaciones normales que nos da los valores de 0, 1 para la recta de mejor ajuste. Por el
mtodo de mnimos cuadrados. Se sigue el mismo procedimiento para encontrar las ecuaciones normales
para regresin curvilnea, y regresin lineal mltiple.
8.3 Regresin lineal Simple
Los clculos de una ecuacin de regresin usando el modelo y 0 1 x es demostrado usando los
datos dados en la tabla 10.2. Esta tabla tambin muestra clculos de medias, productos cruz y cuadrados.
Los productos cruz individuales y cuadrados no requieren ser apuntados; la suma de productos cruz, o
cuadrados, pueden ser acumulados sobre un calculador de escritorio. Tales clculos son ordinariamente
chequeados por repeticin de la operacin. Los coeficientes 0 y 1 en la ecuacin de regresin, y el error
estndar de estimacin son calculados como se muestra abajo.
Ejemplo 1. Se tienen los datos de precipitacin y escorrenta anual de una cuenca, se desea conocer la
correlacin entre estas dos variables.
X Y
XY N XY N X Y
1
2
X 2 2
X NX 2
X
N
(1,801)(1,799)
192,042
1 18 1.325 Coeficiente de regresin
2
189,291
1,801
18
0 Y 1X 99.94(1.325)(100.06) 32.6 Interseccin
Entonces
Y 0 1 X 32.6 1.32X
Y Y 1 ( X X ) 99 .94 (1 .325 )( X 100 .06 )

Y 32 .6 1 .32 X
Ecuacin de lnea de mnimos-cuadrados

Tabla 11.2. Datos y clculo para el ejemplo de regresin de dos variables
AO Escorrenta 1 Precipitacion2
(Y) (X) XY X2 Y2
1928 125 110 13750 12100 15625
1929 67 73 4891 5329 4489
1930 68 74 5032 5476 4624
1931 71 91 6461 8281 5041
1932 118 108 12744 11664 13924
1933 144 130 18720 16900 20736
1934 169 152 25688 23104 28561
1935 138 134 18492 17956 19044
1936 102 98 9996 9604 10404
1937 91 90 8190 8100 8281
1938 125 119 14875 14161 15625
1939 87 77 6699 5929 7569
1940 84 100 8400 10000 7056
1941 58 84 4872 7056 3364
1942 79 85 6715 7225 6241
1943 124 115 14260 13225 15376
1944 62 70 4340 4900 3844
1945 87 91 7917 8281 7569
Suma 1799.0 1801.0 192042.0 189291.0 197373.0
Media 99.944 100.056
1 Escorrenta Anual como porcentaje de la media (Ro Oriental)
2 Precipitacin Anual como porcentaje de la media (en laguna Saytococha)
X 2
18012
X2 N
189291
18
s x2
N 1 17
sx2 534.76 Variancia de X.
Y 2
Y N2
197373
17992
s 2y 18
N 1 17
s y2 1033.71 Variancia de Y.
N 1 2 17
s y x
N 2

s y b 2 s x2
16

1033 .71 (1.325) 2 (534 .76) 100 .8
s yx 10.0 Error estndar del estimado de Y
1 s x 23.13
r (1.325) 0.95 Coeficiente de correlacin
sy 32.15

Escorrentia Anual rio Oriental, % de la media

175
150
125
100
75
50
70 80 90 100 110 120 130 140 150 160
Precipitacion Anual, Laguna Saytococha, % de la media
Figura 10.3: Ploteo de datos de la tabla 10.2 mostrando lnea de regresin calculada.
El coeficiente de regresin puede ser probada por significancia como sigue:
s y2. x 100 .8
sb2 2
0 .011
(x ) 189291 (1801) 2 / 18
Probando la hiptesis que = 0,
1 1.325 0
t n 2 12.6
sb 0.105
De la tabla de t, t16,0.01 2.92; por consiguiente 1 es significativamente diferente de cero. Los limites
de confianza al 99 % para son:
1.325 2.92 (0.105) < < 1.325 + 2.92(0.105)
1.02 < < 1.63
8.4 Uso de Libreras y Software

Considerar un problema con una variable aleatoria dependiente y y una variable independiente x
relacionada por un modelo de regresin.

Modelos de Regresin y clculos son mas fcilmente calculados con ayuda de software especializado en
estadstica o libreras de software general.
Ejemplo 2 Modelo de Regresin de Absorcin de Suelo (Uso de R)
Un experimento de laboratorio proporciona mediciones de solucin orgnica Y adsorbidas sobre

partculas de suelo (en mg. de solvente absorbido/kg. de suelo) para diferentes concentraciones acuosas
X del solvente (en mg disueltos de solvente/litro de agua). Asumir que el modelo de regresin de
segundo grado, propuesto anteriormente es aplicable.
Suponer valores de x especificados (controlados) y los correspondientes valores de y son:
X Y
0.5 0.413
2.0 2.1453
3.0 1.9466
4.0 3.0742
7.0 3.759
Una de las formas en R puede ser, es bastante rpido:

X <- c(0.5,2.0,3.0,4.0,7.0)
Y <- c(0.413,2.1453,1.9466,3.0742,3.759)
suelo <- data.frame(X,Y)
ajustesuelo <- lm(Y ~ 1 + X + I(X^2),data=suelo)
print(ajustesuelo)
Dando los resultados de esta manera:

Call:
lm(formula = Y ~ 1 + X + I(X^2), data = suelo)
Coefficients:
(Intercept) X I(X^2)
0.03707 0.98011 -0.06414
As la ecuacin de prediccin es:

y ( x ) 0.0370729 + 0.980111 x - 0.641417 x 2
Graficando esta ecuacin sobre los ejes, tal como fueron medidos.
plot(X, Y,pch=20,main="Relacion Absorcion del
Suelo",xlab="X",ylab="Y")
lines(X,ajustesuelo$fit,col="red",lwd=2)

Relacion Absorcion del Suelo
3.5
3.0
2.5
Y
2.0
1.5
1.0
0.5
1 2 3 4 5 6 7
Otra manera que da resultados ms completos es utilizando los comandos
summary(ajustesuelo)
anova(ajustesuelo)
8.5 Regresin Lineal Mltiple
El modelo lineal, tiene la forma siguiente:
Y 1X 1 2 X 2 ......... p X p
Donde:
Y = es la variable dependiente
X 1 , X 2 ,......... X p = son las variables independientes.
1 , 2 ,......... p =son los parmetros desconocidos.

A continuacin tenemos algunos modelos no lineales:

Y 1 2 X 3
Y 1 2 X 3e ( 4X )
2
Y 1 2X 2 3X 3
Generalizando la n ecuaciones para el modelo serian:
Y1 1 X 1 .1 2 X 1 .2 ...... p X 1.p
Y2 1X 2 .1 2 X 2 .2 ...... p X 2. p
Yn 1X n .1 2 X n .2 ...... p X n.p
Donde:
Yi =es la i esima observacin de Y.
X ij = es la i esima observacin de la j esima variable independiente.
p
La ecuacin se puede generalizar Y i
j 1
jX ij 1 para i=1, 2, 3,, n.
La notacin matricial es:
Y1 X 1,1 X 1, 2 ..................... X 1,P 1

Y X X ....................X
2 2,1 2, 2 2,P
2
Y3 X 3,1 X 3,2 ....................X 3,P 3

.
. ..
. .
.
. . .
Y
n X n,1 X n, 2 ..................... X n,P n
Cuando el modelo se escribe en forma matricial, es fcil observar que la matriz de la variable
dependiente. Y Es de nx1, elementos.
La matriz de las variables independientes X tiene nxp en elementos y la matriz de los parmetros
desconocidos , es de orden px1.

El modelo discutido en el capitulo anterior Y a . X , viene a ser un caso especial del modelo de
regresin lineal mltiple con
X 1 .1 1, X 1 .2 X ,1 a , 2
De acuerdo al procedimiento seguido en el capitulo VIII los parmetros j pueden ser estimados
minimizando la suma del cuadrado de los errores e i2 donde:
p
ei Yi Yi Yi ( j . X ij )
j 1
Notacin:
e =Matriz de errores.
Y=Matriz de la variable dependiente= Yi

X =Matriz de la variable independiente= Xi
=Matriz de los parmetros desconocidos= i
1
X =inversa de X X ' =Matriz transpuesta de X
e1 =inversa de e e' =Matriz transpuesta de e

1
Y =inversa de Y Y ' =Matriz transpuesta de Y
Entonces e i
2
( e ' )( e ) ( Y X . j )'.( Y X . j )
Derivando esta expresin con respecto a e igualando a cero se tiene:
O 2.X ' (Y X.) O X 'Y X ' X .
Estas ecuaciones se conocen como las ecuaciones normales y la solucin se obtiene multiplicando por
( X' X)1
(X ' X )1 X 'Y (X ' X )1( X' X )

Puede ser estimado por: ( X ' X)1 X'Y
La matriz X 'Y juega un papel importante en la estimacin de y de la variancia y est conformado

por la suma de cuadrados y productos de las variables independientes. Draper y Smith (1966)
demostraron que la suma de cuadrados total puede escribirse de la siguiente forma matricial:
2
(Y 'Y ) 1 nY 2 ( ' X 'Y nY ) (Y 'Y ' X 'Y )
Los tres componentes de la suma de cuadrados total son:
2
1) nY = suma de cuadrados de la media.
2
2) Y 'Y ' X 'Y (Y X ) e' e ei2 (Yi Yi ) =suma de cuadrados residual.
2 2
3) ' X ' Y n.Y (Yi Yi ) =suma de cuadrados de la regresin.
El coeficiente de determinacin mltiple ( R2 ), se calcula de la siguiente relacin:
2
suma .de.cuadrdos .de.la .regresion ( ' X 'Y n.Y )
R2 2
suma .de.cuadrados .de.la .media (Y ' Y nY )
El clculo de la suma de cuadrados se realiza en una tabla de anlisis de la variancia (ANVA). Un

cuadrado medio en el ANVA, es simplemente la suma de cuadrados dividido por su grado de libertad.
Por analoga con la regresin lineal simple, definimos:
Y X . El procedimiento para estimar los parmetros es haciendo E ( ) 0
Var( ) 2 S2 Donde:
S 2 ei2 /(n p) (Yi Yi )2 /(n p)
S2 (e'e) /(n p) (Y X B )'(Y XB) /(n p)
(Y ' Y B ' X ' Y )) /( n p )
Una expresin anlogo a la anterior para R2 es:
R2 1 (n p)S 2 /(n 1)S y2
ANVA PARA REGRESION MULTIPLE

FUENTE GRADOS DE SUMA DE CUADRADO

LIBERTAD CUADRADOS MEDIO
ESPERADO
Media 1 2
n.Y
Regresin p-1
2
Residual n-p ' X 'Y n.Y
Total n Y 'Y B ' X 'Y
2
Y 'Y
Ejemplo 3: Cerezos Negros (Regresin Mltiple, Procesados en R)
Se desea construir un modelo de regresin para obtener el volumen de madera de un cerezo negro
en funcin de la altura del tronco y del dimetro del mismo a un metro sobre el suelo. Se ha tomado una
muestra de 31 rboles. Las unidades de longitudes son pies y de volumen pies cbicos.
Diametro Altura Volumen Diametro Altura Volumen

8.3 70 10.3 12.9 85 33.8
8.6 65 10.3 13.3 86 27.4
8.8 63 10.2 13.7 71 25.7
10.5 72 16.4 13.8 64 24.9
10.7 81 18.8 14 78 34.5
10.8 83 19.7 14.2 80 31.7
11 66 15.6 14.5 74 36.3
11 75 18.2 16 72 38.3
11.1 80 22.6 16.3 77 42.6
11.2 75 19.9 17.3 81 55.4
11.3 79 24.2 17.5 82 55.7
11.4 76 21 17.9 80 58.3
11.4 76 21.4 18 80 51.5
11.7 69 21.3 18 80 51
12 75 19.1 20.6 87 77
12.9 74 22.2
Algunos comandos en R, para realizar esta regresin son:
arbol <- read.csv("d:/practicas-R/arbol.csv")

summary(arbol)
#grafico matricial
pairs(arbol, main="Correlacion de las variables",pch=20,
col="blue")

#regresion lineal multiple de tres variables

ajustearbol <- lm(volumen ~ altura + diametro,data=arbol)
print(summary(ajustearbol))
anova(ajustearbol)
opar <- par(mfrow = c(2, 2), oma = c(0, 0, 1.1, 0),
mar = c(4.1, 4.1, 2.1, 1.1))
plot(ajustearbol, lwd=2)
Grfico matricial de correlacin de variables:
Correlacion de las variables

65 70 75 80 85
20
18
16
diametro
14
12
10
8
85
80
altura
75
70
65
10 20 30 40 50 60 70
volumen
8 10 12 14 16 18 20 10 20 30 40 50 60 70
Resultados del Primer modelo: cerezos negros

Volumen 0 1 Altura 2 Diametro Error
Call:
lm(formula = volumen ~ altura + diametro, data = arbol)
Residuals:
-6.4065 -2.6493 -0.2876 2.2003 8.4847
Coefficients:


(Intercept) -57.9877 8.6382 -6.713 2.75e-07 ***
altura 0.3393 0.1302 2.607 0.0145 *
diametro 4.7082 0.2643 17.816 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Multiple R-squared: 0.948, Adjusted R-squared: 0.9442
F-statistic: 255 on 2 and 28 DF, p-value: < 2.2e-16
Analysis of Variance Table
Response: volumen
Df Sum Sq Mean Sq F value Pr(>F)
altura 1 2901.2 2901.2 192.53 4.503e-14 ***
diametro 1 4783.0 4783.0 317.41 < 2.2e-16 ***
Residuals 28 421.9 15.1
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Diagnosis

lm(volumen ~ altura + diametro)

Residuals vs Fitted Normal Q-Q
10
31 31
Falta Linealidad
Standardized residuals
2
2
2
5
Residuals
1
0
0
-1
-5
18
18
10 20 30 40 50 60 70 -2 -1 0 1 2
Fitted values Falta Homocedasticidad Theoretical Quantiles
Scale-Location Residuals vs Leverage
3
31
1.5
31
0.5
18
2
2
3
1.0
1
0
0.5
-1
Cook's distance 18
-2
0.0
0.5
10 20 30 40 50 60 70 0.00 0.05 0.10 0.15 0.20
Fitted values Leverage
Estos grficos controlan las bases de suposicin para el clsico modelo ANOVA normalmente
distribuido, independiente y de error constante.
La homocedasticidad (varianza del error es constante) es muy importante (i.e. error en el modelo es
constante e independiente de los niveles del factor). El QQplot comprueba la distribucin normal. Los
datos atipicos pueden ser detectados en el grafico de distancia de Cook.
lm(volumen ~ altura + diametro)

Cook's distance Cook's distance vs Leverage
0.6
31 2.5 2 1.5 31
0.6
Cook's distance
Cook's distance
0.4
0.4
1
0.2
0.2
3 18
18 3
0.5
0.0
0.0
0 5 10 15 20 25 30 0 0.05 0.1 0.15 0.2
Obs. number Leverage

Transformacin
Volumen k Altura diametro 2
log Volumen 0 1 log Altura 2 log Diametro Error
Los comandos para este segundo modelo son:
#regresion lineal multiple log de tres variables

ajustearbolog <- lm(log(volumen) ~ log(altura) +
log(diametro),data=arbol)
print(summary(ajustearbolog))
anova(ajustearbolog)
opar <- par(mfrow = c(2, 2), oma = c(0, 0, 1.1, 0),
mar = c(4.1, 4.1, 2.1, 1.1))
plot(ajustearbolog, lwd=2)
Y algunos Resultados son:
Call:
lm(formula = log(volumen) ~ log(altura) + log(diametro), data =
arbol)
Residuals:
-0.168561 -0.048488 0.002431 0.063637 0.129223
Coefficients:
(Intercept) -6.63162 0.79979 -8.292 5.06e-09 ***
log(altura) 1.11712 0.20444 5.464 7.81e-06 ***
log(diametro) 1.98265 0.07501 26.432 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Multiple R-squared: 0.9777, Adjusted R-squared: 0.9761
Analysis of Variance Table
Response: log(volumen)
Df Sum Sq Mean Sq F value Pr(>F)
log(altura) 1 3.4957 3.4957 527.76 < 2.2e-16 ***
log(diametro) 1 4.6275 4.6275 698.63 < 2.2e-16 ***

Residuals 28 0.1855 0.0066

---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Diagnosis (modelo transformado)
lm(log(volumen) ~ log(altura) + log(diametro))

Residuals vs Fitted Normal Q-Q
2
0.10
1
Residuals
0.00
0
-0.10
-1
16
18 16
-2
15
-0.20
18 15
2.5 3.0 3.5 4.0 -2 -1 0 1 2
Fitted values Theoretical Quantiles
Scale-Location Residuals vs Leverage

1.5
0.5
2
15 18
16 11 17
1
1.0
0
0.5
-1
-2
0.5
Cook's distance
18
0.0
2.5 3.0 3.5 4.0 0.00 0.05 0.10 0.15 0.20 0.25
Fitted values Leverage
Interpretacin
Se comprueba grficamente que la distribucin de los residuos es compatible con las hiptesis de
normalidad y homocedasticidad.
El volumen est muy relacionada con la altura y el dimetro del rbol (R2= 97.8%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuacin vol=k Alt Diam2
La varianza residual es 0.006623, es decir sR=0.081 que indica que el error relativo del modelo en la
prediccin del volumen es del 8.1%.

BIBLIOGRAFIA
1. Alfaro, R. Apuntes del Curso de Estadstica y Probabilidades, FIA UNA PUNO, 2008.
2. Alvarado P., L.; Agurto M., H. (2009). Estadstica para Administracin y Economa con
Aplicaciones en Excel, Editorial San Marcos.
3. Anderson, M.J. and Whitcomb, P.J. (2000). DOE Simplified: Practical Tools for Effective
Experimentation. Portland, Oregon, USA, Productivity Inc.
4. Barton, R. (1999). Graphical Methods for the Design of Experiments. NY, USA, Springer-
Verlag.
5. Benjamin, J. R. and C. A. Cornell, (2010), Probability, Statistics, and Decision for Civil
Engineers, 2ed., McGraw-Hill, New York.
6. Box, G.E.P., Hunter, W.G. and Hunter, J.S. (1978). Statistics for Experimenters. NY, John
Wiley.
7. CHOW VEN TE 1964, Handbook of Applied Hydrology. McGraw Hill Book Company New
York USA
8. Dean, A. and Voss, D.T. (1999). Design and Analysis of Experiments. USA, Springer Verlag.
9. G. HOEL PAUL 1976, Introduccin a la Estadstica Matemtica. Edit. ARIEL Barcelona.
10. Helsel, D. R. and R. M. Hirsch, (2002), Statistical Methods in Water Resources, U.S.
Geological Survey, Techniques of Water-Resources Investigations Book 4, Chapter A3.
11. HOLMAN, J. P. Mtodos Experimentales para Ingenieros. Mc GRAW-HILL, Cuarta Edicin.
Impreso en Mxico.
12. Kottegoda, N. T. and R. Rosso, (2008), Applied Statistics for Civil and Environmental
Engineers, Wiley-Blackwell Publishing, UK.
13. LITTLE, T. M. y HILLS, F. J. 1991. Mtodos Estadsticos para la Investigacin en la
Agricultura. Editorial Trillas. Impreso en Mxico.
14. Lochner, R.H. and Matar, J.E. (1990). Designing for Quality- An Introduction to the Best of
Taguchi and Western Methods of Experimental Design. London, UK, Chapman and Hall
Publishers.
15. MARTINEZ, G. A. Diseos Experimentales (Mtodos y Elementos de Teora). Editorial
Trilla. Primera Edicin. Impreso en Mxico.
16. Mejia Marcacuzco, A. (1991), Mtodos Estadsticos en Hidrologa, UNALM, Concytec, Lima
Peru.
17. Mendiburu Delgado, Felipe de; 2008. Anlisis Estadstico con R, Centro Internacional de la
Papa-Universidad Nacional Agraria, Lima http://tarwi.lamolina.edu.pe/~fmendiburu/
18. Montgomery, D.C. (2001). Design and Analysis of Experiments. USA, John Wiley and Sons.
19. Snedecor, G.W. and Cochran, WG. Statistical methods. Iowa State University Press, Ames,
Iowa, 7th edition, 1980.

ANEXOS
PROBLEMAS APLICATIVOS CON R, MINITAB y EXCEL
TABLAS ESTADISTICAS

Tabla 1: Distribucin Normal

Tabla 2: distribucin t de Student

Tabla 3: distribucin c2

Mtodos Estadsticos para la Investigacin Ing. Roberto Alfaro
Tabla 4: distribucin F de Fisher



Tabla 06: Duncans Test Critical values


Tabla 6: Rango estudientizado (q) de Tukey

Metodos2015 Ingalfaro PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Metodos2015 Ingalfaro PDF

Uploaded by

Copyright:

Available Formats

Edited with the trial version of

Foxit Advanced PDF Editor

7.3 Factorial 2n ................................................................................................................... 105

CAPITULO I. INTRODUCCIN AL DISEO DE EXPERIMENTOS

1.1.1 Proceso de Investigacin

La principal caracterstica de la investigacin cientfica es que debemos seguir ordenada y

Los pasos o fases del proceso de investigacin son:

1. Concebir la idea a investigar

Dos comunes usos de la palabra:

1. Estadstica Descriptiva: resmenes numricos y grficos de conjuntos de datos

Este trmino se refiere a un amplio rango de tcnicas para. . .

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 3

Por que se usa el anlisis estadstico?

1. Necesitamos resumir algunos datos en un formato mas corto.

Poblacin: un conjunto de elementos (individuals)

Paso 1: Explorar & Describir

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 4

* Estos pueden sugerir hiptesis y apropiadas tcnicas analticas

Que es un modelo estadstico?

Una representacin matemtica de un proceso o su resultado . . .

Un siguiente paso es probar, en algn sentido, una afirmacin acerca de la naturaleza.

El modelo puede ser aplicado para entidades no-muestreadas en la poblacin fundamental.

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 5

* Interpolacin: dentro del rango de la muestra original

1.1.2: Tipos de variables

Independiente, predictora o explicativa: Su valor es fijado por el investigador generalmente esta

Valores son de un conjunto de clases con ordenacin no natural

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 6

Valores son de un conjunto de clases naturalmente ordenados/organizados con unidades de

Variable Razn (ratio)

Continuas vs. discretas

Variables Intervalar y razn pueden ser:

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 7

1.1.3: Inferencia Estadstica

Probabilidades estn referidas a la distribucin t (de Student), preferiblemente que la distribucin z

ta 0.05 ,10 2.228, ta 0.05,30 2.042, ta 0.05,120 1.98

En qu medida esto es realmente la media?

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 8

* Si la muestra es representativa de la poblacin

La Hiptesis Nula y Alterna

Niveles de Significancia y tipos de error

Tabla 1: Errores en pruebas de hiptesis

Seleccionando un nivel de confianza

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 9

La prdida de ganancias por no empleo de la variedad mejor verdaderamente (Tipo II)

1.1.4: Estrategia de Anlisis de Datos

Rubro de Datos y su soporte

Cmo son los datos colectados (plan de muestreo)?

Descripciones Univariadas: prueba de normalidad, resumen estadstico

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 10

Anlisis de Datos Exploratorio Espacial

Valores en puntos o bloques

Respuestas a las preguntas de la investigacin

Cmo responden los datos la pregunta de investigacin?

Ejemplo: La contaminacin de suelo Ilpa por metales pesados

# Fijar el directorio de trabajo

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 11

1.1.5: EDA univariado no-espacial y anlisis de distribucin

Universidad Nacional del Altiplano - Puno Ingeniera Agrcola 12

EDA Univariado Grafico

Resumen Estadstico (1)

Estos resmenes son de una muestra nica de una variable nica

Resumen 5-nmeros (min, 1er Q, mediana, 3er Q, max)