You are on page 1of 19

Diseo y Anlisis de Experimentos

Santiago Hoyos Tuberquia 1020457749 Leidy Cristina Vargas Snchez 1035916120 Carlos Andrs Hernndez Prez Mtodos Estadsticos

Profesora: Diana Marcela Prez

Fecha : 28/08/2013 Facultad de Ingeniera

Anlisis de experimentos

Objetivos del experimento Determinar el tiempo que tarda en derretirse y separarse una galleta comn y relacionarlo con el tipo de galleta y los componentes con las que est hecha. Plantear la hiptesis: Estadsticamente No hay diferencias en el tiempo de derretimiento entre las galletas.

Variable respuesta Tiempo de derretimiento y desprendimiento de la galleta, en segundos. Se desea maximizar la variable respuesta.

Unidad experimental La unidad experimental a la que se le aplicar el tratamiento (introducirla al agua), ser la galleta.

Factor de control Para este experimento se desea controlar la solidez de una galleta que se introduce al lquido, siendo categrica esta una variable de tipo con un rango i=15 para cada tipo de galleta. Se espera que la variable a controlar cambie respecto al tiempo. Los niveles de los que se compone el factor de control, corresponden a los tipos de galleta: 1. Salada, 2. Integral, 3. Ducales

Factores tomados como constantes: Temperatura del lquido donde se realiza el experimento: Se tom el agua del mismo lugar asegurndose de que estuviera a temperatura ambiente y as procurar que este factor no afectara la variable respuesta. Cantidad de lquido en cada vaso: Para cerciorarse de que ninguna galleta absorba ms lquido que otra, se llen cada vaso con la misma cantidad de agua. Aunque el mtodo fue emprico debido a que no se pudo determinar la cantidad exacta de mililitros; obviando que todos los vasos guardan la misma cantidad en volumen, se opt por colocar una marca en cada uno de ellos de manera tal que estuviera la misma altura para todos los vasos.

Factor de ruido: Diferentes individuos realizando pruebas para los niveles se cont con tres individuos, cada uno realizo pruebas para cada tipo de galleta, esto logra identificarse como un factor de ruido debido a que es lgico pensar que cada persona realiza las actividades de diferente manera. Puede llegar a suceder que un individuo sea ms brusco que otro al momento de introducir la galleta al vaso o que realice las repeticiones de introducir y sacar la galleta con mayor rapidez, estas variables pueden afectar el tiempo que tarda la galleta en desprenderse y por ello se concluye que son factores de ruido.

Tratamientos: Se identifican tres tratamientos, correspondientes al nico factor. los tipos de galleta con los que se desea realizar el experimento: 1. Salada 2. Integral 3. Ducales.

Nmero de rplicas por tratamiento: Se tienen cinco replicas para cada tratamiento. (Cinco galletas para cada tipo)

Nmero total de observaciones: Se dan 15 observaciones en el experimento debido a que se tienen cinco replicas para cada uno de los tres tipos de galletas. Aunque inicialmente, se hicieron 10 observaciones para cada nivel, se decide eliminar datos atpicos y quedarse con los datos que tengan menos variabilidad entre ellos.

Aleatorizacin del experimento: Para garantizar que las diferencias que se encuentren entre los tratamientos, sean debido a ellos mismos y no a efectos independientes, se realiz un procedimiento fcil y comn para asignar a cada individuo el nmero de tratamientos que har para cada nivel. El procedimiento es el siguiente: Se le asigna a cada tipo de galleta (nivel) un nmero de la siguiente manera: 1. Para las galletas saladas, 2. Para las galletas integrales, 3. Para galletas Ducales. Se hacen cinco papeles con el nmero de cada nivel, quince papelitos en total. Se colocan todos los papeles en una bolsa negra. Cada individuo saca a ciegas un papel por turno. De esta manera queda asignado el nmero de tratamientos que har cada individuo para cada nivel.

Mapa de procesos :

Anlisis exploratorio de los datos

Despus de realizar la descripcin del experimento, el paso siguiente es hacer el anlisis exploratorio de los datos, como el factor es cuantitativo se proceder a realizar un boxplot del tiempo en funcin del tipo de galleta, Adems del Plot Design y el Plot Means a este ltimo se le debe aplicar la correccin de Bonferroni dado que en este caso tenemos 3 comparaciones de medias ya que son 3 niveles y 1 un slo factor (3Com1 = 3) Para aplicar

la correccin Bonferroni llamaremos R a dicha combinacin y dividiremos el intervalo de error de nuestro experimento por esta nueva variable .

Los grficos de boxplot, Plot Design y Plot Means se muestran a continuacin:


Plot of Means

180

Saladas

160

150

140

mean of Tiempo.en.seg

mean of Tiempo.en.seg

120

100

100

100 40 60 80

120
Integral Ducales Tipo.Galleta

60

80

40

Ducales

Saladas

50

Ducales

Integral Tipo.Galleta

Saladas Factors

Podemos observar en los grficos anteriores que existe una gran diferencia estadstica entre los tres tipos de galletas, La galleta que tiene menor variacin en sus tiempos es la

140

160

Ducales su intervalo de confianza es el ms pequeo, adems de ser el tipo de galleta que dura menos en sostenerse. La integral se encuentra en el rango medio, aunque es la galleta que tiene ms variacin su media est entre 80 y 100 segundos, muy cercano a la media global. Por ltimo observamos que la galleta con mayor duracin es la galleta salada la cual supera ampliamente a las dems, su intervalo de confianza est entre 165 y 180 segundos, son aproximadamente doble de tiempo de las galletas integrales.

Construccin del modelo Primero que todo necesitamos verificar si nuestra variable respuesta se comporta de manera normal para ello realizaremos los grficos pertinentes y la prueba de shapiro:

Tiempo.en.seg

40

60

80

100

120

140

160

180

-1

0 norm quantiles

En el Qq-plot se muestra que la distribucin de la variable respuesta tiene un comportamiento normal, pero la prueba de shapiro arroja otro resultado (el valor p es inferior a 0.05, es decir la distribucin de la variable respuesta es diferente de normal). Como no existe ninguna transformacin de potencia que nos acepte la prueba de shapirowilk, la recta de regresin est dentro del intervalo de confianza (Qq-plot) y solo se est trabajando con 15 datos no haremos ningn cambio en la variable respuesta. Para continuar con el modelo necesitamos saber si el factor que escogimos es relevante para nuestra variable respuesta. Como nuestro factor se divide en 3 niveles los cuales son de tipo cualitativo se crean k-1 variables dummies, es decir 2 { { El modelo se construira de la siguiente forma

Para verificar significancia en la variable respuesta de estos niveles se procede a averiguar los betas y se realiza el anlisis de varianza para esto utilizaremos el summary y el anova:

Modelo estimado Donde 38.2 es el promedio de tiempo de duracin de las ducales cuando las dems variables toman el valor de cero

57.8 es la diferencia entre las medias de integral y Ducales cuando las dems variables toman el valor de cero, as como 135.8 es la resta entre las medias de Saladas y Ducales cumpliendo la misma condicin de que las dems predictoras sean cero. Para saber si ests diferencias de medias son significativas se plantean las siguientes pruebas de hiptesis Prueba de hiptesis (Media de Integral Media de Ducales)

Prueba de hiptesis (Media de Saladas Media de Ducales)

Si el valor p de dichos betas es mayor que 0.05 entonces la diferencia de medias asociada a los betas no tiene relevancia y no se rechaza la hiptesis nula, no obstante si esta resta es menor que 0.05 quiere decir que dicho beta es diferente de cero , es significativo Como observamos en el summary y tienen valores p inferiores a 0.05, eso significa que son diferentes de 0 y que dicha diferencia de medias es importante. Confirmando as lo analizado en la exploracin de datos, los niveles del factor presentan resultados estadsticamente diferentes. En el anlisis de varianza se plantea las siguientes hiptesis

Con las anteriores hiptesis se verifica si los medios cuadrados totales de la regresin son mayores que los medios cuadrados del error. Si est fraccin es igual o cercano a cero quiere decir que dicha variable predictora no es significativa, por el contrario si su valor es grande se rechaza la hiptesis nula y la variable aporta en varianza al modelo. Como el estadstico de prueba da 743.5 y el valor p es menor a 0.05 se puede afirmar que el Tipo de galleta es importante en el modelo y es significativa para el tiempo de duracin.

Validacin del modelo

Supuesto

Hiptesis Nula e Hiptesis alterna


( )

Pruebas Grficas

Pruebas Estadsticas

Valor (P)

Conclusin Respecto a H0
H0 No se rechaza dado que su valor es mayor que 0.05 , es decir hay independencia

Medida remedial

Independencia

Series model1$res

Series model1$res

-Durbin-Watson

0.6896

No se aplica medida remedial dado que Ho no se rechaza

1.0

0.5

)
model1$res Partial ACF
0 2 4 6 Lag 8 10

ACF

0.0

-0.5

-5

-1.0

10

14

-1.0
2

-0.5

0.0

0.5

1.0

10

6 Lag

10

Index

-Residuales vs Secuencia -Funcin de Autocorrelacin -Funcin de Autocorrelacin Parcial

180

10

10

Varianza Constante

-Bartlett

-0.1794

160

-Breush -Pagan
5

-0.06938

model1$res

120

-levene test
0

-0.1123

-5

80

100

Como en 2 de las 3 pruebas el valor p es superior a 0.05 , Decimos que Ho no se rechaza y se afirma que la varianza es constante

No se aplica medida remedial dado que Ho no se rechaza

140

40

80

120

160

40

60

Ducales

Saladas

-5
Ducales

Saladas

model1$f it

-Residuales vs Valores ajustados

Normalidad

:e~Normal
Histogram of model1$res

-Shapiro- Wilk
10 10 5

-0.7866

-Ks-test
5 4 5

-0.8906

model1$res

Frequency

En las pruebas el valor el p es superior a 0.05 se afirma que los errores se comportan con una distribucin normal

No se aplica medida remedial dado que Ho no se rechaza

-5

-10

-5

10

-5

-1

model1$res

norm quantiles

-Histograma -Boxplot -QQplot

Outliers

No hay pruebas de hiptesis en este supuesto

No se realiz prueba estadstica

rstandard(model1)

No hay puntos atpicos dado que los datos estn a menos de 3 desviaciones estndar

Como no hay presencia de outliers no se aplica medida remedial

-1
40

60

80

100

120

140

160

model1$fit

-Valores estandarizados vs Valores ajustados

Con la Validacin de los supuestos llegamos a la conclusin de que el modelo es vlido, existe independencia en los trminos del error gracias a que las correlaciones entre estos son estadsticamente cero, la varianza es constante existe un patrn reflejado en el grfico de residuales vs valores ajustados, los errores se distribuyen de manera normal (Qq-plot) y no existen puntos influnciales en el modelo dado que los datos estn a menos de 3 desviaciones estndar Esto tambin nos confirma que se aleatoriz bien el experimento dado que el supuesto de independencia se cumpli. Ahora, en esta parte del diseo experimental se va a tratar de ver si existen o no diferencias significativas entre pares de medias de tratamientos. Como se comparan de a dos se debe aplicar la correccin bonferroni para que los errores totales sean de 0.05 Para ello se va a ejecutar las pruebas correspondientes con el fin de identificar el resultado. Para simplificar un poco la lectura de los resultados de cada prueba se van a aadir en la siguiente tabla: Mtodo Tukey Mtodo Fisher (LSD)

Mtodo Duncan

Mtodo Newman-Keuls

Se puede observar que existen diferencias significativas entre comparaciones de pares de medias de los tratamientos, ya que en las salidas de R ningn tratamiento posee la misma letra. Adems, se puede ver que en los distintos mtodos de comparacin todos llegan a la misma conclusin. Las medias son 174, 96,38.2 segundos para las saladas, integrales y ducales respectivamente es decir que ningn nivel se comporta estadsticamente igual con la variable respuesta

Para que nuestro modelo sea vlido tambin tenemos que determinar el nmero de rplicas a usar en el experimento para no cometer errores. Cuando hacemos diseo de experimentos podemos cometer dos tipos de errores: ( ( ) ) ( ( ) )

Siendo El nivel de significancia y a la cul anteriormente le aplicamos la correccin bonferroni, en el caso inicial = 0.05, es decir intervalo de confianza en el que estn un 95% de los datos La potencia de la prueba viene dado como y es la capacidad que tiene la prueba en detectar pequeas diferencias de medias entre los tratamientos. Por lo general se toma esta potencia de 0.90, esto significa que =0.1 Ahora bien para determinar el nmero de rplicas utilizaremos un mtodo que se llama la curva de operaciones, este procedimiento nos ayuda a seleccionar el nmero de rplicas para que el diseo sea capaz de detectar pequeas diferencias entre tratamientos Para esto se hace un grfico del error tipo 2 ( ) vs un parmetro que refleje la medida en que Ho es falsa, ese parmetro lo denominaremos y se calcula como:

Dnde: n= Nmero de rplicas D= Diferencia ms pequea que se detecta K= Nmero de niveles o tratamientos = Varianza dentro de los tratamientos El numerador se denomina V1 y tiene K-1 grados de libertad El denominador es V2 Y Tiene K(n-1) grados de libertad

En nuestro experimento n es el valor que hallaremos que nos cumpla con una potencia del 90% D = (9.8243)2 = 96,5168 (Este valor es tomado de la prueba LSD) K= 3 (Dado que son tres niveles) = 31.2333 (Tomado del anova, dado que este es el MSE) Grados de libertad del numerador = (3-1)=2 Grados de libertad del denominador =3(n-1)

La anterior tabla nos muestra las curvas de operaciones con V1 = 2 y alpha = 0,05 en la siguiente tabla resolveremos la ecuacin y hallaremos el beta adecuado en la grfica para hallar el nmero de rplicas a usar.

Se observa en la tabla que a partir de 6 rplicas la potencia tiene un valor mayor que 0.90 lo cual nos dice que nuestro modelo con 5 rplicas es vlido y tendra una potencia del 85%, pero lo ideal sera 6 por tratamiento. Por ltimo podemos concluir que el experimento al validarse los supuestos y hacer los respectivos anlisis se llega a que los tres tipos de galletas se comportan de manera diferente en la variable respuesta, siendo la galleta Salada la ptima, dado que es la que presenta mayor duracin .Adems de detectar que este factor es significativo para el tiempo de desprendimiento de la galleta.

You might also like