Professional Documents
Culture Documents
Santiago Hoyos Tuberquia 1020457749 Leidy Cristina Vargas Snchez 1035916120 Carlos Andrs Hernndez Prez Mtodos Estadsticos
Anlisis de experimentos
Objetivos del experimento Determinar el tiempo que tarda en derretirse y separarse una galleta comn y relacionarlo con el tipo de galleta y los componentes con las que est hecha. Plantear la hiptesis: Estadsticamente No hay diferencias en el tiempo de derretimiento entre las galletas.
Variable respuesta Tiempo de derretimiento y desprendimiento de la galleta, en segundos. Se desea maximizar la variable respuesta.
Unidad experimental La unidad experimental a la que se le aplicar el tratamiento (introducirla al agua), ser la galleta.
Factor de control Para este experimento se desea controlar la solidez de una galleta que se introduce al lquido, siendo categrica esta una variable de tipo con un rango i=15 para cada tipo de galleta. Se espera que la variable a controlar cambie respecto al tiempo. Los niveles de los que se compone el factor de control, corresponden a los tipos de galleta: 1. Salada, 2. Integral, 3. Ducales
Factores tomados como constantes: Temperatura del lquido donde se realiza el experimento: Se tom el agua del mismo lugar asegurndose de que estuviera a temperatura ambiente y as procurar que este factor no afectara la variable respuesta. Cantidad de lquido en cada vaso: Para cerciorarse de que ninguna galleta absorba ms lquido que otra, se llen cada vaso con la misma cantidad de agua. Aunque el mtodo fue emprico debido a que no se pudo determinar la cantidad exacta de mililitros; obviando que todos los vasos guardan la misma cantidad en volumen, se opt por colocar una marca en cada uno de ellos de manera tal que estuviera la misma altura para todos los vasos.
Factor de ruido: Diferentes individuos realizando pruebas para los niveles se cont con tres individuos, cada uno realizo pruebas para cada tipo de galleta, esto logra identificarse como un factor de ruido debido a que es lgico pensar que cada persona realiza las actividades de diferente manera. Puede llegar a suceder que un individuo sea ms brusco que otro al momento de introducir la galleta al vaso o que realice las repeticiones de introducir y sacar la galleta con mayor rapidez, estas variables pueden afectar el tiempo que tarda la galleta en desprenderse y por ello se concluye que son factores de ruido.
Tratamientos: Se identifican tres tratamientos, correspondientes al nico factor. los tipos de galleta con los que se desea realizar el experimento: 1. Salada 2. Integral 3. Ducales.
Nmero de rplicas por tratamiento: Se tienen cinco replicas para cada tratamiento. (Cinco galletas para cada tipo)
Nmero total de observaciones: Se dan 15 observaciones en el experimento debido a que se tienen cinco replicas para cada uno de los tres tipos de galletas. Aunque inicialmente, se hicieron 10 observaciones para cada nivel, se decide eliminar datos atpicos y quedarse con los datos que tengan menos variabilidad entre ellos.
Aleatorizacin del experimento: Para garantizar que las diferencias que se encuentren entre los tratamientos, sean debido a ellos mismos y no a efectos independientes, se realiz un procedimiento fcil y comn para asignar a cada individuo el nmero de tratamientos que har para cada nivel. El procedimiento es el siguiente: Se le asigna a cada tipo de galleta (nivel) un nmero de la siguiente manera: 1. Para las galletas saladas, 2. Para las galletas integrales, 3. Para galletas Ducales. Se hacen cinco papeles con el nmero de cada nivel, quince papelitos en total. Se colocan todos los papeles en una bolsa negra. Cada individuo saca a ciegas un papel por turno. De esta manera queda asignado el nmero de tratamientos que har cada individuo para cada nivel.
Mapa de procesos :
Despus de realizar la descripcin del experimento, el paso siguiente es hacer el anlisis exploratorio de los datos, como el factor es cuantitativo se proceder a realizar un boxplot del tiempo en funcin del tipo de galleta, Adems del Plot Design y el Plot Means a este ltimo se le debe aplicar la correccin de Bonferroni dado que en este caso tenemos 3 comparaciones de medias ya que son 3 niveles y 1 un slo factor (3Com1 = 3) Para aplicar
la correccin Bonferroni llamaremos R a dicha combinacin y dividiremos el intervalo de error de nuestro experimento por esta nueva variable .
180
Saladas
160
150
140
mean of Tiempo.en.seg
mean of Tiempo.en.seg
120
100
100
100 40 60 80
120
Integral Ducales Tipo.Galleta
60
80
40
Ducales
Saladas
50
Ducales
Integral Tipo.Galleta
Saladas Factors
Podemos observar en los grficos anteriores que existe una gran diferencia estadstica entre los tres tipos de galletas, La galleta que tiene menor variacin en sus tiempos es la
140
160
Ducales su intervalo de confianza es el ms pequeo, adems de ser el tipo de galleta que dura menos en sostenerse. La integral se encuentra en el rango medio, aunque es la galleta que tiene ms variacin su media est entre 80 y 100 segundos, muy cercano a la media global. Por ltimo observamos que la galleta con mayor duracin es la galleta salada la cual supera ampliamente a las dems, su intervalo de confianza est entre 165 y 180 segundos, son aproximadamente doble de tiempo de las galletas integrales.
Construccin del modelo Primero que todo necesitamos verificar si nuestra variable respuesta se comporta de manera normal para ello realizaremos los grficos pertinentes y la prueba de shapiro:
Tiempo.en.seg
40
60
80
100
120
140
160
180
-1
0 norm quantiles
En el Qq-plot se muestra que la distribucin de la variable respuesta tiene un comportamiento normal, pero la prueba de shapiro arroja otro resultado (el valor p es inferior a 0.05, es decir la distribucin de la variable respuesta es diferente de normal). Como no existe ninguna transformacin de potencia que nos acepte la prueba de shapirowilk, la recta de regresin est dentro del intervalo de confianza (Qq-plot) y solo se est trabajando con 15 datos no haremos ningn cambio en la variable respuesta. Para continuar con el modelo necesitamos saber si el factor que escogimos es relevante para nuestra variable respuesta. Como nuestro factor se divide en 3 niveles los cuales son de tipo cualitativo se crean k-1 variables dummies, es decir 2 { { El modelo se construira de la siguiente forma
Para verificar significancia en la variable respuesta de estos niveles se procede a averiguar los betas y se realiza el anlisis de varianza para esto utilizaremos el summary y el anova:
Modelo estimado Donde 38.2 es el promedio de tiempo de duracin de las ducales cuando las dems variables toman el valor de cero
57.8 es la diferencia entre las medias de integral y Ducales cuando las dems variables toman el valor de cero, as como 135.8 es la resta entre las medias de Saladas y Ducales cumpliendo la misma condicin de que las dems predictoras sean cero. Para saber si ests diferencias de medias son significativas se plantean las siguientes pruebas de hiptesis Prueba de hiptesis (Media de Integral Media de Ducales)
Si el valor p de dichos betas es mayor que 0.05 entonces la diferencia de medias asociada a los betas no tiene relevancia y no se rechaza la hiptesis nula, no obstante si esta resta es menor que 0.05 quiere decir que dicho beta es diferente de cero , es significativo Como observamos en el summary y tienen valores p inferiores a 0.05, eso significa que son diferentes de 0 y que dicha diferencia de medias es importante. Confirmando as lo analizado en la exploracin de datos, los niveles del factor presentan resultados estadsticamente diferentes. En el anlisis de varianza se plantea las siguientes hiptesis
Con las anteriores hiptesis se verifica si los medios cuadrados totales de la regresin son mayores que los medios cuadrados del error. Si est fraccin es igual o cercano a cero quiere decir que dicha variable predictora no es significativa, por el contrario si su valor es grande se rechaza la hiptesis nula y la variable aporta en varianza al modelo. Como el estadstico de prueba da 743.5 y el valor p es menor a 0.05 se puede afirmar que el Tipo de galleta es importante en el modelo y es significativa para el tiempo de duracin.
Supuesto
Pruebas Grficas
Pruebas Estadsticas
Valor (P)
Conclusin Respecto a H0
H0 No se rechaza dado que su valor es mayor que 0.05 , es decir hay independencia
Medida remedial
Independencia
Series model1$res
Series model1$res
-Durbin-Watson
0.6896
1.0
0.5
)
model1$res Partial ACF
0 2 4 6 Lag 8 10
ACF
0.0
-0.5
-5
-1.0
10
14
-1.0
2
-0.5
0.0
0.5
1.0
10
6 Lag
10
Index
180
10
10
Varianza Constante
-Bartlett
-0.1794
160
-Breush -Pagan
5
-0.06938
model1$res
120
-levene test
0
-0.1123
-5
80
100
Como en 2 de las 3 pruebas el valor p es superior a 0.05 , Decimos que Ho no se rechaza y se afirma que la varianza es constante
140
40
80
120
160
40
60
Ducales
Saladas
-5
Ducales
Saladas
model1$f it
Normalidad
:e~Normal
Histogram of model1$res
-Shapiro- Wilk
10 10 5
-0.7866
-Ks-test
5 4 5
-0.8906
model1$res
Frequency
En las pruebas el valor el p es superior a 0.05 se afirma que los errores se comportan con una distribucin normal
-5
-10
-5
10
-5
-1
model1$res
norm quantiles
Outliers
rstandard(model1)
No hay puntos atpicos dado que los datos estn a menos de 3 desviaciones estndar
-1
40
60
80
100
120
140
160
model1$fit
Con la Validacin de los supuestos llegamos a la conclusin de que el modelo es vlido, existe independencia en los trminos del error gracias a que las correlaciones entre estos son estadsticamente cero, la varianza es constante existe un patrn reflejado en el grfico de residuales vs valores ajustados, los errores se distribuyen de manera normal (Qq-plot) y no existen puntos influnciales en el modelo dado que los datos estn a menos de 3 desviaciones estndar Esto tambin nos confirma que se aleatoriz bien el experimento dado que el supuesto de independencia se cumpli. Ahora, en esta parte del diseo experimental se va a tratar de ver si existen o no diferencias significativas entre pares de medias de tratamientos. Como se comparan de a dos se debe aplicar la correccin bonferroni para que los errores totales sean de 0.05 Para ello se va a ejecutar las pruebas correspondientes con el fin de identificar el resultado. Para simplificar un poco la lectura de los resultados de cada prueba se van a aadir en la siguiente tabla: Mtodo Tukey Mtodo Fisher (LSD)
Mtodo Duncan
Mtodo Newman-Keuls
Se puede observar que existen diferencias significativas entre comparaciones de pares de medias de los tratamientos, ya que en las salidas de R ningn tratamiento posee la misma letra. Adems, se puede ver que en los distintos mtodos de comparacin todos llegan a la misma conclusin. Las medias son 174, 96,38.2 segundos para las saladas, integrales y ducales respectivamente es decir que ningn nivel se comporta estadsticamente igual con la variable respuesta
Para que nuestro modelo sea vlido tambin tenemos que determinar el nmero de rplicas a usar en el experimento para no cometer errores. Cuando hacemos diseo de experimentos podemos cometer dos tipos de errores: ( ( ) ) ( ( ) )
Siendo El nivel de significancia y a la cul anteriormente le aplicamos la correccin bonferroni, en el caso inicial = 0.05, es decir intervalo de confianza en el que estn un 95% de los datos La potencia de la prueba viene dado como y es la capacidad que tiene la prueba en detectar pequeas diferencias de medias entre los tratamientos. Por lo general se toma esta potencia de 0.90, esto significa que =0.1 Ahora bien para determinar el nmero de rplicas utilizaremos un mtodo que se llama la curva de operaciones, este procedimiento nos ayuda a seleccionar el nmero de rplicas para que el diseo sea capaz de detectar pequeas diferencias entre tratamientos Para esto se hace un grfico del error tipo 2 ( ) vs un parmetro que refleje la medida en que Ho es falsa, ese parmetro lo denominaremos y se calcula como:
Dnde: n= Nmero de rplicas D= Diferencia ms pequea que se detecta K= Nmero de niveles o tratamientos = Varianza dentro de los tratamientos El numerador se denomina V1 y tiene K-1 grados de libertad El denominador es V2 Y Tiene K(n-1) grados de libertad
En nuestro experimento n es el valor que hallaremos que nos cumpla con una potencia del 90% D = (9.8243)2 = 96,5168 (Este valor es tomado de la prueba LSD) K= 3 (Dado que son tres niveles) = 31.2333 (Tomado del anova, dado que este es el MSE) Grados de libertad del numerador = (3-1)=2 Grados de libertad del denominador =3(n-1)
La anterior tabla nos muestra las curvas de operaciones con V1 = 2 y alpha = 0,05 en la siguiente tabla resolveremos la ecuacin y hallaremos el beta adecuado en la grfica para hallar el nmero de rplicas a usar.
Se observa en la tabla que a partir de 6 rplicas la potencia tiene un valor mayor que 0.90 lo cual nos dice que nuestro modelo con 5 rplicas es vlido y tendra una potencia del 85%, pero lo ideal sera 6 por tratamiento. Por ltimo podemos concluir que el experimento al validarse los supuestos y hacer los respectivos anlisis se llega a que los tres tipos de galletas se comportan de manera diferente en la variable respuesta, siendo la galleta Salada la ptima, dado que es la que presenta mayor duracin .Adems de detectar que este factor es significativo para el tiempo de desprendimiento de la galleta.