Prcticas de Calidad de Sistemas de Informacin Sesin 7: Diseo de Experimentos 5 Curso de I ngeniera Informtica Perfil Sistemas de I nformacin Ciudad Real Curso 2003/ 04 Sesin 7 CSI-Curso 2003/04 2 Contenido Diseo de Experimentos Concepto y motivacin Metodologa de diseo de experimentos Experimentos unifactoriales Experimentos factoriales 2 Sesin 7 CSI-Curso 2003/04 3 Diseo de Experimentos Concepto Modelo estadstico cuyo objetivo es averiguar si unos determinados factores influyen en una variable de inters para la calidad, y si hay influencia, cuantificarla. Si un experimento se repite en circunstancias similares, entonces, las diferencias de los resultados (la variabilidad) debera ser mnima. De no serlo, habr que buscar las razones de dicha variabilidad y aplicar un tratamiento (variacin de alguno de los factores que influyen en la variable) y comparar los resultados de antes y de despus. Sesin 7 CSI-Curso 2003/04 4 Diseo de Experimentos (II) Pero aplicar el tratamiento puede no resultar fcil, o factible o simplemente, por el carcter de la materia con la que se investiga ser imposible repetirlo. La metodologa de DDE estudia cmo variar las condiciones habituales de realizacin de un proceso emprico para aumentar la probabilidad de detectar cambios significativos en la respuesta. 3 Sesin 7 CSI-Curso 2003/04 5 Diseo de Experimentos (III) Razones para un experimento: Determinar las principales causas de variacin en la respuesta. Encontrar las condiciones experimentales con las que se consigue un valor extremo en la variable de inters o respuesta. Comparar las respuestas en diferentes niveles de observacin de variables controladas. Obtener un modelo estadstico que permita hacer predicciones de respuestas futuras, es decir modelar su comportamiento. Sesin 7 CSI-Curso 2003/04 6 Diseo de Experimentos (I V) Etapas en el DDE 1. Definir los objetivos del experimento 2. Identificar las posibles causas de variacin 3. Elegir el tratamiento adecuado. 4. Especificar las medidas con las que se trabajar, el procedimiento experimental y anticiparse a las dificultades. 5. Ejecutar un experimento piloto 6. Especificar el modelo 7. Esquematizar los pasos del anlisis 8. Determinar el tamao muestral 9. Revisar las decisiones anteriores. 4 Sesin 7 CSI-Curso 2003/04 7 Diseo de Experimentos (V) 1. Definir los objetivos del experimento Se debe hacer una lista completa de las preguntas a las que debe dar respuesta el experimento La lista de objetivo se va refinando a medida que se van ejecutando las etapas del experimento. 2. I dentificar las causas posibles de variacin Se distinguen dos tipos de fuentes o causas de variacin: Factores Tratamiento Su efecto sobre la respuesta es importante para el investigador Los niveles de un factor son los tipos o grados especficos del factor que se tendrn en cuenta. Pueden ser cuantitativos y cualitativos. Factores Nuisance Su efecto sobre la respuesta no es de inters directo pero hay que contemplarlas para reducir la variabilidad no planificada. Se suelen agrupar en un nico factor bloque. Sesin 7 CSI-Curso 2003/04 8 Diseo de Experimentos (VI) PROCESO Factores Controlables o Tratamientos Factores Incontrolables o Nuisance Entradas Salidas 5 Sesin 7 CSI-Curso 2003/04 9 Diseo de Experimentos (VII) Ejemplos de Factores Cualitativos: proveedor de datos, tipo de mquina utilizada, trabajadores, tipo de procesador, ... Cuantitativos: tamao de memoria, exactitud de los datos. Para hacer el DOE, los factores cuantitativos son tratados como cualitativos y se codifican. Sesin 7 CSI-Curso 2003/04 10 Diseo de Experimentos (VIII) Repaso de algunos conceptos: Factor: variables independientes que pueden influir en la variable de inters. Pueden ser tratamiento (interesa) o bloque (no interesa) Niveles: cada uno de los resultados o valores de un factor. Tratamiento: combinacin especfica de distintos niveles de los distintos factores Unidades Experimentales: objetos, individuos, intervalos de espacio o tiempo sobre los que se experimenta. Deben ser representativas de la poblacin sobre la que se han fijado los objetivos de estudio. Observacin: valor (nivel) tomado de una unidad experimental en un experimento. 6 Sesin 7 CSI-Curso 2003/04 11 Diseo de Experimentos (I X) 3. Elegir un Diseo Experimental Una Regla de asignacin o diseo experimental especifica qu unidades experimentales se observarn bajo cada tratamiento. Pueden ser: Unifactorial, cuando se va a estudiar la influencia de un nico factor Multifactorial Cuando se van a estudiar la influencia de varios factores en la variable independiente y en ellos mismos. Pueden ser: Diseo factorial Se van a hacer combinaciones de todos los niveles de todos los factores. Asignacin al azar Se tomarn al azar distintas observaciones para realizar el estudio ... Sesin 7 CSI-Curso 2003/04 12 Diseo de Experimentos (X) 4. Especificar medidas Variable respuesta o variable de inters Los datos recogidos de un experimento son medidas de una variable denominada variable respuesta o de inters La escala de las medidas debe ser adecuada para que los resultados sean representativos. Debe especificarse con claridad la forma en la que se realizarn las medidas, momento de las mediciones, herramientas que se utilizarn para las mediciones. 7 Sesin 7 CSI-Curso 2003/04 13 Diseo de Experimentos (XI) 5. Ejecutar un experimento piloto. Es un experimento que utiliza un nmero pequeo de observaciones, cuyo objetivo es ayudar a completar y chequear la lista de acciones a realizar. Alguna de las ventajas son las siguiente: Permite practicar la tcnica experimental elegida e identificar problemas no esperados Si el experimento piloto tiene un tamao suficientemente grade puede ayudar a seleccionar un modelo adecuado al experimento principal. Los errores experimentales observados en el experimento piloto pueden ayudar a calcular el nmero de observaciones que se necesitan en el experimento principal. Sesin 7 CSI-Curso 2003/04 14 Diseo de Experimentos (XII) 6. Especificar el Modelo El modelo matemtico debe especificar la relacin existente entre la variable respuesta y los principales factores identificados en el paso 2. Algunos modelos son: Lineal Factor de efectos fijos Factor de efectos aleatorios. Modelo de efecto fijos Modelo de efectos aleatorios. Modelo Mixto 8 Sesin 7 CSI-Curso 2003/04 15 Diseo de Experimentos (XIII) 7. Esquematizar los pasos del anlisis estadstico. El anlisis estadstico depende de: Los objetivos indicados en el paso 1 El diseo seleccionado en el paso 3 El modelo asociado que se especific en el paso 5 Se deben esquematizar los pasos: Estimaciones que hay que calcular Contrastes a realizar Intervalos de confianza Diagnosis y crtica del grado de ajuste del modelo Sesin 7 CSI-Curso 2003/04 16 Diseo de Experimentos (XIV) 8. Determinar el tamao muestral Consiste en calcular el nmero de observaciones que se deben tomar para alcanzar los objetivos del diseo Es importante cuantificar o al menos estimar la variabilidad no planificada para ver cmo incide en el experimento. Suele tomarse como punto de partida los resultados del experimento piloto. 9 Sesin 7 CSI-Curso 2003/04 17 Diseo de Experimentos (XV) 9. Revisar las decisiones anteriores. Ningn mtodo de anlisis estadstico, por sofisticado que sea, permite extraer conclusiones correctas en un diseo de experimentos mal planificado. El anlisis estadstico no es un segundo paso independiente de la tarea de planificacin. Es necesario comprender la totalidad de objetivos propuestos antes de comenzar con el anlisis. Sesin 7 CSI-Curso 2003/04 18 Diseo de Experimentos (XVI) Principios bsicos en el DOE Al planificar un DOE, hay tres principios bsicos a tener en cuenta Principio de aleatorizacin Consiste en dejar al azar ciertos factores, no observndolos por alguna razn, y asumindolos como si fueran ruidos Evita la dependencia entre observaciones El bloqueo Consiste en particionar unidades experimentales en grupos o bloques tal que las observaciones realizadas se realicen bajo condiciones experimentales lo ms parecidas posibles. La factorizacin del diseo Estrategia experimental que consiste en cruzar todos los niveles de todos los factores tratamientos en todas las combinaciones posibles, para detectar interaccin entre los factores. 10 Sesin 7 CSI-Curso 2003/04 19 Diseo de Experimentos (XVII) Diseo Unifactorial En un diseo unifactorial se est interesado en determinar si un nico factor controlable influye en la variable respuesta. Se suelen resolver mediante un contraste de igualdad de medias. Sesin 7 CSI-Curso 2003/04 20 Diseo de Experimentos (XVIII) Ejemplo Un administrador de red est interesado en comprobar si el servidor de pginas web influye en el tiempo de respuestas a distintas peticiones. Para ello instala tres servidores distintos en la misma mquina y desde distintos puestos encarga a diferentes usuario de la web que visiten diferentes pginas en un orden totalmente aleatorio. Los datos correspondientes al tiempo de respuesta en milisegundos se encuentran en el fichero web.mtw. afecta el factor servidor web al tiempo de respuesta de la red? 11 Sesin 7 CSI-Curso 2003/04 21 Diseo de Experimentos (XIX) Solucin En este caso el factor tratamiento ser servidor web, con distintos niveles como puede apreciarse en los datos; la variable de estudio tiempo de respuesta. Lo primero sera realizar un estudio descriptivo, para ver si aparentemente existen diferencias entre las medias de los tiempos de respuestas. Se deduce viendo el grfico de la pgina siguiente que si hay diferencias significativas, con lo que puede empezar a decirse que el factor servidor web afecta a la variable tiempo de respuesta. Sesin 7 CSI-Curso 2003/04 22 Diseo de Experimentos (XX) Puede verse que el servidor S1 es el ms rpido de todos, ya que su tiempo de respuesta es menor. 12 Sesin 7 CSI-Curso 2003/04 23 Diseo de Experimentos (XXI) Para validar estadsticamente la hiptesis de que la diferencia de medias son significativas, se va a realizar un ANOVA para contrastar la igualdad entre las medias. Como puede verse p=0.0<0.05, puede concluirse que hay diferencias significativas entre el tiempo medio de respuesta de los tres servidores y que por tanto s afecta al tiempo de respuesta. Sesin 7 CSI-Curso 2003/04 24 Diseo de Experimentos (XXII) Otros diagramas que se suelen estudiar son el de normalidad de residuos, el de residuos frente a los niveles del factor y a los niveles predichos Residual P e r c e n t 1,5 1,0 0,5 0,0 -0,5 -1,0 99 95 90 80 70 60 50 40 30 20 10 5 1 Normal Probability Plot of theResiduals (responses are S1; S2; S3) FittedValue R e s id u a l 36 35 34 33 32 31 30 29 28 27 1,0 0,5 0,0 -0,5 -1,0 Residuals Versus theFittedValues (responses are S1; S2; S3) Residual F r e q u e n c y 1,0 0,5 0,0 -0,5 -1,0 9 8 7 6 5 4 3 2 1 0 Histogramof theResiduals (responses are S1; S2; S3) 13 Sesin 7 CSI-Curso 2003/04 25 Problema 1 Ejercicio Un ingeniero software quiere determinar si el sistema operativo influye en el rendimiento de una aplicacin que se est diseando. Para ello prueba distintas distribuciones de Linux y distintos Windows. Los datos estn en el fichero ssoo.mtw. podra decirse que afecta el sistema operativo al rendimiento de esa aplicacin? Sesin 7 CSI-Curso 2003/04 26 Diseo de Experimentos (XXIII) Diseos factoriales En ocasiones resulta interesante estudiar si dos o ms factores pueden afectar a una variable y si entre ellos tal vez haya interaccin. Se dice que dos factores interactan cuando el efecto de uno de ellos sobre la variable respuesta es diferente segn el nivel en el que se encuentre el otro factor. El diseo factorial consiste en experimentar todas las posibles combinaciones de los niveles de todos los niveles de todos los factores en cada experimento. Pero en ocasiones puede resultar muy difcil comparar todos los niveles de todos los factores, siendo necesario limitar el nmero de niveles a un nmero k y el nmero de factores a un nmero m, para poder realizar diseos m k . Normalmente se suelen comparar k niveles de dos factores (diseos 2 k ), siendo posible repetir el experimento para obtener n rplicas. 14 Sesin 7 CSI-Curso 2003/04 27 Diseo de Experimentos (XXI V) Diseo de Experimentos en Minitab Minitab 14 aporta los mecanismos necesarios para disear experimentos factoriales y analizar convenientemente los resultados. Para ello es imprescindible tener claro cuntos factores van a afectar a las unidades experimentales y cuntos niveles va a tener cada uno de ellos. A continuacin se va a presentar un ejemplo. Sesin 7 CSI-Curso 2003/04 28 Diseo de Experimentos (XXV) Ejemplo Se desea investigar el rendimiento de determinados programadores bajo ciertas circunstancias de motivacin y estrs. Para manipular la motivacin se han observado dos posibilidades incentivar mediante una retribucin su rendimiento y no incentivarlo. Para controlar el muchsimos estrs se ha optado por dos tipos de medicacin: con ansiolticos y con tranquilizantes. Para ello se han elegido ocho programadores aleatoriamente en la empresa que van a verse sometidos al tratamiento. Se pide que disee el experimento en Minitab y recoja los resultados. 15 Sesin 7 CSI-Curso 2003/04 29 Diseo de Experimentos (XXVI) Solucin Como puede apreciarse en el enunciado se tienen dos factores con dos niveles cada uno. Por lo que se nos pide un diseo factorial 2 2 . Se sabe que el nmero de rplicas de este experimento va a ser dos, pues como se han ofrecido ocho programados para cuatro posibilidades, se tendrn dos. Lo primero es crear el diseo en Minitab. Para ello se crea un worksheet nuevo y se selecciona Stat DOE Factorial Create Factorial Design Sesin 7 CSI-Curso 2003/04 30 Diseo de Experimentos (XVII) Se elige el tipo de diseo a crear Se elige el nmero de factores a estudiar Se elige entre todos los tipos de diseo Se configuran los factores 16 Sesin 7 CSI-Curso 2003/04 31 Diseo de Experimentos (XVIII) Se elige el tipo de diseo a crear Se elige el nmero de rplicas a realizar Sesin 7 CSI-Curso 2003/04 32 Diseo de Experimentos (XXI X) Se configura el primer factor con sus niveles Se configura el segundo factor con sus niveles 17 Sesin 7 CSI-Curso 2003/04 33 Diseo de Experimentos (XXX) Se configura los resultados que se quieren mostrar Sesin 7 CSI-Curso 2003/04 34 Diseo de Experimentos (XXXI) Se obtiene el siguiente Worksheet Ahora se realizan los experimentos, se toman las muestras, se almacenan donde corresponda y ya est listo para ser analizado 18 Sesin 7 CSI-Curso 2003/04 35 Diseo de Experimentos (XXXII) Anlisis de Experimentos Factoriales Minitab ofrece una serie de herramientas para poder analizar los resultados de un diseo de experimentos. Para analizar un experimento factorial se procede Stat DOEFactorial Analyze Factorial Design. Sesin 7 CSI-Curso 2003/04 36 Diseo de Experimentos (XXXIII) Ejemplo Tras el diseo del experimento anterior, se recogieron datos correspondientes a las dos rplicas propuestas, estando en el fichero doe-2- 2.mtwlos resultados almacenados. Se pide estudiar si la motivacin y el estrs afectan al rendimiento y cmo lo hacen. 19 Sesin 7 CSI-Curso 2003/04 37 Diseo de Experimentos (XXXI V) Solucin Para ello se procede como se indic anteriormente Stat DOE Factorial Analyze Factorial Design En la columna rendimiento se han recogido los datos correspondientes a cada uno de los programadores que han trabajado en las condiciones especificada por la variacin de los distintos niveles de cada uno de los factores. Como se tienen dos rplicas se tendrn ocho datos en total Sesin 7 CSI-Curso 2003/04 38 Diseo de Experimentos (XXXV) Se configura los resultados que se quieren mostrar Se configura los grficos que se quieren mostrar 20 Sesin 7 CSI-Curso 2003/04 39 Diseo de Experimentos (XXXVI) Sesin 7 CSI-Curso 2003/04 40 Diseo de Experimentos (XXXVII) 21 Sesin 7 CSI-Curso 2003/04 41 Diseo de Experimentos (XXXVIII ) De los resultados que se se obtienen pueden desprenderse las siguiente conclusiones, viendo el p-valor obtenido: influyen los factores A y B, y la combinacin de stos, ya que p-valor<0,05. El que ms afecta es el factor B, seguido de la combinacin A*B y por ltimo A, como confirma el grfico de Pareto Sesin 7 CSI-Curso 2003/04 42 Diseo de Experimentos (XXXIX) A la vista de esto se desprende que la motivacin alta, incrementa el rendimiento. Del siguiente resultado puede desprenderse que como p-valor<0,05 para la interaccin, es necesario considerar la interaccin entre los dos factores para entender los datos: 22 Sesin 7 CSI-Curso 2003/04 43 Diseo de Experimentos (XL) Sesin 7 CSI-Curso 2003/04 44 Diseo de Experimentos (XLI) 23 Sesin 7 CSI-Curso 2003/04 45 Diseo de Experimentos (XLII) Sesin 7 CSI-Curso 2003/04 46 Ejercicio 2 Problema Haga una lista de factores tratamiento que se quieran estudiar que puedan intervenir rendimiento del sistema de informacin que dise en la primera prctica. Identifique distintos niveles para esos factores y clasifquelos en cuantitativos y cualitativos. 24 Sesin 7 CSI-Curso 2003/04 47 Ejercicio 3 Problema De entre los factores del problema anterior, elija dos con dos niveles cada uno y disee un experimento de tres rplicas. Genere aleatoriamente los valores de las muestras con Excel o con Minitab. Analice dicho experimento e interprete los resultados Sesin 7 CSI-Curso 2003/04 48 Bibliografa y recursos Bibliografa Apuntes Estadstica 2 de la UDC: http://www.udc.es/dep/mate/estadistica2/estadistic a_2.htm