Professional Documents
Culture Documents
STATGRAPHICS® Centurion XV
Todos los derechos reservados. No está permitido la reproducción total o parcial de esta obra, ni
su tratamiento o transmisión por cualquier medio o método, sin la autorización escrita o
consentimiento de StatPoint, Inc.
iii / Contenido
3.2.2 Ícono de Tablas ....................................................................................................................... 68
3.2.3 Ícono de Gráficas .................................................................................................................... 69
3.2.4 Ícono para Guardar Resultados............................................................................................. 70
3.2.5 Ícono de Opciones de Análisis.............................................................................................. 72
3.2.6 Ícono de Opciones de Ventana............................................................................................. 73
3.2.7 Íconos de Opciones Gráficas ................................................................................................ 75
3.2.8 Ícono de Excluir ...................................................................................................................... 76
3.3 Imprimiendo Resultados ............................................................................................................... 77
3.4 Publicando Resultados................................................................................................................... 80
Gráficas...............................................................................................................................81
4.1 Modificando Gráficas .................................................................................................................... 82
4.1.1 Opciones de Diseño................................................................................................................ 83
4.1.2 Opciones de Mallas ................................................................................................................. 85
4.1.3 Opciones de Líneas ................................................................................................................. 87
4.1.4 Opciones de Puntos................................................................................................................ 89
4.1.5 Opciones del Título Principal................................................................................................ 91
4.1.6 Opciones de Escalas de los Ejes ........................................................................................... 93
4.1.7 Opciones de Relleno ............................................................................................................... 95
4.1.8 Opciones de Texto, Etiquetas y Leyendas........................................................................... 96
4.1.9 Añadir Texto Nuevo ............................................................................................................... 96
4.2 Separando Puntos en un Gráfico de Dispersión ....................................................................... 98
4.3 Resaltando Puntos en un Gráfico de Dispersión ...................................................................... 99
4.4 Suavizando un Gráfico de Dispersión ......................................................................................102
4.5 Identificando Puntos.................................................................................................................... 103
4.6 Copiando Gráficas a otras Aplicaciones ................................................................................... 107
4.7 Guardando Gráficas como Archivos de Imágen.....................................................................108
StatFolios.......................................................................................................................... 110
5.1 Guardando su Sesión de Trabajo............................................................................................... 110
5.2 Rutinas del StatFolio .................................................................................................................... 112
5.3 Actualizando Datos Vinculados................................................................................................. 115
5.4 Publicando Datos en Formato HTML .....................................................................................116
Usando el StatGallery....................................................................................................... 119
6.1 Configurando una página del StatGallery .................................................................................119
6.2 Copiando Gráficas al StatGallery............................................................................................... 121
6.3 Sobreponiendo Gráficas.............................................................................................................. 122
6.4 Modificando una Gráfica dentro del StatGallery.....................................................................123
6.4.1 Añadiendo Detalles Gráficos............................................................................................... 123
6.4.2 Modificando Detalles Gráficos ...........................................................................................124
6.4.3 Eliminando Detalles Gráficos .............................................................................................124
iv / Contenido
6.5 Imprimiendo el StatGallery.........................................................................................................125
Usando el StatReporter ....................................................................................................126
7.1 La Ventana StatReporter ............................................................................................................126
7.2 Copiando la Salida al StatReporter.............................................................................................127
7.3 Modificando la Salida del StatReporter .....................................................................................128
7.4 Guardando el StatReporter .........................................................................................................128
Usando el StatWizard .......................................................................................................129
8.1 Accesando Datos o Creando un Nuevo Estudio ....................................................................130
8.2 Seleccionando un Análisis para sus Datos ................................................................................134
8.3 Buscando por Pruebas y Estadísticas Deseadas.......................................................................139
Preferencias del Sistema...................................................................................................142
9.1 Funcionalidad General del Sistema............................................................................................142
9.2 Imprimiendo..................................................................................................................................145
9.3 Gráficas ..........................................................................................................................................146
Tutorial #1: Analizando una Muestra ..............................................................................148
10.1 Ejecutando el Procedimiento Análisis de Una Variable .......................................................149
10.2 Resumen Estadístico..................................................................................................................151
10.3 Gráfico de Caja y Bigotes..........................................................................................................155
10.4 Evaluando Datos Aberrantes ...................................................................................................157
10.5 Histograma ..................................................................................................................................161
10.6 Gráfico de Cuantiles y Percentiles ...........................................................................................165
10.7 Intervalos de Confianza.............................................................................................................166
10.9 Límites de Tolerancia.................................................................................................................170
Tutorial #2: Comparando Dos Muestras.........................................................................173
11.1 Ejecutando el Procedimiento de Comparación de dos Muestras........................................173
11.2 Resumen Estadístico..................................................................................................................175
11.3 Histograma Dual ........................................................................................................................176
11.4 Gráfico Dual de Caja y Bigotes ................................................................................................177
11.5 Comparando Desviaciones Estándar ......................................................................................179
11.6 Comparando Medias..................................................................................................................180
11.7 Comparando Medianas..............................................................................................................181
11.8 Gráfico de Cuantiles ..................................................................................................................182
11.9 Prueba de Kolmogorov-Smirnov.............................................................................................183
11.10 Gráfico Cuantil-Cuantil ...........................................................................................................184
Tutorial #3: Comparando más de Dos Muestras ............................................................185
12.1 Ejecutando Comparación de Varias Muestras .......................................................................186
12.2 Análisis de Varianza ...................................................................................................................190
12.3 Comparando Medias..................................................................................................................192
12.4 Comparando Medianas..............................................................................................................194
v / Contenido
12.5 Comparando Desviaciones Estándar ......................................................................................196
12.6 Gráficos de Residuos................................................................................................................. 196
12.7 Gráfico Análisis de Medias (ANOM)......................................................................................198
Tutorial #4: Análisis de Regresión .................................................................................. 199
13.1 Análisis de Correlación.............................................................................................................. 200
13.2 Regresión Simple........................................................................................................................ 204
13.3 Ajustando un Modelo No Lineal .............................................................................................207
13.4 Examinando los Residuos......................................................................................................... 209
13.5 Regresión Múltiple ..................................................................................................................... 211
Tutorial #5: Analizando Datos Categóricos ....................................................................220
14.1 Resumir Datos Categóricos ...................................................................................................... 221
14.2 Análisis de Pareto ....................................................................................................................... 222
14.3 Tabulación Cruzada ................................................................................................................... 225
14.4 Comparando Dos o Más Muestras..........................................................................................231
14.5 Tablas de Contingencia ............................................................................................................. 235
Tutorial #6: Análisis Capabilidad de Procesos ...............................................................237
15.1 Graficando los Datos................................................................................................................. 238
15.2 Procedimiento Análisis de Capabilidad...................................................................................240
15.3 Trabajando con Datos No-Normales .....................................................................................243
15.4 Índices de Capabilidad............................................................................................................... 251
15.5 Calculadora Seis Sigma .............................................................................................................. 254
Tutorial #7: Diseño de Experimentos .............................................................................257
16.1 Seleccionando Diseños de Cribado .........................................................................................258
16.2 Creando el Diseño...................................................................................................................... 262
16.3 Analizando los Resultados ........................................................................................................ 269
16.4 Graficando el Modelo Ajustado............................................................................................... 277
16.5 Optimizando la Respuesta ........................................................................................................ 281
16.6 Experimentación Adicional ...................................................................................................... 282
Lecturas Recomendadas..................................................................................................285
Archivos de Datos ............................................................................................................286
Indice................................................................................................................................287
vi / Contenido
Prefacio
Este manual está diseñado para enseñar a los usuarios del STATGRAPHICS Centurion XV la
operación básica del programa y su uso en el análisis de datos. Ofrece una visión general del sistema,
incluyendo la instalación, el manejo de datos, la creación de análisis estadísticos y la impresión y
publicación de resultados. Debido a que la intención del libro es agilizar el aprendizaje del programa,
este se enfoca en explicar las características más importantes del programa, más que en abarcar hasta el
más mínimo detalle del mismo. El menú de Ayuda incluído en el STATGRAPHICS Centurion XV
dá acceso a una extensa cantidad de información adicional, incluyendo archivos PDF independientes
para cada uno de los aproximadamente 150 procedimientos estadísticos existentes.
Los primeros nueve capítulos comprenden el uso básico del programa. Aunque posiblemente ud.
pudiera ingeniárselas para entender la mayoría de este material al estar usando el programa por su
cuenta, el leer estos capítulos le ayudarán a lograrlo más rápidamente además de asegurarse no pasar
por alto ciertas características de vital importancia.
Se recomienda revisar los tutoriales, debido a que le pueden proporcionar una buena idea de optimizer
el uso del STATGRAPHICS Centurion para analizar sus datos.
NOTA: una copia de este manual en formato PDF se incluye en el CD del programa y puede ser
accesado desde el menú de Ayuda. En el documento PDF, todas las gráficas están a color. Los
archivos de datos y los StatFolios referenciados en el manual también se incluyen en el programa.
StatPoint, Inc.
July, 2006
vii / Prefacio
viii / Prefacio
1
Capítulo
Comenzando a Usar el
Statgraphics
Instalación del STATGRAPHICS Centurion XV,iniciando el programa
y creando un archivo de datos básico.
1.1 Instalación
STATGRAPHICS Centurion se distribuye de dos maneras: desde Internet, bajando un solo
archivo que debe descargarse en su computadora, o como un conjunto de archivos en un CD-
ROM. Para ejecutar el programa, este debe ser instalado en el disco duro. Como en la mayoría
de los programas de Windows, la instalación es muy sencilla:
Si descargó el programa desde Internet, encuentre el archivo descargado y haga doble-clic sobre
el mismo para iniciar el proceso de instalación.
1/ Comenzando
Paso 3: La segunda ventana muestra el contrato de licencia del sofware:
2/ Comenzando
Paso 4: La siguiente ventana le solicitará la información sus datos personales y el número de
serie que le fué asignado al comprar el programa:
Capture la información solicitada. Si aún no ha comprado el programa, deje los espacios del
número de serie en blanco. El programa automáticamente se ejecutará en modo de evaluación
por 30 días desde que lo instala por primera vez en su computadora. Después de los 30 días,
debe comprar la licencia del producto para poder seguir usando el programa. Una vez que la
licencia de evaluación vence, solo el administrador de la licencia aparecerá.
3/ Comenzando
Paso 5: La siguiente ventana indica el directorio en donde el programa será instalado:
4/ Comenzando
Paso 6: La siguiente ventana de diálogo le permite especificar el tipo de instalación a efectuar:
Puede ahorrarse espacio en el disco duro seleccionando una instalación mínima, pero no tendrá
acceso a la documentación en-línea y a los archivos muestra de datos incluídos.
5/ Comenzando
Paso 7: Siga las instrucciones que faltan para terminar la instalación. Cuando esta sea terminada
aparecerá una última ventana:
Paso 1: Haga Clic sobre el ícono de acceso directo que se encuentra en el Escritorio, o presione
el botón de Inicio ubicado en la esquina inferior izquierda de su monitor y haga clic sobre el
ícono de Statgraphics. También puede seleccionar en el Explorador de Windows la carpeta de
Archivos de Programas - Statgraphics - STATGRAPHICS Centurion XV y hacer clic en el ícono de la
aplicación sgwin para ejecutar el programa.
6/ Comenzando
Paso 2: Cuando el STATGRAPHICS Centurion se cargue, se abrirá una nueva ventana. La
primera vez que ejecute el programa la ventana con la información de su licencia aparecerá:
Dentro de los primeros 30 días después de haber recibido su número de serie, debe contactar a
StatPoint, Inc. Para registrar su licencia y obtener un código de activación. De otra forma, el
programa dejará de funcionar temporalmente.
7/ Comenzando
Figura 1-7. Registro de la Licencia
Capture la información requerida y después contáctese con StatPoint por cualquiera de las
siguientes formas:
1. Pulse el botón de Enviar por e-mail para enviar la información por Internet.
2. Pulse el botón Enviar por Fax para enviar por fax la información impresa.
3. Llamar al teléfono mencionado. Tenga a mano tanto el número de Número de Serie como
la Llave del Producto que se muestran en la ventana de Registro.
8/ Comenzando
Cualquier método que utilize, StatPoint verificará la información provista y mandará de regreso
un código de activación. La próxima vez que ejecute el programa, capture el código en el
campo de Código de Activación en la ventana del Administrador de la Licencia y pulse el botón de
Actualizar. A partir de este momento, la ventana del Administrador de la Licencia dejará de
aparecer .
Paso 3: La primera vez que ejecute el programa, también deberá elegir el tipo de menú de
sistema que desea usar:
Paso 4: Se creará la ventana principal del STATGRAPHICS. La primera vez que ejecute el
progama, una ventana de diálogo adicional aparecerá con la información del StatWizard:
9/ Comenzando
Figura 1-9. Ventana Inicial del StatWizard
El StatWizard está diseñado para auxiliar a nuevos usuarios a crear rápidamente un archivo de datos y
comenzar a analizar su contenido. Puede seguir las instrucciones del StatWizard o hacer clic en
Cancelar para suspender el StatWizard. Si no quiere que aparezca la ventana del StatWizard cada vez
que inicie el STATGRAPHICS Centurion, inhabilite la opción de “Mostrar el StatWizard al Inicio”
antes de que abandone esta ventana de diálogo.
Las sesiones que siguen usan el StatWizard para crear un archivo de datos conteniendo los datos del
censo de los Estados Unidos del año 2000.
10/ Comenzando
1.3 Captura de Datos
Para poder analizar datos en el STATGRAPHICS Centurion, estos deben ser colocados en el
Libro de Datos del STATGRAPHICS. El Libro de Datos consiste de 10 hojas de datos,
referenciadas por las letras A hasta la J, cada una conteniendo un arreglo rectangular de filas y
columnas:
Por ejemplo, supongamos que desea usar el STATGRAPHICS Centurion para analizar datos del
censo de los EUA del año 2000. Una pequeña porción de los resultados de ese censo se
muestran abajo:
11/ Comenzando
State Population Median Age Percent Female Per Capita Income
(Estado) (Población) (Edad Promedio) (% Mujeres) (Ingreso per Capita)
Alabama 4,447,100 35.8 51.7 $18,819
Alaska 626,932 32.4 48.3 $22,660
Arizona 5,130,632 34.2 50.1 $20,275
Arkansas 2,673,400 36.0 51.2 $16,904
California 33,871,648 33.3 50.2 $22,711
Colorado 4,301,261 34.3 49.6 $24,049
Figura 1-11. Datos del Censo de EUA del año 2000
Cuando se capturan estos datos en una hoja de datos del STATGRAPHICS Centurion, la
información de cada estado se colocará en una fila diferente. Se crearán cinco columnas para
almacenar los nombres de los estados y los datos censales.
Para capturar datos como los mostrados arriba en el STATGRAPHICS Centurion, tiene dos
opciones:
2. Capturar los datos en otro programa como puede ser Excel y después leerlos o copiarlos
en el STATGRAPHICS Centurion.
En esta sesión, utilizaremos la primera opción, además de usar el StatWizard para configurar la
hoja de datos.
12/ Comenzando
Figura 1-12. Especificación de localización de los datos en el StatWizard
Se presentarán entonces una serie de ventanas para identificar la información a ser capturada en
cada columna de la hoja de trabajo:
13/ Comenzando
Figura 1-13. Definición de Columnas
Cada columna en una hoja de trabajo del STATGRAPHICS Centurion tiene un nombre, un
comentario y una clase asociada a ella:
• Tipo – Especifique el tipo de datos que serán capturados en la columna. En el ejemplo del
censo, la primera columna que contiene los nombres de los estados debe definirse como
14/ Comenzando
Caracteres. Las otras columnas pueden definirse como Numérica o como Enteros o Decimales
Fijos si desea restringir el tipo de datos a capturar. Para mayor información acerca de la
lista completa de los tipos de columnas, ver el Capítulo 2.
Después de haber definido cada columna, pulse Aceptar. Cuando las cinco columnas hayan sido
definidas, pulse Cancelar. Se desplegará una Hoja de Datos vacía mostrando las columnas que
acaba de crear:
Figura 1-14. Hoja de Datos STATGRAPHICS Centurion con los Nombres de las Columnas
Ahora capture los datos como lo haría en cualquier hoja de cálculo, utilizando las flechas del
teclado para moverse de celda a celda. NO usar comas al capturar números grandes. Cuando
haya terminado, la Hoja de Datos debe tener la siguiente apariencia:
15/ Comenzando
Figura 1-15. Hoja de Datos STATGRAPHICS Centurion después de la Captura de 6 registros de Datos
Finalmente, debe guardar el archivo de datos. Seleccione Archivo – Guardar – Guardar Datos del
menú principal. Escoja el nombre del archivo para guardar los datos:
16/ Comenzando
Figura 1-16. Ventana de Diálogo para Guardar Archivo de Datos
Es recomendable que asigne un nombre significativo a cada archivo de datos. Los Archivos de
Datos en el STATGRAPHICS Centurion son guardados en su disco duro automáticamente con
la extensión “.sf6” y se pueden leer exclusivamente por el STATGRAPHICS. Cuando guarde el
archivo, usted puede cambiar las propiedades en el campo Guardar Tipo Como a un formato
diferente para que otros programas puedan leerlo. Tome nota que los archivos guardados en
otros formatos pueden tardarse más en ser leídos por el STATGRAPHICS que los datos
guardados como archivos SF6.
17/ Comenzando
datos, seleccione Archivo – Abrir – Abrir Datos desde el menú principal. Se le pedirá entonces
que especifique el origen de los datos a los quiere tener acceso:
18/ Comenzando
El archivo muestra se localiza en el directorio para Archivos de Datos predeterminado
(generalmente c:\Archivos de Programas\Statgraphics\STATGRAPHICS Centurion XV\Data).
Empezemos resumiendo la variabilidad del ingreso per capita entre los diferentes estados. El
mejor procedimiento para resumir una sola columna de datos numéricos es el Análisis de Una
19/ Comenzando
Variable. Este procedimiento calcula un resúmen de estadísticas tales como la media de la
muestra y la desviación estándar. También crea varios gráficos, incluyendo un histograma y el
gráfico de caja y bigotes.
La ubicación del procedimiento Análisis de Una Variable va a depender del menú que este
utilizando:
2. Menú Seis Sigma: Seleccionar Analizar – Datos Contínuos – Análisis de Una Variable.
Como todos los procedimientos estadísticos, el Análisis de Una Variable inicia desplegando una
ventana de diálogo para captura de datos:
Figura 1-20. Ventana de Diálogo en Análisis de Una Variable para Captura de Datos
El cuadro del lado izquierdo enlista los nombres de todas las columnas en las hojas de datos abiertas
que contengan datos. Para analizar los datos en la columna de Ingreso Per Capita, haga clic en su
nombre y luego haga clic en el botón con la flecha negra al lado del campo de Datos. Esto coloca el
nombre de la columna en el espacio del campo de Datos. Deje el campo de Seleccionar en blanco (se
usa solamente cuando desea analizar un subconjunto de filas de la hoja de datos en lugar de todas las
filas).
20/ Comenzando
Figura 1-21. Ventana de Análisis del Análisis de Una Variable
La ventana contiene varios “paneles”, divididos por barras divisoras movibles. Los paneles en la
izquierda despliegan salidas tabulares, mientras que los de la derecha despliegan salidas gráficas.
Si da doble clic en el panel superior izquierdo, la tabla con el resúmen estadístico será
maximizado:
21/ Comenzando
Figura 1-22. Panel Maximizado con el Resúmen Estadístico
Diferentes estadísticos interesantes se mencionan en la tabla. De los n = 51 estados además del
D.C., el ingreso per capita oscila entre $15,853 y $28,766. El promedio del ingreso per capita es
de $20,934.50.
Por debajo de la tabla se encuentra el texto generado por el StatAdvisor, el cuál nos ofrece una
interpretación básica de los resultados. En este caso, el StatAdvisor se concentra en los dos
estadísticos mostrados en rojo, que miden la simetría y la kurtosis en los datos. Como lo explica
el StatAdvisor, datos que provengan de una distribución normal o Gaussiana deberían arrojar
valores con un sesgo y una kurtosis estandarizada entre –2 y +2. En este caso, ambos
estadísticos están dentro del rango, lo que nos indica que una curva normal en forma de
campana es un modelo razonable para estas observaciones, aunque el sesgo está muy cerca de
ser estadísticamente significativo.
Dando doble clic nuevamente en el panel del resúmen de estadísticas se restaura la vista original
de los diferentes paneles.
Dando doble clic en el panel superior derecho se maximize el Gráfico de Caja y Bigotes:
22/ Comenzando
Figura 1-23. Panel Maximizado del Gráfico de Caja y Bigotes
El gráfico de Caja y Bigotes, inventado por John Tukey, ofrece un resúmen de 5-números de una
muestra de datos. La caja central abarca la mitad de los datos, extendiéndose desde el cuartil
inferior hasta el cuartel superior. Las líneas que se extienden en los extremos inferior y superior
de la caja (los bigotes) muestran la ubicación del valor más grande y más pequeño de la muestra.
La línea vertical del interior de la caja corresponde al valor de la mediana, mientras que el signo
de (+) muestra la ubicación de la media muestral. El hecho de que el bigote superior sea
levemente más largo que el inferior, y que la media sea relativamente más grande que la mediana,
significa un sesgo positivo en los datos.
23/ Comenzando
Los íconos en la Barra de Herramientas de Análisis son muy importantes. Las acciones de cada
uno de los primeros siete íconos empezando por la izquierda se mencionan a continuación:
Nombre Función
Captura Presenta el cuadro para la captura de datos, de
manera que la(s) columna(s) seleccionada(s)
pueda(n) cambiarse.
Tablas Muestra lista completa de tablas de salida
disponibles para ese procedimiento estadístico.
Gráficos Muestra lista completa de Gráficos de Salida
disponibles para ese procedimiento estadístico.
Guardar resultados Permite guardar las estadísticas calculadas en
columnas de la hoja de datos.
Opciones de Análisis Selecciona diferentes opciones a aplicarse en todas
las tablas y gráficas del procedimiento actual.
Opciones de Ventana Selecciona diferentes opciones a aplicarse solo en
la tabla o gráfica maximizada.
Opciones Gráficas Permite cambiar títulos, escalas y otras
características de la gráfica maximizada.
Figura 1-25. Íconos de Mayor Importancia en la Barra de Herramientas de Análisis
Íconos adicionales a la derecha de la Barra le permiten efectuar otras acciones cuando una
gráfica es maximizada, como se explica en el Capítulo 5.
24/ Comenzando
Figura 1-26. Listado de Gráficos Disponibles
Seleccionando la opción de Histograma y pulsando Aceptar se agrega un tercer panel al lado
derecho de la ventana de análisis:
Figura 1-27. Panel de Histograma agregado a la Veantana de Análisis del Análisis de Una Variable
25/ Comenzando
Note que las barras en el histograma se extienden un poco más por arriba del pico que por
abajo, esto es una característica de datos sesgados postiviamente.
26/ Comenzando
Figura 1-29. Histograma de Frecuencias después de Cambiar el Número de Clases
Puede también cambiar el tipo de relleno y/o el color de las barras en el histograma pulsando el
ícono de Opciones Gráficas. En este se presenta un cuadro de diálogo con diferentes pestañas
que le permiten modificar la mayoría de las características de la gráfica. Si hace clic en la pestaña
de Relleno, se desplegará lo siguiente:
27/ Comenzando
Figura 1-30. Cuadro de Opciones Gráficas
Haciendo clic en el botón circular #1 y después seleccionando un Nuevo Tipo de Relleno o Color
cambiará el aspecto de las barras en el histograma.
28/ Comenzando
1.7 Diseminando los Resultados
Una vez que el análisis ha sido efectuado, los resultados pueden ser diseminados de diferentes
formas. Estos incluyen:
Acción Método
Imprimir los resultados. Pulse el botón de imprimir en la
barra de herramientas principal para
imprimir todas las tables y gráficas, o
haga clic en un panel específico con
el botón secundario del ratón y
seleccione Imprimir del menú
desplegado para imprimir una tabla o
una gráfica única.
Publicar los resultados para ser Seleccionar StatPublish desde el menu
vistos en la red de internet. Archivo. Se mostrará un cuadro de
diálogo en donde especificará la
ubicación a donde quiere guardar la
salida con formato HTML.
Copiar el resultado a otra aplicación. Pulse Clic en la tabla o la gráfica que
desea copiar y seleccione Copiar del
menú de Editar. Luego active la otra
aplicación y seleccione Editar – Pegar.
Guardar el análisis en un reporte. Pulse el botón secundario del ratón y
seleccione Copiar Análisis al
StatReporter. El StatReporter, descrito
en el Capítulo 7, puede ser guardado
como archivo con formato RTF para
exportarlo en procesadores de
palabras tales como Microsoft Word.
Guardar una gráfica en un archivo Maximizar la gráfica que será
de imagen. guardada.. Ahora seleccione Guardar
Gráficos del menú Archivo.
Figura 1-31. Métodos de Diseminación de los Resultados del Análisis
Cada una de las operaciones mencionadas se describen a detalle en capítulos posteriores.
29/ Comenzando
1.8 Guardando su Trabajo
Puede guardar la sesión de trabajo actual en cualquier momento seleccionando Guardar StatFolio
desde el menú de Archivo y capturando un nombre de archivo:
NOTA #1: Si el archivo de datos se actualiza entre el momento que se genera un Statfolio y
cuando se vuelve a abrir, los análisis cambiarán reflejando los nuevos valores. Esto ofrece un
método muy sencillo para efectuar corridas repetitivas de análisis que necesiten ser calculados de
manera periódica sin tener que crearlos cada vez.
NOTA #2: Los datos y el StatFolio son guardados en archivos diferentes. Sin necesita mover
un StatFolio de una computadora a otra, asegúrese de mover los archivos de datos también.
30/ Comenzando
2
Capítulo
Manejo de Datos
Accesando datos desde archivos y bases de datos, transformando valores de los
datos y generando series de datos.
Para analizar datos en el STATGRAPHICS Centurion, estos deben colocarse primero en el
Libro de Datos STATGRAPHICS Centurion. El Libro de Datos es una ventana etiquetada, que
consiste de 10 hojas de datos. Una hoja de datos es un arreglo rectangular de filas y columnas.
Cada columna en la hoja de datos representa una variable. Cada fila representa un caso o una
observación. Por ejemplo, la hoja de datos inferior contiene información sobre distintas marcas
y modelos de automóviles.
Para mostrar o cambiar las propiedades de cualquier columna en una hoja de datos, dar doble
clic en el nombre de la columna para mostrar el cuadro de diálogo Modificar Columna:
‘“.><~!&,;+-*/^=|( )
Los caracteres restringidos son aquellos que se necesitan cuando se usan expresiones
algebraicas tales como:
3. Tipo: clase de dato permitido en la columna. Los siguientes tipos deben especificarse:
Cuando capture una fecha, deberá usar el formato especificado en el cuadro de diálogo de
Editar- Preferencias, ya sea años de 4 dígitos (4/30/2005) ó uno de 2 dígitos (4/30/05). Si se usa
un año de 2 dígitos se asume que puede ir desde 1950 hasta 2049.
1. Leer un archivo de datos existente: Si los datos han sido previamente capturados en
un archivo, usted puede copiarlos en la hoja de datos seleccionando Archivo – Abrir –
Abrir Datos y luego Archivo de Datos Externo. Esto le permite leer datos guardados en
archivos de diferentes formatos, incluyendo Excel XLS, archivos de texto ASCII
delimitados, archivos XML y archivos STATGRAPHICS.
3. Efectuando una consulta SQL para obtener los datos desde una base de datos: Si
los datos residen en una base de datos ODBC, como Oracle o Microsoft Access, estos
pueden ser recuperados seleccionando Archivo – Abrir Datos y luego Búsqueda ODBC. .
1. Archivos Excel (*.xls) – lee una hoja seleccionada de un libro de Microsoft Excel.
Despúes de seleccionar el nombre del archivo, se mostrará un cuadro de diálogo para obtener
información adicional de los datos en el archivo. Si el archivo seleccionado es un libro de trabajo
Excel, el cuadro de diálogo será como el que se nuestra a continuación:
2. Número de Hoja – número de la hoja de cálculo en el libro de trabajo de Excel que será leída.
Las hojas sólo podrán ser leídas de una en una.
4. Valor Faltante – cualquier símbolo especial usado en la hoja de cálculo de Excel para
indicar datos faltantes, como NA. Las celdas que contengan el valor especificado serán
convertidas en celdas vacías cuando se coloquen en la hoja de datos STATGRAPHICS
Centurion.
Cuando se copien y peguen datos, los nombres de columna y comentarios también pueden ser
transferidos. Incluya los nombres de columna y los comentarios en Excel cuando copie datos al
portapapeles. En el lado de STATGRAPHICS Centurion, haga clic en el renglón de encabezado
de la hoja de datos del STATGRAPHICS Centurion antes de seleccionar Pegar. La información
hasta arriba del portapapeles será entonces pegada en el(los) renglón(es) del encabezado.
Una secuencia de cuadros de diálogo adicionales será mostrada en las cuales usted:
Una consulta SQL es entonces construida y los resultados son colocados en la hoja de datos
activa en STATGRAPHICS. Información detalláda sobre como elaborar consultas ODBC
puede ser encontrada en el archivo PDF titulado Archivos de Datos y StatLink.
5. Los valores de los datos pueden ser recodificados para formar grupos o por otras
razones.
6. Los datos extendidos sobre varias columnas pueden ser reorganizados en una sola
columna si un procedimiento estadístico lo requiere.
1. “Al vuelo” directamente dentro de los campos de captura de datos en los cuadros de
diálogo, sin guardar la variable en la hoja de datos.
2. Creando una nueva columna en cualquiera de las 10 hojas de datos en el Libro de Datos.
Por ejemplo, suponga que se desea información sobre la razón calculada de las millas por galón
manejando en ciudad vs las millas por galón manejando en carretera de cada automóvil en el
Si se desea, una nueva columna puede ser creada en la hoja de datos conteniendo los valores
transformados. Por ejemplo, usted puede regresar a la ventana que contiene los datos de 93cars
dando doble clic en la columna con el encabezado etiquetado Col_27. El cuadro de diálogo
Modificar Columna puede ser entonces utilizado para definir una nueva variable de tipo fórmula
con la transformación deseada:
NOTA: el recalculo de una columna fórmula normalmente no ocurre hasta que los
datos en esas columnas son necesarios para un cálculo, o se guarda o imprime. Usted
puede forzar un recalculo inmediatamente seleccionando Actualizar Fórmulas del menú
Editar.
Por ejemplo, suponga que se desea graficar las millas por galón que obtuvo un vehículo vs el
logaritmo natural de su peso. Seleccionamos el procedimiento Gráfico X-Y del menú principal
se mostrará el siguiente cuadro de diálogo para capturar datos:
Los paréntesis son necesarios para asegurar que las restas sean efectuadas antes que los
cocientes. Las expresiones no son sensibles a las mayúsculas y tampoco es relevante la inclusión
de espacios en blanco.
Cada cuadro de diálogo de captura de datos incluye un botón etiquetado como Transformar,
como en la Figura 2-14. Este botón puede ser usado para ayudar a crear una expresión
STATGRAPHICS Centurion, en caso de que no recuerde que operadores usar. Si usted coloca
el cursor en un campo de datos y luego presiona Transformar, un cuadro de diálogo similar al que
se muestra abajo aparecerá:
Una vez que una transformación se ha especificado en el cuadro de diálogo de captura de datos,
como en la Figura 2-14, dicha transformación será usada cuando el procedimiento se corra:
NOTA: Los procedimientos estadísticos no requieren que se ordenen los datos antes de
usarlos, estos lo hacen automáticamente en caso necesario. A su vez, el archivo en el
disco no cambia al realizar un ordenamiento salvo que vuelva a guardar los datos. El
ordenamiento sólo cambia la manera en que se muestran los renglones en la hoja de
datos.
El Documento PDF titulado Menú de Edición contiene una discusión detalláda de 2 ejemplos de
recodificación.
Guardar tanto la Columna de Datos como la Columna de Códigos crea la siguiente estructura de
datos:
Para analizar estos datos usando el procedimiento ANOVA Multifactorial , es necesario que sean
colocados en una hoja de datos con el siguiente formato:
Para crear tal archivo, la solución más fácil es capturar manualmente las dos primeras columnas.
Sin embargo, debido a que las columnas siguen secuencias simples, usted puede generarlas
usando operadores especiales del STATGRAPHICS Centurion. Por ejemplo, los números de la
mezcla pueden ser generados dando clic en el encabezado de la columnas #1 y luego
REP(X, repeticiones) – repite en grupos cada valor contenido en X tantas veces como el
número en repeticiones. En este caso, cada entero entre 1 y 4 es repetido 3 veces.
Los valores de los Tratamientos pueden ser generados de manera similar dando clic en el
encabezado de la columna #2, seleccionando Generar Datos del menú Editar, y capturando lo
siguiente:
RESHAPE(X, tamaño) – repite los valores en X en forma circular hasta haber generado
el número de datos en tamaño. En este caso la secuencia 1, 2, 3 es repetida 4 veces.
Este generador de secuencias puede ser muy útil cuando el archivo de datos a crear es grande.
2. Para otras distribuciones, los números aleatorios deben ser generados desde el
procedimiento Distribuciones de Probabilidad.
La sintaxis de los otros generadores de números aleatorios esta contenida en el documento PDF
titulado Operadores STATGRAPHICS Centurion.
Existen más de 150 selecciones estadísticas en el menú principal del STATGRAPHICS Centurion.
Cada selección accede a un procedimiento estadístico diferente. Sin embargo todos los
procedimientos trabajan de la misma forma básica:
1. Cuando un análisis es seleccionado del menú, se muestra un cuadro de diálogo de captura de datos.
Los campos en este cuadro de diálogo se utilizan para especificar las variables a analizar.
2. Los datos especificados entonces son leídos y analizados, una nueva ventana de análisis es
creada con un conjunto de análisis tabulares y gráficos predeterminados.
3. Cuando se corre por primera vez, los valores predeterminados se consideran para todas las
opciones en el análisis. Estas opciones pueden ser modificadas usando el botón Opciones de
Análisis en la barra de herramientas de análisis, obteniendo como respuesta que todas las
tablas y gráficas en la ventana de análisis sean actualizadas.
4. Si se desean, tablas o gráficas adicionales pueden solicitarse pulsando los botones de Tablas ó
Gráficas en la barra de herramientas de análisis.
6. Para las gráficas, el título predeterminado, la escala, tipos de puntos, fuentes, etc. pueden
modificarse dando doble clic en la gráfica para maximizarla y luego seleccionando Opciones
Gráficas en la barra de herramientas de análisis.
62/ Elaborando Análisis Estadísticos
7. Las tablas y gráficas pueden ser impresas, publicadas como archivos HTML, copiadas a otras
aplicaciones cómo Microsoft PowerPoint, o guardadas en el StatReporter.
8. Los resultados numéricos pueden ser guardados en columnas de cualquier hoja de datos
usando el botón Guardar Resultados de la barra de herramientas de análisis.
9. El análisis completo puede ser guardado en disco cómo un StatFolio, para su uso posterior.
En este capítulo, se describe a detalle un análisis típico. La finalidad del análisis es construir un modelo
estadístico que relacione las millas por galón conseguidas manejando en ciudad con su peso para los
n = 93 automóviles en el archivo 93cars.sf6. Un gráfico de dispersión de los datos se muestra a
continuación:
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
Figura 3-1. Gráfico X-Y de Millas por Galón Manejando en Ciudad vs Peso en Libras
Como era de esperarse, las millas por galón están negativamente correlacionadas con el peso del
vehículo. Es evidente una no-linealidad en la relación, y por lo menos un punto parece ser un
potencial dato aberrante.
Y = exp(a + b X)
En los campos de captura de datos, usted puede capturar ya sea el nombre de la columna (como MPG
City) o una expresión STATGRAPHICS Centurion (cómo LOG(MPG City).) Si más de una hoja de
datos contiene una columna con el nombre indicado, usted debe indicar antes del nombre, la hoja de
datos deseada. Por ejemplo, si ambas hojas de datos A y B contienen una columna llamada Weight y
desea usar la columna en la hoja de datos A, usted deberá capturar el nombre como A.Weight
El campo Seleccionar puede ser usado para seleccionar un subconjunto de las filas en la hoja de datos.
Por ejemplo, si usted captura un comando cómo FIRST(50) en ese campo, solo los primeros 50 filas
de esa hoja de datos serán utilizados. Los comandos típicos utilizados en el campo Seleccionar son:
Cada uno de los comandos aceptados en el campo Seleccionar genera una secuencia booleana de 0’s y
1´s, donde el 0 representa FALSO y el 1 representa VERDADERO. Cuando se usa en el campo
Seleccionar del cuadro de diálogo de captura de datos, el resultado es la selección de todas las filas cuya
condición es VERDADERA y la exclusión de todos las filas cuya condición sea FALSA.
Usted puede maximizar la tabla o la gráfica de cualquier panel dando doble clic sobre el mismo, en
cuyo caso abarcará la ventana completa:
66/ Elaborando Análisis Estadísticos
Figura 3-5. Ventana de Análisis de Regresión Simple con un Panel Maximizado
Dando doble clic en el panel maximizado restaura la ventana en varios paneles.
Cuando se muestra una ventana de análisis, una segunda barra de herramientas se activa directamente
debajo de la barra de herramientas principal del STATGRAPHICS Centurion. La barra de herramientas
de análisis aparece como se muestra a continuación:
Opciones Gráficas – muestra un cuadro de diálogo usado para cambiar colores, etiquetas, escala de
ejes, y otras características similares.
Separar puntos – usado para compensar puntos aleatoriamente en la dirección horizontal ó vertical
para prevenir que se sobrepongan unos a otros.
Identificar – muestra una etiqueta identificando un punto cuando se da clic sobre él con el ratón.
Localizar por nombre – resalta en color rojo cualesquiera puntos con valores iguales a aquel
capturado en el campo Localizar (usado en conjunto con el botón Identificar).
Localizar por fila – resalta en color rojo cualquier punto correspondiente al número de fila
capturado en el campo Fila.
Diferentes puntos pueden excluirse de un modelo dando clic sobre ellos y pulsando el ícono
Excluir de uno en uno. Dando clic en un punto que ha sido eliminado lo integrará al modelo.
1. Para imprimir todas las tablas y gráficas en una ventana de análisis, pulse el botón de
Imprimir en la barra de herramientas de análisis o seleccione Imprimir en el menú Archivo.
2. Para imprimir una sola tabla o gráfica, haga clic en su panel con el botón derecho del
mouse y seleccione imprimir del menú que se muestra.
Opciones adicionales utilizadas para imprimir están contenidas en el cuadro de diálogo al que se
puede acceder seleccionando Configurar Página del menú Archivo:
3. Indicar si cada panel (tabla o gráfico) debe ser mostrado en páginas separadas, o si desea
colocar diferentes paneles en una sola página ajustada.
Otras opciones, como imprimir la salida en modo de retrato o paisaje, pueden elegirse seleccionando
Configurar Impresión en el menú Archivo, que accesa al cuadro de diálogo proporcionado por el driver de
su impresora.
Usted puede también copiar el análisis al StatReporter, el cual le permite hacer anotaciones a la
salida y posteriormente guardarla en un Archivo RTF (formato de texto enriquecido), para
luego ser leído directamente en programas como Microsoft Word. El uso del StatReporter se
describe en el Capítulo 6.
Gráficas
Modificando gráficas, guardando preferencias de las gráficas, interactuando
con las gráficas, guardando gráficas en archivos de imágen y copiando gráficas
a otras aplicaciones.
Este Capítulo describe todo lo que necesita saber para trabajar con gráficas en el STATGRAPHICS
Centurion. Le muestra como prepararlas para su publicación. Le muestra como copiarlas a
aplicaciones como Microsoft Word y PowerPoint. También le muestra cómo interactuar con las
gráficas. Por ejemplo, tal vez usted vea un punto interesante y desea saber más sobre el mismo. O tal
vez quiera rotar un plano de 3D para percibir cualquier relación que pueda existir entre las variables
representadas en los ejes X, Y y Z.
Como ejemplo, consideraremos de nuevo los datos en el archivo 93cars.sf6. Para empezar, el gráfico
del modelo ajustado relacionando las millas por galón manejando en la ciudad y el peso del vehículo
servirá para ilustrar algunas de las operaciones gráficas importantes.
81/ Gráficas
4.1 Modificando Gráficas
El procedimiento de Regresión Simple es comúnmente usado para ajustar curvas relacionando una
variable de respuesta Y con una variable conocida X. Como se ilustra en el último capítulo, un
modelo de Curva-S ofrece un buen ajuste a la relación entre los datos de MPG City y los datos de
Weight en el archivo 93cars.sf6.
Cuando se crea por primera vez, una gráfica del modelo ajustado de Curva-S se ilustra como sigue:
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
Figura 4-1. Gráfico del Modelo Ajustado con la Escala y Títulos Predeterinados
Los títulos, las escalas, los puntos y tipos de líneas, los colores y otros atributos gráficos son
automáticamente generados.
82/ Gráficas
4.1.1 Opciones de Diseño
Para modificar una gráfica una vez que ha sido creada, primero haga doble clic sobre ella para
que así ocupe totalmente la ventana de análisis. Luego haga clic en el ícono Opciones Gráficas
localizado en la barra de herramientas de análisis. Se mostrará un cuadro de diálogo con
diferentes separadores, que corresponden a los distintos elementos gráficos.
El separador Diseño en el cuadro de diálogo Opciones Gráficas es usado para cambiar algunas de las
características básicas de la gráfica:
83/ Gráficas
Esto incluye la orientación de las marcas de los ejes, el grueso de los ejes, y el color del fondo de
la gráfica y sus bordes. Por ejemplo, cambiando el color del Fondos a amarillo y añadiendo Efectos
3D modifica la gráfica como se muestra a continuación:
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
84/ Gráficas
4.1.2 Opciones de Mallas
El separador Mallas se utiliza para añadir una malla al plano:
85/ Gráficas
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
86/ Gráficas
4.1.3 Opciones de Líneas
El separador Líneas es usado para especificar el tipo, color y grueso de las líneas en la gráfica:
87/ Gráficas
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
88/ Gráficas
4.1.4 Opciones de Puntos
El separador Puntos se usa para especificar el tipo, color y tamaño de los puntos en la gráfica:
89/ Gráficas
Gráfico del Modelo Ajustado
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
90/ Gráficas
4.1.5 Opciones del Título Principal
El separador Título Principal se utiliza para especificar el tipo de texto y fuente para la
información mostrada por encima de la la gráfica:
91/ Gráficas
Fitted S-Curve from 93cars File
MPG City = exp(2.1328 + 2799.07/Weight)
55
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
92/ Gráficas
4.1.6 Opciones de Escalas de los Ejes
El cuadro de diálogo Opciones Gráficas también contiene separadores que le permiten modificar los
títulos de los ejes y su escala:
2. Desde, Hasta, Por y Omitir: configura la escala de las marcas. El valor en Omitir se utiliza para
evitar mostrar ciertas marcas si estas se juntan entre sí. Por ejemplo, un valor de 1 en el
campo Omitir desplegará las marcas saltándose una a la vez.
93/ Gráficas
3. Rotar Etiquetas del Eje- X: despliega verticalmente las etiquetas de las marcas del eje X.
4. Sin Potencias: suprime mostrar números pequeños o grandes usando etiquetas como (X 1000).
6. Mantener: congela la escala del eje y evita que pueda ser modificada. Normalmente, los ejes
reajustan su escala al momento en que los datos cambian.
7. Fuentes: pulse este botón para cambiar el color, tamaño, ó estilo del título y de las marcas.
La salida generada por los cambios en el cuadro de diálogo superior se muestra a continuación:
45
35
25
15
1500 2000 2500 3000 3500 4000 4500
Weight in lbs.
Figura 4-13. Gráfica después de Modificar la Escala y los Títulos de los Ejes
94/ Gráficas
4.1.7 Opciones de Relleno
Algunos Gráficas, como los histogramas, contienen áreas sólidas. El separador Rellenos en el cuadro de
diálogo Opciones Gráficas controla el color y el tipo de relleno de las barras, polígonos y áreas en un
Diagrama de Sectores:
95/ Gráficas
Para gráficas como los histogramas, fijar un tipo de relleno no-sólido resulta una buena idea cuando se
imprimen los resultados en blanco y negro:
Histograma
24
20
16
frecuencia
12
0
1500 2000 2500 3000 3500 4000 4500
Weight
96/ Gráficas
Figura 4-16. Cuadro de Diálogo para Añadir un Nuevo Texto
La línea de texto será inicialmente posicionada bajo el título principal, pero puede ser arrastrada a
cualquier parte mediante el ratón:
45
< outlier
35
25
15
1500 2000 2500 3000 3500 4000 4500
Weight in lbs.
97/ Gráficas
4.2 Separando Puntos en un Gráfico de Dispersión
Cuando en un gráfico de dispersión, una o ambas variables son discretas, la posibilidad de que
haya puntos exactamente en la misma posición y obstruyéndose entre sí puede ser muy factible.
La barra de herramientas de análisis tiene un ícono Separar que soluciona este problema al
separar puntos de forma aleatoria en dirección horizontal y/o vertical. Por ejemplo, considere
la siguiente gráfica del archivo de datos 93cars.sf6 :
55
45
MPG City
35
25
15
2 3 4 5 6 7 8 9
Cylinders
Si presiona el botón Separar, aparecerá un cuadro de diálogo que le permitirá agregar una pequeña
separación (aleatoria) a los puntos:
98/ Gráficas
En este caso, añadir una pequeña separación de puntos horizontalmente le otorga una mejor
visión de la ubicación de los puntos:
55
45
MPG City
35
25
15
2 3 4 5 6 7 8 9
Cylinders
99/ Gráficas
MPG City
MPG Highway
Length
Weight
Width
Figura 4-21. Gráfico de Matriz para algunos Datos del Archivo 93cars
El gráfico de dispersión en cada celda de la matriz muestra los valores de las variables
correspondientes a sus identificadores de fila y columna.
Suponga que usted deseaba visualizar cómo el caballaje de los automóviles se relaciona con las 5
variables graficadas. Si presiona el ícono Resaltar en la barra de herramientas de análisis, se
mostrará el siguiente cuadro de diálogo:
100/ Gráficas
Seleccione una variable numérica a usar para codificar los puntos. Después de seleccionar la
variable a resaltar, un cuadro de diálogo emergente aparecerá:
Figura 4-23. Cuadro de Diálogo Emergente para Seleccionar el Intervalo del Resaltado
Las dos barras de desplazamiento se utilizan para especificar los límites superiores e inferiores
para la variable. Todos los puntos en el gráfico de dispersión son coloreados con azul claro si
caen dentro del intervalo especificado. Por ejemplo, en el gráfica inferior, todos los automóviles
con caballaje entre 55.0 y 121.15 son coloreados de azul claro:
MPG City
MPG Highway
Length
Weight
Width
101/ Gráficas
4.4 Suavizando un Gráfico de Dispersión
Para ayudar a visualizar la relación entre las variables en un gráfico de dispersión, puede aplicarse
un suavizamiento. Para suavizar un gráfico de dispersión, pulse el ícono Suavizar/Rotar en
la barra de herramientas de análisis. Esto mostrará el siguiente cuadro de diálogo:
102/ Gráficas
MPG City
MPG Highway
Length
Weight
Width
Figura 4-26. Gráfico de Matriz Suavizado usando Lowess con una Fracción Suavizadora del 50%
Suavizar ayuda a ilustrar el tipo de relaciones entre las variables.
103/ Gráficas
Figura 4-27. Mostrando Información sobre el Punto Seleccionado
Al mismo tiempo, el número de fila del punto será colocado en el campo Fila en la barra de
herramientas de análisis:
Figura 4-28. Barra de herramientas de análisis mostrando el Número de Fila del Punto Seleccionado
Información adicional sobre el punto puede ser obtenida pulsando el ícono Identificar y
seleccionando una columna del Libro de Datos:
104/ Gráficas
Figura 4-29. Cuadro de Diálogo Identificación de un Punto
Después de seleccionar una variable, haciendo clic en cualquier punto aparecerá el contenido de
esa variable en el campo Etiqueta de la barra de herramientas de análisis:
Figura 4-30. Barra de herramientas de análisis mostrando el Fabricante del Punto Seleccionado
El ícono de binoculares los a la derecha de los campos Etiqueta y Fila pueden usarse para
localizar puntos en una gráfica. Si usted captura un valor en cualesquiera de los campos de
edición y luego presiona el botón Localizar correspondiente, todos los puntos en la gráfica que
coincidan con el valor capturado serán resaltados. Por ejemplo, la gráfica inferior colorea de
azul claro los puntos de todos los Hondas:
105/ Gráficas
Figura 4-31. Gráfica Resaltando todos los Hondas
Esta técnica es también bastante efectiva en un Gráfico de Matriz. En la siguiente gráfica, todos
los puntos correspondientes a la fila #42 han sido resaltados:
106/ Gráficas
MPG City
MPG Highway
Length
Weight
Width
Nota: el color usado para resaltar los puntos se determina en el separador Gráficas del
cuadro de diálogo Preferencias, accesible desde el menú Editar
De manera predeterminada, las gráficas son pegadas en formato de “Imágen”, que corresponde
a un meta-archivo de Windows. En los casos em que usted deseé pegar la gráfica en algún otro
formato, puede seleccionar Pegado Especial en lugar del común Pegar.
107/ Gráficas
Para copiar un análisis completo en otra aplicación, incluyendo todas las tablas y gráficas,
primero copie el análisis al StatReporter usando el menú emergente al pulsar el botón derecho
del ratón y luego copie el StatReporter a la otra aplicación. Esta técnica es explicada en el
Capítulo 7.
Para copiar tanto la gráfica como la ventana que la contiene, como en la Figura 4-31 arriba, una
herramienta de captura de ventana externa se recomienda. En la producción de éste manual, se
ha utilizado un programa llamado SnagIt, el cual está disponible para su compra en
www.techsmith.com. Si usa el SnagIt, le recomendamos que fije la opción Input a “Window” y la
opción Output a “Clipboard”. Entonces así podrá pegar imágenes directamente a cualquier
documento.
Figura 4-33. Cuadro de Diálogo para Seleccionar Archivo a guardar en un Archivo Imágen
108/ Gráficas
Para guardar las gráficas que serán leídas en Word o PowerPoint, debe guardar la gráfica como
un meta-archivo de Windows lo que otorga una mayor flexibilidad. Si la gráfica es para ser
mostrada en una página web, se recomienda guardarla como un archivo JPEG.
109/ Gráficas
5
Capítulo
StatFolios
Guardando su sesión de trabajo, publicando resultados en formato HTML, y
automatizando análisis usando rutinas ejecutables.
Cada vez que usted selecciona un análisis estadístico del menú del STATGRAPHICS Centurion,
se crea una nueva ventana de análisis. Usted puede guardar todas las ventanas de análisis en
cualquier momento creando un StatFolio. El StatFolio es un archivo que contiene la definición de
todos los análisis estadísticos que han sido creados, con apuntadores a los datos utilizados en los
mismos. Al guardar un StatFolio y reabrirlo después, usted guarda y recupera eficientemente su
sesión de trabajo actual del STATGRAPHICS Centurion.
Cuando se guarda una sesión en un StatFolio, la estructura del análisis es lo que se guarda y no
los resultados. Cuando se reabre un StatFolio, los datos asociados son releídos y todo el análisis
es recalculado. Los StatFolios proveen un método simple para repetir posteriormente los
análisis usando diferentes datos.
A su vez también puede crear una rutina que se ejecute siempre que un StatFolio sea cargado.
Detalles de ésta y otras características de los StatFolios se describen en éste Capítulo.
110/ StatFolios
Figura 5-1. Cuadro de Diálogo de Selección de Archivo para Guardar un StatFolio
Los StatFolios son guardados en archivos con la extensión .sgp. Estos contienen:
1. Una definición de todos los análisis creados, incluyendo las variables usadas, las tablas y
las gráficas, configuraciones de todas las opciones elegidas, cambios hechos a las gráficas,
etc. Cuando un StatFolio es reabierto, los análisis son recalculados y se actualizan todas
las tablas y gráficas.
2. Los vínculos a las fuentes de datos contenidos en el Libro de Datos. Si los datos
cambian entre el tiempo en que un StatFolio es guardado y cuando es reabierto, la
ventana de análisis reflejará los cambios.
111/ StatFolios
5.2 Rutinas del StatFolio
Cuando se carga por primera vez un StatFolio, todas las ventanas de análisis son restauradas a su
condición previa. Entonces STATGRAPHICS Centurion busca encontrar si una Rutina de
Inicio ha sido guardada con el StatFolio y la ejecuta si la encuentra. Una rutina puede ser creada
seleccionando Rutina de Inicio del Statfolio del menú Editar. Se mostrará un cuadro de diálogo con
campos para definir una secuencia de acciones a realizar:
112/ StatFolios
Operación Argumento Objetivo Descripción
Ejecutar Título del Análisis Actualiza el análisis indicado.
Asignar Expresión STATGRAPHICS Nombre de Evalúa la expresión y la asigna a
Centurión Columna la columna indicada.
Imprimir Ventana(s) a imprimir Imprime el contenido de las
ventanas indicadas.
Publicar Corre StatPublish para publicar
los contenidos del StatFolio en
formato HTML.
Cápsula Comando Windows a ejecutar Argumento Genera que Windows ejecute
del Comando un comando.
Retrasar Número de Segundos Hace una pausa por el tiempo
especificado
Cargar Nombre del StatFolio Especifica el StatFolio a cargar
al momento en que la rutina se
corra. Esto permite que los
StatFolios se ejecuten en
cadena.
Salir Salir del STATGRAPHICS
Centurion
Figura 5-3. Operadores de la Rutina de Inicio
En el ejemplo mostrado en la Figura 5-2, una Regresión Simple es elaborada. Dentro de ese
análisis, se asume que Guardar Resultados ha sido programado para guardar los residuos del
modelo ajustado en una columna llamada RESIDUALS. Los residuos son entonces divididos
por los valores originales de los datos y luego multiplicados por 100 para crear los porcentajes de
error, que son asignados a una nueva variable llamada PERROR. Los valores en PERROR son
entonces resumidos usando el procedimiento Análisis de Una Variable, después del cual los
resultados de ambos análisis son impresos.
Note que los StatFolios pueden encadenarse utilizando en una línea el operador CARGAR para
cargar y empezar la ejecución en otro StatFolio. También puede salirse automáticamente del
STATGRAPHICS Centurion usando el operador SALIR.
NOTA: Usted puede suprimir la ejecución de rutinas seleccionando Inhabilitar Rutinas de Inicio en
el separador General del cuadro de diálogo Preferencias, accesible desde el menú Editar:
113/ StatFolios
Figura 5-4. Inhabilitando Rutinas de Inicio
114/ StatFolios
5.3 Actualizando Datos Vinculados
Una vez que un StatFolio ha sido creado conteniendo diferentes, los datos pueden ser releídos
en intervalos de tiempo fijos originando la actualización del análisis. Esto se obtiene usando el
cuadro de diálogo Propiedades del Libro de Datos en el menú Editar, o seleccionando StatLink en el
menú Archivo:
Figura 5-5. Cuadro de Diálogo Propiedades del Libro de Datos para Actualizar con Datos Vinculados
Para consultar las fuentes de los datos repetidamente:
1. Coloque una paloma en la opción de Actualizar para cada fuente de datos a releer.
4. Seleccione Ejecutar Rutina si desea correr la rutina de inicio del StatFolio cada vez que los
datos sean leídos.
115/ Statfolios
Al incluir el operador Publicar en algún paso de la rutina de inicio, usted puede hacer que
STATGRAPHICS Centurion guarde automáticamente los resultados en un servidor de red.
Figura 5-6. Cuadro de Diálogo StatPublish para crear una salida HTML
Los campos en este cuadro de diálogo se usan para especificar:
• Archivo HTML en un directorio local: Este es el nombre del archivo HTML que
mantendrá el contenido del StatFolio. Enlistará el contenido del StatFolio y proveerá
vínculos a otros archivos HTML correspondientes a cada ventana en el StatFolio. De
manera predeterminada, es colocado en el mismo directorio que el propio StatFolio, con el
116/ Statfolios
mismo nombre que el StatFolio pero con la extensión .htm en lugar de .sgp. Para visualizar un
StatFolio publicado, normalmente un navegador será direccionado a abrir este archivo.
• FTP sitio URL: Toda los resultados publicados son primeramente colocados en el
directorio local arriba indicado. Esto incluye archivos HTML , archivos de imágen
conteniendo las gráficas y otros archivos de soporte. Si se captura un sitio en el campo FTP
Sitio URL, todos los archivos también serán subidos a la dirección referida por el URL.
Normalmente este es un directorio de un servidor. Note que usted deberá tener acceso
FTP para escribir en el URL indicado, lo cual tal vez deba ser programado por el
administrador de la red.
• FTP Nombre de Usuario: nombre de usuario para el acceso FTP al URL indicado.
• FTP Clave de acceso: clave de acceso para el acceso FTP al URL indicado.
• Incluir: Revisa todos las ventanas del StatFolio que deben publicarse.
• Formato de Imágen: Las gráficas pueden ser agregadas en archivos HTML en una de las
siguientes tres formas:
1. JPEG – imágenes estáticas guardadas en formato JPEG. Los archivos son creados con
nombres similarea a ejemplo_análisis_gráfica.jpg.
2. PNG – imágenes estáticas guardadas en formato PNG. Los archivos son creados con
nombres como ejemplo_análisis_gráfica.png.
3. Java Applets – salidas dinámicas que pueden ser actualizadas mientras son vistas por el
navegador. Mientras en el navegador, la gráfica será actualizada en la frecuencia indicada
leyendo un archivo auxiliar con un nombre similar a ejemplo_análisis_gráfica.sgz. Esta
opción está diseñada para utilizarse en conjunto con la actualización de datos en tiempo
real usando el STATLink, como se describe en el archivo PDF titulado Procesamiento y
Análisis Dinámico de Datos. Nota: no todas las gráficas serán publicadas apropiadamente
usando ésta opción. Si una ó más gráficas no se muestran correctamente en la salida
publicada, seleccione una opción diferente.
117/ Statfolios
• Agregue interactividad a los applets: Para las gráficas publicadas como applets, el
seleccionar esta característica le permite al usuario ver información acerca de los valores de
los datos dando clic en un punto mientras se encuentre en el navegador de la red.
Después de completar los campos de captura, pulse ACEPTAR para publicar el StatFolio.
Para ver un StatFolio publicado, inicie cualquier navegador de red y use su ícono de Archivo para
abrir el archivo especificado en el campo superior de la Figura 5-6. Usted puede también
visualizar la salida seleccionando Ver Resultados Publicados del menú Archivo en STATGRAPHICS
Centurion.
NOTA: Las tablas y gráficas son guardadas en los archivos de salida HTML con
nombres automáticamente generados por StatPublish. Mientras esté en el navegador
de red, podrá ver el código de la fuente HTML y determinar fácilmente los nombres de
los archivo. Estos archivos entonces pueden ser agregados a su propia página web si así
lo desea.
118/ Statfolios
6
Capítulo
Usando el StatGallery
Mostrando gráficas en varios planos y sobreponiendo gráficas.
StatGallery es una ventana especial dentro del STATGRAPHICS Centurion donde las gráficas
creadas en otros procedimientos pueden pegarse en forma adjunta ó encima una de otra.
Visualizando una gráfica al lado de otra, consiste en una herramienta muy poderosa para comparar
dos conjuntos de datos, dos modelos estadísticos ó dos niveles de un gráfico de contorno.
Sobreponiendo las gráficas crea presentaciones únicas que no se pueden producir en ningún otro
lugar del programa.
Las gráficas del StatGallery se guardan en archivos con extensión .sgg. Si usted coloca la salida en
StatGallery, un puntero al archivo StatGallery será guardado en el StatFolio presente. Cuando el
StatFolio es reabierto posteriormente, automáticamente se cargará el StatGallery asociada.
119/Usando el Statgallery
Figura 6-1. La ventana del StatGallery
Los botones en la parte superior de la ventana le permiten navegar a otras páginas en la galería..
Si usted requiere cambiar el número de gráficas mostradas en una página, pulse el botón derecho
del ratón y seleccione Organizar Ventanas. Para una sola página pueden seleccionarse arreglos
conteniendo hasta 9 gráficas:
120/Usando el Statgallery
Cada uno de los siete arreglos a la izquierda corresponden a un conjunto rectangular de filas y
columnas. La opción Por Columnas le permite crear un arreglo con diferentes números de filas
en cada una de las 3 columnas.
Usted puede también utilizar las barras de desplazamiento en la ventana del StatGallery para
acomodar los paneles como lo desee.
1. Configurar una página seleccionada del StatGallery para mostrar gráficos en un formato
Izquierda y Derecha.
2. Generar un gráfico de contorno dentro de Analizar Diseño para un nivel del factor
experimental y copiarlo al portapapeles de Windows.
3. Activar la ventana del StatGallery. Hacer clic con el botón derecho del ratón en el panel
extremo izquierdo y seleccionar Pegar para colocar el gráfico de contorno en el
StatGallery.
5. Regresar a la ventana del StatGallery. Hacer clic con el botón derecho del ratón en el
panel extremo derecho y seleccionar Pegar . Esto colocará el segundo gráfico de contorno
a un lado del primero en el StatGallery.
121/Usando el Statgallery
Figura 6-3. Gráficas Adjuntas en el StatGallery
En el plano superior, la progresión de los colores de una gráfica a la otra muestran un
decremento en la fuerza mientras un incremento en el polietileno.
Cuando pegue una gráfica en el StatGallery, en lugar de usar Pegar debe seleccionar Pegar Vínculo
en el menú emergente al pulsar el botón derecho del ratón. Con pegar vínculo, la gráfica en la
galería es vinculada inmediatamente a la ventana de análisis en donde originalmente fue creada y
se cambiará en el StatGallery siempre que cambie en la ventana de análisis original.
122/Usando el Statgallery
Figura 6-4. Sobreponiendo Gráficas en el StatGallery
Cuando una gráfica es sobrepuesta en otra que ya se encontraba en el StatGallery, solo el
contenido dentro de los ejes de la segunda gráfica se despliegan. El texto de la segunda gráfica
NO se incluye.
123/Usando el Statgallery
1. Haga doble clic en la gráfica deseada para maximizarla.
2. Pulse el botón derecho del ratón y seleccione Agregar Objeto del menú. El cuadro de
diálogo emergente aparecerá:
2. Hacer clic sobre el objeto a cambiar para indicarlo. Pequeños bloques rectangulares
aparecerán alrededor del objeto que ha sido marcado.
3. Pulse el botón derecho del ratón y elija Modificar Objeto del menú que se muestra.
124/Usando el Statgallery
3. Pulse el botón derecho del ratón y elija Borrar Objeto del menú que se muestra.
1. Active la ventana del StatGallery dando clic sobre la misma con el ratón.
2. Pulse el ícono Imprimir en la barra de herramientas principal, u pulse el botón derecho del
ratón y elija Imprimir del menú que se muestra.
Usted puede imprimir todas las páginas o un conjunto seleccionado de las mismas.
125/Usando el Statgallery
7
Capítulo
Usando el StatReporter
Copiando análisis al StatReporter, haciendo notaciones a los reportes y
guardando los resultados en un Archivo RTF para importarlos a Microsoft
Word.
El StatReporter es una ventana donde los reportes de salida de los diferentes procedimientos
estadísticos pueden ser integrados en un reporte más formal. Es una versión básica del
WordPad, que corre desde el STATGRAPHICS Centurion. El StatReporter le permite:
2. Guardar el contenido del StatReporter en un archivo con formato RTF (Rich Text
Format), que puede ser leído directamente en programas como Microsoft Word.
Cada una de éstas operaciones realiza un pegado estático (los reportes de salida en el
StatReporter nunca cambiarán). Usted puede vincular una tabla o gráfica a su fuente de origen
usando el método #1 arriba mencionado pero seleccionando Pegar Vínculo en lugar de Pegar. La
tabla o gráfica pegada en el StatReporter será entonces “iteractiva”, en el sentido de que
cambiará automáticamente cuando el reporte de salida cambie en la ventana de análisis de la cual
la tabla o gráfica fueron copiadas.
Siempre que se abre un StatFolio, éste automáticamente carga el StatReporter que estaba
presente cuando el StatFolio fue guardado. Usted puede también abrir un StatReporter
independientemente usando el menú Archivo – Abrir.
Usando el StatWizard
Seleccionando el análisis estadístico adecuado, buscando las estadísticas y
pruebas deseados y generando múltiples ventanas en base a diferentes factores.
1. Puede ayudarlo a crear una nueva hoja de datos o leer una fuente de datos existente.
5. Puede repetir análisis deseados para cada valor específico de una columna de datos.
El StatWizard aparece siempre que usted carga el STATGRAPHICS Centurion, a menos de que
usted elija suprimir esta opción. El asesor puede también invocarse en cualquier momento
pulsando el ícono del StatWizard en la barra de herramientas principal.
Figura 8-1. Cuadro de Diálogo del StatWizard para Requerimiento en la Captura de Datos
Existen 3 opciones:
1. Usted desea cargar nuevos datos en el Libro de Datos del STATGRAPHICS Centurion.
El asesor entonces lo guiará a traves de una secuencia de cuadros de diálogo adicionales
con la finalidad de definir las columnas de una hoja de datos o seleccionar una fuente de
datos, como se describió en capítulos anteriores de éste manual.
3. Usted desea ejecutar un análisis que no requiera datos. En este caso, el asesor enlistará
todos esos análisis, le pedirá que seleccione uno y luego lo llevará inmediatamente a
dicho análisis.
Por ejemplo, suponga que desea establecer un nuevo estudio para un instrumento de medición
con la finalidad de estimar su repetibilidad y reproducibilidad. Seleccionando el segundo botón
en la Figura 8-1 y pulsando Aceptar se muestran las siguientes opciones:
4. Buscar: Muestra una lista de estadísticas, pruebas, gráficas y otras salidas que pueden ser
creadas en el STATGRAPHICS Centurion. Seleccionado un objeto de la lista cambiará
lo mostrado en el campo Seleccionar Análisis por Nombre , enlistando solo aquellos análisis
que calculan el objeto deseado.
Si elije la opción #1, el StatWizard enseguida mostrará un cuadro de diálogo en el cual se deben
indicar los datos a analizar. Por ejemplo, si el archivo 93cars.sf6 es leído al Libro de Datos, el
cuadro de diálogo tomará la siguiente forma:
• Datos o Variables de Respuesta (Y): una o más variables de respuesta que contenga los
valores a analizar. Si solo una columna contiene datos a analizar, esta debe ser capturada
en este campo.
• Tipo: el tipo de datos contenidos en la(s) variable(s) de respuesta. Los análisis mostrados
en los cuadros de diálogo subsecuentes dependen de esta elección.
• Factores Explicativos Cuantitativos (X): cualquier factor cuantificable usado para predecir las
variables de respuesta. En una regresión, las variables independientes van aquí.
• Factores Categóricos Explicativos (X): cualquier facor no cuantificable usado para predecir las
variables de respuesta. En un ANOVA, los factores explicativos van aquí.
136/ Usando StatWizard
• Etiquetas del Caso: una columna que contenga las etiquetas de identificación para cada una
de las observaciones (filas).
El siguiente cuadro de diálogo le solicita cuales filas del archivo desea analizar:
3. Pulsar ACEPTAR.
o Año de 4 dígitos: mostrar fechas con años de 4 dígitos en lugar de 2 dígitos. De forma
predeterminada se asume que los años de 2 dígitos como 2/1/05 representan fechas
entre 1950-2049. Los cambios en esta opción tendrán efecto hasta que el programa se
reinicie.
o Actualizar Vínculos para Cada Valor: recalcular todas las estadísticas siempre que el
valor de un dato cambie. Normalmente, las estadísticas no son recalculadas hasta que
un análisis recibe la indicación, es impreso, publicado o el StatFolio es guardado.
o Mantener la Razón de Apariencia 1:1: mostrar los ejes verticales y horizontales con la
misma longitud. Normalmente el eje horizontal es más largo que el vertical.
o Siempre Blanco y Negro: mostrar gráficas en blanco y negro, anulando cualquier otra
configuración de colores.
o Suprimir el espacio entre las marcas de los ejes: suprimir el espacio normal entre la
intersección del eje vertical y horizontal y la primera marca de los ejes. Si se suprime el
espacio, algunos puntos simbólicos pueden caer directamente en los ejes.
o Resaltar Referencias en Rojo: resaltar con rojo en las ventanas de texto, los valores
referidos por el StatAdvisor.
• Encabezados de los Análisis: usar una fuente azul para mostrar el título del análisis en la
parte superior del panel del Resumen del Análisis.
• StatFolios: seleccione Inhabilitar Rutinas de Inicio para evitar que las rutinas de inicio se
ejecuten al momento de cargar un StatFolio.
La descripción de las otras opciones las puede encontrar en el documento PDF Preferencias.
9.2 Imprimiendo
Existen dos alternativas en el menú Archivo que controlan los reportes impresos:
4. Elija cualquiera de los 12 perfiles de usuario y pulse el botón Guardar como (los archivos
de perfil son solo de lectura).
La siguiente gráfica creada usará los atributos del Perfil recién guardado.
También puede aplicar otros perfiles guardados a una nueva gráfica, creándola con la
configuración predeterminada y posteriormente:
10
Tutorial #1: Analizando una
Muestra
Resumen estadístico, histograma, gráfico de caja y bigotes, intervalos de
confianza y pruebas de hipótesis.
Los datos fueron obtenidos del Journal of Statistical Education Data Archive
(www.amstat.org/publications/jse/jse_data_archive.html) y son usados bajo permiso. Estos han
El procedimiento Análisis Univariado puede invocarse del menú principal como sigue:
2. Si utiliza el menú Seis Sigma, elija Analizar – Datos Contínuos – Análisis Univariado.
Figura 10-2. Cuadro del Diálogo de Captura de Datos en el Análisis de una Variable
Deje el campo Seleccionar en blanco para analizar las 130 filas. Pulse ACEPTAR.
Los paneles inferiores muestran un resumen estadístico y un gráfico de caja y bigotes, que se
describen a continuación.
∑x i
1. La media o promedio de la muestra x = i =1
= 98.25 , la cual estima el centro de la
n
distribución.
∑ (x − x)
2
i
2. La desviación estándar de la muestra s = i =1
= 0.733 , que se relaciona con la
n −1
dispersión de la distribución.
Para una distribución normal, aproximadamente el 68% de todos los valores caerán dentro de
una desviación estándar de la media poblacional, aproximadamente el 95% dentro de dos
desviaciones estándar y aproximadamente el 99.73% dentro de tres desviaciones estándar.
1. Sesgo mide el grado de simetría o la falta de esta. Una distribución simétrica como la
normal tiene una nula asimetría. Las distribuciones cuyos valores tienden a caer más por
encima del pico que por abajo de éste, tienen un sesgo positivo. Las distribuciones cuyos
valores tienden a caer más por debajo del pico tienen un sesgo negativo.
2. Curtosis mide la forma de una distribución simétrica. Una curva normal o de campana
tiene cero curtosis. Una distribución con un pico mayor alrededor de la media que la
normal tiene curtosis positiva. Una distribución más aplanada tiene curtosis negativa.
Si los datos provienen de una distribución normal, tanto la asimetría estandarizada como la
curtosis estandarizada deben encontrarse dentro del rango de -2 a +2. En el caso que nos
compete, parece que la distribución normal es un modelo razonable para los datos.
Otros estadísticos muy útiles son estos cinco valores de John Tukey:
Estos cinco números dividen la muestra en cuartiles y forman la base de su gráfico de caja y
bigotes, descrita en la siguiente sección.
Figura 10-6. Cuadro de Diálogo de Preferencias Utilizado para Seleccionar Estadísticos Predeterminados
96 97 98 99 100 101
Temperature
1. Dibujando una caja que se extiende desde el cuartil inferior hasta el cuartil superior. El
50% del total de los datos son aquellos comprendidos dentro de la caja.
2. Trazando una línea vertical en la posición de la mediana, que divide los datos a la mitad.
Si los datos vienen de una distribución normal, esta línea debe encontrarse cerca del
centro de la caja.
4. Trazando los bigotes desde cada cuartil hasta las observaciones más pequeñas y más
grandes en la muestra, a menos de que algunos valores se encuentren lo bastante lejos de
a. Puntos “muy lejanos” – puntos 3 veces mayores al rango intercuartil por arriba
ó abajo de los límites de la caja. (Nota: el rango intercuartil es la distancia entre
los cuartiles, equivalente al ancho de la caja). Los puntos muy lejanos son
denotados mediante un símbolo (usualmente un cuadro pequeño) con un signo
de más sobreimpuesto. Si los datos provienen de una distribución normal y el
tamaño de la muestra es como en el ejemplo, la probabilidad de que cualquier
punto se encuentre lo suficientemente lejos de la caja para ser clasificado como
punto muy lejano es de solo 1 en 300. A menos de que haya miles de
observaciones en la muestra, los puntos muy lejanos son usualmente indicadores
de datos aberrantes reales (o de una distribución no normal).
b. Puntos “externos” – puntos 1.5 veces mayores al rango intercaurtil por arriba ó
abajo de los límites de la caja. Los puntos externos son denotados mediante un
símbolo pero sin el signo de más sobreimpuesto. Incluso cuando los datos
provienen de una distribución normal, la posibilidad de observar 1 ó 2 puntos
externos en una muestra de n = 100 observaciones es del 50% y no
necesariamente indica la presencia de un dato aberrante real. Estos puntos
deben solo ser considerados para un análisis más detallado.
El gráfico de caja y bigotes en la Figura 10-7 es razonablemente simétrico. Los bigotes tienen la
misma longitud y la media y mediana son similares y cercanas al centro de la caja. Tres puntos
externos son señalados, pero no los puntos muy lejanos. Dando clic en el dato atípico en el
extremo derecho nos indica que corresponde a la fila #15 del Archivo.
96 97 98 99 100 101
Temperature
Figura 10-8. Gráfico de Caja y Bigotes con una Muesca en la Mediana al 95%
Esto añade una muesca a la muestra abarcando un intervalo de confianza aproximado para la
mediana poblacional, usando el nivel de confidencia predeterminado del sistema (usualmente
95%). Muestra el margen de error al estimar la mediana de la temperatura de la población desde
donde se tomó la muestra. En este caso, el error muestral es apróximadamente de 0.15 grados en
ambas direcciones. Una muestra más amplia dará como resultado un márgen de error menor.
1. Si usa el menú clásico, elija Describir – Datos Numéricos – Identificación de Valores Atípicos.
2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos – Identificación de Valores Atípicos.
Especificando Temperature en el campo de Datos se genera una amplia tabla estadística, mostrada
en el panel izquierdo. De interés particular es la tabla que muestra los 5 valores más pequeños y
los 5 valores más grandes de la muestra:
xi − x
zi =
s
Un valor de 3.479 indica que una observación está 3.479 desviaciones estándar por encima de la
media de la muestra, cuando la observación se incluye en el cálculo de x y s. Los Valores
Estudentizados con Eliminación indican cuantas desviaciones estándar cada observación se
encuentra de la media de la muestra, cuando esa observación no se incluye en el cálculo. Si no se
incluye en el cálculo, la fila #15 se encuentra alejada en 3.67 desviaciones estándar.
Las observaciones a más de 3 desviaciones estándar de la muestra son inusuales, a menos que el
tamaño n de la muestra sea muy grande ó que la distribución no sea normal. Una prueba formal
puede hacerse de las siguientes hipótesis:
Hipótesis nula: El valor extremo más lejano proviene de la misma distribución normal
que las otras observaciones.
Puede ahora eliminar la fila #15 pulsando el ícono de Captura de Datos en la barra de
herramientas de análisis e introducir una expresión en el campo Seleccionar como se muestra abajo:
Figura 10-10. Cuadro de Diálogo de Identificación de Datos Aberrantes con Eliminación de estos Datos
Debido a que la fila #15 es la única observación que excede los 100 grados, entonces con la
expresión usada en el campo Seleccionar , solo se seleccionarán las otras n= 129 filas. La salida
modificada de la Identificación de Datos Aberrantes es:
Lo ideal, es que uno regrese al estudio original y tratara de encontrar una causa asignable al valor
anormal para el caso #15. Como ahora ya no es posible hacerlo, aceptaremos los resultados de la
prueba de Grubb y eliminaremos a la fila #15 de todos los cálculos subsecuentes.
Modificaremos el cuadro de diálogo de captura de datos para el Análisis Univariado de la misma
forma que en la Figura 10-10, y entonces el resumen estadístico se mostrará así:
Resumen Estadístico para Temperature
Recuento 129
Promedio 98.2295
Mediana 98.3
Desviación estándar 0.70038
Coef. de variación 0.713004%
Mínimo 96.3
Máximo 100.0
Rango 3.7
Cuartil inferior 97.8
Cuartil superior 98.7
Rango inercuartílico 0.9
Sesgo estandarizado -1.40217
Curtosis estandarizada 0.257075
Histograma
40
30
frecuencia
20
10
0
96 97 98 99 100 101
Temperature
Para cambiar temporalmente la configuración del histograma creado dar doble clic en el
histograma para maximizarlo y seleccionar Opciones de Ventana:
Histograma
18
15
12
frecuencia
0
96 97 98 99 100 101
Temperature
Los datos mostrados en el histograma pueden exhibirse en forma tabular pulsando el ícono
Tablas en la barra de herramientas de análisis y seleccionando Tabulación de Frecuencias:
Note que las observaciones son contadas cuando caen dentro de un intervalo si son mayores al
límite inferior del intervalo y menores o iguales al límite superior.
Gráfico Cuantil
0.8
proporción
0.6
0.4
0.2
0
96 97 98 99 100
Temperature
La Figura 10-18 también muestra un cursor de coordenadas. Estos son creados pulsando el
botón derecho del ratón mientras se observa la gráfica y seleccionando Localizar del menú
emergente. Ahora entonces puede usar el ratón para desplazar el cursor a cualquier sitio. Los
números pequeños cercanos al cursos indican su posición. En el gráfico anterior, el cursor ha
sido utilizado para localizar la mediana o el 50o percentil, que es el valor de temperature en el cual la
proporción mostrada en el eje vertical es igual a 0.5.
Por ejemplo, el 90o percentil es el valor de temperatura excedido solo por el 10% de los
individuos en la población. La mejor estimación de ese percentil basada en la muestra de datos es
de 99.1 grados. No obstante, dado el tamaño limitado de la muestra, el 90o percentil puede caer
en cualquier lugar entre 98.98 y 99.31 grados, con 95% de confianza.
Intervalos Bootstrap
Media: [98.1085, 98.3504]
Desviación Estándar: [0.610521, 0.780949]
Mediana: [98.1, 98.4]
Figura 10-22. Intervalos Bootstrap de Confianza de 95%
Los intervalos anteriores que fueron calculados usando la distribución t de Student y la
distribución chi-cuadrada, son emparejados lo más cerca posible por los intervalos bootstrap.
Esto no es inesperado, ya que los datos no tienen una asimetría o curtosis representativa.
Para ejecutar la prueba dentro del procedimiento Análisis Univariado, elija Pruebas de Hipótesis de la
lista de Tablas. Antes de examinar los resultados, elija Opciones de Ventana y especifique los
atributos de la prueba deseada:
Aunque la muestra sugiere una temperatura media inferior, una alternativa bilateral se ha
seleccionado. Crear una prueba unilateral con una hipótesis alternativa de μ < 98.6 grados sería
considerado en este momento como una “intromisión de datos”, ya que estaríamos formulando
la hipótesis después de haber visto los datos.
Prueba t
Hipótesis Nula: media = 98.6
Alternativa: no igual
Estadístico t = -6.00896
Valor-P = 1.81264E-8
Se rechaza la hipótesis nula para alpha = 0.05.
1. Una prueba t estándar, que supone que los datos provienen de una distribución normal
(no obstante ésta no es excesivamente sensible al incumplimiento de esta suposición).
2. Una prueba no paramétrica de Wilcoxon para muestras apareadas, basada en los rangos
de distancia de cada observación de la mediana hipotetizada. Esta prueba no asume
normalidad y es menos sensible a los datos Aberrantes que la prueba t.
NOTA: la notación E-8 después de un número significa que el número debe ser
multiplicado por 10-8. El valor-P mostrado como 1.81264E-8 equivale a
0.0000000181264.
Debe notarse que el intervalo de confianza para la media, dado en la Sección 10.8, no incluye el
valor 98.6. Cualquier valor fuera del intervalo de confianza sería rechazado por la prueba t
considerada aquí. Puede pensarse entonces que el intervalo de confianza contiene todos los
valores posibles para la población sustentada con la muestra de datos.
1. Si usa el menú clásico, elija Describir –Datos Numéricos – Límites de Tolerancia Estadística
2. Si usa el menú Seis Sigma menu, elija Analizar – Datos Continuos – Límites de Tolerancia
Estadística
El procedimiento inicia mostrando un cuadro de diálogo dentro del cual se captura el tamaño n,
la media y la desviación estándar de la muestra. Usando los resultados en la Figura 10-12, la
captura apropiada es:
El StatAdvisor
Asumiendo que los datos provienen de una distribución normal, los límites de tolerancia establecen que se puede
estar 95.0% confiados en que el 99.0% de la distribución se encuentra entre 96.2093 y 100.25. Este intervalo se
calcula tomando la media de los datos +/-2.88436 veces por la desviación estándar.
Figura 10-26. Resumen del Análisis para Límites de Tolerancia Estadística
La interpretación del StatAdvisor resume los resultados de forma concisa. El nivel de confianza
y el porcentaje de la población que está limitada puede cambiarse usando Opciones de Ventana.
También creado por el procedimiento Límites de Tolerancia Estadística esta el Gráfico de Tolerancia,
que muestra los límites de tolerancia:
0.3
0.2
0.1
0
95 97 99 101 103
x
11
Tutorial #2: Comparando Dos
Muestras
Comparaciones Gráficas y pruebas de hipótesis.
Por lo regular, los datos que se van a analizar consisten de dos muestras que posiblemente sean
de poblaciones diferentes. Para estos casos, resulta muy útil:
En el capítulo anterior Tutorial #1, se analizaron las temperaturas corporales tomadas a 130
personas. De estas personas, 65 eran mujeres y 65 hombres. En éste tutorial, compararemos
los datos correspondientes a las mujeres con aquellos de los hombres.
Para analizar los datos con las temperaturas corporales, Abrir el archivo de datos bodytemp.sf3
usando Abrir Datos en el menú Archivo – Abrir.
2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos – Comparación de Dos Muestras –
Muestras Independientes.
1. Dos Columnas de Datos – los datos para cada muestra están en diferentes columnas.
2. Columnas Código y de Datos – los datos para ambas muestras están en la misma columna y
una segunda columna contiene los códigos que diferencían a ambas muestras.
El archivo bodytemp.sf3 contiene el segundo tipo de estructura, con todas las n = 130
observaciones en una misma columna llamada Temperature, mientras una segunda columna Gender
contiene la descipción de “Mujer” y “Hombre”. En el campo Seleccionar, se incluye una
La ventana inicial del análisis contiene 4 paneles, que incluyen un resumen de los datos, un
histograma dual, un resumen estadístico por grupo y un gráfico de caja y bigotes dual.
1. La temperatura media de las mujeres es 0.25 grados superior al de los hombres. Además
la diferencia entre las medianas es de 0.30 grados.
3. Ambas muestras tienen valores de asimetría y curtosis estandarizada dentro del rango de
-2 a 2. Como se explicó en el Capítulo 10, los valores dentro de ese rango son
consistentes con la hipótesis de que los datos vienen de una distribución normal.
17
12
7
frecuencia
13
96 97 98 99 100 101
Male
En éste caso, es particularmente útil agregar muescas a la mediana accesando Opciones de Ventana.
La gráfica resultante se muestra a continuación:
Female
Male
96 97 98 99 100
Temperature
1. Una aparente separación del centro de la distribución de las mujeres hacia la derecha de
la distribución de los hombres. Tanto la media y la mediana de las muestras observan
una diferencia similar.
2. El rango cubierto por las mujeres es más amplio que el rango cubierto por los hombres,
pero solo si se incluye el punto extremo más bajo.
Basado en este gráfico, parece haber una diferencia en el centro de las dos muestras, no obstante
la significancia estadística de esta diferencia permanece en duda.
Hipótesis Nula: σ1 = σ2
Hipótesis Alternativa: σ1 ≠ σ2
Esto nos permitirá determinar si la aparente diferencia entre la variabilidad de los hombres y las
mujeres es estadísticamente significantiva, o si está dentro del rango de variabilidad normal
aleatoria para muestras de su tamaño actual.
1. Razón de Varianzas: Muestra un intervalo de confianza del 95% para la razón de varianza
de la población femenina, σ12, dividido entre la varianza de la población masculina, σ22.
Varianza. Medida de variabilidad calculada al elevar al cuadrado la desviación estándar.
(Nota: las comparaciones de variabilidad entre varias muestras están generalmente
basadas más en varianzas que en desviaciones estándar, debido a que las primeras tienen
propiedades matemáticas más atractivas.)
179/ Comparando Dos Muestras
2. El intervalo para σ12 / σ22 va desde 0.58 hasta 1.58. Esto indica que la varianza de las
mujeres puede estar en cualquier punto entre aproximadamente el 58% de la varianza de
los hombres hasta el 158% de su varianza. Esta falta de precisión es muy típica cuando
se intenta comparar la variabilidad de muestras poblacionales relativamente pequeñas.
Por lo tanto no existe una clara evidencia por la cual concluir que la variabilidad de las
temperaturas corporales de las mujeres es diferente a la variabilidad de la de los hombres.
Debe notar que esta prueba es sumamente sensible a la suposición de que las muestras vienen de
poblaciones de una distribución normal, una suposición que había sido considerada como
razonable basada en los valores de asimetría y curtosis estandarizados.
Hipótesis Nula: μ1 = μ2
Hipótesis Alternativa: μ1 ≠ μ2
Para realizar esta prueba, pulse nuevamente el ícono Tablas y seleccione Comparación de Medias.
Los resultados son:
Comparación de Medias para Temperature
Intervalos de confianza del 95.0% intervalo de confianza para la media de Gender=Female:
98.3562 +/- 0.170924 [98.1853, 98.5272]
Intervalos de confianza del 95.0% intervalo de confianza para la media de Gender=Male: 98.1046
+/- 0.173144 [97.9315, 98.2778]
Intervalos de confianza del 95.0% intervalo de confianza para la diferencia de medias
suponiendo varianzas iguales: 0.251635 +/- 0.240998 [0.0106371, 0.492632]
1. Diferencia entre las Medias (suponiendo varianzas iguales): presenta un intervalo de confianza
del 95% para la media poblacional femenina, menos la media poblacional masculina. El
intervalo para μ1 - μ2 va desde 0.01 hasta 0.49, indicando que la media de la temperatura
de las mujeres se encuentra entre los 0.01 y 0.49 grados por arriba que la media de la
temperatura de los hombres.
Note que ésta prueba fue hecha suponiendo que las varianzas de las dos poblaciones son iguales,
lo cual fue validado por la prueba F en la sección previa. Habiendo sido mostrado que las
varianzas son significativamente diferentes, una prueba t de aproximción puede solicitarse al
accesar Opciones de Ventana y deshabilitar la opción descrita como Suponer Sigmas Iguales.
Así es que parece que las mujeres provienen de una población con una temperatura media más
elevada que la de los hombres.
Gráfico Cuantil
1 Gender
Female
0.8 Male
proporción
0.6
0.4
0.2
0
96 97 98 99 100
Temperature
En el gráfico superior, es bastante evidente que la distribución de las mujeres está movida a la
derecha de los hombres. Sin embargo las pendientes de ambas, son similares.
Advertencia: Si los datos son redondeados excesivamente, esta prueba puede no ser
confiable ya que la CDF puede brincarlos en pasos grandes. Cuando sea posible, es
Gráfico Cuantil-Cuantil
para Temperature
100
99
Gender=Male
98
97
96
96 97 98 99 100
Gender=Female
12
Tutorial #3: Comparando más de
Dos Muestras
Comparando medias y desviaciones estándar, ANOVA simple, ANOM y
métodos gráficos.
Cuando los datos se encuentran en más de dos grupos, es necesario emplear técnicas diferentes a
las utilizadas en el capítulo anterior. Por ejemplo, suponga que desea comparar la fuerza de un
artículo fabricado con 4 materiales distintos. En un experimento básico, podría hacer 12
artículos usando diferentes cantidades de cada uno de los cuatro materiales con la finalidad de
compararlos. Los siguientes datos representan los resultados de tal experimento:
Existen dos formas para capturar datos de varias muestras en una hoja de datos:
2. Usando una sola columna para todos los datos y una segunda columna con los
códigos que identifican la muestra de la que proviene cada observación.
Para este ejemplo, se ha elegido usar la primera opción. Los datos para los doce artículos han
sido colocados en cuatro columnas de un archivo llamado widgets.sf6, el cual se puede abrir
seleccionando Abrir - Abrir Datos del menú Archivo.
2. Si usa el menú Seis Sigma, seleccione Analizar – Datos Continuos – Comparaciónes de Varias
Muestras – Comparación de Varias Muestras.
El segundo cuadro de diálogo solicita los nombres de las columnas que contienen los datos:
68
66
64
respuesta
62
60
58
56
A B C D
68
66
64
respuesta
62
60
58
56
A B C D
Hipótesis Nula: μA = μB = μC = μD
La información resultante del ANOVA está contenida en la tabla ANOVA, que es mostrada
inicialmente en el panel inferior izquierdo de la ventana de análisis:
La cantidad clave en la Figura 12-7 es el Valor-P. Valores-P pequeños (menores a 0.05 si se opera
en un nivel de significancia de 5%) nos llevan al rechazo de la hipótesis de medias iguales. En el
ejemplo actual, existe una pequeña duda de que las medias sean significativamente diferentes.
En la última edición del Statistics for Experimenters por Box, Hunter and Hunter (John Wiley
and Sons, 2005), se presenta una nuevo diagrama diseñado para mostrar los resultados de un
ANOVA en formato gráfico. El ANOVA Gráfico es mostrado en el panel inferior derecho:
D C B A
Grupos P = 0.0000
Residuos
-8 -4 0 4 8 12
En la Figura 12-8, el grupo A parece estar muy separado de los otros grupos. La separación de
las otras tres medias es menos clara. Una comparación más a detalle de las cuatro medias
muestrales se describe en la siguiente sección.
67
65
Media
63
61
59
A B C D
1. Intervalos LSD (Menor Diferencia Significativa) de Fisher: Estos intervalos se construyen de tal
manera que uno puede escoger un solo par de muestras y declarar que sus medias son
significativamente diferentes si los intervalos no se traslapan en dirección vertical. La
posibilidad de declarar incorrectamente que dos muestras son diferentes con éste
método está ajustada a un 5%, haciendo que las comparaciones entre muchos pares de
medias resulten erróneas en al menos un par con una probabilidad muy alta.
2. Intervalos HSD (Honesta Diferencia Significativa) de Tukey. Los intervalos se construyen con el
fin de controlar la tasa de error del tratamiento en un 5%. Usando el método de Tukey,
no se declara erroneamente algún par de medias como significativamente diferente, ya
que ésto a lo más se presenta en un 5% de los análisis que usted realice.
Los intervalos en la Figura 12-9 usan el método de Tukey. Debido a que el intervalo para la
muestra A no traslapa ningún otro intervalo, la media de la muestra A es significativamente
diferente de las otras 3 muestras. La muestra B también es significativamente diferente de la
muestra D, por la misma razón. Sin embargo, C no es significativamente diferente de B ni D.
El análisis puede mostrarse en una tabla eligiendo Pruebas de Rangos Múltiples en el cuadro de
diálogo Tablas:
El tipo de prueba puede seleccionarse usando Opciones de Ventana. Existen dos tipos de pruebas:
1. Prueba Kruskal-Wallis– es apropiada cuando cada columna contiene una muestra aleatoria
de la población. En cuyo caso, las filas no tienen un significado intrínseco.
2. Prueba de Friedman – apropiada cuando cada fila representa un bloque, i.e., el nivel de
alguna otra variable. Variables típicas de bloqueo son: día de la semana, turno o lugar de
fabricación.
Pares de medianas pueden ser además comparadas eligiendo Gráfico de Caja y Bigotes del cuadro de
diálogo Gráficas y usando Opciones de Ventana para añadir muescas en las medianas:
56 58 60 62 64 66 68
respuesta
Hipótesis nula: σA = σB = σC = σD
Contraste de Varianza
Prueba Valor-P
Levene's 0.143286 0.933432
En resumen, parece que la fuerza promedio es diferente para los distintos materiales. No
obstante, la variabilidad entre los artículos hechos del mismo material es casi igual para los
cuatro materiales.
Gráfico de Residuos
4.5
2.5
residuos
0.5
-1.5
-3.5
59 60 61 62 63 64 65
valor predicho
1. Puntos Aberrantes – residuos aislados muy alejados de todos los demás. Dichos puntos
necesitarán investigarse más detalladamente para determinar si existe una causa asignable
que explique su comportamiento inusual.
Si se desea, los residuos pueden guardarse en una columna de cualquier hoja de datos pulsando
el ícono Guardar Resultados en la barra de herramientas de análisis.
62
61
60
59
A B C D
En este caso, la interpretación es que los artículos de la muestra A son significativamente más
fuertes que el promedio, mientras que los artículos de las muestras C y D son significativamente
más debiles que el promedio. Este tipo de interpretación puede ser muy útil algunas veces.
13
Tutorial #4: Análisis de Regresión
Ajustando modelos lineales y no lineales, seleccionando el mejor modelo,
graficando residuos y presentando resultados.
Donde el subíndice i representa la observación i-ésima en la muestra de datos, las β son los
coeficientes desconocidos del modelo y la ε es una desviación aleatoria que normalmente se
asume proviene de una distribución normal con media 0 y desviación estándar σ.
Dado un conjunto de datos con una variable de respuesta Y y una o más variables conocidas, el
objetivo del análisis de regresión es construir un modelo que:
1. Describa las relaciones existentes entre las variables, de tal forma que permita que Y sea
bien predicha, dados los valores conocidos de las X.
2. No contenga más variables X que las necesarias para generar una buena predicción.
La consideración anterior es a veces referida como parsimonia. Típicamente, los modelos que
involucran un conjunto bien seleccionado de predictores se desempeñan mejor en la práctica.
2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos – Métodos Multivariados – Análisis
de Múltiples Variables.
Figura 13-1. Cuadro de Diálogo de Captura de Datos para Análisis de Múltiples Variables
El gráfico mátriz a la derecha muestra gráficos X-Y para cada par de variables:
Engine Size
Horsepower
Length
Weight
Wheelbase
Width
Para determinar si dos variables están ó no están relacionadas entre sí, se calcula un Valor-P para
cada coeficiente de correlación. Cualquier par de variables cuyo Valor-P sea menor a 0.05 exhibe
una correlación lineal estadísticamente significativa en un nivel de significancia del 5%.
El renglón superior muetsra la correlación entre MPG City y los 6 predictores. La correlación
más fuerte es con Weight, en -0.8431. El signo negativo implica que cuando se incrementa Weight,
MPG City decrece, lo cual no es ninguna sorpresa.
En la ecuación superior, β1 es la pendiente de la línea en unidades de millas por galón por libra,
mientras que βo es la Y-intercepta. Para ajustar este modelo:
2. Si usa el menú Seis Sigma, elija Mejorar – Análisis de Regresión – Un Factor– Regresión Simple.
Coeficientes
Mínimos Cuadrados Estándar T
Parámetro Estimado Error Estadístico Valor-P
Intercepto 47.0484 1.67991 28.0064 0.0000
Pendiente -0.00803239 0.000536985 -14.9583 0.0000
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 2065.52 1 2065.52 223.75 0.0000
Residuo 840.051 91 9.23133
Total (Corr.) 2905.57 92
1. Coeficientes: los coeficientes del modelo estimado. El modelo ajustado que será
utilizado para hacer predicciones es:
3. Valor-P del modelo: prueba la hipótesis nula de que el modelo ajustado no es mejor
que un modelo que no incluya Weight. Un Valor-P abajo de 0.05, como en el ejemplo
actual, indica que Weight es un predictor muy útil de MPG City.
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
Es adecuado tomar nota que 3 observaciones en valores bajos de Weight caen mucho más allá de
los límites predictivos del 95%. Esto puede ser indicativo de datos aberrantes o de una falla del
modelo en tomar en cuenta la no linealidad de la relación actual entre MPG City y Weight.
1
= β0 + β1Weight + ε
MPGCity
Para ajustar un modelo Y-Recíproco, pulse el ícono de Opciones de Análisis y elija Y-Reciproco en el
cuadro de diálogo. El resultado del ajuste se muestra abajo:
45
MPG City
35
25
15
1600 2100 2600 3100 3600 4100 4600
Weight
2.3
0.3
-1.7
-3.7
1600 2100 2600 3100 3600 4100 4600
Weight
La selección Residuos Inusuales en el cuadro de diálogo Tablas enlista todos los residuos
estudentizados mayores a 2 en valor absoluto:
2. Si usa el menú Seis Sigma, elija Mejorar – Análisis de Regresión – Varios Factores – Regresión
Múltiples.
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 0.0155897 0.0177088 0.880334 0.3811
Engine Size 0.00072849 0.000980504 0.742974 0.4595
Horsepower 0.0000132632 0.000014911 0.889485 0.3762
Length -0.000101355 0.0000608857 -1.66468 0.0996
Weight 0.0000149727 0.00000242804 6.1666 0.0000
Wheelbase -0.000148122 0.000163073 -0.908321 0.3662
Width 0.000223526 0.00028967 0.771658 0.4424
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrada Media Razón-F Valor-P
Modelo 0.00705967 6 0.00117661 67.64 0.0000
Residuo 0.001496 86 0.0000173954
Total (Corr.) 0.00855567 92
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre
1/MPG City y 6 variables independientes. La ecuación del modelo ajustado es
Puesto que el valor-P en la tabla ANOVA es menor que 0.05, existe una relación estadísticamente significativa
entre las variables con un nivel de confianza del 95.0%.
Figura 13-14. Resumen del Análisis de Regresión Múltiple con 6 Variables Conocidas
Note que el estadístico R-cuadrada ha crecido hasta un 82.5%. Como sea, el modelo es
innecesariamente complicado. Cerca de la parte superior hay una columna de Valores-P. Estos
Valores-P prueban la hipótesis de que el coeficiente de una variable al azar es igual a 0, dado que
Exceptuando por Weight, todos los predictores tienen valores-P > 0.05. Esto implica que al
menos uno de esos predictores puede ser eliminado sin afectar al modelo significativamente.
Nota: Sería un error en este punto asumir que las 5 valores conocidas con Valores-P >
0.05 pueden ser eliminadas. Debido a la alta multicolinearidad en los datos, todos los
valores-P pueden cambiar drásticamente incluso si una variable es eliminada del modelo.
Un método útil para simplificar el modelo es realizar una regresión por pasos . En esta, las
variables son añadidas o eliminadas del modelo de regresión una a la vez, con el objeto de
obtener un modelo que contenga solo predictores significativos pero sin excluir variables útiles.
La regresión por pasos esta disponible en el cuadro de diálogo Opciones de Análisis:
2. Selección Hacia Atrás – inicia el modelo incluyendo todas las variables y las va eliminando
una a la vez, hasta que las variables restantes sean estadísticamente significativas.
En ambos métodos, las variables eliminadas pueden ser reintegradas más tarde si estas parecen
ser predictores útiles, o que las variables previamente integradas pueden ser eliminadas más tarde
si dejan de ser significativas.
Al ejecutar una selección hacia atrás nos dá como resultado el siguiente modelo:
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrada Media Razón-F Valor-P
Modelo 0.00696044 2 0.00348022 196.35 0.0000
Residuo 0.00159524 90 0.0000177249
Total (Corr.) 0.00855567 92
El StatAdvisor
La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre 1/MPG
City y 6 variables independientes. La ecuación del modelo ajustado es
Una vez que se ha encontrado una ecuación matemática, se puede interpretar mejor graficando
esa ecuación. Cuando el modelo contiene 2 predictores, la ecuación representa una superficie en
3 dimensiones, normlamente conocida superficie de respuesta. En este caso, la ecuación ajustada
corresponde a un plano, debido a que Horsepower y Weight se integran al modelo de forma lineal.
En el cuadro de diálogo de captura de datos, capture el modelo, expresando las dos variables
conocidas como X y Y. El modo más fácil para hacer esto es pegando la ecuación generada por
el procedimiento de Regresión Múltiple, y cambiando Horsepower por la X y Weight por la Y:
Cuando pulse ACEPTAR, se generará un gráfico de superficie. El gráfico inicial toma la forma
de una superficie de malla de alambre:
(X 0.001)
72
62
Función
52
42
32 4500
4000
3500
22 3000
2500
0 50 100 150 2000
200 250 300 1500 Y
X
• Cambie la escala del eje-Y que vaya de 1500 a 4500 cada 1000.
0.0034427+0.0000260839*X+0.0000129513*Y
Función
0.02
(X 0.001) 0.03
72 0.04
62 0.05
0.06
Función
52 0.07
42
32 4500
4000
3500
22 3000
2500
0 50 100 150 2000
200 250 300 1500 Y
X
14
Tutorial #5: Analizando Datos
Categóricos
Tabulación, tablas de contingencia y Análisis de Pareto.
Cada uno de los cuatro primeros tutoriales trata con datos continuos, en donde las
observaciones son representadas numéricamente a lo largo de una escala contínua. Este tutorial
examina un conjunto de datos categóricos, en los cuales cada observación representa un atributo
clasificado, en lugar de una medición.
Como ejemplo, considere los datos contenidos en el archivo defects.sf6. Una porción de este
archivo se muestra abajo:
Defect Facility
(Defecto) (Fábrica)
Desalineado Virginia
Contaminado Texas
Contaminado Virginia
Contaminado Texas
Partes Faltantes Texas
Desalineado Virginia
Contaminado Texas
Derrame Texas
Dañado Virginia
Contaminado Texas
2. Si usa el menú Seis Sigma, elija Analizar – Datos Categóricos – Un Factor - Tabulación.
Los datos categóricos a capturar en el cuadro de diálogo deben estar contenidos en una sola
columna:
2. Si usa el menú Seis Sigma, elija Analizar – Datos Categóricos – Un Factor – Análisis de Pareto.
El cuadro de diálogo para la captura de datos debe llenarse como se muestra a continuación:
2. Cantidades para datos que ya han sido agrupados por tipo de defecto. Esto es aplicable
si se tienen dos columnas, una que identifique los tipos de defecto y una segunda que
contenga el número de ocurrencias para cada tipo de defecto.
2. Pulse el botón de Opciones Gráficas en la barra de herramientas del análisis, dando clic en
el separador eje-X y habilitar la opción Rotar Etiquetas del Eje-X.
3. Después de salir del cuadro de diálogo Opciones Gráficas, las etiquetas puede que no se
ajusten completamente en la pantalla. En este caso, mantenga presionado el botón
secundario del ratón en el cuerpo de la gráfica y desplácela hacia arriba ó, posicione el
puntero en la esquina del eje-X para reducir el tamaño de los ejes.
Cuando haya terminado, el gráfico de Pareto debe lucir como el que se muestra a continuación.
60 44.17
40
20
Missing parts
Contaminated
Misaligned
Damaged
Rusted
Leaking
Wrong size
Misshapen
Poor color
El principio básico de Pareto establece que la gran mayoría de los defectos suceden en un
pequeño número de causas posibles. En este caso, los 3 tipos de defectos más frecuentes
contemplan el 80% de todos los posibles defectos.
2. Si usa el menú Seis Sigma, elija Analizar – Datos Categóricos – Varios Factores – Tabulación
Cruzada.
En el cuadro de diálogo para la captura de datos se emplean dos columnas, una que define las
filas de la tabla de frecuencias de dos vías ó tabla de contingencia y otra que define las columnas:
Con Opciones de Ventana puede seleccionar otros conceptos a mostrarse en cada celda:
Otras gráficas también pueden ser muy útiles. Por ejemplo, el diagrama de barras muestra los
datos tanto por defecto como por fábrica:
Facility
Contaminated Texas
Damaged Virginia
Leaking
Misaligned
Defect
Misshapen
Missing parts
Poor color
Rusted
Wrong size
0 10 20 30 40
frecuencia
Facility
Texas
Contaminated Virginia
Damaged
Leaking
Misaligned
Misshapen
Missing parts
Poor color
Rusted
Wrong size
Si así lo desea, las frecuencias de cada celda pueden mostrarse en tres dimensiones seleccionando
el Gráfico de Rascacielos desde el cuadro de diálogo Gráficas:
40
30
frecuencia
20
10
Virginia
0
Texas
Contaminated
Damaged
Leaking
Facility
Misaligned
Misshapen
Missing parts
Poor color
Rusted
Wrong size
Defect
Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 18.438 8 0.0182
Advertencia: algunas celdas contienen menos de 5 casos.
Figura 14-14. Prueba de Independecia Chi-Cuadrada
La prueba chi-cuadrada se utiliza para decidir entre dos hipótesis:
Hipótesis Nula: las clasificaciones de las filas y de las columnas son independientes.
La independencia implicará que el tipo de defecto encontrado en un artículo no tiene nada que
ver con la fábrica en la que fue manufacturado.
Sin embargo, también se muestra una advertencia, debido a que las sumas de algunas celdas en la
tabla de dos vías son menores a 5. (Técnicamente, la advertencia ocurre siempre que la suma
esperada de cualquier celda sea menor a 5, asumiendo que la hipótesis nula es verdadera). Con
celdas de sumas pequeñas, el valor-P puede ser desconfiable. Una solución a este problema es
agrupar todos los tipos de defecto poco frecuentes en una sola clase y reiniciar el análisis. Esto
puede hacerse fácilmente en STATGRAPHICS Centurion del modo siguiente:
2. Pulse el botón derecho del ratón y elija Recodificar Datos del menú que se presenta.
3. Llenar el cuadro de diálogo Recodificar Datos como se muestra en la siguiente página para
combinar los tipos de defecto menos comunes en una sola columna descrita como
“Other”:
Facility
Texas
Contaminated Virginia
Damaged
Misaligned
Other
Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 11.874 3 0.0078
El StatAdvisor
Esta tabla muestra los resultados de la prueba de hipótesis ejecutada para determinar si se rechaza, o no, la idea de que las
clasificaciones de fila y columna son independientes. Puesto que el valor-P es menor que 0.05, se puede rechazar la
hipótesis de que filas y columnas son independientes con un nivel de confianza del 95.0%. Por lo tanto, el valor observado
de Defect para un caso en particular, está relacionado con su valor en Facility.
Figura 14-17. Prueba Chi-cuadrada Después de Recodificar Datos
Por lo que parece que el tipo de defecto está ciertamente relacionado con la fábrica en donde el
artículo fue producido.
Debe tomarse en cuenta que la prueba compara la distribución de tipos de defecto entre las dos
fábricas. No compara los números o porcentajes de los artículos defectuosos en cada locación.
Tal comparación requiere una prueba diferente, como se explica en la siguiente sección.
Hagamos que θ1 sea la proporción de artículos defectuosos producidos en Texas y que θ2 sea la
proporción de artículos defectuosos producidos en Virginia. Las proporciones estimadas están
dadas por:
67 53
θˆ1 = = 0.0107 θˆ2 = = 0.0072
6237 7343
Pruebas de Independencia
Prueba Estadístico Gl Valor-P
Chi-Cuadrada 4.783 1 0.0287
15
Tutorial #6: Análisis Capabilidad
de Procesos
Determinando los DPM o el porcentaje más allá de los límites de especificación
Como ejemplo, considere un producto cuya fuerza debe estar entre 190 y 230 psi. Ahora
suponga que son tomadas n = 100 mediciones de fuerza, cuyos valores son:
213.5 203.3 191.3 197.1 205.7 215.6 193.7 201.7 201.5 207.1
207.0 200.4 197.2 202.4 205.2 211.0 214.5 201.5 200.9 206.8
205.8 200.3 196.1 205.9 195.1 203.9 192.9 199.0 195.5 203.1
197.4 194.8 201.0 202.5 199.0 200.7 197.6 198.5 205.3 197.1
202.8 201.6 197.4 200.9 203.3 209.4 201.4 199.5 207.8 204.9
205.5 203.0 208.1 200.2 218.2 202.0 209.3 201.2 200.4 201.0
195.7 229.5 199.9 208.1 210.3 202.0 202.6 213.6 198.0 197.8
196.7 216.0 211.6 208.7 199.4 200.8 201.1 195.3 206.8 211.3
201.5 200.0 211.8 195.6 201.9 199.0 200.3 197.8 200.8 194.8
199.5 195.5 201.0 206.0 215.3 202.6 199.9 200.6 197.6 207.4
1. Todos los datos apenas caen dentro de los límites de especificación, en un rango de
191.3 hasta 229.5
3. Si maximiza el panel Resumen Estadístico, verá que el sesgo estandarizado es igual a 4.94.
Si los datos procedieran de una distribución normal, el valor debería estar entre -2 y +2.
Aún eliminando el valor más grande de los datos, el sesgo estandarizado solo se reduce a
2.81.
Histograma
24
20
16
frecuencia
12
0
180 190 200 210 220 230 240
Strength
Datos no-normales como los del ejemplo son muy comúnes de encontrar. Una acción típica
para tratar estos datos, es simplemente ignorar la no-normalidad y calcular índices como Cpk
usando fórmulas diseñadas para datos de distribución normal. Como se verá en este tutorial, el
ignorar la no-normalidad puede originar resultados incorrectos, siendo amenudo una mala
estimación del porcentaje de productos que están más allá de los límites de especificación.
1. Si usa el menú Clásico, elija CEP – Análisis de Capabilidad – Variables – Valores Individuales.
2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos– Análisis de Capabilidad de
Proceso- Valores Individuales.
El cuadro de captura de datos solicita el nombre de la columna que contenga los datos. Los
datos del ejemplo se encuentran en una columna llamada Strength en el archivo items.sf6:
16 Cp = 1.16
frecuencia
Pp = 1.07
12 Cpk = 0.74
Ppk = 0.68
8
K = -0.36
4
0
180 190 200 210 220 230 240
Strength
1. La distribución normal ajustada no concuerda muy bien con los datos. Aunque la curva
normal tiene la misma media y desviación estándar que los datos, el sesgo en los datos
hace que la curva no logre emparejarse adecuadamente con las barras del histograma.
4. Las líneas ubicadas en más y menos 3 sigma están pegadas suficientemente para ajustarse
dentro de las especificaciones. Sin embargo, están movidas a la izquierda.
Transformación: ninguna
Distribución: Normal
tamaño de muestra = 100
media = 202.809
desv. est. = 6.23781
En la tabla superior, la prueba Shapiro-Wilks claramente rechaza la hipótesis de que los datos
provienen de una distribución normal. Entonces, cualquier valor estimado de DPM o índices
de capabilidad basados en la suposición de normalidad son inválidos.
Cuando los datos son no-normales, cualquiera de estas dos propuestas debe ser considerada:
2. Transforme los datos para que sigan una distribución normal en la métrica transformada.
Puede cambiarse a la distribución del mayor valor extremo, accesando Opciones del Análisis:
16 Cp = 1.08
frecuencia
Pp = 1.05
12 Cpk = 0.99
Ppk = 0.96
8
K = -0.26
4
0
180 190 200 210 220 230 240
Strength
En el Resumen del Análisis se detecta una diferencia considerable en el porcentaje estimado del
producto con tendencia a quedar fuera de especificaciones, comparado con el anterior, usando
una distribución normal ajustada:
Transformación: ninguna
Figura 15-11. Resumen del Análisis después de Ajustar con la Distribución del Mayor Valor Extremo
El porcentaje estimado fuera de especificaciones ahora es solamente del 0.23 por ciento ó 2,256
DPM, una décima parte de lo estimado por la distribución normal. En este ejemplo, el asumir
incorrectamente una distribución normal hizo que el proceso se viera mucho peor de lo que
realmente es.
Una alternativa para seleccionar una distribución diferente es transformar los datos. El cuadro de
Opciones de Análisis ofrece numerosas opciones para seleccionar una Transformación de Datos:
16 Cp = 1.02
frecuencia
Pp = 0.99
12 Cpk = 0.93
Ppk = 0.90
8
K = 0.31
4
0
180 190 200 210 220 230 240
Strength
Para comparar los dos planteamientos, el Gráfico de Probabilidad puede ser seleccionado dentro del
cuadro de Gráficas para cada planteamiento y pegarse uno al lado del otro en el StatGallery:
⎛ μˆ − LSL USL − μˆ ⎞
C pk = min⎜ , ⎟
⎝ 3σˆ 3σˆ ⎠
De manera breve, Cpk es la distancia mínima desde la media estimada del proceso hasta
cualquiera de los límites de especificación, dividido entre 3 veces el sigma estimado del proceso.
El separador Capabilidad dentro del cuadro de Preferencias, encontrado bajo Editar en el menú
principal del STATGRAPHICS, especifica que índices serán calculados de forma
predeterminada, así como también otras opciones de interés especial:
USL − LSL
Cp =
6σ̂
Este índice mide la distancia entre los límites de especificación con relación a la distancia
abarcada por 6 desviaciones estándar. Cp siempre será mayor o igual a Cpk. Una
diferencia substancial entre los dos índices implica que el proceso no esta bien centrado.
2. K – medida de que tan alejado del centro se encuentra el proceso. K se calcula así
μˆ − NOM
K=
(USL − LSL ) / 2
3. Nivel de Calidad Sigma – índice utilizado en la metodología Seis Sigma para indicar el nivel
de calidad asociado con un proceso. Un Nivel de Calidad Sigma de 6 es generalmente
asociado con el parámetro de 3.4 defectos por millón.
Adicionalmente a los índices de capabilidad, la tabla en la Figura 15.15 contiene los intervalos de
confianza que muestran el margen de error al estimar esos índices. Por ejemplo, en la tabla se
muestra un Cpk de 0.74. Los intervalos de confianza al 95% comprenden de 0.62 a 0.86. Esto
indica que el verdadero Cpk en el proceso del cual los datos fueron muestreados, puede estar en
cualquier lugar dentro del rango de 0.62 y 0.86.
Cuando los datos no siguen una distribución normal, es necesario modificar los índices de
capabilidad. La opción predeterminada en el cuadro de Preferencias calcula índices no-normales,
primero calculando los valores-Z equivalentes para la distribución no-normal ajustada. Para una
distribución normal, los valores-Z miden el número de desviaciones estándar entre la media del
proceso y un límite de especificación y está directamente relacionado a la probabilidad de que
3. Indique el valor que desea sea asumido para el cambio a largo plazo en la media del
proceso. En la metodología Seis Sigma, a menudo se supone que la media del proceso,
oscilará alrededor de su valor a largo plazo en 1.5 sigmas.
Si asumimos que la media del proceso no cambia, un Cpk de 1.33 equivale a cerca de 33 defectos
por millón fuera de la especificación más cercana.
16
Tutorial #7: Diseño de Experimentos
Diseñando un experimento para ayudar a mejorar un proceso.
Todos los datos son creados de manera diferente. A menudo, un pequeño estudio bien planeado
ofrece más información que uno grande erróneamente diseñado. Este último tutorial examina algunas
de las capacidades del STATGRAPHICS Centurion para crear y analizar diseños de experimentos.
Consideremos el caso de un ingeniero que desea determinar cuál de las muchas variables de un
proceso es la que tiene mayor impacto en el producto final. Intentará investigar el impacto de estos 5
factores: temperatura de entrada, velocidad de flujo, concentración, velocidad de agitación y
porcentaje del catalizador. En la práctica, existen varios planteamientos para tratar el problema,
incluyendo:
1. Prueba y error: seleccionando arbitrariamente una combinación diferente de los factores, cada
vez que corre un experimento. Dicho planteamiento raramente ofrece información útil.
2. Experimentar con un factor a la vez: considerando solo un factor constante, para determinar su
efecto en ese expermiento. Este planteamiento es extremadamente ineficiente y puede
llevarnos a conclusiones incorrectas en caso de que cualquiera de los factores interactúe.
3. Usar un diseño de experimentos estadístico: estableciendo una serie de experimentos que generen la
mayor información acerca de los factores y su interacción entre ellos, en el menor número de
experimentos como sea posible.
Este tutorial describirá cómo se construye un diseño de experimentos usando el tercer planteamiento,
y como serán analizados los resultados.
1. Si usa el menú Clásico, elija DDE – Crear Diseño – Selección de Diseños de Cribado.
2. Si usa el menú Seis Sigma, elija Mejorar – Crear Diseños de Experimentos – Selección de Diseños de
Cribado.
4. Factoriales de Niveles Mixtos – corre un factor a 3 niveles, y los demás son corridos en 2.
o Resolución V, estima todos los efectos principales e interacciones entre dos factores.
o Resolución IV, estima todos los efectos principales, pero algunas interacciones de dos
factores están confundidas con otras interacciones o efectos de bloque.
o Rresolución III, estima solo los efectos principales, requiriendo para su interpretación
adecuada que no se presenten interacciones.
• Mínimo de Puntos Centrales por Bloque: especifica el menor número de puntos centrales
deseados en cada bloque. Los puntos centrales son corridas experimentales en el centro de la
región experimental y usualmente son utilizados para crear réplicas de las cuales estimar el
• Sigma del error experimental: la desviación estándar del proceso experimental. Esta es la
desviación estándar que se observará para corridas repetidas con un mismo conjunto de
condiciones experimentales. En estudios previos, se pensó que este valor estaría alrededor de
0.5 para rendimiento, que fue considerado como el parámetro más importante.
En este caso, el ingeniero consideró un 90% de probabilidad para detectar un efecto igual a 3
veces el sigma del error experimental. Cualquier efecto menor a esto sería desechado para
Al pulsar ACEPTAR una vez más, se presenta una ventana de análisis enlistando los diseños
experimentales más pequeños de cada tipo que cumplan con los requerimientos definidos:
Diseños Selecionados
Puntos Puntos G.L.
Diseño Corridas Resol. Esquina Centrales Error Reps. Bloques Power (%)
Factoriales en 4 bloques 2^5 32 V* 32 0 13 1 4 99.9987
Media fracción en 2 bloques 20 IV* 16 4 4 1 2 98.4379
El StatAdvisor
La tabla muestra 2 diseños experimentales que tienen, al menos, un 90.0% de probabilidades de detectar un efecto de
magnitud 1.5. Ninguno de los diseños tienen más de 10 corridas en cada bloque.
Figura 16-3. Diseños de Cribado Seleccionados
Se sugieren dos diseños:
1. Un diseño factorial 25 completo que consiste de todas las combinaciones a 2 niveles de cada
uno de los 5 factores experimentales. Este es un diseño relativamente grande con 8
corridas en cada uno de los 4 bloques. Tiene mucho más potencial que el solicitado.
2. Una media fracción en 2 bloques de 10 corridas cada uno. Cada bloque consiste de 8
factoriales o puntos esquinados y 2 puntos centrales. El diseño es de resolución IV
pudiendo estimar todos los efectos principales y algunas interacciones entre dos factores.
Un cálculo rápido revela que dados 5 factores, los efectos de un interés práctico son:
a. 1 media global
b. 5 efectos principales
c. 10 interacciones de dos factores
d. 1 efecto de bloque
Debido a que el segundo diseño es más pequeño que el primero, el ingeniero lo seleccionó.
2. Si usa el menú Seis Sigma, elija Mejorar – Crear Diseños de Experimentos – Nuevo Diseño.
Se presentará una serie de cuadros de diálogo en los cuales podremos configurar el diseño. El primer
cuadro de diálogo solicita el tipo de diseño, el número de variables de respuesta y el número de
factores experimentales:
El segundo cuadro de diálogo es utilizado para determinar los factores experimentales y el rango sobre
el cual variarán:
Estos límites fueron establecidos para abarcar un rango de operación razonable en el proceso.
Nombre Unidades
rendimiento gramos
fuerza psi
En este caso, el ingeniero seleccionó una fracción media en dos bloques de 8 corridas cada uno.
2. Posicionamiento: la posición de los puntos centrales. Las opciones más comunes son Aleatorio,
que dispersa los puntos centrales aleatoriamente a traves de las otras corridas y Espaciado, que
separa los puntos centrales uniformemente a traves del diseño.
4. Aleatorizar: si las corridas deben enlistarse en orden aleatorio. La aleatoriedad debe hacerse
siempre que sea posible para prevenir que variables externas no consideradas (como cambios
en el proceso a traves del tiempo) puedan influir en los resultados.
Para el experimento del ejemplo, se solicitaron cuatro puntos centrales, llevando el diseño final hasta
las 20 corridas. También se solicitó que el diseño se realice en orden aleatorio, que significa que el
orden de las 10 corridas dentro de cada bloque será generado aleatoriamente.
El StatAdvisor
La estructura alias muestra que efectos principales e interacciones están confundidos unos con otras. Puesto que este
diseño de resolución IV, los efectos principales estarán libres de las interacciones de dos factores. No obstante, al menos
una interacción de dos factores estará confundida con otra interacción de dos factores ó con el efecto de bloques. No será
capaz de estimar estas interacciones. Verifique la tabla para determinar cuales interacciones están confundidas.
Figura 16-11. Estructura de Alias del Diseño Seleccionado
Cada línea de la tabla indica una cantidad que puede estimarse por el experimento seleccionado.
Un concepto como “A” indica que el efecto principal del factor A puede estimarse libre de
cualequier otro efecto. “AB” se refiere a la interacción entre los factores A y B, que también está
libre de los otros efectos. El único contraste que muestra confusión entre los dos efectos es el
número 13, en el cual la interacción CD aparece junto con el efecto del bloque. Esto implica
que el diseño puede estimar la combinación de la interacción CD además de cualquier diferencia
entre los bloques 1 y 2, pero sin poder separar esos dos efectos.
Note que el diseño ha sacrificado arbitrariamente la capacidad de estimar la interacción entre los
factores C y D, que son la concentración y la velocidad de agitación. Si esta es una interacción que el
ingeniero cree ser importante, debe cambiar el orden de las variables, de manera que C y D
correspondan a dos variables que no parezcan interactuar.
2. Si usa el menú Seis Sigma, elija Mejorar – Análisis de Diseños de Experimentos – Analizar Diseño.
1. Resumen del Análisis: enlista los efectos principales estimados y las interacciones.
2. Tabla ANOVA: contiene los valores-P que pueden usarse después para probar la
significancia estadística de cada efecto.
4. Gráfico de Efectos Principales: grafica el cambio estimado en la respuesta cuando cada uno
de los factores es movido desde su nivel inferior hasta su nivel superior.
El gráfico de Pareto estandarizado en la esquina superior derecha puede usarse para fácilmente
determinar que efectos son los más importantes:
A:temperature
AB +
C:concentration -
E:catalyst
AC
AE
D:agitation rate
B:flow rate
DE
AD
BD
BE
BC
CE
CD+bloque
0 4 8 12 16
Efecto estandarizado
El Gráfico de Efectos Principales en el panel inferior derecho muestra cómo cada factor afecta el
rendimiento:
86
85
yield
84
83
82
Para graficar la interacción entre temperatura y velocidad de flujo, primero elija Gráfico de Interacciones
en el cuadro Gráficas. Luego use Opciones de Ventana para seleccionar solo esos dos factores:
88
flow rate=12.0
86
yield
84 flow rate=10.0
flow rate=10.0
82
flow rate=12.0
80
150.0 180.0
temperature
Antes de utilizar el modelo estadístico que soporta a este análisis, es importante eliminar los
efectos no significativos. Para eliminar estos efectos:
3. En el cuadro Opciones para Excluir Efectos, dar doble clic en cualquiera de los efectos que
deseé excluir y lo arrastra de la columna Incluir a la columna Excluir:
Habiendo eliminado los efectos, el Gráfico de Pareto aparece como se muestra a continuación:
A:temperature +
-
AB
C:concentration
E:catalyst
B:flow rate
0 3 6 9 12 15
Efecto estandarizado
El StatAdvisor
Esta ventan despliega la ecuación de regresión que se ha ajustado a los datos. La ecuación del modelo ajustado es
88
86
yield
84
82
12
11.6
80 11.2
10.8
150 155 10.4
160 165 170 10
175 180 flow rate
temperature
El tipo de gráfico y los factores con los que se grafica la superficie de respuesta pueden ser
cambiados usando Opciones de Ventana:
1. Superficie: grafica la ecuación ajustada como una superficie 3-D con respecto a
cualesquiera 2 factores experimentales. La superficie puede ser una malla, un color sólido,
o niveles de contorno para la respuesta. Contornos Abajo incluye contornos en la cara
inferior de la gráfica.
El ícono Factores se utiliza para seleccionar los factores que definen los ejes de los gráficos y los
valores constantes que conservan los otros factores :
84
82
12
11.6
80 11.2
10.8
150 155 10.4
160 165 170 10
175 180 flow rate
temperature
11.2
85.0
86.0
10.8
10.4
10
150 155 160 165 170 175 180
temperature
Optimizar Respuesta
Meta: maximizar yield
Los puntos a lo largo de la Ruta de Máxima Pendiente se generan al seleccionar Ruta de Máxima
Pendiente en el menú Tablas. El cuadro Opciones de Ventana controla el sitio donde se generan los
puntos. En el cuadro de diálogo, elija el factor a escalar, la cantidad a incrementar y el número
de pasos:
Estadísticas básicas: Applied Statistics and Probability for Engineers, 3a Edición, por Douglas C.
Montgomery y George C. Runger (2003). John Wiley and Sons, New York.
Análisis de varianza: Applied Linear Statistical Models, 5a Edición, por Michael H. Kutner,
Christopher J. Nachtsheim y John Neter (2004). McGraw Hill.
Análisis de Regresión: Applied Linear Regression, 3a Edición, por Sanford Weisberg (2005). John
Wiley and Sons, New York.
Control Estadístico de Proceso: Introduction to Statistical Quality Control, 5a Edición, por Douglas
C. Montgomery (2005). John Wiley and Sons, New York.
Estos datos fueron tomados del Archivo de Datos del Journal of Statistical Education (JSE).
Fueron recopilados por Robin Lock del Departamento de Matemáticas de la Universidad de St.
Lawrence y son utilizados con su previa autorización. Un artículo asociado con el archivo de
datos aparece en el Journal of Statistics Education, Volúmen 1, Número 1 (Julio 1993).
bodytemp.sf3
Estos datos también fueron tomados del Archivo de Datos del Journal of Statistical Education
(JSE). Fueron recopilados por Allen Shoemaker del Departamento de Psicología en Calvin
College y son usados con su previa autorización. Los datos se derivna de un artículo en el Journal
of the American Medical Association (1992, vol. 268, pp. 1578-1580) titulado "A Critical Appraisal of
98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl
Reinhold August Wunderlich" por P. A. Mackowiak, S. S. Wasserman, y M. M. Levine. Un
artículo asociado con el archivo de datos aparece en el Journal of Statistics Education, Volúmen 4,
Número 2 (Julio 1996).
Sitio web con Archivos de Datos del Journal of Statistical Education (JSE):
http://www.amstat.org/publications/jse/jse_data_archive.htm
286/Archivos de Datos
Indice
ABS, 46 bloques, 259
Actualizar Fórmulas, 45 bondad de ajuste, 244
actualizar vínculos, 144 buscando pruebas y estadísticas, 139
administrador de la licencia, 7 Calculadora Seis Sigma, 254
aleatorizar, 266 campo de selección, 65
Análisis de Capabilidad, 240 código de activación, 7
análisis de capabilidad de proceso, 237 coeficientes de regresión, 276
análisis de correlación, 200 columnas de datos
análisis de medias, 198 comentario, 14, 34
Análisis de Pareto, 222 nombre, 14, 33
análisis de regresión, 199 tipo, 14, 34
Análisis de Una Variable, 20, 149, 238 Comparación de Dos Muestras, 173
análisis de varianza, 190 Comparación de Varias Muestras, 186
Analizar Diseño, 270 condicionadas variables, 138
AND, 66 Configurar Impresión, 145
ANOM, 198 Configurar Página, 78
ANOVA, 190 confusión, 269
ANOVA Gráfico, 191 consultas ODBC, 40
Archivos ASCII, 37 contrato de la licencia, 2
Archivos de Datos COUNT, 58
lecturas en intervalos, 61 Cp, 253
leyendo, 35 Cpk, 251
solo lectura, 61 cuadro de diálogo captura de datos, 64, 67
Archivos Excel, 37, 39 cuartiles, 152
Archivos HTML, 116 curtosis, 153
Archivos XML, 37 datos
asimetría (sesgo), 153 acceso, 35
Atributos del Diseño de Cribado, 267 archivos, 17
Aumentar Diseño, 282 captura, 11
Autoguardar, 71, 144 combinar columnas, 51
AVG, 46 copiar, 41
barra de herramientas de análisis, 23, 67 cortar, 41
287/ Indice
eliminar, 41 desviación estándar, 47
generando, 56 diferencias sucesivas, 46
hoja de datos, 11 función exponential, 46
insertar, 41 logaritmo base 10, 46
nuevas variables, 41 logaritmo natural, 46
ordenando, 49 máximo, 46
patrones, 56 mínimo, 46
pegar, 41 promedio, 46
recodificar, 50, 232 raíz cuadrada, 47
transformando, 45 restraso por k periodos, 46
datos aberrantes, 157, 197 valor absoluto, 46
datos categóricos, 220 FTP, 117
desviación estándar, 153 Generación de Datos, 48, 58
diagrama de barras, 222, 229 gráficas
diagrama de sectores, 222 agregando texto, 96
DIFF, 46 blanco y negro, 144
dígitos significativos efectos 3D, 84
establecer predeterminados, 143 escala de los ejes, 93
directorio de archivos escala de potencia en los ejes, 144
temporal, 145 escala logaritmica, 94
diseñado de experimentos, 257 etiquetas, 145
diseños de cribado, 258 excluyendo puntos, 76
diseños factoriales, 259 fondo, 84
diseños factoriales fraccionados, 259 funetes, 94
diseños Plackett-Burman, 259 íconos de la barra de herramientas, 75
distribución acumulada, 164 mantenar espacio en las marcas de los
distribución del mayor valor extremo, 244 ejes, 144
distribución normal, 153, 242 mantenar razón de apariencia, 144
DPM, 247, 251 manteniendo cambios en las escala, 94
encabezados de los análisis, 145 modificando, 82
Estadísticas por Filas, 52 modificar apariencia predeterminada, 146
estudios R&R, 132 rotando etiquetas de los ejes, 94
Excluir, 76 titulo de los ejes, 93
excluir efectos, 275 Gráficas, 69
EXP, 46 gráfico
fechas, 144 identificando puntos, 103
FIRST, 65 rotando, 102
fórmulas gráfico cuantil-cuantil, 184
conversión a valores-Z, 47 gráfico cúbicos, 278
288/ Indice
gráfico cudrados, 278 K, 253
gráfico de caja y bigotes, 23, 155, 177, 195 LAG, 46
gráfico de capabilidad, 241, 251 LAST, 65
gráfico de contorno, 278 lectura de datos
gráfico de cuantiles, 165, 182 actualización a intervalos constantes, 115
gráfico de efectos principales, 272 Libro de Datos, 11, 31
gráfico de interacciones, 273 Límites de Tolerancia Estadística, 170
gráfico de matriz, 106, 201 límites de tolerencia, 170
gráfico de medias, 192 LOG, 46
gráfico de mosaico, 229 LOG10, 46
gráfico de Pareto estandarizado, 271 LOWESS, 202
gráfico de probabilidad normal, 249 matriz de correlación, 203
gráfico de rascacielos, 230 MAX, 46
gráfico de superficie respuesta, 278 máximo, 153
gráfico de tolerancia, 171 media, 152
gráficos mediana, 153
copiando a otras apliaciones, 107 menú Seis Sigma, 9, 144
guardando en Archivos de Imágen, 108 menús del sistema, 9
gráficos de residuos, 196, 210 métodos no-paramétricos
Gráficos de Superficie y de Contorno, 216 prueba Friedman, 194
Guardar Resultados, 70 prueba Kolmogorov-Smirnov, 183, 244
heteroscedasticidad, 197 prueba Kruskal-Wallis, 194
histograma, 26, 161, 176, 239 prueba Mann-Whitney (Wilcoxon), 181
imprimiendo prueba para muestras apareadas, 170
análisis, 77 MIN, 46
ancho de lineas, 80 mínimo, 153
encabezado, 79 modelo de regresión lineal, 207
fondo, 79 modelo de regresión no lineal, 207
márgenes, 79 Modificar Columna, 43
indices de capabilidad, 251 modo de evaluación, 3
iniciando el programa, 6 muesca de la mediana, 156
instalación, 1 Nivel de Calidad Sigma, 253
intervalos bootstrap, 167 niveles de confianza
intervalos de confianza estableciendo predeterminado, 143
desviación estándar, 166 número de serie, 3
media, 166 numeros aleatorios, 59
mediana, 167 Opciones de Análisis, 72
intervalos HSD, 193 Opciones de Ventana, 26, 73
intervalos LSD, 193 Opciones Gráficas, 27
289/ Indice
diseño, 83 prueba Mann-Whitney (Wilcoxon), 181
ejes, 93 prueba para muestras apareadas, 170
lineas, 87 prueba Shapiro-Wilks, 243
mallas, 85 prueba t, 180
perfil, 146 pruebas de hipótesis
puntos, 89 aberrantes, 159
rellenos, 95 coeficiente de correlación, 203
texto, etiquetas y leyendas, 96 comparando desviaciones estándar, 179
titulo principal, 91 comparando distribuciones, 183
operadores algebraicos comparando medianas, 181
división, 46 comparando medias, 180
exponencial, 46 comparando proporciones, 236
multiplicación, 46 comparando varias desviaciones estándar,
resta, 46 196
suma, 46 comparando varias medianas, 194
optimizar, 281 comparando varias medias, 190
OR, 66 media, 168
Ordenar Datos, 49 mediana, 168
ordenar nombres de variables, 144 normalidad, 243
paneles, 66 regresión, 206
parsimonia, 199 tabla de dos vías, 231
percentiles, 153, 166 puntos centrales, 266
potencia, 260 puntos externos, 156
Preferencias, 113, 142 RANDOM, 65
AED, 161 R-cuadrada, 206, 208
capabilidad, 252 Recodificar Datos, 50
estadísticos, 154 referencias, 285
promedio, 152 regla de Sturges, 162
Propiedades del Libro de Datos, 61 Regresión Múltiple, 211
prueba chi-cuadrada, 231, 236 regresión por pasos, 214
prueba de Friedman, 194 Regresión Simple, 63, 204
prueba de Grubbs, 159 REP, 58
prueba de Levene, 196 resaltando un gráfico de dispersión, 99
prueba de rangos múltiples, 193 RESHAPE, 59
prueba desviación estudentizada extrema, residuos, 196
159 residuos estudentizados, 210
prueba F, 179 resolución, 259
prueba Kolmogorov-Smirnov, 183, 244 Resumen Estadístico, 22, 151, 175, 239
prueba Kruskal-Wallis, 194 RNORMAL, 60
290/ Indice
ROWS, 65 StatLink, 61, 115
ruta de máxima pendiente, 283 StatPublish, 116
SD, 47 StatReporter, 126
secuencia Booleana, 66 copiando salidas a, 127
Seis Sigma, 237 guardando, 128
seleccionando análisis, 134 modificando, 128
separando un gráfico de dispersión, 98, 189 StatWizard, 9, 12, 129
setup.exe, 1 suavización de gráfico de dispersión, 102
SQRT, 47 suavización LOWESS, 102
STANDARDIZE, 47 tabla ANOVA, 271
StatAdvisor tabla de contingencia, 225
predeterminados, 145 Tablas, 68
StatFolios tablas de contingencia, 235
guardando, 30, 110 tablas de dos vías, 227
publicando, 116 Tabulación, 221
rutinas iniciales, 112, 115, 145 Tabulación Cruzada, 225
StatGallery, 249 Tabulación de Frecuencias, 164
configurando, 119 transformación Box-Cox, 248
copiando gráficas a, 121 transformaciónes, 138
imprimiendo, 125 valores estudentizados, 158
modificando gráficas, 123 valores-P, 159
sobreponiendo gráficas, 122 valores-Z, 254
Statistics for Experimenters, 191 ventana de análisis, 21
291/ Indice