Professional Documents
Culture Documents
Pgina 1 de 24
Tema 5:
J.W. Tuckey fue uno de los pioneros en la aplicacin de los anlisis grficos como paso previo al anlisis exploratorio de datos para as visualizar la estructura de estos. Las tcnicas grficas ms empleadas son el histograma, el grfico de tallos y hojas, y los grficos de cajas y bigotes entre otros. Son varios los procedimientos que ofrece SPSS para realizar cada una de las fases a
15/10/2008
Pgina 2 de 24
Este tipo de anlisis se lleva a cabo desde el men Analizar/Estadsticos descriptivos de la barra de mens de SPSS. Al hacer esta seleccin, SPSS ofrece tres opciones diferentes: Descriptivos, Frecuencias y Explorar.
Descriptivos
El procedimiento Descriptivos, tal y como se muestra en la figura, dispone estadsticos de resumen univariados para varias variables en una nica tabla y calcula valores tipificados (puntuaciones z). Las variables se pueden ordenar por el tamao de sus medias (en orden ascendente o descendente), alfabticamente o por el orden en el que se seleccionen las variables (el valor predeterminado). Cuando se guardan las puntuaciones z, estas se aaden a los datos del Editor de datos y quedan disponibles para los grficos, la lista de los datos y los anlisis. Cuando las variables se registran en unidades diferentes (por ejemplo, producto interior bruto per cpita y porcentaje de alfabetizacin), una transformacin de puntuacin z pondr las variables en una escala comn para poder compararlas visualmente con ms facilidad.
A continuacin puede verse un ejemplo de un fichero de rdenes de SPSS en el que se pide que se calcule la media, desviacin tpica, el mnimo y el mximo de la variable salario del
15/10/2008
Pgina 3 de 24
fichero de datos.
Frecuencias
El procedimiento Frecuencias proporciona estadsticos y representaciones grficas que resultan tiles para describir muchos tipos de variables. Es un buen procedimiento para una inspeccin inicial de los datos.
15/10/2008
Pgina 4 de 24
Para realizar informes de frecuencias y grficos de barras, se pueden organizar los valores en orden ascendente o descendente u ordenar las categoras por sus frecuencias. Es posible suprimir el informe de frecuencias cuando una variable posee muchos valores diferentes. Se pueden etiquetar los grficos con las frecuencias (la opcin predeterminada) o con los porcentajes. A continuacin se presenta el fichero de rdenes en el que se pide que se calcule la varianza, el mximo y la moda de la variable salario del fichero de datos. Se pide adems que se represente el histograma de esta variable con la curva normal y se ordenen los datos en orden ascendente.
15/10/2008
Pgina 5 de 24
Explorar
El procedimiento Explorar genera estadsticos de resumen y representaciones grficas, bien para todos los casos o bien de forma separada para grupos de casos. Existen numerosas razones para utilizar este procedimiento: para inspeccionar los datos, identificar valores atpicos, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de casos). La inspeccin de los datos puede mostrar que existen valores inusuales, valores extremos, discontinuidades en los datos u otras peculiaridades. La exploracin de los datos puede ayudar a determinar si son adecuadas las tcnicas estadsticas que est teniendo en consideracin para el anlisis de los datos. La exploracin puede indicar que necesita transformar los datos si la tcnica necesita una distribucin normal subyacente o que debe utilizar pruebas no paramtricas.
15/10/2008
Pgina 6 de 24
A continuacin, se muestra un ejemplo de un fichero de rdenes en el que se pide, para la variable salario clasificada segn los valores de la variable facultad, la siguiente informacin: diagramas de cajas y bigotes y tallos y hojas estableciendo comparaciones segn los grupos formados y una serie de estimadores robustos.
15/10/2008
Pgina 7 de 24
La opcin Grficos de SPSS permite el acceso a un gran nmero de representaciones grficas entre las que destacamos las siguientes, as como la ruta interactiva para ejecutarlas. En muchos casos, las representaciones grficas se obtienen tambin como una opcin dentro de los anlisis numricos Opciones grficas en SPSS
15/10/2008
Pgina 8 de 24
Caso unidimensional
Diagramas de caja
Analizar/Estadsticos descriptivos/Explorar
Histograma
Analizar/Estadsticos descriptivos/Explorar Grficos/Histograma, en el editor de grficos se puede modificar el nmero de intervalos considerados o su amplitud utilizando la opcin Diseo/Ejes
Grficos/Secuencia
Contrastes de aleatoriedad
Analizar/Pruebas no paramtricas/Rachas
Caso Bidimensional
15/10/2008
Pgina 9 de 24
Diagramas de puntos
Caso Multidimensional
Matrices de dispersin
Cubos Olap
Analizar/Informes/Cubos OLAP
Las rdenes para la obtencin de algunas de las representaciones grficas ms utilizadas son las siguientes:
BAR , diagrama de barras PIE, diagrama de sectores HISTOGRAM[(NORMAL), histograma SCATTERPLOT, diagrama de dispersin
En SPSS se distinguen dos tipos de valores faltantes o perdidos (missing): los valores as definidos por el usuario y los valores definidos desde el sistema. Los valores definidos por el usuario son valores que se etiquetan para que sean tratados como perdidos, en la Vista de variables, en la columna Perdidos. Los valores definidos por el sistema corresponden a datos numricos desconocidos (campos numricos que estn vacos, resultados de clculos que no pueden realizarse,...) SPSS permite utilizar las opciones:
Excluir casos segn lista, que trabaja solamente con los casos completos y
15/10/2008
Pgina 10 de 24
Excluir casos segn pareja que trabaja con los casos que estn completos para todas las variables que se van a considerar en el anlisis concreto.
SPSS identifica el mximo y el mnimo de cada variable. Para calibrar la importancia del posible outlier es aconsejable trabajar con datos estandarizados y utilizar los grficos de caja y bigotes (box-plot). A ttulo de ejemplo, la figura que presentamos a continuacin, muestra como obtener de manera interactiva el grfico de cajas y bigotes de la variable salario segn el sexo de los individuos encuestados
15/10/2008
Pgina 11 de 24
la exploracin de los datos. Reemplazan los informes estticos y permiten interactuar con la informacin contenida en las filas, columnas y capas, as como visualizar distintos niveles de detalle de los datos. Los sistemas OLAP ofrecen una estructura de los datos en un cubo. Este cubo es multidimensional y ofrece al usuario diferentes alternativas y perspectivas de ver los datos (todas a partir del mismo cubo). Por ejemplo, un cubo OLAP que contiene datos de ventas puede producir resultados como: ventas totales por trimestre, porcentaje de ventas por persona y ventas promedio por regin geogrfica. Los estadsticos elementales, como sumas, conteos, promedios y porcentajes, tambin pueden programarse en el cubo. Se puede tener acceso al cubo y ver la vista de los datos utilizando rdenes como slicing, dicing y driling down.
5.2.1. Aportaciones de los informes OLAP
Los informes OLAP ofrecen una amplia serie de beneficios y ventajas sobre los informes estticos. Entre ellas podemos citar:
Distribucin de la informacin de forma gil y rpida. Los informes OLAP estn formados por uno o ms cubos de informe, grficos, tablas y otros objetos en un nico archivo, lo que permite su distribucin a travs de la Web de un modo muy sencillo. Tan pronto como se dispone de la informacin de un informe OLAP, se puede trabajar con otros cubos de informe previamente definidos y completar la informacin de que se dispone. Tambin se puede acceder a puntos especficos (bookmarks) predefinidos dentro del cubo de informe, asegurando as que los resultados ms significativos sean identificados.
Permiten reducciones y/o ampliaciones de la informacin. Los informes OLAP de SPSS permiten la generacin de cubos ms especficos en relacin con cuestiones concretas. En cualquier momento se pueden aadir o eliminar datos del informe.
Decisiones inteligentes. Los informes OLAP facilitan la toma de decisiones ya que los cubos de informe contienen clculos que van ms all de los simples conteos, promedios y sumas.
La obtencin de cubos OLAP mediante SPSS se hace a partir de la barra de mens, con la
15/10/2008
Pgina 12 de 24
Cuando se abre el cuadro de dilogo del cubo OLAP, se seleccionan una o ms variables de resumen cuantitativas (variables continuas medidas en una escala de intervalo o de razn) y una o ms variables de agrupacin categricas, cuyos valores pueden ser numricos o de cadena corta. Es posible tambin
Seleccionar diferentes estadsticos de resumen (botn Estadsticos) Calcular las diferencias existentes entre los pares de variables y los pares de grupos definidos por las variables de agrupacin (botn Diferencias). Es posible calcular las diferencias y razones entre todas las variables de resumen o entre los grupos definidos por una variable de agrupacin.
Diferencias entre pares de variables. Los valores de los estadsticos de resumen para la segunda variable (Menos variable) de cada par se restan de los valores de los estadsticos de resumen correspondientes a la primera variable del par. En cuanto a las diferencias por razn, el valor de la variable de resumen para la segunda variable es el que se usa como denominador. Para poder especificar las diferencias entre las variables, se deben seleccionar al menos dos variables de resumen en el cuadro de dilogo principal.
Diferencias entre grupos de casos. Calcula las diferencias entre pares de grupos definidos por una variable de agrupacin. Los valores de los estadsticos
15/10/2008
Pgina 13 de 24
de resumen para la segunda categora de cada par (Menos categora) se restan de los valores de los estadsticos de resumen correspondientes a la primera categora del par. Las diferencias por razn utilizan el valor del estadstico de resumen de la categora Menos como denominador. Para poder especificar las diferencias entre los grupos, se ha de seleccionar una o ms variables de agrupacin en el cuadro de dilogo principal
Crear ttulos de tabla personalizados (botn Ttulo). Se puede cambiar el ttulo de los resultados o aadir un texto al pie que aparecer debajo de la tabla de resultados. Tambin se puede controlar el ajuste de las lneas de los ttulos y de los textos al pie escribiendo \n en el lugar del texto donde se desee insertar una lnea de separacin.
Las rdenes para la obtencin de cubos OLAP son las siguientes: OLAP CUBES {varlist} BY varlist [BY...]
15/10/2008
Pgina 14 de 24
[/CELLS = [MEAN**] [COUNT**] [STDDEV**] [NPCT**] [SPCT**] [SUM** ] [MEDIAN] [GMEDIAN] [SEMEAN] [MIN] [MAX] [RANGE] [VARIANCE] [KURT] [SEKURT] [SKEW] [SESKEW] [FIRST] [LAST] [NPCT(var)][SPCT(var)] [HARMONIC] [GEOMETRIC] [DEFAULT] [ALL] [NONE] ] [/CREATE [{'catname'}...] = {GAC {DEFAULT } {GPC } } (gvarname {(gvarvalue gvarvalue)} [{(gvarvalue gvarvalue)...}])]
{GAC GPC} -- o -{VAC } {(svarname svarname)} {VPC } {(svarname svarname)...} {VAC VPC} [/TITLE = 'string'][FOOTNOTE = 'string'] La orden OLAP CUBES indica la formacin de un cubo Olap a partir de las variables indicadas en la lista de variables. A continuacin se indica qu estadsticos se desea que calcule SPSS para resumir las variables con las que se trabaja. La orden /CREATE permite calcular las diferencias y razones entre grupos de datos y variables. Por ltimo las rdenes /TITLE y FOOTNOTE se refieren al ttulo y pie de ttulo de la tabla creada.
15/10/2008
Pgina 15 de 24
El Anlisis Cluster es similar al Anlisis Factorial en el sentido de que ambos realizan agrupaciones, aunque mientras que el Anlisis Cluster agrupa objetos, el Anlisis Factorial se centra en la agrupacin de variables. Sin embargo, frente a los requisitos previos del Anlisis Factorial, el Anlisis Cluster se puede considerar una tcnica descriptiva y no inferencial que es utilizada habitualmente como una tcnica exploratoria. El Anlisis Cluster no ofrece soluciones nicas ni siquiera en el caso de que existiera una estructura de clasificacin verdadera en los datos; las soluciones dependen de las variables consideradas y del mtodo de Anlisis Cluster empleado. Podemos clasificar los objetivos del anlisis en los siguientes puntos:
Descripcin de una taxonoma (una clasificacin de objetos realizada empricamente), tanto en el sentido exploratorio como en el confirmatorio Simplificacin de los datos. La estructura resultante permite simplificar el conjunto de observaciones Identificacin de la relacin entre las observaciones (relaciones que a priori estn ocultas)
Uno de los principales problemas que plantea el Anlisis Cluster es el de la seleccin de variables. La clasificacin obtenida tras la aplicacin de esta tcnica depender de las variables elegidas. Dado que la introduccin de variables irrelevantes aumenta la posibilidad de errores, se recomienda seleccionar slo aquellas variables que caracterizan los objetos que se van agrupando, y referentes a los objetivos del Anlisis Cluster que se va a realizar. En ocasiones puede ser muy til realizar un ACP previamente y resumir el conjunto de variables con el que se est trabajando. Se han diseado muchos procedimientos para la obtencin de clusters, y en una primera clasificacin distinguimos dos:
Procedimientos jerrquicos, en cada paso del algoritmo slo un objeto cambia de grupo y los grupos estn anidados en los de pasos anteriores. Si un objeto ha sido asignado a un grupo ya no cambia ms de grupo. Dentro de los procedimentos jerrquicos, distinguimos entre:
Mtodos aglomerativos, comienzan con tantos clusters como objetos se vayan a analizar. Cada uno de estos clusters contiene un objeto. En cada paso del algoritmo se recalculan las distancias entre los grupos existentes y se unen los dos grupos ms similares o menos disimilares. El algoritmo acaba con un cluster conteniendo todos los elementos Mtodos divisivos, comienzan con un cluster que engloba a todos los elementos. En cada paso del algoritmo se divide el grupo ms heterogneo, hasta llegar a formar tantos clusters como objetos participen en el anlisis.
Para determinar qu grupos se unen o dividen se utiliza una funcin objetivo o criterio que, en el caso de los mtodos aglomerativos recibe el nombre de enlace.
15/10/2008
Pgina 16 de 24
los que se van a clasificar los elementos. Estas tcnicas comienzan con una solucin inicial y los objetos se reagrupan de acuerdo con algn criterio de optimalidad.
Vinculacin intergrupos Vinculacin intragrupos Vecino ms prximo (Encadenamiento simple) Vecino ms lejano (Encadenamiento completo) Agrupacin de centroides Vinculacin de medianas Mtodo de Ward
El procedimiento no jerrquico con el que trabaja SPSS es el algoritmo de las K-medias. SPSS presenta tambin la opcin del Anlisis de Conglomerados en dos fases en el caso de necesitar agrupar datos mixtos (continuos y categricos) Al Anlisis Cluster en SPSS se accede desde el men Analizar de la barra de mens, en la opcin Clasificar
A partir de aqu se abre una caja de dilogo en donde se hace la seleccin de variables y del mtodo apropiado para el anlisis.
5.3.1. Procedimentos jerrquicos en SPSS
Se
accede
los
procedimientos
jerrquicos
de
SPSS
partir
del
men
15/10/2008
Pgina 17 de 24
Analizar/Clasificar/Conglomerados jerrquicos de la barra de mens de SPSS En las figuras que se presentan a continuacin, se ilustra el procedimiento para realizar un anlisis jerrquico. Consideramos el fichero de datos jovenes.sav, en el que se recoge informacin de un grupo de 14 estudiantes a los que se pretende clasificar en base al nmero de veces que van anualmente al ftbol ( variable futbol), la paga semanal que reciben ( variable paga) y el nmero de horas semanales que ven la televisin (variable tv). En primer lugar, se seleccionan las variables en las que se basar la clasificacin (futbol, paga y tv) y se indica una variable de cadena, id, para identificar los casos.
Esta ventana da acceso a diferentes opciones: Grficos, Estadsticos, Mtodo y Guardar. La opcin Estadsticos, indica cmo solicitar a SPSS los diferentes niveles de fusin de los clusters (historial de conglomeraciones), as como la matriz de distancias. Por otro lado, permite fijar el nmero de soluciones que queremos aparezcan en el visor de resultados.
15/10/2008
Pgina 18 de 24
La opcin Grficos, muestra las opciones grficas del Anlisis Cluster jerrquico en SPSS: Dendrograma y Diagrama de Tmpanos
La seleccin del mtodo de conglomeracin se hace a partir de la opcin Mtodo. En esta ventana se selecciona adems la medida utilizada para calcular la distancia entre los clusters as como la posibilidad de trabajar con datos tipificados o no.
Por ltimo, la opcin Guardar permite indicar el rango de soluciones que se quieren mantener.
15/10/2008
Pgina 19 de 24
El conjunto de rdenes asociado a todas estas selecciones se muestran a continuacin. En primer lugar, se indican las variables que se van a utilizar para la clasificacin y se especifica un fichero de trabajo interno de SPSS que es eliminado al finalizar los clculos. A continuacin, la suborden /VIEW indica que se realiza una agrupacin de individuos (casos), utilizando como medida el cuadrado de la distancia eucldea (suborden /MEASURE). Es necesario tambin, indicar las caractersticas del mtodo cluster jerrquico seleccionado.
Se accede a los procedimientos no jerrquicos de SPSS a partir del Analizar/Clasificar/Conglomerados de K-medias de la barra de mens de SPSS.
men
Siguiendo con el ejemplo anterior, la ventana de SPSS a partir de la cual se accede al anlisis de conglomerados de K-medias aparece en la figura
15/10/2008
Pgina 20 de 24
Al igual que en el caso anterior, a partir de esta ventana se accede a las diferentes opciones referentes a estadsticos, nmero de iteraciones a realizar y guardar resultados. El botn Opciones permite seleccionar los estadsticos que indican la posicin de los centros de los conglomerados iniciales, una tabla ANOVA indicativa del ajuste del modelo, si bien esta tabla slo desempea un papel orientativo, dado que no tienen fundamento terico.
El botn Iter da acceso a las opciones de convergencia del mtodo. SPSS permite establecer esta convergencia en funcin de un nmero fijo de iteraciones o estableciendo un criterio de convergencia concreto.
15/10/2008
Pgina 21 de 24
Las rdenes asociadas al anlisis que acabamos de describir aparecen en la figura que se presenta a continuacin. Al igual que en el caso jerrquico, el cdigo comienza con la especificacin de las variables que se van a utilizar para establecer la clasificacin de los datos. A continuacin se detallan las caractersticas del anlisis en cuanto al nmero de clusters con el que se quiere trabajar, nmero mximo de iteraciones y criterio de convergencia. Por ltimo se especifica el mtodo cluster empleado as como el detalle de la informacin que se desea guardar.
En el caso del modelo lineal se hacen algunas distinciones: Mnimos cuadrados en dos fases (correlacin entre residuos y variables explicativas) Estimacion ponderada (situacin de heterocedasticidad)
15/10/2008
Pgina 22 de 24
Los anlisis de regresin se seleccionan pulsando el botn Analizar de la barra de mens y seleccionando la opcin Regresin
Segn el tipo de datos con el que se trabaje, SPSS distingue diferentes opciones, indicadas en la figura
Regresin lineal mltiple (Lineal) Ajuste de curvas mediante linealizacin (Estimacin curvilnea) Modelos de regresin con respuestas binarias u ordinales (Logstica binaria, Logstica multinomial, Ordinal, Probit) Modelos de regresin no lineales (No lineal) Correcciones en el modelo lineal (Estimacin ponderada, Mnimos cuadrados en dos fases) Modelos de regresin con variables categricas (Escalamiento ptimo)
A ttulo de ejemplo, consideremos la informacin referente a un grupo de vehculos. A partir de ella, se pretende ajustar un modelo lineal que permita predecir el consumo (variable consumo) en funcin del tipo de motor (variable motor), cilindrada (variable cv), peso total (variable peso) y tiempo de aceleracin de 0 a 100 km/hora (variable acel) del vehculo. A continuacin se muestra la ventana de SPSS que permite seleccionar dicho anlisis de regresin en modo interactivo.
15/10/2008
Pgina 23 de 24
En el lenguaje de rdenes, el anlisis de regresin comienza con la orden REGRESSION. A continuacin se excluyen los valores perdidos y se indica qu estadsticos calcular. En nuestro ejemplo concreto se piden los coeficientes (COEF), variables excludas de la regresin (OUTS), intervalos de confianza para los coeficientes de la ecuacin de regresin (CI), coeficiente de correlacin (R), tabla del anlisis de la varianza (ANOVA) y cambios en el coeficiente de correlacin (CHANGE).
15/10/2008
Pgina 24 de 24
La suborden /CRITERIA se utiliza para indicar el mtodo de clculo de los coeficientes de regresin. /NOORIGIN indica que se suprime el trmino constante de la ecuacin. Y por ltimo se indica las variables dependiente e independientes, junto con el mtodo empleado para introducir los datos
15/10/2008