You are on page 1of 24

El Anlisis Exploratorio de datos en SPSS

Pgina 1 de 24

Tema 5:

Algunos anlisis estadsticos con SPSS

5.1. El Anlisis Exploratorio de datos en SPSS


Antes de aplicar cualquier tcnica multivariante es preciso llevar a cabo un anlisis previo de los datos que nos indique con qu tipo de datos trabajamos as como las caractersticas y propiedades que estos poseen. El anlisis de las relaciones entre las variables con las que trabajamos nos permitir deducir la posibilidad de aplicar o no determinadas tcnicas estadsticas multivariantes. Del mismo modo, es necesario examinar los resultados del proceso de recogida de datos, estudiando la presencia de datos anmalos y de datos faltantes. El primer tipo de anlisis al que se suele someter a unos datos es el anlisis grfico. Estas tcnicas permiten el examen de las caractersticas de la distribucin de las variables implicadas en el anlisis, las relaciones multivariantes entre ellas y el anlisis de las diferencias entre grupos. Este tipo de anlisis, si bien no proporciona un resultado formal, facilita una forma alternativa a partir de la cual obtener una perspectiva del carcter de los datos y de las interrelaciones que existen.

Figura 5.1.1: Anlisis exploratorio de datos en SPSS

J.W. Tuckey fue uno de los pioneros en la aplicacin de los anlisis grficos como paso previo al anlisis exploratorio de datos para as visualizar la estructura de estos. Las tcnicas grficas ms empleadas son el histograma, el grfico de tallos y hojas, y los grficos de cajas y bigotes entre otros. Son varios los procedimientos que ofrece SPSS para realizar cada una de las fases a

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 2 de 24

destacar dentro del anlisis exploratorio.


5.1.1. Descripcin numrica de los datos

Este tipo de anlisis se lleva a cabo desde el men Analizar/Estadsticos descriptivos de la barra de mens de SPSS. Al hacer esta seleccin, SPSS ofrece tres opciones diferentes: Descriptivos, Frecuencias y Explorar.
Descriptivos

El procedimiento Descriptivos, tal y como se muestra en la figura, dispone estadsticos de resumen univariados para varias variables en una nica tabla y calcula valores tipificados (puntuaciones z). Las variables se pueden ordenar por el tamao de sus medias (en orden ascendente o descendente), alfabticamente o por el orden en el que se seleccionen las variables (el valor predeterminado). Cuando se guardan las puntuaciones z, estas se aaden a los datos del Editor de datos y quedan disponibles para los grficos, la lista de los datos y los anlisis. Cuando las variables se registran en unidades diferentes (por ejemplo, producto interior bruto per cpita y porcentaje de alfabetizacin), una transformacin de puntuacin z pondr las variables en una escala comn para poder compararlas visualmente con ms facilidad.

Figura 5.1.1.1: Obtencin interactiva del anlisis Descriptivos de SPSS

A continuacin puede verse un ejemplo de un fichero de rdenes de SPSS en el que se pide que se calcule la media, desviacin tpica, el mnimo y el mximo de la variable salario del

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 3 de 24

fichero de datos.

Figura 5.1.1.2: rdenes de un anlisis Descriptivo de SPSS

Frecuencias

El procedimiento Frecuencias proporciona estadsticos y representaciones grficas que resultan tiles para describir muchos tipos de variables. Es un buen procedimiento para una inspeccin inicial de los datos.

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 4 de 24

Figura 5.1.1.3: Obtencin interactiva del anlisis Frecuencias de SPSS

Para realizar informes de frecuencias y grficos de barras, se pueden organizar los valores en orden ascendente o descendente u ordenar las categoras por sus frecuencias. Es posible suprimir el informe de frecuencias cuando una variable posee muchos valores diferentes. Se pueden etiquetar los grficos con las frecuencias (la opcin predeterminada) o con los porcentajes. A continuacin se presenta el fichero de rdenes en el que se pide que se calcule la varianza, el mximo y la moda de la variable salario del fichero de datos. Se pide adems que se represente el histograma de esta variable con la curva normal y se ordenen los datos en orden ascendente.

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 5 de 24

Figura 5.1.1.4: rdenes de un anlisis de Frecuencias de SPSS

Explorar

El procedimiento Explorar genera estadsticos de resumen y representaciones grficas, bien para todos los casos o bien de forma separada para grupos de casos. Existen numerosas razones para utilizar este procedimiento: para inspeccionar los datos, identificar valores atpicos, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de casos). La inspeccin de los datos puede mostrar que existen valores inusuales, valores extremos, discontinuidades en los datos u otras peculiaridades. La exploracin de los datos puede ayudar a determinar si son adecuadas las tcnicas estadsticas que est teniendo en consideracin para el anlisis de los datos. La exploracin puede indicar que necesita transformar los datos si la tcnica necesita una distribucin normal subyacente o que debe utilizar pruebas no paramtricas.

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 6 de 24

Figura 5.1.1.5: Obtencin interactiva del anlisis Explorar de SPSS

A continuacin, se muestra un ejemplo de un fichero de rdenes en el que se pide, para la variable salario clasificada segn los valores de la variable facultad, la siguiente informacin: diagramas de cajas y bigotes y tallos y hojas estableciendo comparaciones segn los grupos formados y una serie de estimadores robustos.

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 7 de 24

Figura 5.1.1.6: rdenes de un anlisis Explorar de SPSS

5.1.2. Descripcin grfica de los datos

La opcin Grficos de SPSS permite el acceso a un gran nmero de representaciones grficas entre las que destacamos las siguientes, as como la ruta interactiva para ejecutarlas. En muchos casos, las representaciones grficas se obtienen tambin como una opcin dentro de los anlisis numricos Opciones grficas en SPSS

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 8 de 24

Caso unidimensional

Diagramas de caja

Analizar/Estadsticos descriptivos/Explorar Grficos/Diagramas de caja

Diagrama de tallos y hojas

Analizar/Estadsticos descriptivos/Explorar

Histograma

Analizar/Estadsticos descriptivos/Explorar Grficos/Histograma, en el editor de grficos se puede modificar el nmero de intervalos considerados o su amplitud utilizando la opcin Diseo/Ejes

Grfico de cuantiles. Ordenar los casos de menor a mayor y representar la serie

Grficos/Secuencia

Presentaciones para colecciones de datos unidimensionales

Grficos/Diagramas de caja y utilizar la opcin Resmenes para distintas variables

Contrastes de Bondad de Ajuste

Analizar/Pruebas no paramtricas/Chi-cuadrado Analizar/Pruebas no paramtricas/K-S de una muestra

Contrastes de aleatoriedad

Analizar/Pruebas no paramtricas/Rachas

Caso Bidimensional

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 9 de 24

Diagramas de puntos

Grficos/Dispersin y la opcin Simple

Diagramas de caja agrupados por otra variable

Grficos/Diagramas de caja y la opcin Simple y Resmenes para grupos de casos

Caso Multidimensional

Matrices de dispersin

Grficos/Dispersin y la opcin Matricial, Superpuesto o 3-D

Cubos Olap

Analizar/Informes/Cubos OLAP

Las rdenes para la obtencin de algunas de las representaciones grficas ms utilizadas son las siguientes:

BAR , diagrama de barras PIE, diagrama de sectores HISTOGRAM[(NORMAL), histograma SCATTERPLOT, diagrama de dispersin

5.1.3. Diagnosis y tratamiento de datos faltantes

En SPSS se distinguen dos tipos de valores faltantes o perdidos (missing): los valores as definidos por el usuario y los valores definidos desde el sistema. Los valores definidos por el usuario son valores que se etiquetan para que sean tratados como perdidos, en la Vista de variables, en la columna Perdidos. Los valores definidos por el sistema corresponden a datos numricos desconocidos (campos numricos que estn vacos, resultados de clculos que no pueden realizarse,...) SPSS permite utilizar las opciones:

Excluir casos segn lista, que trabaja solamente con los casos completos y

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 10 de 24

Excluir casos segn pareja que trabaja con los casos que estn completos para todas las variables que se van a considerar en el anlisis concreto.

5.1.4. Localizacin de datos atpicos (outliers)

SPSS identifica el mximo y el mnimo de cada variable. Para calibrar la importancia del posible outlier es aconsejable trabajar con datos estandarizados y utilizar los grficos de caja y bigotes (box-plot). A ttulo de ejemplo, la figura que presentamos a continuacin, muestra como obtener de manera interactiva el grfico de cajas y bigotes de la variable salario segn el sexo de los individuos encuestados

5.2. Cubos Olap


Un claro reflejo del avance de las tcnicas audiovisuales en el campo de la Estadstica, es la exposicin y manejo de resultados tras un anlisis concreto de los datos. An cuando los informes en papel no pierden su protagonismo, cada vez est ms generalizado el uso de otros formatos de presentacin que permitan un mayor nivel de detalle y flexibilidad. La tecnologa OLAP (On-Line Analytical Processing) suple la necesidad de informes dinmicos ad-hoc para facilitar la toma de decisiones. Los informes OLAP de SPSS son tablas interactivas que se pueden rotar para profundizar en

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 11 de 24

la exploracin de los datos. Reemplazan los informes estticos y permiten interactuar con la informacin contenida en las filas, columnas y capas, as como visualizar distintos niveles de detalle de los datos. Los sistemas OLAP ofrecen una estructura de los datos en un cubo. Este cubo es multidimensional y ofrece al usuario diferentes alternativas y perspectivas de ver los datos (todas a partir del mismo cubo). Por ejemplo, un cubo OLAP que contiene datos de ventas puede producir resultados como: ventas totales por trimestre, porcentaje de ventas por persona y ventas promedio por regin geogrfica. Los estadsticos elementales, como sumas, conteos, promedios y porcentajes, tambin pueden programarse en el cubo. Se puede tener acceso al cubo y ver la vista de los datos utilizando rdenes como slicing, dicing y driling down.
5.2.1. Aportaciones de los informes OLAP

Los informes OLAP ofrecen una amplia serie de beneficios y ventajas sobre los informes estticos. Entre ellas podemos citar:

Flexibilidad. Los informes OLAP ofrecen una gran variedad de configuraciones

Distribucin de la informacin de forma gil y rpida. Los informes OLAP estn formados por uno o ms cubos de informe, grficos, tablas y otros objetos en un nico archivo, lo que permite su distribucin a travs de la Web de un modo muy sencillo. Tan pronto como se dispone de la informacin de un informe OLAP, se puede trabajar con otros cubos de informe previamente definidos y completar la informacin de que se dispone. Tambin se puede acceder a puntos especficos (bookmarks) predefinidos dentro del cubo de informe, asegurando as que los resultados ms significativos sean identificados.

Permiten reducciones y/o ampliaciones de la informacin. Los informes OLAP de SPSS permiten la generacin de cubos ms especficos en relacin con cuestiones concretas. En cualquier momento se pueden aadir o eliminar datos del informe.

Decisiones inteligentes. Los informes OLAP facilitan la toma de decisiones ya que los cubos de informe contienen clculos que van ms all de los simples conteos, promedios y sumas.

5.2.2. Obrencin de cubos OLAP con SPSS

La obtencin de cubos OLAP mediante SPSS se hace a partir de la barra de mens, con la

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 12 de 24

opcin Informes del botn Analizar, tal y como se muestra en la figura.

Figura 5.2.2.1: Obtencin de cubos OLAP con SPSS

Cuando se abre el cuadro de dilogo del cubo OLAP, se seleccionan una o ms variables de resumen cuantitativas (variables continuas medidas en una escala de intervalo o de razn) y una o ms variables de agrupacin categricas, cuyos valores pueden ser numricos o de cadena corta. Es posible tambin

Seleccionar diferentes estadsticos de resumen (botn Estadsticos) Calcular las diferencias existentes entre los pares de variables y los pares de grupos definidos por las variables de agrupacin (botn Diferencias). Es posible calcular las diferencias y razones entre todas las variables de resumen o entre los grupos definidos por una variable de agrupacin.

Diferencias entre pares de variables. Los valores de los estadsticos de resumen para la segunda variable (Menos variable) de cada par se restan de los valores de los estadsticos de resumen correspondientes a la primera variable del par. En cuanto a las diferencias por razn, el valor de la variable de resumen para la segunda variable es el que se usa como denominador. Para poder especificar las diferencias entre las variables, se deben seleccionar al menos dos variables de resumen en el cuadro de dilogo principal.

Diferencias entre grupos de casos. Calcula las diferencias entre pares de grupos definidos por una variable de agrupacin. Los valores de los estadsticos

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 13 de 24

de resumen para la segunda categora de cada par (Menos categora) se restan de los valores de los estadsticos de resumen correspondientes a la primera categora del par. Las diferencias por razn utilizan el valor del estadstico de resumen de la categora Menos como denominador. Para poder especificar las diferencias entre los grupos, se ha de seleccionar una o ms variables de agrupacin en el cuadro de dilogo principal

Crear ttulos de tabla personalizados (botn Ttulo). Se puede cambiar el ttulo de los resultados o aadir un texto al pie que aparecer debajo de la tabla de resultados. Tambin se puede controlar el ajuste de las lneas de los ttulos y de los textos al pie escribiendo \n en el lugar del texto donde se desee insertar una lnea de separacin.

La siguiente figura ilustra el proceso de obtencin de un cubo OLAP.

Figura 5.2.2.2: Pasos a seguir en la obtencin de un cubo OLAP en SPSS

5.2.3. Sintaxis de los cubos Olap

Las rdenes para la obtencin de cubos OLAP son las siguientes: OLAP CUBES {varlist} BY varlist [BY...]

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 14 de 24

[/CELLS = [MEAN**] [COUNT**] [STDDEV**] [NPCT**] [SPCT**] [SUM** ] [MEDIAN] [GMEDIAN] [SEMEAN] [MIN] [MAX] [RANGE] [VARIANCE] [KURT] [SEKURT] [SKEW] [SESKEW] [FIRST] [LAST] [NPCT(var)][SPCT(var)] [HARMONIC] [GEOMETRIC] [DEFAULT] [ALL] [NONE] ] [/CREATE [{'catname'}...] = {GAC {DEFAULT } {GPC } } (gvarname {(gvarvalue gvarvalue)} [{(gvarvalue gvarvalue)...}])]

{GAC GPC} -- o -{VAC } {(svarname svarname)} {VPC } {(svarname svarname)...} {VAC VPC} [/TITLE = 'string'][FOOTNOTE = 'string'] La orden OLAP CUBES indica la formacin de un cubo Olap a partir de las variables indicadas en la lista de variables. A continuacin se indica qu estadsticos se desea que calcule SPSS para resumir las variables con las que se trabaja. La orden /CREATE permite calcular las diferencias y razones entre grupos de datos y variables. Por ltimo las rdenes /TITLE y FOOTNOTE se refieren al ttulo y pie de ttulo de la tabla creada.

5.3. Anlisis Cluster con SPSS


El Anlisis Cluster surge ante la necesidad de disear una estrategia que permita definir grupos de objetos homogneos, es por tanto una tcnica de clasificacin. Podemos definir el Anlisis Cluster como una tcnica multivariante cuyo principal propsito es agrupar objetos formando conglomerados (clusters) de objetos con un alto grado de homogeneidad interna y heterogeneidad entre objetos.

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 15 de 24

El Anlisis Cluster es similar al Anlisis Factorial en el sentido de que ambos realizan agrupaciones, aunque mientras que el Anlisis Cluster agrupa objetos, el Anlisis Factorial se centra en la agrupacin de variables. Sin embargo, frente a los requisitos previos del Anlisis Factorial, el Anlisis Cluster se puede considerar una tcnica descriptiva y no inferencial que es utilizada habitualmente como una tcnica exploratoria. El Anlisis Cluster no ofrece soluciones nicas ni siquiera en el caso de que existiera una estructura de clasificacin verdadera en los datos; las soluciones dependen de las variables consideradas y del mtodo de Anlisis Cluster empleado. Podemos clasificar los objetivos del anlisis en los siguientes puntos:

Descripcin de una taxonoma (una clasificacin de objetos realizada empricamente), tanto en el sentido exploratorio como en el confirmatorio Simplificacin de los datos. La estructura resultante permite simplificar el conjunto de observaciones Identificacin de la relacin entre las observaciones (relaciones que a priori estn ocultas)

Uno de los principales problemas que plantea el Anlisis Cluster es el de la seleccin de variables. La clasificacin obtenida tras la aplicacin de esta tcnica depender de las variables elegidas. Dado que la introduccin de variables irrelevantes aumenta la posibilidad de errores, se recomienda seleccionar slo aquellas variables que caracterizan los objetos que se van agrupando, y referentes a los objetivos del Anlisis Cluster que se va a realizar. En ocasiones puede ser muy til realizar un ACP previamente y resumir el conjunto de variables con el que se est trabajando. Se han diseado muchos procedimientos para la obtencin de clusters, y en una primera clasificacin distinguimos dos:

Procedimientos jerrquicos, en cada paso del algoritmo slo un objeto cambia de grupo y los grupos estn anidados en los de pasos anteriores. Si un objeto ha sido asignado a un grupo ya no cambia ms de grupo. Dentro de los procedimentos jerrquicos, distinguimos entre:

Mtodos aglomerativos, comienzan con tantos clusters como objetos se vayan a analizar. Cada uno de estos clusters contiene un objeto. En cada paso del algoritmo se recalculan las distancias entre los grupos existentes y se unen los dos grupos ms similares o menos disimilares. El algoritmo acaba con un cluster conteniendo todos los elementos Mtodos divisivos, comienzan con un cluster que engloba a todos los elementos. En cada paso del algoritmo se divide el grupo ms heterogneo, hasta llegar a formar tantos clusters como objetos participen en el anlisis.

Para determinar qu grupos se unen o dividen se utiliza una funcin objetivo o criterio que, en el caso de los mtodos aglomerativos recibe el nombre de enlace.

Procedimientos no jerrquicos, se determina a priori el nmero de grupos en

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 16 de 24

los que se van a clasificar los elementos. Estas tcnicas comienzan con una solucin inicial y los objetos se reagrupan de acuerdo con algn criterio de optimalidad.

Los mtodos jerrquicos con los que trabaja SPSS son

Vinculacin intergrupos Vinculacin intragrupos Vecino ms prximo (Encadenamiento simple) Vecino ms lejano (Encadenamiento completo) Agrupacin de centroides Vinculacin de medianas Mtodo de Ward

El procedimiento no jerrquico con el que trabaja SPSS es el algoritmo de las K-medias. SPSS presenta tambin la opcin del Anlisis de Conglomerados en dos fases en el caso de necesitar agrupar datos mixtos (continuos y categricos) Al Anlisis Cluster en SPSS se accede desde el men Analizar de la barra de mens, en la opcin Clasificar

Figura 5.3.1: Anlisis Cluster en SPSS

A partir de aqu se abre una caja de dilogo en donde se hace la seleccin de variables y del mtodo apropiado para el anlisis.
5.3.1. Procedimentos jerrquicos en SPSS

Se

accede

los

procedimientos

jerrquicos

de

SPSS

partir

del

men

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 17 de 24

Analizar/Clasificar/Conglomerados jerrquicos de la barra de mens de SPSS En las figuras que se presentan a continuacin, se ilustra el procedimiento para realizar un anlisis jerrquico. Consideramos el fichero de datos jovenes.sav, en el que se recoge informacin de un grupo de 14 estudiantes a los que se pretende clasificar en base al nmero de veces que van anualmente al ftbol ( variable futbol), la paga semanal que reciben ( variable paga) y el nmero de horas semanales que ven la televisin (variable tv). En primer lugar, se seleccionan las variables en las que se basar la clasificacin (futbol, paga y tv) y se indica una variable de cadena, id, para identificar los casos.

Figura 5.3.1.1: Anlisis Cluster jerrquico en SPSS en modo interactivo

Esta ventana da acceso a diferentes opciones: Grficos, Estadsticos, Mtodo y Guardar. La opcin Estadsticos, indica cmo solicitar a SPSS los diferentes niveles de fusin de los clusters (historial de conglomeraciones), as como la matriz de distancias. Por otro lado, permite fijar el nmero de soluciones que queremos aparezcan en el visor de resultados.

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 18 de 24

Figura 5.3.1.2:Opcin Estadsticos del Anlisis Cluster jerrquico en SPSS

La opcin Grficos, muestra las opciones grficas del Anlisis Cluster jerrquico en SPSS: Dendrograma y Diagrama de Tmpanos

Figura 5.3.1.2: Opcin Grficos del Anlisis Cluster jerrquico en SPSS

La seleccin del mtodo de conglomeracin se hace a partir de la opcin Mtodo. En esta ventana se selecciona adems la medida utilizada para calcular la distancia entre los clusters as como la posibilidad de trabajar con datos tipificados o no.

Figura 5.3.1.3: Opcin Mtodos del Anlisis Cluster jerrquico en SPSS

Por ltimo, la opcin Guardar permite indicar el rango de soluciones que se quieren mantener.

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 19 de 24

Figura 5.3.1.4: Opcin Guardar del Anlisis Cluster jerrquico en SPSS

El conjunto de rdenes asociado a todas estas selecciones se muestran a continuacin. En primer lugar, se indican las variables que se van a utilizar para la clasificacin y se especifica un fichero de trabajo interno de SPSS que es eliminado al finalizar los clculos. A continuacin, la suborden /VIEW indica que se realiza una agrupacin de individuos (casos), utilizando como medida el cuadrado de la distancia eucldea (suborden /MEASURE). Es necesario tambin, indicar las caractersticas del mtodo cluster jerrquico seleccionado.

Figura 5.3.1.5: rdenes de un Anlisis Cluster jerrquico en SPSS

5.3.2. Algoritmo de K-medias en SPSS

Se accede a los procedimientos no jerrquicos de SPSS a partir del Analizar/Clasificar/Conglomerados de K-medias de la barra de mens de SPSS.

men

Siguiendo con el ejemplo anterior, la ventana de SPSS a partir de la cual se accede al anlisis de conglomerados de K-medias aparece en la figura

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 20 de 24

Figura 5.3.2.1: Anlisis Cluster K-medias en SPSS en modo interactivo

Al igual que en el caso anterior, a partir de esta ventana se accede a las diferentes opciones referentes a estadsticos, nmero de iteraciones a realizar y guardar resultados. El botn Opciones permite seleccionar los estadsticos que indican la posicin de los centros de los conglomerados iniciales, una tabla ANOVA indicativa del ajuste del modelo, si bien esta tabla slo desempea un papel orientativo, dado que no tienen fundamento terico.

Figura 5.3.2.2: Opciones del Anlisis Cluster K-medias en SPSS

El botn Iter da acceso a las opciones de convergencia del mtodo. SPSS permite establecer esta convergencia en funcin de un nmero fijo de iteraciones o estableciendo un criterio de convergencia concreto.

Figura 5.3.2.3: Criterio de convergencia del Anlisis Cluster K-medias en SPSS

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 21 de 24

Las rdenes asociadas al anlisis que acabamos de describir aparecen en la figura que se presenta a continuacin. Al igual que en el caso jerrquico, el cdigo comienza con la especificacin de las variables que se van a utilizar para establecer la clasificacin de los datos. A continuacin se detallan las caractersticas del anlisis en cuanto al nmero de clusters con el que se quiere trabajar, nmero mximo de iteraciones y criterio de convergencia. Por ltimo se especifica el mtodo cluster empleado as como el detalle de la informacin que se desea guardar.

Figura 5.3.2.4: rdenes del Anlisis Cluster K-medias en SPSS

5.4. Anlisis de Regresin en SPSS


El Anlisis de Regresin tiene como objetivo estudiar la relacin entre variables. Permite expresar dicha relacin en trminos de una ecuacin que conecta una variable de respuesta, Y, con una o ms variables explicativas, X1,X2,,Xk, con el objetivo de determinar explcitamente el funcional que relaciona las variables de entre una familia de funcionales. Segn el nmero de variables explicativas con que se trabaje, distinguiremos entre Regresin Simple o Mltiple. Y segn las funciones que se consideren para el ajuste, hablaremos de

Estimacin curvilnea (Lineal, Polinmica, Potencial, Exponencial, Hiperblica, etc.).

En el caso del modelo lineal se hacen algunas distinciones: Mnimos cuadrados en dos fases (correlacin entre residuos y variables explicativas) Estimacion ponderada (situacin de heterocedasticidad)

Regresin no lineal (Algoritmos de estimacin iterativos)

5.4.1. Regresin en SPSS

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 22 de 24

Los anlisis de regresin se seleccionan pulsando el botn Analizar de la barra de mens y seleccionando la opcin Regresin

Figura 5.4.1.1: Anlisis de Regresin en SPSS

Segn el tipo de datos con el que se trabaje, SPSS distingue diferentes opciones, indicadas en la figura

Regresin lineal mltiple (Lineal) Ajuste de curvas mediante linealizacin (Estimacin curvilnea) Modelos de regresin con respuestas binarias u ordinales (Logstica binaria, Logstica multinomial, Ordinal, Probit) Modelos de regresin no lineales (No lineal) Correcciones en el modelo lineal (Estimacin ponderada, Mnimos cuadrados en dos fases) Modelos de regresin con variables categricas (Escalamiento ptimo)

A ttulo de ejemplo, consideremos la informacin referente a un grupo de vehculos. A partir de ella, se pretende ajustar un modelo lineal que permita predecir el consumo (variable consumo) en funcin del tipo de motor (variable motor), cilindrada (variable cv), peso total (variable peso) y tiempo de aceleracin de 0 a 100 km/hora (variable acel) del vehculo. A continuacin se muestra la ventana de SPSS que permite seleccionar dicho anlisis de regresin en modo interactivo.

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 23 de 24

Figura 5.4.1.2: Anlisis de Regresin en SPSS en modo interactivo

Las rdenes asociadas a dicho anlisis son:

Figura 5.4.1.3: rdenes de un Anlisis de Regresin en SPSS

En el lenguaje de rdenes, el anlisis de regresin comienza con la orden REGRESSION. A continuacin se excluyen los valores perdidos y se indica qu estadsticos calcular. En nuestro ejemplo concreto se piden los coeficientes (COEF), variables excludas de la regresin (OUTS), intervalos de confianza para los coeficientes de la ecuacin de regresin (CI), coeficiente de correlacin (R), tabla del anlisis de la varianza (ANOVA) y cambios en el coeficiente de correlacin (CHANGE).

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

El Anlisis Exploratorio de datos en SPSS

Pgina 24 de 24

La suborden /CRITERIA se utiliza para indicar el mtodo de clculo de los coeficientes de regresin. /NOORIGIN indica que se suprime el trmino constante de la ecuacin. Y por ltimo se indica las variables dependiente e independientes, junto con el mtodo empleado para introducir los datos

file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

15/10/2008

You might also like