You are on page 1of 114

INTRODUCCIN

A PROPSITO DE ESTA GUA


La gua de ayuda para SPSS 10. nace a partir de la experiencia docente en distintas asignaturas de la licenciatura de Psicologa as como en diversos cursos de doctorado y postgrado. Sus orgenes se encuentran en una primera gua editada en formato tradicional y que ha sido utilizada en los dos ltimos aos. No obstante dicho formato no permite un acceso inmediato a las distintas alternativas de anlisis que pueden presentarse tanto a nivel docente como de investigacin y, por otra parte, la inclusin en la misma de ejemplos comentados incrementara en gran medida su extensin hacindola poco prctica.

Con el propsito de solventar dichas limitaciones presentamos esta gua online. En la misma, adems de una breve introduccin estadstica a los anlisis que se presentan se incluyen ejemplos comentados de los mismos. Somos conscientes de que la ingente cantidad de posibilidades de anlisis que presenta SPSS no puede ser cubierta en su totalidad por la misma. Desde esta perspectiva nos hemos centrado en aquellos anlisis que son ms frecuentes en nuestro mbito, esperando que en el futuro podremos ir incrementando sus campos de aplicacin.

Esperamos que encuentres esta gua de utilidad tanto si la usas en el mbito docente como si la utilizas como usuario de SPSS. En cualquier caso te agradeceramos los comentarios o consideraciones que puedas hacernos al respecto.

Andreu Vigil i Colet Urbano Lorenzo i Seva

LA VENTANA DE INTRODUCCION DE DATOS

La ventana de introduccin de datos nos permite introducir los datos que pretendemos analizar o visualizar los datos previamente introducidos. De igual modo en ella se encuentran las utilidades que nos permiten importar los datos desde otros formatos como pueden ser datos ASCII, una hoja de clculo de EXCEL, etc.

En la figura siguiente podemos ver el aspecto de dicha ventana. En la parte inferior de la misma, a partir de la versin 10 de SPSS aparecen dos pestaas: la primera (vista de datos) pertenece a la ventana de datos propiamente dicha, en la misma los datos se introducen y manipulan de la misma manera y con las mismas opciones de copiado, etc. que en cualquier otro programa del sistema operativo windows. La segunda pestaa (vista de variables) es ms interesante desde el punto de vista del SPSS ya que nos da acceso a una hoja de captura de datos en la cual definiremos todas las variables que vamos a utilizar, as como sus caractersticas principales: mtrica, tipo, nmero de decimales, etc.

Dentro ya de la vista de variables nos encontramos con la posibilidad de definir las distintas caractersticas de nuestras variables. As por ejemplo podemos introducir el nombre de la primera variable "ci" que hace referencia al coeficiente intelectual de los sujetos. Debemos tener en cuenta que la extensin del nombre de la variable est limitada a ocho caracteres.

SPSS por defecto nos definira dicha variable tal y como lo vemos en la siguiente figura, es decir, numrica, con 8 dgitos y dos decimales, sin

etiquetas ni de variable ni de valor, sin definicin de datos perdidos, visualizando ocho dgitos, alineando los datos a la derecha y suponiendo que la variable tiene una mtrica de escala, es decir de intervalo o de razn.

Veamos en que forma definiramos dichos valores para nuestro caso concreto y las opciones que nos da el programa. En primer lugar pulsamos con el ratn sobre la palabra numrico lo cual provoca que se habra una ventana de captura de datos en la que definimos tanto el tipo de variable como el nmero mximo de dgitos. Cabe sealar que entre todas las opciones que nos presenta las ms interesantes son "Numrica" y "Cadena". La primera como es obvio hace referencia a aquellas variables que son cifras y que no precisan de ningn tipo de presentacin especial (delimitadores, signos monetarios, etc.) mientras que cadena hace referencia a variables que no son tratadas de forma numrica, como puede ser el nombre del sujeto, etc.

Puede observarse que en esta ventana hemos definido tambin una anchura de tres dgitos y ningn decimal, dado que los valores ms altos de CI se representan con tres dgitos y, habitualmente, sin decimales.

En la columna etiqueta podemos introducir una definicin ms amplia de la variable de tal modo que en prximas ocasiones podamos saber a que refiere, en nuestro caso hemos introducido "coeficiente intelectual", esta etiqueta ser tambin visible en las ventanas de captura de datos de los anlisis que realizemos con posterioridad. Es preciso sealar la importancia de definir este tipo de etiquetas dado que la limitacin a ocho caracteres de las variables hace que, en muchos casos, debamos definir las variables con nomenclaturas como "trc2", las cuales al cabo de un tiempo no sabremos al cabo de un tiempo a que hacen referencia. En este caso una etiqueta como "tiempo de reaccin condicin 2" puede facilitarnos las cosas.

La siguiente columna; etiquetas de valor nos permite definir etiquetas particulares para cada valor de la variable. Lgicamente en nuestro caso ello no tendra sentido dado que deberamos aadir una etiqueta para cada valor de CI. No obstante cuando trabajamos con variables categricas es interesante utilizar esta opcin. As por ejemplo si introducimos la variable sexo, es importante tener una etiqueta de valor que nos recuerde que el valor 1 son las mujeres y el dos los hombres. Para ello pulsaremos sobre la casilla correspondiente y nos aparecera una ventana de captura de datos como la siguiente:

En esta ventana introducimos el valor 1, la etiqueta Mujeres y a continuacin pulsamos Aadir, posteriormente hacemos lo mismo para el siguiente valor y finalizamos pulsando Aceptar.

A continuacin definimos los valores perdidos, es decir, aquellos valores de nuestra variable que representan los casos que o bien no hemos obtenido, o bien no son validos. La ventana correspondiente puede observarse en la imagen inferior.

Esta opcin tan solo ser necesaria en aquellos casos en que los datos de que disponemos hayan sido introducidos con un valor perdido concreto, dado que, si introducimos los datos nosotros siempre tenemos la posibilidad no introducir ningn valor en aquella casilla que contenga un dato perdido, con lo que SPSS lo reconocer as aunque no efectuemos ninguna definicin de los mismos. Podemos comprobar que adems de introducir valores concretos, SPSS nos da la posibilidad de definir un rango de valores como valores perdidos. Las dos opciones siguientes; columnas y alineacin refieren a la visualizacin de las variables en la ventana "vista de datos" y modifican el nmero de columnas que se visualizan as como la alineacin (derecha, izquierda o centro) de los datos.

Finalmente podemos introducir la mtrica en que est medida la variable, en nuestro caso al ser de intervalo quedara comprendida en la categora "escala". Para ello utilizamos la ventana de captura de datos que vemos a continuacin. Una advertencia muy importante es que aunque nosotros definamos la mtrica de la variable, SPSS no nos va a advertir, en un anlisis concreto, de la inadecuacin del mismo en funcin de la mtrica de las variables. De este modo podemos ver como es posible solicitar una regresin lineal con dos variables nominales y SPSS ejecutar la misma sin generar ningn error, lo cual suele llevar a interesantes trabajos en los que se demuestra la relacin entre el color del pelo y el sexo de los ngeles. Hay que tener siempre en cuenta el hecho que si el programa no nos da ningn error no implica que no estemos equivocndonos totalmente.

LA VENTANA DE SINTAXIS Antes de la introduccin de los sistemas operativos basados en entornos grficos como Windows, SPSS se ejecutaba sobre sistemas operativos como el MS-DOS, en los cuales el funcionamiento del programa estaba basado en la elaboracin por parte del usuario de

programas que le permitan el anlisis de datos mediante un lenguaje propio del SPSS. La ventana de sintaxis es la que nos permite introducir y ejecutar dichas ordenes.

Dicho lenguaje o sintaxis del SPSS es utilizado fundamentalmente por dos motivos:

1.

Dado el elevado nmero de anlisis estadsticos y opciones de los mismos que contiene SPSS, existen procedimientos y opciones que no se incluyen en los menus del programa y tan solo son accesibles via sintaxis.

2.

Al no disponer SPSS de macros propias, en aquellas ocasiones en que se deban llevar a cabo diversos anlisis de datos de tipo repetitivo puede ser mucho ms rpido elaborar un programa mediante la sintaxis del SPSS que los lleve a cabo todos de forma simultnea.

Lgicamente el problema que conlleva trabajar de este modo es que implica unos ciertos conocimientos del lenguaje que utiliza SPSS y que pueden ser consultados en la gua de sintaxis del mismo. No obstante en muchos casos podemos obtener el programa que sera preciso para llevar a cabo una accin en concreto, Para ello deberemos observar que en la mayora de los menus de captura de datos que sern expuestos en los distintos apartados de esta gua aparece el botn pegar como por ejemplo en el que aparece a la izquierda.

Si pulsamos este botn despus de haber seleccionado los distintos anlisis que nos interesan nos aparecer en la ventana de sintaxis el programa que deberamos haber escrito para obtener dichos anlisis. Para

ejecutarlo tan solo ser necesario seleccionar con el ratn las ordenes y pulsar el botn ">" que est en la parte superior derecha de la ventana.

Finalmente, otra va para obtener las ordenes precisas para ejecutar un anlisis determinado es pulsando sobre la etiqueta "Notas" del navegador de resultados, con lo que nos aparecer el programa necesario.

EL NAVEGADOR DE RESULTADOS

El navegador de resultados es el interface grfico utilizado por SPSS para mostrarnos los resultados obtenidos al aplicar los anlisis estadsticos que hemos solicitado. Para ello divide la ventana verticalmente en dos mitades tal y como se ve en la figura inferior.

Como demos observar en el lado izquierdo nos encontramos con un ndice de la informacin que nos presenta SPSS, ello es debido a que en muchas ocasiones la longitud del output supera de largo las posibilidades de visualizacin de una sola pantalla y, de este modo, podemos movernos por el mismo de forma mucho ms rpida pulsando sobre la parte del mismo que nos interesa. Por otra parte SPSS siempre nos va a mostrar en dicho ndice un apartado denominado "Notas". En dicho apartado, que se activa pulsando dos veces sobre el mismo, SPSS nos ofrecer informacin sobre las caractersticas del archivo con el que trabajamos, la hora y da en que se ha realizado el anlisis, las instrucciones necesarias para ejecutarlo via sintxis, etc.

En la parte derecha de la ventana podremos observar los resultados obtenidos para, posteriormente imprimirlos, guardarlos, etc. Otra opcin es seleccionar aquellos resultados que nos interesen y copiarlos para insertarlos posteriormente en cualquier otro programa como un procesador de textos, etc. Hay que tener en cuenta que en la mayora de los casos dichos resultados se deben pegar utilizando la opcin pegado especial y seleccionando pegar como imagen dado que en caso contrario perderamos el formato de los mismos.

MANIPULACIN DE DATOS
ORDENACION DE DATOS

La finalidad de esta manipulacin es la de ordenar de modo creciente o decreciente a los sujetos en funcin de las puntuaciones en alguna de las variables. Si, por ejemplo, detectamos que al calcular la Media Aritmtica de una variable se obtiene un resultado absurdo (mucho mayor que el mximo de la escala, por ejemplo), es conveniente revisar los datos (ya que probablemente se ha cometido un error en la entrada de los mismos). Ordenando los sujetos del mayor al menor en funcin de la variable estudiada, el sujeto con la puntuacin mayor en dicha variable quedar ordenado en primer lugar (pudiendo rectificar ahora su puntuacin). Esta opcin tambin es muy til en el caso de que debamos presentar un listado de los casos con los que estamos trabajando ordenado en funcin de alguna o algunas de las variables incluidas en nuestros datos.

Seleccionando la opcin Ordenar casos en el submen Datos del Men Principal, se activa el submen presentado en la figura 5.3. En este submen se ha seleccionado la variable ansiedad para se ordenada de modo Ascendente (de menor a mayor). Al pulsar el botn Aceptar, los casos se reordenarn en la ventana de datos en funcin de dicha variable.

Por otra parte es posible ordenar los casos en funcin de dos o ms criterios. De este modo los casos quedaran ordenados en funcin de la primera variable seleccionada, los casos con un mismo valor en dicha variable quedarn ordenados en funcin del segundo criterio y as sucesivamente. De este modo por ejemplo, podriamos hacer un listado en el que aparecieran en primer lugar las mujeres y despus los hombres, estando a su vez ordenados dentro de cada gnero en funcin de su nivel de ansiedad.

SELECCION: FILTRADO Y ELIMINACION DE DATOS

La seleccin implica dos procesos diferentes: el filtrado y la eliminacin de casos. El filtrado se refiere a la supresin de ciertos casos en el anlisis que se realizar a continuacin; mientras que la eliminacin se refiere a la eliminacin de ciertos casos de forma definitiva en todos los anlisis que se realicen a continuacin (ntese que si se un fichero se guarda despus de eliminar dichos casos , los casos eliminados se perdern de forma definitiva e irrevocable).

La seleccin de casos es interesante en situaciones como la siguiente. Se ha registrado la variable Ansiedad y la variable Sexo. Calculando la Media Aritmtica de la variable Ansiedad, se obtiene el promedio de la ansiedad para todos los sujetos simultneamente, hombre y mujeres. Si se pretende saber cual es la Media Aritmtica de la variable Ansiedad para los hombres y la Media Aritmtica de la variable Ansiedad para las mujeres por separado, es preciso seleccionar los sujetos en funcin de la variable Sexo. De este modo se puede calcular la Media Aritmtica de la variable Ansiedad para los hombre y para las mujeres de forma diferenciada. Hay que sealar que en este caso concreto podramos obtener los mismos resultasdos de una forma ms sencilla utilizando el procedimiento tablas que se ver en apartados posteriores, no obstante en muchos casos no existe un procedimiento especfico para llevar a cabo anlisis sobre submuestras y es preciso utilizar el filtrado.

Seleccionando la opcin Seleccionar casos en el submen Datos del Men Principal, se activa el submen presentado en sobre estas lneas. Por defecto se haya activada la opcin Filtrados, que indica que la seleccin es temporal. Si se pretende una seleccin ms duradera (eliminar casos), se debe seleccionar la opcin Eliminados. En este men se ha de indicar el modo de seleccin que se pretende aplicar. Por ejemplo, activando la opcin Si se satisface la condicin y pulsando el botn Si, se activa el submen mostrado en la figura siguiente.

En este ejemplo, se ha indicado una seleccin para todos los casos con valores superiores a 1 en la variable Ansiedad. Como se puede inferir , se pueden especificar selecciones muy complejas, ya que permite la seleccin en base a distintas operaciones matemticas y funciones, con la posibilidad de aadir operadores lgicos como AND (&) OR ( | ), etc.

Otro tipo de seleccin es la seleccin para valores dentro de un rango determinado. As, activando la opcin Basndose en el rango del tiempo o de los valores y pulsando el botn Rango, se activa el submen mostrado en la figura anterior En las ventanas correspondientes, se indica el primer y el ltimo caso que se quieren considerar en el anlisis.

Al pulsar el botn Aceptar se aplican la seleccin definida, mientras que el botn Restablecer desactiva cualquier seleccin previa (pero no cualquier eliminacin previa!). Las variables que no se hallan seleccionadas, son marcadas con una lnea en la ventana de datos y, adems, aparece una nueva varialble denominada "Filter" que indica si el caso ha sido seleccionado (valor 1) o no (valor 2). Ntese que esas mismas variables sern borradas de la ventana de datos si se aplica la opcin de eliminar casos (Eliminados).

RECODIFICACION DE DATOS

La recodificacin de datos implica el cambio de escala de alguna de las variables. Por ejemplo, se tiene la variable Notas donde se han guardado las notas obtenidas por los alumnos en cierta asignatura. Si se pretende estudiar el nmero de estudiantes que han obtenido notas bajas, el nmero de estudiantes que han obtenido notas medias y el nmero de estudiantes que han obtenido notas altas, es preciso recodificar las variable. As pues, se crear una nueva variable donde los estudiantes con notas entre cero y 3,33 recibirn una puntuacin de cero en la nueva variable; los estudiantes con notas entre 3,33 y 6,33 recibirn una puntuacin de 1 en la nueva variable; y, finalmente, los estudiantes con notas entre 6,66 y 10 recibirn una puntuacin de 3 en la nueva variable.

Ntese que SPSS permite recodificar las variables en la misma variable que se recodifica o en una nueva variable. Es recomendable recodificar siempre en una nueva variable ya que, de este modo, la recodificacin no implica la prdida de los valores en la variable original. Seleccionando la opcin Recodificar del submen Transformar del Men Principal se muestran las dos opciones posibles. Seleccionando la opcin En distintas variables, se activa el submen Recodificar en distintas variables.

El nombre de la nueva variable se especifica en la ventana Nombre y la etiqueta para dicha variable en la ventana Etiqueta. En el ejemplo de la figura siguiente, la variable punt se recodifica en la variable nput. Para definir las condiciones de la recodificacin se pulsa el botn Valores antiguos y nuevos, activndose el submen mostrado en la figura siguiente:

Las posibilidades de recodificacin son muy variadas. En este ejemplo se ha definido que cuando el sujeto presente puntuaciones entre 0 y 10 en la variable original (punt), punte 1 en la variable nueva (nput); y que cuando el sujeto presente puntuaciones entre 10 y 15 en la variable original (punt), punte 2 en la variable nueva (nput). En este momento se est definiendo que para puntuaciones entre 15 y 25 en la variable antigua (punt), punte 3 en la variable nueva (nput). Cuando se pulse el botn Aadir, esta condicin se aadir a las anteriores y se mostrar en la ventana Antiguo Nuevo. Una vez definidos todos los valores de recodificacin se pulsa Continuar.

Al pulsar el botn Aceptar, SPSS calcula la nueva variable recodificada y la aade a las variables de la ventana de datos.

CREACION DE NUEVAS VARIABLES

La creacin de variables implica el clculo de nuevas variables en funcin de las variables ya existentes, o bien en funcin de criterios externos a las variables ya existentes. Un ejemplo donde se requiere la creacin de nuevas variables podra ser el siguiente: se tienen dos puntuaciones de cada sujeto (cada una en una variable) y se pretende calcular la puntuacin promedio para cada sujeto en las dos variables. Calcular manualmente el promedio sujeto por sujeto es una solucin muy tediosa. En estos casos SPSS dispone de comandos que permiten generar nuevas variables a partir de transfomaciones de las existentes.

10

Seleccionando la opcin Calcular del submen Transformar del Men Principal se activa el submen Calcular Variable mostrado en la figura anterior. En este submen se dispone de una interface grfica similar a la vista en el procedimiento de filtrado que nos ayuda a seleccionar variables, funciones y valores constantes para el clculo de nuevas variables. Los aspectos que se deben considerar son:

a.- se debe dar un nombre a la nueva variable. Este nombre se especifica en la ventana Variable de destino. b.- El botn Tipo y etiquetas permite definir el tipo de la variable nueva, as como sus etiquetas. c.- En la ventana Expresin numrica se debe escribir la funcin que define la nueva variable. Aqu se pueden utilizar otras variables, valores constantes y las funciones que se muestran en la ventana Funciones.

En la figura anterior se est creando una nueva variable puntdob, que ser la puntuacin de cada sujeto en la variable punt multiplicada por dos. Al pulsar el botn Aceptar, SPSS crear la nueva variable y se aadir en la ventana de datos de SPSS.

ESTADSTICA DESCRIPTIVA
EL PROCEDIMIENTO FRECUENCIAS

Para ilustrar el funcionamiento de este procedimiento vamos a utilizar uno de los ficheros de ejemplo que instala originalmente el SPSS. De este modo cargaremos en el editor el fichero "Encuesta general USA 1991". A continuacin solicitamos en el men Estadsticos Resumir el procedimiento frecuencias. Una vez en dicho procedimiento seleccionamos en la ventana de captura de datos que vemos a continuacin la variable hijos.

Podemos observar que en el men de la opcin frecuencias, podemos acceder a distintos submens. Vamos a centrarnos en los correspondientes a estadsticos y grficos que nos permiten respectivamente solicitar los estadsticos que nos interesen y optar si lo deseamos por distintos tipos de presentacin grfica de la distribucin.

En primer lugar pulsamos sobre la opcin estadsticos apareciendo la siguiente ventana de entrada de datos:

11

Dicha ventana nos permite obtener distintos estadsticos descriptivos. En primer lugar podemos obtener informacin relativa a los percentiles. Para ello se nos plantean distintas opciones. La primera de ellas, cuartiles, nos proporcionar las puntuaciones correspondientes a los centiles 25, 50 y 75. Es decir realizar en la distribucin tres puntos de corte de tal modo que tendremos cuatro grupos iguales. En el caso de que deseemos dividir la distribucin en ms grupos, podemos indicarlo en la siguiente opcin, introduciendo el nmero de grupos que deseemos, por ejemplo en este caso si seleccionaramos dicha opcin estaramos solicitando 10 grupos iguales con nueve puntos de corte.

Finalmente puede darse el caso de que estemos interesados en algunos centiles en particular. En dicho caso debemos introducir en la ventana percentiles el que nos interesa y a continuacin pulsar aadir. En el ejemplo vemos que el centil 40 ya ha sido introducido y nos disponemos a aadir el 60.

En esta misma ventana podemos solicitar los estadsticos de dispersin, tendencia central y asimetra ms usuales. Dichos ndices, como veremos, los podemos obtener tambin en el procedimiento descriptivos con la excepcin de la mediana que tan slo est disponible en este men.

Volviendo a la ventana principal de frecuencias podemos pulsar ahora sobre la opcin grficos que nos permite visualizar de forma grfica los resultados bsicos generados por el procedimiento frecuencias. Una de las opciones ms interesantes que encontramos en este men es la de obtener un histograma al cual se le superpone la curva normal. De este modo podemos obtener una primera aproximacin al grado en que nuestros datos se ajustan a una distribucin normal y de no ser as en que sentido se alejan de la misma. Lgicamente el grado de ajuste deber ser confirmado posteriormente utilizando pruebas especficas.

12

Una vez seleccionadas todas las opciones que nos interesan podemos pulsar en Continuar obteniendo el siguiente output:

La primera tabla de resultados nos ofrece informacin sobre el nmero de casos de los que disponemos informacin sobre el nmero de hijos as como del nmero de missings o valores perdidos. A continuacin nos ofrece los estadsticos descriptivos que habamos solicitado, de tal modo que nuestra muestra presenta una media de 1,9 hijos, siendo la mediana de 2 hijos. Finalmente nos ofrece el centil 40.

En la siguiente tabla se nos muestra informacin sobre las frecuencias de los distintos valores de la distribucin. Podemos comprobar como nos proporciona el nmero de casos existentes para cada valor de la variable nmero de hijos y, a continuacin, el porcentaje sobre el total de la muestra. Es importante darnos cuenta de que dicho porcentaje se realiza sobre el total de casos, incluyendo los valores perdidos. Es por ello que el total del porcentaje acumulado no llega al 100 por 100. En las columnas siguientes podemos comprobar que el total si que es del 100 por 100 dado que en ellas los datos se refieren tan solo a los casos vlidos.

13

Finalmente podemos observar el histograma que habamos solicitado. En el vemos la distribucin de frecuencias para cada nmero de hijos, comprobando que a primera vista la distribucin dista de ser normal. Probablemente ello sea debido a la elevada cantidad de sujetos que han manifestado no tener hijos, de tal modo que la distribucin est sesgada positivamente.

EL PROCEDIMIENTO DESCRIPTIVOS Tal y como hemos sealado con anterioridad este procedimiento nos permite obtener los estadsticos descriptivos bsicos. Adems presenta como opcin la posibilidad de obtener los valores tipificados de una variable y guardarlos en el editor de datos. Para acceder al submen de descriptivos debemos situar el ratn sobre el men estadsticos>resumir, obteniendo la pantalla de entrada de datos que se observa a continuacin. A continuacin debemos seleccionar las variables de las cuales nos interesa obtener informacin mediante el procedimiento habitual. En el caso de que estemos interesados en obtener los valores tipificados de dichas variables debemos sealarlo en el margen inferior izquierdo de dicha ventana, con lo que obtendremos una nueva variable, denominada zhijos en el editor de datos.

14

Posteriormente seleccionar

debemos

pulsar

el

botn en los

"opciones" que

para

aquellos

estadsticos

estemos

interesados. Una vez pulsado el botn se nos presentar la ventana de captura de datos que podemos observar a nuestra derecha. Dicha ventana nos permite seleccionar los distintos estadsticos descriptivos as como el orden en que sern visualizadas las variables. Tal y como hemos comentado en el apartado relativo a frecuencias, este procedimiento no permite obtener ni la mediana ni la moda.

Si llevamos a cabo los pasos expuestos con anterioridad el output que obtendramos sera el siguiente:

Un aspecto de este procecimiento que debe ser tenido en cuenta es que este programa le resta a la curtosis obtenida 3, que es la curtosis de la curva normal, de este modo es posible obtener ndices de curtosis negativos, caso que se producir en aquellas distribuciones platicrticas, mientras que la curtosis ser positiva en el caso de las leptocrticas.

EL PROCEDIMIENTO EXPLORAR

El procedimiento explorar tal y como su nombre indica es especialmente til para realizar un primer anlisis de los datos con el fin de detectar datos errneos o anormales, as como para obtener informacin de distintos estadsticos que nos sern de utilidad con posterioridad en la verificacin del cumplimiento de los supuestos del modelo estadstico con el que queramos trabajar. Al igual que en el resto de mdulos de estadstica descriptiva el men explorar lo obtenemos a travs de estadsticos> resumir> explorar. La primera ventana de captura de datos que nos aparece nos solicita que seleccionemos en primer lugar la variable dependiente. En el caso de que tan slo deseemos obtener informacin sobre una variable o varias variables independientemente de los niveles de otra debemos seleccionarlas de la lista de variables mediante el procedimiento habitual. En el caso de que nuestro inters est centrado en obtener los datos de una variable a travs de los niveles de otra debemos introducir esta segunda variable en la ventana Factores. Finalmente es posible etiquetar los casos mediante una tercera variable. En nuestro caso vamos a utilizar como ejemplo los datos del fichero "Encuesta general USA" que SPSS incluye como ejemplo.

15

En la figura anterior vemos como hemos solicitado que realice una exploracin de la variable "hijos" que refiere al nmero de hijos de cada sujeto en funcin de la raza a la que pertenece el individuo. Dentro de este men podemos seleccionar los estadsticos descriptivos que nos interesen, as como distintas opciones grficas que nos permiten una mejor deteccin de los posibles errores o casos atpicos existentes en nuestros datos. En la figura inferior pueden observarse dichos menus.

16

En el men Estadsticos podemos solicitar, adems de los descriptivos, como opcin ms interesante los valores atpicos que existen en la distribucin de la variable que nos ocupa. Dicha opcin permitir que el output nos muestre los valores de los casos extremos de la variable, de tal modo que podamos detectar la existencia de algn valor extrao o imposible para el rango de valores de la variable.

Una de las opciones ms potentes del mdulo explorar es la que hace referencia a los grficos que estn implementados en el mismo. Una de las primeras opciones que encontramos es la de diagramas de caja, estos diagramas, tambin conocidos como "box plots" nos presentan un diagrama que, en el caso de trabajar con una segunda variable, se realizan para cada nivel de dicha segunda variable (en nuestro caso seria el nmero de hijos en funcin de la raza). En este caso para cada nivel encontraremos un grfico que se genera a partir de los centiles 25, 50 y 75 y de los valores extremos de la distribucin.

En esta figura podemos ver un ejemplo de cmo se representan los datos en un diagrama de caja. Podemos comprobar como la caja viene definida por los centiles 25 y 75, situndose en su interior la mediana. De este modo la zona azul representar el 50% de la distribucin. Los valores extremos se definen en funcin de cuanto se alejan respecto de este 50% central. As en el grfico podemos observar un lmite superior y uno inferior definidos a partir de 1,5 veces la amplitud intercuartil existente entre el centil 50 y los centiles 25 y 75. Aquellos casos que se alejen entre 1,5 y 3 veces dicha amplitud se representan mediante un crculo, los que se alejen ms de 3 veces se representan mediante un asterisco.

Como grficos descriptivos, adems del histograma, la opcin grficos nos permite obtener un diagrama de tallo y hojas. Estos diagramas son similares a los histogramas aunque, como veremos nos proporcionan ms informacin.

En este tipo de diagramas, cada caso es representado en una fila dividiendo su valor en dos componentes: un dgito inicial (tallo) que es comn a una serie de casos dentro de un mismo intervalo y los dgitos finales del mismo.Finalmente nos indica cuantos casos representa cada hoja, dado que en muestras de gran tamao puede representar ms de un caso y cuantos casos extremos hay. Por ejemplo, en los datos que presentamos a continuacin cada tallo tiene una amplitud de 1, hay 104 casos para el tallo correspondiente a 4 hijos. Los ceros nos indican que todos los valores son 4.0 y cada uno representa 8 casos. Finalmente el diagrama nos informa que existen 12 casos extremos con un valor igual o superior a 8.

Frequency Stem & Leaf

17

366.00 207.00 316.00 181.00 104.00 42.00 17.00 14.00 12.00 Stem width: 1

0 1 2 3 4 5 6 7

. . . .

0000000000000000000000000000000000000000000000 00000000000000000000000000 000000000000000000000000000000000000000 00000000000000000000000 . . . . Extremes 0000000000000 00000 00 00 (>=8)

Each leaf: 8 case(s)

La opcin dispersin por nivel con prueba de Levene es til en aquellos casos en que tengamos ms de un nivel de un factor. La prueba de Levene nos permite contrastar la hiptesis nula de que las varianzas de error para cada nivel son homogneas. Este es un supuesto preciso en la mayora de pruebas de inferencia que comparan las medias de dos o ms grupos. Habitualmente la prueba se lleva a cabo sobre los datos no transformados, no obstante, cuando este supuesto no se cumple es habitual intentar llevar a cabo transformaciones que hagan homogeneas las varianzas de error, como por ejemplo transformar las puntuaciones a logaritmos, en este caso SPSS nos permite llevar a cabo dichas transformaciones y verificar si dicha transformacin nos permite aceptar la hiptesis nula.

A continuacin podemos comprobar el output completo obtenido con las especificaciones que hemos ido dando al modulo explorar.

Como podemos comprobar el output nos proporciona en primer lugar un resumen de los casos vlidos que existen para cada una de las categoras para, posteriormente, ofrecernos los estadsticos descriptivos para cada uno de los niveles de raza. Por razones de espacio tan solo se presentan los correspondientes a la raza blanca.

En primer lugar podemos observar los estadsticos descriptivos. Hay que sealar que adems de los descriptivos habituales nos ofrece el intervalo de confianza para la media y la media recortada al 5%, es decir, calculada a partir de los datos de que disponemos pero eliminando el 5% de los casos que presentan valores mayores en ambos extremos de la distribucin. Una elevada discrepancia entre este valor y el de la media indicara que existe en alguna de las dos colas de la distribucin un valor extremo que est distorsionando la media.

18

A continuacin se nos presentan los cinco valores mayores y menores ms extremos, en nuestro caso todos son 8 0 dado que hay ms de cinco casos con dicho valor. Posteriormente podemos ver las pruebas de normalidad. En primer lugar el output nos proporciona la prueba de Kolmogorov-Smirnov para cada uno de los niveles de la variable raza. En este caso podemos comprobar como en todos ellos rechazamos la hiptesis nula, no cumplindose el supuesto de normalidad. La prueba de Shapiro-Wilks es adecuada en aquellos casos en que trabajamos con muestras pequeas N<50, es por ello que tan solo se calcula para la categora "Otra".

A continuacin el output nos ofrece la prueba de Levene de homogeneidad de varianzas de error. Podemos comprobar que si aceptamos un nivel de significacin del 5% debemos rechazar la hiptesis nula, es decir, las varianzas de los tres niveles de la variable raza no son homogneas a no ser que nos decidamos a trabajar con la distribucin recortada o refirindonos a la mediana.

Finalmente, entre los grficos que nos presenta este output merece la pena comentar el grfico de caja que representa los distintos niveles del factor raza. En este grfico podemos observar los lmites que anteriormente habamos comentado para los casos extremos pero su mayor utilidad es la de permitirnos observar de forma conjunta la variabilidad que existe en los tres niveles. De modo visual podemos comprobar que para el primer nivel (raza blanca) la variabilidad parece ser bastante mayor respecto de los otros dos niveles (caja roja de mayor tamao), lo cual podra explicar la falta de homogeneidad de las varianzas de error.

EL PROCEDIMIENTO TABLAS DE CONTINGENCIA Este procedimiento nos permite obtener informacin fundamentalmente descriptiva acerca de la relacin entre los distintos niveles de dos variables nominales u ordinales. Antes de describir el procedimiento es interesante sealar la forma en que se pueden introducir los datos para la aplicacin del mismo.

19

Hombre Fumador No Fumador

Mujer 21 24 15 36

As por ejemplo los datos de la tabla que se muestra a la izquierda podran obtenerse introduciendo la puntuacin en las variables dicotmicas sexo y fumar para cada uno de los 96 individuos de la muestra. Por otra parte si disponemos inicialmente de una tabla como esta podramos introducir todas las combinaciones posibles entre ambas variables y, a continuacin, una tercera variable con la frecuencia para cada combinacin, tal y como se observa en la figura inferior de la izquierda. Una vez hecho esto podemos utilizar la opcin ponderar casos del men Datos del SPSS, introduciendo los datos tal y como se muestra en la figura inferior.

De este modo, introduciendo tan slo 4 filas de datos y 3 variables obtenemos el mismo resultado que introduciendo los datos mediante 96 filas y dos variables, ya que la ponderacin implica que el programa considere tantos casos de cada combinacin de sexo y fumar como el valor que encuentre en la variable "casos".

Para acceder al procedimiento tablas debemos seguir la ruta habitual estadsticos>resumir>tablas de contingencia apareciendo el men que podemos observar en la siguiente figura.

20

En esta ventana de captura de datos se nos solicita que seleccionemos mediante el procedimiento habitual las variables que deseamos que aparezcan en la fila y columna de la tabla. Si deseamos que esta tabla se combine con los niveles otra u otras variables las introducimos en la tercera ventana de datos teniendo en cuenta que el output nos facilitara tan solo tablas de 3 dimensiones, una para cada variable de esta tercera ventana en combinacin con las que hemos introducido en fila y columna.

Podemos comprobar como en esta ventana tenemos numerosas opciones para completar la informacin bsica que nos proporciona este procedimiento. En esta misma ventana podemos observar que en la parte inferior izquierda podemos seleccionar dos opciones. La primera mostrar los grficos de barras agrupadas nos facilita un histograma que permite la visualizacin de los resultados presentados en la tabla. La segunda, suprimir tablas, elimina la presentacin de las tablas, proporcionndonos tan solo los estadsticos o grficos que hayamos solicitado.

Si pulsamos el botn estadsticos obtendremos una nueva ventana de captura de datos que har referencia a los posibles estadsticos que podemos solicitar, dicha ventana puede observarse a continuacin:

21

La primera de las opciones que podemos seleccionar es la prueba Chicuadrado. Dicha prueba verifica la hiptesis de nulidad de que las frecuencias observadas en las distintas celdas no difieren de las que seran esperables si no existiera ningn tipo de relacin entre las variables. Adems de dicho ndice, este procedimiento nos proporciona diversos ndices de asociacin, la utilizacin de uno u otro depender de la mtrica de las variables.

A continuacin describiremos las medidas de asociacin utilizadas con mayor frecuencia en funcin de la mtrica de las variables.

Mtrica Nominal:

Coeficiente de contingencia: Nos da una idea del grado de asociacin entre ambas variables, sus valores oscilaran siempre entre 0 y 1, indicando 1 la mxima asociacin. El principal problema de este ndice es que el valor mximo que puede alcanzar depender del nmero de filas y columnas, siendo posible alcanzar el valor 1 en el caso hipottico de que el nmero de filas y columnas fuera infinito.

Phi y V de Cramer: Estas medidas solucionan las limitaciones sealadas por el coeficiente de contingencia, dado que pueden alcanzar el valor mximo para cualquier combinacin de filas y columnas. El coeficiente Phi es adecuado en aquellos casos en que la dimensin de la tabla sea 2 x 2, mientras que el coeficiente V lo es en el resto de casos.

Lambda: Este ndice parte de una aproximacin diferente a los vistos anteriormente. En lugar de proporcionarnos el grado de asociacin entre las variables, nos indica el grado de reduccin del error que se produce al utilizar una variable como predictor y otra como criterio. As por ejemplo si dos variables no estan relacionadas, no podemos realizar ninguna prediccin sobre las puntuaciones de una de ellas a partir de la otra y, por consiguiente, el error es del 100 % y el coeficiente lambda ser 0. En el caso contrario, es decir, una relacin perfecta entre ambas variables, una es perfectamente predecible a partir de las puntuaciones de la otra, por lo tanto el error de prediccin es 0 y el coeficiente valdr 1.

Nominal por Intervalo:

Este caso se produce cuando disponemos de una variable en una escala nominal, como por ejemplo el gnero y otra en una escala de intervalo o razn, como pueden ser por ejemplo los ingresos mensuales. En este caso, la medida de asociacin que utiliza el SPSS es la correlacin biserial puntual, equivalente a la raiz cuadrada del tamao del efecto.

Mtrica Ordinal:

En este caso SPSS nos proporciona los siguientes ndices:

Tau b y c de Kendall: coeficientes de correlacin no paramtricos que actan computando el nmero de inversiones existente entre los rangos de todos los pares de valores para ambas variables. La diferencia entre ambas es la consideracin o no de los empates.

22

Gamma: coeficiente equivalente al anterior que soluciona los problemas que presenta la prueba de Kendall en aquellos casos en que hay empates entre los rangos.

Finalmente cabe sealar que en este men de estadsticos tambin tenemos la posibilidad de calcular el ndice kappa de concordancia entre observadores, especialmente til cuando deseemos evaluar el grado de fiabilidad de un sistema de categoras observacional.

El procedimiento tablas de contingencia nos permite adems obtener informacin descriptiva sobre las celdas, incluyendo informacin sobre los residuales. Para ello debemos pulsar el botn Casillas obteniendo la ventana de captura de datos de la figura de la izquierda. As, en este caso hemos pedido que nos muestre las frecuencias observadas para cada celda y las frecuencias esperadas, es decir las que habran si no hubiera ninguna relacin entre las variables.

Una vez solicitados estos estadsticos y opciones el output que obtendramos sera el siguiente:

Tal y como podemos ver, el output nos ofrece la tabla de contingencia correspondiente y los estadsticos para las celdas que habamos solicitado.

23

El output nos proporciona el valor de Chi cuadrado y su significacin. Podemos comprobar que en este caso y asumiendo un nivel de significacin del 5% rechazamos la hiptesis nula de que ambas variables no esten relacionadas.

Finalmente, nos ofrece los coeficientes de correlacin entre ambas variables. Para ello hemos seleccionado en el men estadsticos, la opcin correlaciones y dentro de las mismas, los coeficientes gamma y tau. Es preciso sealar que el programa adems de dichos coeficientes nos ofrece la de Spearman y el coeficiente de correlacin de Pearson para aquellos casos en que las variables puedan considerarse en una mtrica de escala.

Tal y como podemos comprobar existe una relacin moderada entre ambas variables, dado que el coeficiente gamma alcanza un valor de -0,541. De todo ello podemos deducir que ambas variables estpersonas que dan ms importancia al hecho de ser apreciadas y populares n relacionadas en el sentido que las tienden a darle una menor importancia a obeceder ordenes.

CORRELACIN Y REGRESIN
CORRELACION Y REGRESION

En los siguientes apartado se presenta como calcular diferentes ndices de correlacin, as como la forma de modelizar relaciones lineales mediante los procedimientos de regresin simple y mltiple.

Los

ndices

de

correlacin

analizados

seran

los

de

Pearson,

Spearman,

Kendall

el

coeficiente

de

correlacin

parcial..

Dependiendo de las caractersticas de los datos a correlacionar, el coeficiente de correlacin que debe aplicarse difiere. Las caractersticas principales de cada uno de ellos son las siguientes:

Coeficiente de correlacin de Pearson: es aplicable cuando la mtrica de las variables correlacionadas es como mnimo de intervalo. Coeficiente de correlacin de Spearman y coeficiente de correlacin t de Kendall: son aplicables cuando la mtrica de las variables es de ordinal. El coeficiente de Spearman es especialmente indicado en aquellos casos en que se de una violacin del supuesto de normalidad y, en aquellos casos, en que aunque la mtrica de las variables no sea de intervalo o razn, podemos suponer que la variable con la que trabajamos presenta dicha mtrica. P.Ej. podemos recodificar las puntuaciones de un test de inteligencia en tres o cuatro categoras de tal forma que la variable resultante sea ordinal, no obstante la inteligencia tal y como se ha medido inicialmente mediante un test de CI est en una escala de intervalo. En el resto de casos es ms apropiado utilizar el coeficiente de Kendall.

Coeficiente de correlacin parcial: es aplicable cuando se pretende estudiar la relacin entre dos variables eliminando el efecto de una tercera variable.

24

Los procedimientos de regresin, por su parte nos permitirn modelizar la relacin existente entre uno o ms predictores con una variable criterio. COEFICIENTE DE CORRELACION DE PEARSON Este coeficiente es un indicador de la relacin lineal existente entre dos variables. El coeficiente de correlacin de Pearson es aplicable cuando la mtrica de las variables correlacionadas es, como mnimo, de intervalo, y supone que ambas variables se distribuyen en la poblacin de forma normal. No obstante el coeficiente tan slo presenta alteraciones destacables en aquellos casos en que se viole de forma considerable dicho supuesto. Los pasos recomendados en el clculo del ndice de correlacin de Pearson son:

Representar grficamente los diagramas de dispersin entre variables. Si realmente existe relacin lineal entre las variables, la dispersin de puntos se aproximar a una ojiva. Si no existe relacin lineal entre las variables, la dispersin de puntos se aproximar a una circunferencia. Este diagrama nos permitir por otra parte comprobar la posible existencia de algn tipo de relacin no lineal entre las variables.

Clculo de la matriz de correlaciones de Pearson. Interpretacin de resultados.

Con el fin de ilustrar el modo en que podemos realizar estos anlisis con el SPSS vamos a utilizar el fichero de ejemplo "coches.sav" que incluye el programa entre los ficheros de ejemplo. Obtencin de los diagramas de dispersin Con el fin de obtener el diagrama de dispersin, seleccionaremos en el men grficos del men principal la opcin Dispersin, a continuacin seleccionaremos simple y finalmente introduciremos en los ejes X e Y el par de variables que nos interesa representar, en nuestro caso la aceleracin de los vehculos y su potencia tal y como podemos observar en la siguiente figura:

Pulsando el botn Aceptar, se inicia la construccin del diagrama de dispersin obteniendo un output como el siguiente:

25

Podemos comprobar como el grfico de dispersin nos da una primera idea de la relacin existente entre ambas variables. De este modo, y a primera vista, parece existir una relacin inversa entre ambas variables, dado que teniendo en cuenta la forma de la nube de puntos, parece ser que a mayor potencia, menor tiempo precisa el vehculo para alcanzar los 100 km/hora. Los grficos de dispersin entre todas las parejas de variables que se correlacionen deberan ser representados.
Clculo de los coeficientes de Correlacin

26

Para el clculo del coeficiente de correlacin, es preciso seleccionar la opcin Bivariadas del submen Correlaciones Mediante dicha opcin se activa el submen Correlaciones bivariadas que aqu mostramos y en el que seleccionamos las variables. Por defecto, se halla seleccionada la opcin Pearson, que indica que el coeficiente que se calcular es el coeficiente de correlacin de Pearson. Por defecto tambin se hallan seleccionadas las opciones Bilateral (que indica que las pruebas de inferencia sobre la correlacin se calcularan suponiendo que no realizamos ninguna hiptesis sobre su direccin) y Marcar las correlaciones significativas (marca que se realiza como veremos posteriormente con asteriscos sobre la matriz de correlacin). Pulsando el botn Opciones se activa el submen Correlaciones Bivariadas: Opciones . En el podemos pedir unos descriptivos mnimos y, lo que es ms importante, definir como vamos a tratar los casos perdidos. Si lo hacemos segn lista eliminar de los clculos a todos los sujetos a los que les falte algn dato. Si en lugar de ello lo hacemos por pareja aunque a un sujeto le falte algn dato de una variable, utilizar aquellos de los que dispone para quellas correlaciones en que no se vea implicada dicha variable, siendo esta opcin ms recomendable en la mayora de los casos.

Resultados del anlisis

En la siguiente tabla pueden observarse los resultados obtenidos. Cabe destacar que SPSS nos indicar de dos modos las correlaciones significativas. En primer lugar nos ofrece para cada correlacin la probabilidad de equivocarnos si rechazamos la hiptesis nula. As por ejemplo para la correlacin entre aceleracin y potencia nos informa de que dicha correlacin es r=-0.71 y la probabilidad de equivocarnos si rechazamos la hiptesis nula es p=0.000. Es decir, dicha correlacin es significativa si adoptamos un nivel de significacin del 1% (p=0.01). Es preciso destacar que a pesar de que SPSS considere que la probabilidad de equivocarnos es un 0%, este resultado es una aberracin desde el punto de vista estadstico dado que trabajamos con distribuciones de probabilidad asintticas, lo cual implica la imposibilidad de obtener un valor cero de probabilidad. Este hecho es debido a que el programa efecta un redondeo a partir del cuarto decimal y, como consecuencia ante probabilidades muy bajas nos muestra un valor de cero. En este caso particular, si pulsamos en navegador de resultados de SPSSdos veces sobre la matriz de correlaciones y dos vecesa ms sobre el valor de la probabilidad veremos que en realidad la probabilidad de equivocarnos es P=0,0000000000000000000025.

Adems de este valor SPSS nos informa con un asterisco sobre el valor de la correlacin en aquellos casos en que la probabilidad es inferior al 5% y con dos asteriscos cuando es inferior al 1%.

27

Respecto al formato de la tabla, en muchas ocasiones presenta un tamao excesivo para su inclusin en un informe, artculo, etc. en dichos casos es posible editarla para reducirla a un formato ms prcticol Para ello Pulsaremos dos veces sobre la tabla para editarla y, a continuacin, iremos editando aquellos elementos que queramos suprimir con una doble pulsacin para eliminarlos mediante la tecla Supr.

Editando la tabla de este modo, el formato que se podra obtener es el siguiente:

COEFICIENTE

DE

CORRELACIN

PARCIAL

Tal y como hemos comentado en la introduccin el coeficiente de correlacin parcial se utiliza en aquellos casos en que deseamos conocer el grado de relacin entre dos variables eliminando los efectos de una tercera. Esto es especialmente til cuando creemos que la relacin existente entre dos variables es debida a una tercera, ya que este coeficiente sera el equivalente a calcular la correlacin entre ambas variables manteniendo constante la supuesta causa. Del mismo modo podemos utilizarlo cuando creemos que la relacin entre dos variables se encuentra suprimida o disminuida por el efecto de una tercera variable.

Para el clculo del coeficiente de correlacin, es preciso seleccionar la opcin Parciales del submen Correlaciones. De este modo es activa el submen mostrado a continuacin.

En nuestro caso vamos a buscar la correlacin parcial entre el consumo de los vehculos y su cilindrada, controlando la variable Peso. Esto es as pues suponemos que la relacin entre cilindrada y consumo es debida a que los coches de ms cilindrada tambin son habitualmente los ms grandes y pesados y por tanto, es el peso y no la cilindrada lo que determina el consumo. De algn modo el coeficiente de correlacin

28

parcial nos dir cual sera la relacin entre ambas variables si todos los cohes tuvieran el mismo peso, es decir, eliminando del consumo de los vehculos la parte del mismo que es debida al peso del vehculo.

Resultados

del

anlisis

Los resultados obtenidos junto con la matriz de correlaciones de Pearson se muestran a continuacin:

Es importante sealar que la correlacin de Pearson existente entre las variables consumo y cilindrada (motor) es de 0,837, mientras que la correlacin parcial entre ambas variables se reduce a r=0,2828. En ambos casos la correlacin es significativa pero, como podemos ver la variable peso estaba explicando una gran proporcin de la variabilidad en comn que tenan ambas variables, es decir, la tamao del motor y el consumo del mismo estan relacionados, pero mucho menos de lo que pareca ser al analizar tan solo la correlacin de Pearson. En otras palabras, el peso estaba distorsionando la relacin que existe entre tamao y consumo.

COEFICIENTES

DE

CORRELACION

DE

SPEARMAN

KENDALL

Tal y como sealamos en la introduccin estos coeficientes se aplican en aquellos casos en que estemos trabajando con datos medidos en una escala ordinal o, cuando se viole el supuesto de normalidad. Para acceder a estas correlaciones debemos acceder al mismo men que en el caso de la correlacin de Pearson y sealar cal de ellas deseamos. En el ejemplo posterior podemos comprobar que hemos solicitado ambos coeficientes de correlacin con el fin de conocer si existe algn tipo de relacin entre la importancia que la gente da a ser apreciado y a obedecer ordenes. Los datos han sido tomados de nuevo del archivo "Encuesta general USA".

29

El output que hemos obtenido nos muestra como ambas variables estn correlacionadas de forma inversa, es decir, la gente que da ms importancia a ser apreciado por los dems, parece que son los que menos consideran importante el hecho de obedecer las ordenes.

A pesar de que en el men correlaciones nos encontramos, como hemos visto, dos posibles coeficientes de correlacin para datos en escalas ordinales, no existe ningn coeficiente para datos nominales o para las posibles combinaciones entre los dos tipos de escala que pueden presentar las variables. SPSS nos ofrece diversos coeficientes de correlacin para estos casos, no obstante dichos coeficientes estn implementados en el men tablas de contingencia dentro de Estadsticos descriptivos.

REGRESIN

SIMPLE

SPSS incluye en el procedimiento regresin lineal tanto el anlisis de regresin simple como el mltiple no obstante dadas las diferencias entre ambos anlisis, especialmente por lo que refiere a las opciones y mtodos, las vamos a tratar de forma independiente.

30

El anlisis de regresin simple trata de modelar la relacin lineal existente entre dos variables, asumiendo que la relacin de las mismas puede representarse del siguiente modo:

y = a + bx + e Siendo:

y: La puntuacin observada del sujeto a: Un trmino constante b: La pendiente de regresin de x sobre y. e: El trmino de error, es decir, la diferencia entre la puntuacin predicha por el modelo y la observada.

El procedimiento regresin lineal nos permitir contrastar las hiptesis nulas referidas a los distintos componentes del modelo y, en el caso de que proceda, construir el modelo predictivo asociado. Para ello vamos a utilizar el fichero de ejemplo "Coches" de SPSS y vamos a ver si puede establecerse una relacin lineal entre el peso de los vehculos y su consumo.

Para ello, y tal como puede observarse en la ventana inferior, seleccionamos como variable independiente el peso del vehculo y como dependiente el consumo. Como mtodo de clculo SPSS ofrece por defecto el mtodo "Introducir". En el caso que nos ocupa ello no tiene mayor importancia, dado que las repercusiones de la eleccin de uno u otro mtodo son ms importantes en la regresin mltiple y sern discutidos en su momento.

31

En lo que refiere a los estadsticos, hemos seleccionado las estimaciones y el ajuste del modelo. La utilidad de la mayor parte de los mismos es especfica de la regresin mltiple y sern vistos en el apartado correspondiente. En cualquier caso, si anteriormente no hemos utilizado las opciones del procedimiento descriptivos, podemos solicitarlos en esta ventana de captura de datos.

La opcin guardar nos permite generar nuevas variables en las que podremos obtener los valores pronosticados, residuales, etc. La opcin grficos nos permitir diversas representaciones que pueden ser tiles para verificar la existencia de valores atpicos y el grado de cumplimiento de ciertos supuestos como puede ser el de homocedasticidad.

Una

vez

introducidas

todas

las

opciones

que

hemos

descrito,

el

output

que

obtendramos

sera

el

siguiente:

32

En primer lugar podemos observar el coeficiente de correlacin entre ambas variables as como el coeficiente de determinacin, es decir, el porcentaje de varianza del criterio explicado por el predictor. Dicho coeficiente es un estimador sesgado del coeficiente de determinacin poblacional. Por este motivo, el programa nos ofrece un coeficiente corregido que soluciona este sesgo. En nuestro caso podemos ver como el peso del vehculo explica un 70% del consumo del mismo.

A continuacin, el programa nos facilita la tabla del anlisis de la varianza que contrasta la hiptesis nula de que la proporcin de varianza explicada por el predictor a nivel poblacional es igual a cero. En nuestro caso vemos como rechazamos dicha hiptesis nula, es decir, parece ser que el peso del vehculo incide en el consumo del mismo.

Posteriormente, el programa nos facilita los distintos coeficientes de la ecuacin de regresin, tanto en puntuaciones directas como en puntuaciones tpicas. En este segundo caso el valor de la constante no se estima dado que la recta de regresin intercepta al criterio en el origen.

Adems de dichos coeficientes, el output nos proporciona las pruebas de inferencia necesarias para contrastar las hiptesis nulas referidas al trmino constante y a la pendiente. En nuestro caso podemos ver que tan solo rechazamos la hiptesis nula para la pendiente, de tal modo que podemos considerar que el trmino constante es igual a cero. Este hecho simplifica la prediccin, de tal modo que la ecuacin que describe la regresin sera la siguiente:

consumo = 0,0167*peso

A continuacin, podemos observar los tres casos que presentan un residual estandarizado ms alto. Podemos considerar que en aquellos casos en que el residual sea superior a 3 o inferior a -3 puede darse o bien un error en los datos, o bien un dato atpico. En dichos casos lo ms aconsejable es verificar los datos y eliminar aquel caso con el mayor residual (10,845) para, posteriormente, volver a evaluar el modelo.
Finalmente, los grficos que hemos solicitado nos muestran tanto la distribucin de los residuales como el grfico de dispersin de los valores pronosticados / residuales. En ambos grficos podemos observar el dato atpico al que hacamos referencia as como el hecho que la variabilidad de error parece mantenerse similar para todos los niveles del pronstico.

33

REGRESIN

MLTIPLE

En el anlisis de regresin mltiple, con el objetivo de mejorar la prediccin que tratamos de llevar a cabo sobre un criterio, se emplean mltiples predictores en lugar de uno solo. En este caso la ecuacin de regresin resultante adopta la siguiente forma:

y = a + b1x1+b2x2+...+ bkxk+e

Siendo:

y: La puntuacin observada del sujeto a: Un trmino constante bk La pendiente de regresin de xk sobre y. e: El trmino de error, es decir, la diferencia entre la puntuacin predicha por el modelo y la observada.

Todo ello puede implicar un notable incremento en la capacidad predictiva de nuestro modelo, no obstante la introduccin de mltiples predictores genera diversas consideraciones estadsticas a tener en cuenta. La ms importante es el mtodo que vamos a utilizar para elegir aquellos predictores que van a formar parte de nuestro modelo. Hay que tener en cuenta que la existencia de mltiples predictores puede traer como consecuencia que un predictor que presenta una correlacin significativa con el criterio, no aporte nada nuevo al modelo que estemos planteando pues, puede darse el caso que la varianza explicada por el mismo ya haya sido explicada por otra variable. Este hecho se produce especialmente en aquellos casos en que los predictores presenten una elevada colinealidad, es decir, estn altamente correlacionados entre ellos. As por ejemplo si tenemos un modelo en que dos tests de inteligencia general tratan de predecir el rendimiento acadmico, la introduccin de un tercer test del mismo tipo no aportar nada o su contribucin ser mnima, dado que la varianza que est explicando ya ha sido explicada por las pruebas anteriores, de este modo no es tan importante la correlacin de un predictor con el criterio como la correlacin parcial de dicho predictor con el criterio, es decir, no importa tanto lo que explica por si mismo un predictor como lo la proporcin de varianza que aporta y que no ha sido explicada por otros predictores.

34

Teniendo en cuenta este hecho, una de las decisiones ms importantes que debemos llevar a cabo a la hora de realizar una regresin mltiple, es la eleccin del mtodo de introduccin de variables que vamos a utilizar.

Tal y como podemos ver en la figura de la izquierda el procedimiento que debemos llevar a cabo es, en primer lugar, introducir todos los predictores que deseamos plantear en el modelo, as como el criterio o variable dependiente. A continuacin debemos seleccionar el mtodo que vamos a utilizar para obtener el modelo resultante. Tal y como hemos sealado este es uno de los puntos ms importantes a la hora de llevar a cabo un anlisis de este tipo. Los principales mtodos y sus caractersticas son los siguientes:

Introducir (Enter): Este mtodo fuerza a la inclusin de todos los predictores en la ecuacin, de este modo el porcentaje de varianza explicado por los mismos es el mximo posible. No obstante ello implica la posibilidad de incluir predictores que no explican una proporcin de varianza significativa, de tal modo que la ecuacin tan solo presenta validez para la muestra en la que es obtenida ya que para dichos predictores se acepta la hiptesis nula de que en la poblacin su pendiente es igual a cero.

Hacia atrs (Backward): Este mtodo incluye incialmente a todos los predictores en la ecuacin. Posteriormente intenta eliminar de la misma aquel predictor con una menor correlacin parcial con el criterio. Si la reduccin de la varianza explicada al eliminar dicho predictor es significativa, no lo elimina y detiene el proceso, en caso contrario lo elimina y procede del mismo modo con el predictor que presente menor correlacin parcial de entre los que restan en el modelo. As pues es un procedimiento iterativo que se detiene cuando encuentra una reduccin significativa de la varianza.

Hacia delante (Forward): Es un mtodo similar al anterior pero que opera de forma inversa. De este modo, inicialmente plantea la introduccin en la ecuacin de aquel predictor con mayor correlacin con el criterio. Si la proporcin de varianza que explica es significativa, lo introduce en el modelo y procede del mismo modo con aquel predictor de los que restan excluidos que presente una mayor correlacin parcial con el criterio. El procedimiento se detiene cuando un nuevo predictor no incrementa con su presencia la proporcin de varianza explicada por el criterio.

Pasos sucesivos (Stepwise): Este procedimiento es el ms recomendable y es una combinacin de los dos anteriores. En principio opera igual que el mtodo "Hacia delante", no obstante, tras incluir un predictor en el modelo se plantea si puede eliminar alguno de los que haba introducido con anterioridad. Esta posibilidad se debe al hecho que la introduccin de un nuevo predictor puede modificar el porcentaje de varianza explicada por los anteriores en funcin del grado de relacin entre los mismos, de tal modo que un predictor que anteriormente aportaba cierta informacin a la ecuacin se convierta en un trmino redundante.

Con las variables que hemos introducido en el men de captura de datos visto al inicio de este apartado obtendramos el siguiente output (en 2 estadsticos se han solicitado el cambio en R y los coeficientes de correlacin parcial y semiparcial):

35

En primer lugar el output nos muestra los distintos modelos propuestos. As en primer lugar ha introducido el peso del vehculo, en el segundo modelo introduce adems el ao del modelo para finalmente introducir la potencia. El hecho de que en este punto no introduzca ms variables nos indica que las restantes no aportan ms informacin al modelo predictivo resultante.

A continuacin se nos muestran los estadsticos de cambio del modelo. En ello podemos ver los porcentajes de varianza explicados por el modelo en cada uno de los pasos as como la significacin de cada nuevo predictor que vamos aadiendo. Podemos ver que el modelo resultante explica el 87,9% de la varianza del consumo de los vehculos.

La siguiente tabla nos muestra los coeficientes del trmino constante y las pendientes para cada uno de los modelos, de este modo la ecuacin resultante final sera:

Consumo = 23,119 + (0,09*Peso) - (0,297*Ao) + (0,019*Potencia)

Asimismo nos muestra las correlaciones de orden cero, parcial y semiparcial. La primera nos da una idea del porcentaje de varianza que explica el predictor respecto del criterio. La segunda nos indica el porcentaje de varianza del criterio que no ha sido explicada por otros predictores y que explica el nuestro. El tercero nos indica el porcentaje de varianza total del criterio que es explicada nicamente por nuestro predictor.

A continuacin vemos los distintos pasos que ha seguido SPSS para definir el modelo. En primer lugar introduce la cilindrada, dado que su correlacin (r = 0,885) es la mayor. En el segundo paso introduce el ao, dado que su correlacin parcial (r = -0,639) es la mayor de las que restan fuera del modelo. En el tercero introduce la potencia siguiente el mismo criterio (r = 0,255) y finalmente se detiene dado que en los datos del tercer modelo podemos ver como ninguno de los dos predictores restantes es significativo.

36

Finalmente podemos ver los datos relativos a los residuales. En ellos vemos como existen cuatro casos con un residual tipificado mayor que 3 por lo cual sera conveniente su revisin y, si procede, su eliminacin.

INFERENCIA ESTADSTICA
INTRODUCCIN

Uno de los principales problemas a la hora de llevar a cabo una inferencia estadstica sobre el grado de discrepancia entre las medidas de tendencia central (medias en el caso de variables de escala) que presentan 2 ms grupos es la eleccin del estadstico apropiado. Para ello debemos plantearnos la mtrica en que estn medidas las variables, el grado de dependencia o independencia de las medidas, as como el nmero de grupos y el de variables. Utilizando la siguiente tabla podemos, en la mayora de los casos, elegir la prueba ms idnea en funcin de dichos parmetros.

Variables Independientes 1 1 2 Indistinto 1

Variables Dependientes 1 1 1 2 ms 1

Niveles de Tratamiento 2 + de 2 Indistinto Indistinto 2

Independientes / Relacionados I I I I R

Como el anterior pero variando uno de las tres primeras columnas Resto de casos con la variable dependiente en escala ordinal Resto de casos con la variable dependiente en escala nominal

(Medias) "t" (Medias) Anova (MLG) Anova (MLG) Manova (Medias) "t" (MLG) Escala M.Repetidas Ordinal NPAR Nominal Tablas

Mtrica V.Dep. Escala Escala Escala Escala Escala

Procedimiento

37

COMPARACION

DE

MEDIAS

Procedimiento Prueba Prueba Prueba "t" "t" "t" para para para muestras muestras una independientes. relacionadas.

medias. muestra.

El procedimiento comparar medias nos permite la aplicacin de distintos estadsticos inferenciales apropiados para contrastar hiptesis relativas a la diferencia existente entre dos o ms medias, o relativas a la posibilidad de que una muestra pertenezca a una poblacin que presenta una media determinada. Para acceder a este procedimiento debemos seleccionar en el men Estadsticos la opcin comparar medias. Tras ello se nos presenta un nuevo men en el cual se nos presentan las distintas opciones de este procedimiento.

La primera de ellas, Medias, nos permite, por una parte, obtener distintos estadsticos descriptivos de los dos grupos que deseamos comparar y, por otra, nos permite realizar comparaciones de dos o ms grupos. Podra considerarse que este programa presenta en forma resumida el resto de los estadsticos que pueden obtenerse con el procedimiento comparar medias.

Posteriormente se nos presentan tres variantes de la prueba "t" de Student que nos permiten verificar la pertenencia de una muestra a una poblacin, comparar las medias de dos grupos independientes y comparar las medias en el caso particular de grupos relacionados. Finalmente es posible llevar a cabo un anlisis de la varianza unifactorial con la finalidad de comparar k medias. Hay que tener en cuenta que si estamos interesados en llevar a cabo un anlisis de la varianza con ms de un factor debemos ejecutar el procedimiento Modelo lineal general.

EL

PROCEDIMIENTO

MEDIAS

Una vez accedido el procedimiento medias se nos presenta una ventana de captura de datos en la cual debemos seleccionar la o las variables dependientes y la o las variables independientes. Este procedimiento no llevar a cabo ningn anlisis que tome de forma conjunta a estas variables sino que realizar un anlisis para cada combinacin dependiente independiente que resulte de las variables que seleccionemos. En nuestor caso, vamos trabajar con el fichero "Encuesta general USA" y vamos a comprobar si existen diferencias en los aos de escolarizacin de los estadounidenses en funcin del sexo.

38

Pulsando el botn opciones se nos presentan los diversos estadsticos que podemos obtener en este procedimiento. Hay que sealar que por una parte se nos ofrece la posibilidad de seleccionar una amplia variedad de estadsticos descriptivos cuya seleccin llevaremos a cabo del mismo modo en que habitualmente seleccionamos las variables, es decir, pulsando sobre la tecla > o pulsando dos veces sobre el estadstico en el que estamos interesados. Adems de estos estadsticos descriptivos, este procedimiento nos permite llevar a cabo un anlisis de la varianza con el fin de contrastar la hiptesis nula de que las 2 o ms medias de los niveles de la variable dependiente son iguales.

Adems este anlisis nos proporcionar el ndice eta cuadrado que nos dar una estimacin del tamao del efecto. Una segunda opcin nos permite llevar a cabo un contraste de linealidad que nos proporcionar informacin sobre la posibilidad de que la relacin entre variable independiente y dependiente sea o no lineal. Lgicamente esta opcin tan slo tiene sentido en aquellos casos en que la variable independiente presente ms de dos niveles de tratamiento y este medida como mnimo en una escala de intervalo, con lo cual no sera apropiado en nuestro caso, dado que tan solo tenemos dos niveles de tratamiento y adems, medidos en una escala ordinal.

El output que obtendramos aplicando este procedimiento con los datos con que venimos trabajando sera el siguiente:

39

En primer lugar el output nos presenta los estadsticos descriptivos que habamos solicitado para cada uno de los niveles de la variable independiente as como para el total de la muestra. En este caso podemos comprobar que los hombres presentan una media ligeramente superior a las mujeres. Con el fin de contrastar si esta diferencia va ms all de lo que sera esperable por azar, precisamos aplicar una prueba de inferencia que, como ya hemos comentado, que en este procedimiento es el anlisis de la varianza.

A continuacin el output nos proporciona el anlisis de la varianza en el que podemos comprobar que la F obtenida es de 7,254 y la probabilidad de equivocarnos si rechazamos la hiptesis nula es inferior al 5% (0.05) . De este modo y asumiendo un nivel de significacin del 5 por cien rechazamos la hiptesis nula, es decir, parece que existen diferencias entre los aos de escolarizacin de hombres y mujeres. Hay que sealar que el SPSS siempre nos da las probabilidades sobre un mximo de 1, de este modo debemos multiplicar el resultado obtenido por 100 para comparar este valor con el nivel de significacin que establezcamos. Hay que tener en cuenta que este procedimiento no nos da informacin sobre el grado de cumplimiento de los supuestos del modelo del ANOVA, de este modo si aplicamos el procedimiento medias deberemos comprobar la normalidad de la variable dependiente as como la homocedasticidad de las varianzas de error mediante el procedimiento explorar que ya fue expuesto en el apartado dedicado a la estadstica descriptiva.

Finalmente se nos presenta el ndice Eta cuadrado que nos da una estimacin del tamao del efecto, es decir, que tanto por cien de la variabilidad existente en la variable dependiente viene explicado por la variable independiente. En este caso podemos comprobar que el sexo es el responsable del 1 % de las diferencias en los aos de escolarizacin de los sujetos. Con todo ello, llegaramos a la conclusin de que si bien existen diferencias entre hombres y mujeres en los aos que permanencen en la escuela, esta variable tiene una incidencia mnima en la escolarizacin, dado que tan slo el 1% de las diferencias que existen entre los individuos en lo que refiere a la escolarizacin depende del hecho de ser hombre o mujer.

EL

PROCEDIMIENTO

"t"

PARA

UNA

MUESTRA

Este procedimiento nos permite verificar si una muestra puede proceder de una poblacin en la cual la variable de inters presenta una media determinada. Una vez accedido el procedimiento se nos presenta la ventana de captura de datos que podemos observar a continuacin:

En dicha ventana debemos seleccionar mediante el procedimiento habitual la o las variables que nos interesan introduciendo en Valor de prueba el valor de la media en la poblacin que nos interesa que en este caso concreto es de 4. Si seleccionamos el botn Opciones el programa nos ofrecer la posibilidad de seleccionar el intervalo de confianza para la media que nosotros

40

deseemos, siendo por defecto del 95%.

El output que obtendremos con este procedimiento ser el siguiente:

Podemos comprobar que la edad media en la muestra de la que disponemos es de 1,90 hijos. Dicha media difiere del valor de la poblacin que ha sido especificado en 4. Con posterioridad, el ouput nos presenta el resultado de aplicar a nuestros datos la prueba t de Student. Podemos comprobar que asumiendo un nivel de significacin del 5 % podemos rechazar la hiptesis nula de que nuestra muestra procede de una poblacin en la cual la media de hijos es de 4. Es preciso comentar que el output del SPSS nos dice de nuevo que la probabilidad de equivocarnos al rechazar la hiptesis nula es de un 0 %, cosa absolutamente imposible dado que la distribucin del estadstico es asinttica, lo que sucede es que el SPSS ante probabilidades muy bajas realiza un redondeo del valor obtenido que nos conduce a este resultado.

Posteriormente comprobamos que la diferencia entre la media obtenida en la muestra y la media de la poblacin de prueba es de 2,10 hijos. Finalmente nos seala que con un nivel de confianza del 95% el nmero de hijos en la poblacin est comprendido entre 1,81 y 1,99; es decir, 4 2,19 y 4 2,01.

EL

PROCEDIMIENTO

"t"

PARA

MUESTRAS

INDEPENDIENTES

Este procedimiento nos sirve para contrastar la hiptesis nula de que las medias de dos muestras no difieren entre s. Este procedimiento de comparacin deber ser utilizado en aquellos casos en que los grupos sean independientes, es decir, no exista ningn tipo de relacin entre los trminos de error de ambos grupos.

En nuestro caso vamos a utilizar los datos del fichero anterior para verificar si existen diferencias en funcin del sexo en la puntuacin de prestigio profesional.

41

En primer lugar debemos acceder al men de este procedimiento y seleccionar la variable dependiente y la independiente (variable de agrupacin). Tras ello observaremos que en la celda correspondiente a la variable de agrupacin nos aparece un parntesis que nos indica la necesidad de definir los valores de la . En nuestro caso dicchos valores son 1 y 2. Podra darse el caso de que los valores fuesen distintos o que la variable independiente tuviese ms de dos valores, en dicho caso introduciramos en este cuadro los valores que nos interesan. Otra posibilidad que nos ofrece el programa es la de establecer un punto de corte en la variable independiente. Esta opcin es til en aquellos casos en que esta sea continua y deseemos agrupar a los sujetos en funcin de un valor por encima del cual pertenecen a un grupo y por debajo a otro.

El output que obtendramos con las opciones que hemos seleccionado sera el siguiente:

Como ya es habitual, en primer lugar el programa nos ofrece una serie de estadsticos descriptivos en los que podemos observar las medias de ambos grupos y ls diferencia existente entre hombres y mujeres. A continuacin nos ofrece el resultado de la prueba "t" junto con las pruebas que precisamos para verificar los supuestos del modelo:

42

Tal y como vemos en primer lugar el programa nos ofrece la prueba de Levene de igualdad de varianzas de error. Dicha pruena contrasta la hiptesis nula que la varianza de error, es decir, la variabilidad existente dentro de cada grupo, es idntica para ambos a nivel poblacional. En vista de los resultados que obtenemos decidimos aceptar la hiptesis nula de que las varianzas de error para ambos grupos son iguales, dado que la probabilidad de equivocarnos al rechazar es de 0,670 muy superior al lmite del 0,05. Podemos comprobar como a continuacin el programa nos ofrece dos posibles resultados en funcin de si las varianzas de error son homogneas o no. En nuestro caso y como anteriormente hemos aceptado la hiptesis nula para la prueba de Levene debemos optar por el resultado de la izquierda de la tabla que, como podemos comprobar nos lleva a rechazar la hiptesis nula de que en la poblacin las medias de ambos grupos son iguales, pues la probabilidad es de 0,019, inferior al 0,5. Finalmente nos ofrece el intervalo de confianza para la diferencia entre ambos grupos en la poblacin que, con un nivel de confianza del 95% oscila entre 0,27 y 3,01 puntos. De todo ello deduciramos que los hombre parecen presentar una puntuacin superior en lo que refiere a prestigio profesional. No obstante, y a pear de no disponer de indicadores del tamao del efecto podemos ver como la diferencia de medias es muy pequea, lo que nos indicara probablemente un tamao del efecto muy leve.

EL

PROCEDIMIENTO

"t"

PARA

MUESTRAS

RELACIONADAS

Este procedimiento es anlogo al anterior con la salvedad de que es especialmente indicado para la comparacin de las medias de dos grupos cuando sus trminos de error no son independientes, es decir, existe algn tipo de relacin entre los individuos de ambos grupos. Este hecho sucede cuando utilizamos el mismo grupo bajo dos tratamientos o, existe algn tipo de relacin entre sus puntuaciones debido a que los sujetos han sido apareados. Lo primero que es necesario indicar es que en este caso la forma en que debemos introducir los datos no es la habitual. Si en otros casos utilizbamos una variable para las puntuaciones y otra que indicaba la pertenencia o no a un grupo, en este caso debemos utilizar una variable para la puntuacin de cada uno de los grupos.

43

En el ejemplo siguiente podemos ver como se han introducido las calificaciones de una serie de alumnos que se han tomado en el parcial de Enero y en el de Mayo despus de una intervencin para mejorar las tcnicas de estudio que aplican. De este modo el alumno nmero 1 obtuvo un 6 en el parcial de Enero y un 7 en el de Mayo. Del mismo modo procedemos para el resto de los alumnos.

Una vez introducidos los datos de este modo podemos seleccionar el procedimiento t para muestras relacionadas dentro de Comparar medias obteniendo la ventana de captura de datos que podemos observar.

A diferencia de las ventanas de captura que hemos visto con anterioridad antes de pulsar el botn > debemos seleccionar las dos variables que nos interesan, en lugar de irlas pasando a la ventana de seleccin de una en una como hacamos en otras ocasiones.

De este modo, en primer lugar seleccionaremos tanto la variable enero como la variable mayo, para a continuacin pulsar el botn > con lo que nos quedarn apareadas en la ventana de la parte derecha de la imagen. Una vez hecho todo esto si pulsamos el botn Aceptar obtendremos el siguiente output:

En los estadsticos descriptivos que nos ofrece el output podemos comprobar que las puntuaciones obtenidas por los alumnos en el mes de Mayo son superiores a las de Enero en ms de un punto. Como siempre deberemos recurrir a la prueba de contraste de medias para verificar

44

si esta diferencia es significativa. Antes de pasar a esta prueba el programa nos ofrece la correlacin existente entre las puntuaciones de ambos grupos. De este modo podemos verificar si realmente se trata de dos grupos relacionados. Podemos comprobar que la correlacin existente entre las puntuaciones obtenidas en los dos parciales es de 0,948 y que la prueba de inferencia asociada es significativa, todo ello implica que los grupos eran efectivamente relacionados.

Finalmente el output nos proporciona la prueba t para grupos relacionados:

Partiendo de estos resultados podemos rechazar la hiptesis nula de que las medias correspondientes a los dos parciales son iguales.

ANALISIS

DE

LA

VARIANZA

UNIFACTORIAL

ANALISIS

DE

LA

VARIANZA

FACTORIAL

EL

PROCEDIMIENTO

ANALISIS

DE

LA

VARIANZA

El procedimiento anlisis de la varianza nos permite contrastar la hiptesis nula de que las medias de k grupos no difieren entre si ms all de lo que cabra esperar por los efectos del azar. Este procedimiento nos permite adems realizar un elevado nmero de pruebas posteriores con el fin de obtener la mxima informacin posible sobre la relacin existente entre la variable independiente y la dependiente. Para ejemplificar su funcionamiento vamos a suponer que estamos interesados en conocer la forma en que la edad a la que se empieza a estudiar un idioma influye en el nivel alcanzado. Para ello tenemos a 15 sujetos de 20 aos que empezaron a estudiar ingls a los 4, 5 6 aos. Las puntuaciones obtenidas por los mismos en distintas pruebas son las siguientes.

45

Vamos a llevar a cabo un anlisis de la varianza para comprobar si la edad en que empiezan a estudiar tiene alguna influencia sobre la variable "nota" que es la puntuacin obtenida en una prueba de vocabulario en ingls.

Para ello, una vez accedido el procedimiento debemos seleccionar la variable dependiente y el factor o variable independiente, en este caso el valor de los distintos niveles de tra-tamiento se asigna de forma automtica.

Tal y como hemos sealado anteriormente este procedimiento presenta numerosas opciones que nos permiten obtener informacin sobre la relacin de ambas variables y sobre los efectos de la variable independiente en niveles particulares de tratamiento. De este modo si pulsamos el botn Post hoc se nos presenta una nueva ventana de captura de datos que hace referencia a los distintos procedimientos de comparacin apareada que tiene implementados el SPSS (ver figura siguiente).

46

Como podemos comprobar el nmero de posibles pruebas que presenta este men es bastante elevado. Los criterios de seleccin de las mismas nos llevaran a discutir diversas consideraciones sobre la tasa de error experimental que superan con mucho los propsitos de esta gua. A modo de recomendacin creemos que lo ms adecuado en la mayora de los casos es elegir la prueba de Tukey cuando el supuesto de homogeneidad de varianzas de error se cumpla y la prueba T3 o C de Dunnett cuando dicho supuesto no se verifique.

Una prueba que debemos considerar aparte es la prueba de Dunnett. Dicha prueba se utiliza en aquellos casos en que no estamos interesados en todas las comparaciones posibles sino que lo que deseamos es comparar k-1 grupos con un grupo control. En dicho caso deberemos e specificar cual es el grupo control. Adems deberemos especificar si deseamos contrastar una hiptesis a dos colas o contrastar la posibilidad de que los k-1 grupos tengan una puntuacin superior o inferior al grupo control.

Si la informacin que deseamos es una comparacin que implique ms de dos medias deberemos pulsar el botn Contrastes. Tras ello nos aparecer la ventana de captura de datos representada en la figura En primer lugar se nos ofrece la posibilidad de llevar a cabo un anlisis de tendencias, es decir, podemos verificar que tipo de relacin existe entre la variable independiente y la dependiente. Para ello debemos marcar la casilla Polinmico y seleccionar el orden ms alto del polinomio que deseamos contrastar.

Tratndose de contrastes ortogonales el orden ser k-1, es decir, si tenemos tres grupos el orden superior ser un polinomio de grado 2 o cuadrtico. Si por el contrario lo que deseamos es probar un contraste especfico deberemos introducir los coeficientes del mismo y a continuacin pulsar Aadir repitiendo la operacin para cada uno de los contrastes que nos interesen. De este modo si deseramos comparar el tercer grupo contra los dos primeros deberamos pulsar:

1 Aadir 1 Aadir 2 Aadir

Finalmente, si pulsamos el botn Opciones nos aparecer el siguiente men:

47

En este men nos aparecen las opciones que permiten seleccionar los descriptivos y la prueba de homogeneidad de varianzas. Es recomendable seleccionar siempre ambas opciones dado que los descriptivos nos permitirn interpretar los resultados que obtengamos con posterioridad y la prueba de homogeneidad de varianzas verificar los supuestos del modelo. Finalmente la opcin grficos de medias nos representar las medias de los distintos niveles de tratamiento, siendo til en aquellos casos en que llevemos a cabo un anlisis de tendencias para visualizar los resultados de los contrastes polinmicos.

Es importante sealar que este procedimiento presenta una serie de limitaciones. En primer lugar no nos proporciona informacin sobre distintos estadsticos que en algunos casos pueden ser especialmente interesantes, como puden ser el tamao del efecto, la potencia, etc. En segundo lugar, al igual que otros procedimientos para llevar a cabo anlisis de la varianza con SPSS, en aquellos casos en que se viole el supuesto de igualdad de varianzas de error, no nos proporciona ningn valor para poder contrastar la hiptesis nula. En dichos casos la opcin ms cmoda para el usuario es aplicar una prueba F conservadora. Para ello debemos buscar en las tablas de la distribucin F, el valor de la misma con 1 y n-1 grados de libertad, siendo n el nmero de sujetos que hay en cada nivel de tratamiento. A continuacin podemos decidir si aceptamos o rechazamos la hiptesis nula comparando dicho valor terico con el que hemos obtenido en el output del SPSS.

Si aplicamos todas las opciones que hemos visto a los datos de que disponemos el output que obtendremos ser el siguiente:

Observando los estadsticos descriptivos, podemos comprobar como parece ser que contra ms temprana es la edad a la que se empieza a estudiar el idioma mayor es el rendimiento que se obtiene posteriormente. Como siempre esta afirmacin deber ser contrastada mediante las pruebas de inferencia que posteriormente nos proporcionar el programa.

El siguiente dato que nos ofrece el output es la prueba de homogeneidad de varianzas. Podemos comprobar como asumiendo un nivel de significacin del 5% aceptamos la hiptesis nula, es decir, puede suponerse que a nivel poblacional las varianzas de error de los 3 grupos son idnticas.

Ello implicar que no es preciso utilizar una prueba conservadora a la hora de interpretar los resultados del anlisis de la varianza y, adems, los procedimientos de comparacin apareada recomendados sern los que suponen dicha homogeneidad.

A continuacin el programa nos proporciona el anlisis de la varianza junto con los contrastes que le hemos solicitado:

48

Tal y como venimos haciendo, suponemos un nivel de significacin del 5% lo cual nos conduce a rechazar la hiptesis nula. Parece ser que la edad a la que se empieza a estudiar un idioma influye en el conocimiento posterior que se tiene de la lengua dentro del rango de valores con el que trabajamos, es decir, 5, 4 y 6 aos. En el caso de que no se hubiera cumplido el supuesto de homocedasticidad, deberamos haber aplicado una prueba F conservadora. En nuestro caso ello habra implicado buscar en las tablas de la distribucin F, el valor terico correspondiente a 1 y 5 grados de libertad, dado que hay 6 sujetos para cada nivel de tratamiento. Si procedieramos de este modo comprobaramos que el valor de la F terica sera F(1,5,0.05)=6,6 inferior al valor obtenido que es 10,876 lo cual nos hubiera llevado igualmente a rechazar la hiptesis nula.

Finalmente podemos ver como rechazamos la hiptesis nula para el trmino lineal pero no para el cuadrtico, ello implica que la relacin entre ambas variables parece ser lineal. Dicha relacin se puede visualizar en la representacin grfica de las medias de los tres grupos:

Finalmente el output nos proporciona los procedimientos de comparacin apareada que hayamos solicitado, en nuestro caso se correspondern con la prueba de Tukey.

49

Podemos comprobar que las diferencias significativas tan solo se dan entre el grupo que empez a estudiar a los 4 aos y los otros dos grupos, es decir, parece ser que empezar a estudiar ingls a los 4 aos favorece el rendimiento posterior en comparacin a empezar a los 5 a los 6, sin embargo no parecen existir diferencias en el rendimiento entre los sujetos que han iniciado el aprendizaje a los 5 a los 6 aos.

ELPROCEDIMIENTO

MODELO

LINEAL

GENERAL

UNIVARIANTE

El procedimiento MLG nos permite realizar tanto anlisis de la varianza univariantes como multivariantes. La lgica que subyace a este procedimiento es la misma en todos los casos, y como su nombre ndica se origina en el modelo lineal general. Dicho modelo parte de la base que se pueden considerar la mayor parte de las tcnicas univariantes y multivariantes de la estadstica paramtrica como casos particulares de un modelo superior que es el modelo lineal. De este modo un anlisis de la varianza puede ser considerado como un caso particular del modelo de regresin, en el cual el predictor, es decir, en nuestro caso la variable independiente, es una variable categrica que indica la pertenencia de cada sujeto a un determinado grupo o nivel de tratamiento o combinacin de los niveles. En este sentido cualquier anlisis de la varianza se podr expresar en trminos de un modelo lineal del tipo:

Y=C+B+E

Donde el trmino Y ser la puntuacin del sujeto, C ser el trmino constante, el trmino B implicar la variabilidad explicada por el modelo y el trmino E ser la varianza residual. En funcin del anlisis que llevemos a cabo el trmino B estar compuesto por el efecto de una sola variable, o por el efecto de distintas variables junto con sus trminos de interaccin. Finalmente en el caso multivariante estos trminos implicaran vectores y matrices que representarn los efectos mencionados para las p variables dependientes con las que trabajemos.

Para la aplicacin concreta del procedimiento MLG a un anlisis de la varianza factorial deberamos en primer lugar seleccionar la opcin Univariante dentro del procedimiento modelo lineal general tras ello se nos presentara la ventana de captura de datos que vemos a continuacin:

50

Podemos observar como en este caso particular hemos replicado el anlisis llevado a cabo en el procedimiento anova de un factor pero

introduciendo una se-gunda variable independiente "bilingismo" y seleccionando como variable dependiente la puntuacin de la prueba de gramtica. Es preciso sealar que a diferencia del pro-cedimiento anterior, este si que nos permite definir la naturaleza de los factores, es decir, trabajar tanto con factores de efectos fijos como con factores de efectos aleatorios.

Ello es debido a que el anlisis ser diferente en funcin de la naturaleza de los factores, mientras que en el caso unifactorial, los resultados del anlisis son los mismos independientemente de la naturaleza de estos. Consideramos que un factor es de efectos fijos cuando agota todos los niveles de tratamiento posibles (p.ej. si en un factor denominado sexo tuvieramos dos niveles: hombre y mujer) o en el caso de que no hayan sido seleccionados de forma aleatoria. Por el contrario si los niveles han sido seleccionados de forma aleatoria entre todos los posibles, el factor se considerara de efectos aleatorios. As por ejemplo en nuestro caso habramos podido considerar que los nios pueden empezar a estudiar ingls entre los 2 y los 14 para, a continuacin, seleccionar al azar tres edades que seran nuestros tres niveles de tratamiento. En dicho caso el factor sera de efectos aleatorios. No obstante, en nuestro caso hemos elegido las edades de forma arbitraria, con lo que el factor es de efectos fijos.

Tal y como vemos, el procedimiento MLG nos permite especificar el modelo que deseamos proponer. Como opcin por defecto, el programa nos incluye todos los efectos posibles, tanto los principales como las interacciones. No obstante, en algunos casos, como por

51

ejemplo en aquellos casos en que hayamos aplicados tcnicas de bloqueo, etc. nos puede interesar no incorporar algunos trminos de interaccin. En dichos casos, seleccionando el modelo personalizado podemos elegir aquellos efectos que deseamos incluir en el modelo. Finalmente es posible eliminar el trmino constante.

Por lo que refiere a los contrastes, el procedimiento nos permite seleccionar algunos de los ms habituales, como el polinmico (anlisis de tendencias), helmert, etc. Como es lgico el programa nos solicitar que seleccionemos sobre cual de los dos o ms factores deseamos llevar a cabo el contraste, una vez hechas estas selecciones debemos pulsar el botn cambiar. En nuestro caso lo aplicamos a la variable edad, dado que no tendra ningn sentido llevar a cabo un contraste sobre la variable bilingismo, dado que tan solo presenta dos niveles de tratamiento. Por su parte las opciones grficas son similares a las que presentaba el procedimiento unifactorial, con la diferencia que podemos obtener lneas distintas para cada nivel de uno de los factores.

Como podemos observar, el men de captura de datos correspondiente a los procedimientos de comparacin apareada es idntico al que se presenta en el caso univariante, con la diferencia de que de nuevo, debemos seleccionar el factor sobre el que deseamos llevar a cabo las comparaciones.

52

Finalmente, el men de opciones nos presenta un mayor nmero de opciones que las que vimos para el caso univariante. En este caso, entre las ms recomendables nos encon-tramos con la estimacin del tamao del efecto y la de la potencia observada.

La estimacin del tamao del efecto nos calcular el estadstico eta cuadrado que puede ser considerado un coeficiente de determi-nacin no lineal, el valor del mismo expresa la propor-cin de la variabilidad total que puede ser atribuida al efecto que estemos consi-derando.

Finalmente la estimacin de la potencia observada, nos pro-porcionar una indicacin en aquellos casos de que aceptemos la hiptesis nula de la posibilidad de que dicho hecho se deba a una falta de potencia de la prueba, es decir, a un tamao muestral inadecuado, a una falta de adecuacin del estadstico empleado, etc.

El output que obtendramos con los datos que hemos venido utilizando sera el siguiente:

En primer lugar podemos observar los estadsticos descriptivos, en ellos vemos el mismo efecto de la edad que ya observamos en el caso univariante y, por otra parte vemos como parece existir una diferencia entre monolinges y bilinges a favor de los segundos (media total 6 frente a 4,78) no obstante las pruebas de inferencia posterior nos mostrarn si dicha diferencia es significativa o no. Por otra parte podemos comprobar como la diferencia entre ambos es mayor para el grupo de 6 aos que para los otros dos, lo que nos podra indicar un posible efecto de interaccin.La prueba de Levene, por su parte nos muestra que podemos aceptar la hiptesis nula, es decir, que el supuesto de igualdad de varianzas de error se cumple, con lo que no es necesaria la aplicacin de una prueba F conservadora.

A continuacin el output nos muestra la tabla del anlisis de la varianza. En primer lugar nos indica que el modelo explica una proporcin de varianza que va ms all de lo que podramos esperar por el efecto del azar, es decir, el componente B del modelo lineal es significativo. A continuacin nos desglosa dicho componente en los efectos que lo componen. Entre los mismos podemos ver como rechazamos la hiptesis nula para el efecto de la edad, aceptndola para los otros dos efectos, es decir, parece ser que la edad a la que se empieza a estudiar un idioma tiene efectos sobre el grado de conocimiento posterior del mismo, y dichos efectos son los mismos independientemente de que el sujeto sea bilinge o no. Por su parte, el hecho de ser o no bilinge no parece tener efectos

53

sobre el dominio de dicha lengua.

Adems podemos comprobar como el efecto de la edad es considerable, dado que explica un 70,5 % de la variabilidad existente en el dominio de la lengua entre los sujetos de nuestra muestra. Los datos de potencia, para los efectos no significativos son relativamente bajos, dicho dato no es extrao dado que en este ejemplo, para facilitar la introduccin de los datos se ha trabajado con un tamao de muestra relativamente pequeo.

A continuacin el programa nos facilita los contrastes que hemos solicitado. Podemos comprobar como nos ofrece el intervalo de confianza para el mismo as como su significacin. En nuestro caso rechazamos la hiptesis nula para el lineal y la aceptamos para el cuadrtico.

Posteriormente el output nos presenta las comparaciones apareadas que hemos solicitado, como es lgico los resultados son los mismos que en el caso unifactorial, dado que estamos trabajando con los mismos datos.

54

Finalmente podemos comprobar la grfica para las medias marginales y los dos niveles de bilin-gismo. Podemos ver como existe una cierta falta de para-lelismo entre ambas lneas que podra hacernos pensar en una interaccin. No obstan-te ya hemos visto que dicho efecto no es significativo y que probablemente la falta de ajuste se deba al azar.

EL

PROCEDIMIENTO

MLG

MULTIVARIANTE

El procedimiento MLG Multivariante es la generalizacin del procedimiento visto con anterioridad para aquellos casos en que utilizemos ms de una variable dependiente. Este procedimiento lleva a cabo un anlisis multivariado de la varianza con el fin de contrastar la hiptesis nula de que la variable independiente no tiene ningn efecto sobre las p variables dependientes tomadas de forma conjunta. La mayora de mens incluidos en este procedimiento no los vamos a comentar dado que son exactamente iguales a los del procedimiento anterior. De este modo nos vamos a detener tan solo en aquellos que aporten informacin nueva. Al seleccionar este procedimiento nos aparecer un men como el de la figura Podemos observar que tan solo se diferencia del visto en el procedimiento "factorial" en la casilla Dependientes en la cual deberemos introducir las p variables dependientes. En nuestro caso y siguiendo con el ejemplo que hemos 55

estado utilizando en apartados anteriores disponemos de una nota de fluidez, una de vocabulario y una de gramtica.

Tal y como hemos comentado los botones que nos aparecen en la parte derecha de la ventana son en su gran mayora idnticos a los del procedimiento factorial, tan slo podemos encontrar ligeras dife-rencias en el botn Opciones en el cual nos aparece como posibilidad la obtencin de las matrices de sumas de cuadrados y Productos Cruzados residuales, de la hiptesis y del error. En nuesto caso hemos seleccionado como opcio-nes las pruebas de homogeneidad y el tamao del efecto y, como contrastes, un contraste helmert.

Este procedimiento tiene muchas ms opciones, no obstante no estn disponibles a travs de los mens, sino que deben accederse via sintxis, dado que algunas de las mismas consideramos que son fundamentales para interpretar los resultados obtenidos, vamos a comentar en especial una de ellas que es el anlisis de reduccin dimensional (a.d.r.). Las aplicaciones de dicho anlisis se vern en el output comentado que hay al final de este documento. El programa que deberamos escribir para obtener el a.d.r. sera el siguiente:
manova nota nota2 nota3 by edad(3,5)/

print signif(dimenr).

En primer lugar es destacable que el procedimiento al que debemos acceder es el procedimiento MANOVA en lugar del procedimiento GLM, este es un procedimiento incorporado en las versiones anteriores del SPSS y que en la actual no esta disponible via men. Las opcin nueva que solicitamos es (dimenr). Es necesario sealar que a continuacin de la orden "manova" debemos introducir las variables dependientes que utilizamos y despus de "by" la variable independiente, especificando los dos niveles de tratamiento extremos que en nuestro caso son 3 y 5 aos. Para que el programa funcione los datos deben estar cargados en la hoja de introduccin de datos del SPSS. 56

Esta opcin lleva a cabo un anlisis de reduccin dimensional. Dicho anlisis nos permite conocer cuantas combinaciones lineales de las variables dependientes son necesarias para explicar toda la variabilidad existente en la matriz SCPC de la hiptesis. Ello nos ser de ayuda para elegir con posterioridad el estadstico de contraste que utilizaremos en el MANOVA. El output que obtenemos a partir de los datos que hemos introducido sera el siguiente:
En primer lugar nos encontramos con la prueba de Box, la hiptesis nula de esta prueba supone que las k matrices de varianza covarianza generadas para cada nivel de tratamiento son idnticas a nivel poblacional. Este es uno de los supuestos del modelo y con posterioridad veremos las posibles repercusiones de su violacin, este supuesto puede considerarse la generalizacin multivariante del supuesto de igualdad de varianzas de error. En nuestro caso podemos ver que aceptamos la hiptesis nula.

A continuacin se nos proporcionan los estadsticos de contraste de la hiptesis global multivariada, es decir, verificamos si la variable independiente afecta a las p variables dependientes de forma conjunta. Podemos comprobar como el output nos proporciona 4 posibles estadsticos de contraste. La discusin sobre cual de ellos es ms adecuado se aleja mucho de los propsitos de este manual. A modo de gua prctica podemos sealar que si se viola el supuesto de homogeneidad, lo ms adecuado es elegir la prueba de Pillai, en caso de que dicho supuesto se verifique deberemos tener en cuenta si estamos ante una estructura concentrada o difusa.

Decimos que una estructura es concentrada si para explicar la varianza existente entretratamientos necesitamos pocas combinaciones lineales de las variables dependientes, en el caso contrario nos encontramos con una estructura difusa. Es preciso sealar que esta consideracin tan slo es vlida si estamos operando con ms de dos niveles de tratamiento, dado que en caso contrario todas las pruebas conducen al mismo resultado ya que son equivalentes al estadstico T 2 de Hotelling. Para saber que tipo de estructura presentan nuestros datos es preciso llevar a cabo un anlisis de reduccin dimensional. Dicho anlisis tan slo es accesible va 57

sintaxis mediante el programa que hemos descrito y opera del siguiente modo. En primer lugar contrasta la hiptesis nula del anlisis multivariante mediante la prueba de Wilks, en el caso de rechazarla ello implica que al menos existe una combinacin lineal de las v.dependientes que explica una porcin significativa de varianza entregrupos, a partir de ello elimina la varianza explicada por dicha combinacin y aplica de nuevo la prueba a la varianza entregrupos residual. Si la prueba contina siendo significativa implica que como mnimo existe otra combinacin lineal, la cual es extrada, continuando el proceso hasta que llegue un momento en que aceptemos la hiptesis nula. Hay que tener en cuenta que el nmero mximo de dimensiones posibles (s) es el menor de k-1 y p, siendo k el nmero de niveles de tratamiento y p el nmero de variables dependientes, as en nuestro caso con k=3 y p=3 resulta que s=2. El resultado de este anlisis sera el siguiente:

Como vemos la prueba rechaza la hiptesis nula global en primera instancia para, una vez extrada la primera combinacin aceptar la hiptesis nula. Todo ello implica que existe una sola combinacin lineal de las variables dependientes significativa y, que por lo tanto, la estructura es concentrada. En dicho caso lo ms recomendable es utilizar la prueba de Pillai o la de Hotelling. En caso de que la estructura sea difusa es preferible utilizar la prueba de Wilks. Hay que sealar que algunos autores sealan la posibilidad de utilizar la prueba de Roy como la ms adecuada ante estructuras concentradas, no obstante no existe un estadstico exacto de contraste para esta prueba con lo que los valores que nos proporciona son aproximados. Finalmente cabe sealar que todas estas consideraciones tan slo sern crticas en aquellos casos en que exista una discrepancia entre los distintos estadsticos de contraste a la hora de aceptar o rechazar la hiptesis nula, dado que en aquellos casos en que todos converjan no existe la posibilidad de equivocarnos como consecuencia de elegir el estadstico menos adecuado. Posteriormente el output nos proporciona el contraste que habamo solicitado que en nuestro caso era un contraste Helmert. Los contrastes helmert son un tipo de contraste ortogonal que compara el ltimo nivel de tratamiento con el promedio de los que le preceden. As con tres niveles de tratamiento, el primer contraste comparar el tercer nivel con los otros dos y, el segundo contraste comparar el tercer nivel con el segundo.

58

Con los resultados que hemos obtenido podemos ver que el primer contraste es significativo, es decir, el tercer nivel difiere del promedio del primero y el segundo, mientras que entre el segundo nivel y el tercero no hay diferencias significativas. A continuacin el output nos proporciona las pruebas univariadas. Es decir, lleva a cabo un anlisis de la varianza para cada variable dependiente. En primer lugar nos presenta los resultados de la prueba de Levene para comprobar si en alguno de dichos anlisis se viola el supuesto de homocedasticidad.
Tal y como podemos comprobar, en todos los casos se acepta la hiptesis nula y, por lo tanto, podemos proceder al anlisis de los distintos ANOVAs sin ningn tipo de correccin. Los resultados de estos anlisis univariados son los siguientes:

Posteriormente nos encontramos con la tabla del anlisis de la varianza para cada una de las variables dependientes tomadas de forma aislada. Tal y como podemos ver rechazamos la hiptesis nula en todos los casos, es decir, la edad a que se empieza a estudiar el ingls afecta tambin de forma independiente a las tres medidas que hemos utilizado.

59

MLG

MEDIDAS

REPETIDAS

Medidas

repetidas

simple

Diseos

mixtos

MEDIDAS REPETIDAS SIMPLE

60

Este procedimiento nos permite llevar a cabo anlisis de la varianza en aquellos casos en que nuestro diseo implique uno ms factores intrasujetos, as como combinaciones de factores intrasujetos e intrasujetos.La introduccin de los datos en los factores intrasujetos es idntica a la que vimos en el caso de la prueba "t" de Student para muestras relacionadas, es decir, debemos introducir las puntuaciones de cada sujeto bajo cada nivel de tratamiento en una variable distinta. De este modo, en los datos que presentamos hemos introducido los datos de 18 sujetos que han llevado a cabo una tarea de tiempo de decisin bajo tres condiciones: 1 bit de informacin, 2 y 3. Sus resultados han sido introducidos en las variables td1, td2 y td3. Finalmente dichos sujetos presentan puntuaciones en una prueba de capacidad espacial que estn por encima o por debajo de la media que vienen representadas por los valores 1 y 2 en la variable entresujetos pmas.

Posteriormente seleccionaremos el procedimiento, apareciendo la ventana de captura de datos de la figura que se describe a continuacin.

En dicha ventana deberemos introducir en primer lugar el nombre del factor (en nuestro caso lo hemos denominado "bits") y los niveles de tratamiento del mismo para (3), posteriormente pulsaremos el botn Aadir, obteniendo el resultado de la figura de la izquierda. Tras ello pulsaremos el botn Definir que nos permitir definir que variables se corresponden con cada uno de los niveles de tratamiento. En el caso de que trabajramos con ms de un factor intrasujetos seguiramos el mismo procedimiento para cada uno de los factores. Con el fin de definir los niveles nos aparecer la ventana de la izquierda. En nuestro caso hemos denominado al factor intrasujetos bits y sus niveles son definidos por las variables td1, td2 y td3 que se asignan a los niveles 1, 2 y 3. Tras ello ya podemos solicitar al programa que nos muestre el output resultante. En el caso de que deseemos algn tipo de opcin o comparacin, el procedimiento es el que ya hemos visto para los otros procedimientos asociados a GLM. Como es habitual, el programa nos muestra en primer lugar los estadsticos descriptivos. En ellos podemos observar como parece ser que el TR aumenta de forma lineal en funcin del incremento del nmero de bits de la tarea. A continuacin el output nos proporciona las pruebas de contraste de hiptesis. Es preciso sealar que el anlisis de los datos procedentes de diseos en los que existen factores intrasujetos puede ser llevado a cabo desde dos perspectivas; la perspectiva univariante, fundamentada

61

en la verificacin de ciertos supuestos adicionales a los del anlisis de la varianza y, la perspectiva multivariante, que no precisa de dichos supuestos. La eleccin entre una u otra perspectiva no es simple y ha sido objeto de discusin en los ltimos aos. Una posible consideracin prctica sera adoptar la postura univariante en aquellos casos en que se cumplan los supuestos del modelo y el tamao muestral sea reducido (N<20) y la multivariante en el resto de casos.

El anlisis multivariante nos presenta una tabla idntica a la que hemos visto en el anlisis multivariante de la varianza. Sin embargo en este 2 caso no es preciso decidir que prueba debemos seleccionar ya que todas son equivalentes a la prueba T de Hotelling y por lo tanto arrojan el mismo resultado. En nuestro caso podemos comprobar como rechazamos la hiptesis nula, de este modo podemos considerar que el nmero de bits de informacin parecen afectar al tiempo de decisin. Por otra parte podemos ver el elevado tamao del efecto que encontramos en este caso.

Una vez llevado a cabo el anlisis multivariado, el SPSS nos ofrece la parte del output que se correspondera con el anlisis desde la aproximacin univariada clsica. La aproximacin univariante parte del hecho que en los diseos de medidas repetidas se viola el supuesto de independencia. No obstante dicha violacin no afecta a la distribucin bajo la hiptesis nula del estadstico F si la matriz de varianzascovarianzas de los trminos de error presenta una forma determinada conocida como patrn de esfericidad. Dicho patrn esta presente en aquellos casos en que las varianzas de todas las diferencias entre pares de trminos de error son iguales a una constante. En caso contrario se deben aplicar pruebas conservadoras que actan modificando los grados de libertad.

En primer lugar el output nos ofrece la prueba de Mauchly de esfericidad. Vemos que aceptamos la hiptesis nula, es decir, parece ser que a nivel poblacional la matriz de varianzas-covarianzas presenta un patrn de esfericidad. En caso contrario deberamos elegir uno de los factores de correccin (psilon) con el fin de corregir los efectos de dicha violacin en la distribucin del estadstico F. La opcin que recomendbamos es elegir el de Huyn-Feldt dado que es menos conservadora que las dems.

Posteriormente el programa nos proporciona la tabla del anlisis de la varianza, en la misma elegimos los valores correspondientes a "Esfericidad asumida" dado el resultado de la prueba de Mauchly, lo que nos conduce a rechazar la hiptesis nula, es decir, el nmero de bits parece afectar al tiempo de decisin. Es importante observar como la eleccin de uno u otro factor de correccin acta reduciendo el nmero de grados de libertad disponibles aunque, en nuestro caso concreto, cualquier correccin nos hubiera llevado tambin a rechazar la hiptesis nula.

62

Finalmente, el output nos presenta el anlisis de tendencias y el grfico de medias. Podemos comprobar como rechazamos la hiptesis nula para el contraste lineal. La existencia de una relacin lineal entre el nmero de bits y el tiempo de reaccin se ve confirmada en la representacin grfica de las medias.

DISEOS

MIXTOS

Un caso frecuente en los diseos de medidas repetidas es que se den combinaciones entre factores entresujetos e intrasujetos, dando lugar a los denominados diseos mixtos.

63

As por ejemplo, en los datos que hemos utilizado en el apartado anterior hemos visto que disponamos de un factor intrasujetos (bits) pero, adems disponamos de una variable "pmas" que nos indica si los sujetos presentan una aptitud espacial por encima o por debajo de la media. En dicho caso podra interesarnos tambin saber si los sujetos presentan diferencias en sus tiempos de decisin en funcin de dicha capacidad, as como las posibles interacciones con el td. Para ello debemos proceder del mismo modo que en el caso anterior, definiendo los niveles del factor intrasujetos y, aadiendo en la ventana Factores inter - sujetos la variable pmas. El output que obtendramos aadiendo este factor entresujetos sera el siguiente (tan solo se presentan los aspectos en que este output se diferencia del visto en el caso anterior):

En primer lugar nos encontramos con la prueba de M de Box de igualdad de matrices de varianzas-covarianzas. Dicha prueba refiere a un supuesto aadido que se da en este tipo de diseos; el de igualdad de matrices de varianzas-covarianzas. Como vimos anteriormente, en los diseos de medidas repetidas (en la aproximacin univariante) es preciso que la matriz de varianzas-covarianzas presente un patrn de esfericidad. No obstante, en los diseos mixtos nos encontramos adems con que para cada nivel de la variable entresujetos tenemos una matriz de varianzas-covarianzas, es decir, en nuestro caso tendremos una matriz para los que puntuan "1" en la variable "pmas" y otra para los que puntan "2". Partiendo de ello, el supuesto de homogeneidad asume que las k (en nuestro caso 2) matrices son idnticas a nivel poblacional. La violacin de este supuesto implica la necesidad de aplicar los coeficientes de correccin vistos con anterioridad. En el caso de que aceptemos la hiptesis nula, debemos proceder con posterioridad a la aplicacin de la prueba de Mauchly y proceder como hemos visto anteriormente.

Tal y como podemos ver en la prueba de Box aceptamos la hiptesis nula, de tal modo que el supuesto de igualdad de matrices se verifica. Hay que sealar que en este tipo de diseos, las correcciones basadas en los coeficientes epsilon tan solo deben aplicarse a los factores intrasujetos y a todas sus interacciones con cualquier otro factor independientemente de que este sea intra o entresujetos..

A continuacin se nos muestra al anlisis desde la aproximacin multivariante para los efectos intrasujetos. Como podemos ver los resultados para el factor bits son los ya vistos con anterioridad. En estos resultados se aade la interaccin entre el factor intray el factor entresujetos, interaccin para la cual aceptamos la hiptesis nula, es decir, el efecto del nmero de bits parece ser el mismo independientemente de la capacidad espacial del sujeto.

Finalemente el output nos presenta los resultados para los efectos entresujetos, es decir, los efectos para los factores entresujetos o para las interacciones en las que solo intervienen efectos de este tipo. En nuestro caso estos resultados se cien tan solo a los efectos del factor "pmas". Podemos ver como en este caso aceptamos la hiptesis nula, lo que implica que no parecen existir diferencias en el tiempo de decisin entre los sujetos que presentan una diferente capacidad espacial.

64

PRUEBAS

NO

PARAMETRICAS

Las pruebas no paramtricas o de distribucin libre no estn sometidas a ciertos requisitos que son comunes a las pruebas paramtricas. Fundamentalmente dichos requisitos se refieren a la distribucin que presenta la variable en la poblacin. Por otra parte son especialmente tiles ante tamaos muestrales reducidos o, en los casos en que la variable que nos interese este medida en una escala ordinal.

Para acceder a dichas pruebas debemos seleccionar el procedimiento pruebas no paramtricas en el men estadsticos. Tras ello, se nos presentan distintas opciones que pueden ser clasificadas en funcin de si la prueba en cuestin est destinada a una, dos o ms muestras. Las primeras suelen tener como objetivo la evaluacin del grado de ajuste de nuestros datos a una distribucin determinada de los mismos mientras que las restantes suelen utilizarse en la comparacin de alguna caracterstica de dos o ms muestras con lo cual seran el equivalente no paramtrico del procedimiento comparar medias.

PRUEBAS PRUEBAS PRUEBAS

DE DE PARA

1 2 K

MUESTRA MUESTRAS MUESTRAS

Chi-cuadrado

Esta prueba nos permite verificar si los datos obtenidos en una muestra en una escala de medida nominal o superior se ajustan a una distribucin de frecuencias determinada. As por ejemplo en el fichero encuesta general USA podemos ver que la variable regin tiene tres categoras. Podramos estar interesados en ver si la frecuencia de cada categora es la misma. Para ello seleccionaremos la variable regin y, tal y como vemos en la figura inferior. SPSS ya contrasta por defecto la opcin Todas las categoras iguales. En el caso de que deseramos contrastar otra posible distribucin de frecuencias, deberamos introducir dichas frecuencias una por una en la ventana asociada a Valores.

Los resultados de este anlisis seran los siguientes:

65

En primer lugar el programa nos muestra las frecuencias esperadas y observadas para la variable Regin. Al haber solicitado que contraste nuestros datos con una distribucin en la cual todos los valores de la variable presentan la misma frecuencia podemos comprobar como el N esperado se corresponde con el nmero total de casos dividido por 3. En la ltima columna podemos observar los valores residuales. Partiendo de dichos valores, el programa aplica el estadstico Chi cuadrado con el fin de contrastar la hiptesis nula de que los valores observados pertenecen a una poblacin en la cual las frecuencias son idnticas para las tres regiones.

Tal y como podemos comprobar el valor de dicho test nos conduce a rechazar la hiptesis nula, es decir, parece ser que las frecuencias de las tres regiones a nivel poblacional son distintas.

Prueba

binomial

El objetivo de esta prueba es verificar hasta que punto las frecuencias observadas para una variable dicotmica se ajustan a una proporcin dada. En la figura inferior podemos comprobar que hemos seleccionado la variable sexo y hemos decidido contrastar la hiptesis de que nuestra muestra procede de una poblacin en la cual la proporcin de hombres y mujeres es la misma. Con este objetivo hemos decidido mantener la opcin por defecto del SPSS Contrastar proporcin a ,50. Si desearamos contrastar otra proporcin simplemente lo especificaramos en dicha casilla. Dado que nuestra variable est codificada como 1 2 la dicotoma puede ser obtenida de los datos. En caso contrario deberamos especificar el punto de corte que el programa debera utilizar para definir dicha dicotoma.

Si pulsaramos el botn Opciones podramos adems solicitar descriptivos para la variable. El ouput que obtendramos sera el siguiente:

66

Podemos comprobar que el output nos muestra las proporciones de hombres y mujeres en nuestra muestra (0,58 y 0,42) junto con la proporcin que deseamos contrastar. Posteriormente nos muestra la prueba de contraste de la hiptesis que nos conduce a rechazar la hiptesis nula, es decir, parece ser que en nuestra poblacin la proporcin de hombres y mujeres no es idntica.

Prueba

de

Rachas.

Esta prueba es til para verificar si los valores de una escala nominal o superior se distribuyen aleatoriamente por encima y por debajo de un punto de corte determinado. Tal y como podemos comprobar en la figura inferior. En primer lugar debemos seleccionar la variable que nos interesa, en nuestro caso la edad y, posteriormente, seleccionar el punto de corte que deseamos. Dicho punto de corte puede ser obtenido a partir de un estadstico de tendencia central (moda, mediana o media en funcin de la escala de medida) o puede ser un valor elegido por nosotros. Para ello deberamos pulsar el botn Personalizado e introducir dicho punto de corte.

El output que obtendramos mediante este procedimiento sera el siguiente:

Tal y como podemos ver el programa nos proporciona el nmero de casos que hay por encima y por debajo del punto de corte, junto con el resultado de la prueba que nos conduce a rechazar la hiptesis nula, es decir, parece ser que en la poblacin de la que se ha extraido esta muestra, el nmero de casos que hay por encima y por debajo de la mediana es distinto.

67

Prueba

Kolmogorov-Smirnov

de

una

muestra.

Esta prueba nos permite contrastar la bondad de ajuste de la distribucin de una variable medida en una escala de intervalo o superior. Tal y como vemos en la figura inferior es posible utilizar como distribuciones de contraste la normal, la uniforme, la exponencial y la distribucin de Poisson, adems cuenta con el botn de opciones habitual que nos permite obtener estadsticos descriptivos para la variable que nos interesa. Los resultados obtenidos al aplicar esta prueba a la variable edad seran los siguientes:

Tal y como podemos ver los resultados nos llevan a rechazar la hiptesis nula, es decir, parece ser que la edad no se distribuye en la poblacin de origen de esta muestra de forma normal.

Este anlisis podra complementarse solicitando en el men explorar un histograma con curva normal, en el que veramos de forma grfica como se manifiesta esta falta de normalidad.

DOS

MUESTRAS

INDEPENDIENTES.

Este procedimiento nos permite llevar a cabo comparaciones de las puntuaciones de dos grupos independientes, es decir, cuyos trminos de error no se encuentran correlacionados. Tal y como podemos observar en la figura inferior es preciso seleccionar la prueba que deseamos e introducir el rango de valores de la variable de agrupacin. El programa nos permite optar entre 4 pruebas distintas aplicables cuando la variable dependiente este medida en una escala como mnimo ordinal. La primera de ellas, la prueba de Mann-Whitney es probablemente la ms conocida, siendo considerada el equivalente no-paramtrico de la prueba "t" de Student, siendo al mismo tiempo la ms potente. Opera a partir del sumatorio de los rangos que presentan los valores de cada grupo una vez ordenados.

68

La prueba de Kolmogorov-Smirnov por su parte computa las diferencias entre las distribuciones acumuladas para ambos grupos, calculando posteriormente el grado de ajuste que existe entre ambas. Partiendo de este hecho, esta prueba no es sensible tan slo a las diferencias existentes a nivel de tendencia central, sino que tambin detecta cualquier otro tipo de diferencia entre las distribuciones de los dos grupos.

Con el mismo propsito que la anterior nos encontramos tambin con la prueba de Rachas, mientras que la prueba de Moses comprueba hasta que punto los miembros de un grupo son extremos respecto de los del otro. Esta prueba se centra en la amplitud del grupo control y es una medida de cunto influyen los valores extremos del grupo experimental en dicha amplitud cuando se combinan con el grupo control.

A continuacin podemos comprobar un ejemplo en el que se compara el nivel de felicidad de hombres y mujeres con los datos del fichero "Encuesta general USA". El output resultante es el siguiente:

En primer lugar podemos observar el promedio y la suma de los rangos para cada nivel del sexo. Esta prueba ordena las puntuaciones obtenidas por los sujetos y despus verifica si el rango promedio para cada grupo es igual o distinto. A continuacin nos presenta los estadsticos de contraste. Podemos comprobar como con un nivel de significacin del 5% parece ser que los hombres presentan una puntuacin inferior en felicidad respecto de las mujeres.

69

DOS

MUESTRAS

RELACIONADAS

Este procedimiento complementa al anterior, operando en aquellos casos en que los datos de las dos muestras que deseamos comparar no son independientes. Al acceder a dicho procedimiento obtenemos la ventana de captura de datos que se puede ver en la figura siguiente:

Hay que tener en cuenta que al igual que en la prueba "t" para muestras relacionadas debemos introducir las puntuaciones de cada nivel de tratamiento en una variable distinta. En este caso deseamos comparar la puntuacin que tena en un tem de felicidad un grupo de sujetos en 1995 con las puntuaciones que presentan en la actualidad. El programa nos ofrece tres posibles pruebas. La primera de ellas, la de Wilcoxon podra considerarse la alternativa no paramtrica a la prueba "t" de Student para muestras relacionadas. La segunda, la de Signos es til cuando deseemos obtener informacin sobre hasta que punto ambas distribuciones son similares. Finalmente la prueba de McNemar es aplicable en aquellos casos en que ambas variables sean dicotmicas.

Los resultados que obtendramos aplicando la prueba de Wilcoxon a nuestros datos seran los siguientes:

En primer lugar el programa nos presenta el nmero de veces en que el rango de cada par de valores es positivo, negativo o igual, ello nos dar una idea de en que direccin se manifiestan los posibles efectos significativos que podamos encontrar al aplicar alguna prueba de inferencia. Partiendo de estos resultados podemos suponer que el nivel de felicidad de estos sujetos no ha variado entre los aos 1998 y 1995.

70

MUESTRAS

INDEPENDIENTES.

Este procedimiento podra considerarse como la alternativa no paramtrica al anlisis de la varianza, dado que nos permite contrastar si la variabilidad en el rango medio de k grupos difiere de cero. Una vez obtenida la ventana de captura de datos de la figura inferior. En la misma debemos seleccionar la variable independiente (variable de agrupacin) definiendo el rango me-diante el procedimiento habitual y la variable dependiente.

Una vez realizada esta seleccin podemos optar entre la prueba de Kruskal Wallis y la prueba de la Mediana. La primera de ellas opera mediante los rangos obtenidos por las puntuaciones que conforman cada nivel de tratamiento, contrastando si el rango medio de los k niveles es equiparable. La segunda, por su parte, es menos potente que la prueba de Kruskal-Wallis y lo que hace es computar la mediana de la distribucin de todas las puntuaciones para, posteriormente, calcular cuantos casos de cada nivel de tratamiento estn por encima o por debajo de dicha mediana. Con estos datos elabora una tabla de contingencia la que aplica el estadstico Ji-cuadrado de tal modo que verifica si la posicin respecto a la mediana es similar en todos los grupos.

Con el fin de observar los resultados de la aplicacin de este procedimiento vamos a verificar si las razas presentes en el fichero "Encuesta general USA" presentan unos niveles de felicidad equivalentes. Los resultados seran los siguientes:

En primer lugar podemos comprobar como el grupo ms "feliz" es el de la raza blanca dado que su rango es menor, es decir, presenta ms sujetos con puntuaciones elevadas, mientras que los menos felices se corresponderan con las categoras raza negra y Otra. A continuacin el SPSS nos presenta la prueba de contraste correspondiente:

Tal y como podemos ver, el resultado obtenido nos conduce a rechazar la hiptesis nula, es decir, el rango promedio de los tres grupos es distinto, de ello se deduce que la variable "raza" tiene algn efecto sobre el nivel de felicidad de los individuos.

71

MUESTRAS

RELACIONADAS

Este procedimiento es til en aquellos casos que deseemos comparar k muestras relacionadas utilizando una variable dependiente medida en una escala ordinal. El procedimiento de introduccin de los datos es anlogo al de la prueba "t" para muestras relacionadas, es decir, debemos introducir los resultados de cada medida en una variable distinta. En nuestro caso hemos registrado la posicin en que un grupo de atletas llega al final de una carrera en tres das consecutivos.

El programa nos proporciona tres posibles estadsticos. La prueba de Friedman podramos considerarla como una prueba anloga a la de Kruskal Wallis para el caso de muestras relacionadas. La prueba de Kendall, por su parte es til para verificar el grado de acuerdo entre una serie de jueces al respecto de un grupo de tems. Finalmente la prueba Q de Cochran se aplica en aquellos casos en que operemos con variables dicotmicas. En nuestro caso vamos a ver el output que obtendramos al aplicar la prueba de Friedman.

En primer lugar el output nos muestra el rango promedio que han obtenido los atletas en cada uno de los das de competicin, podemos observar como media de las posiciones que han ocupado el tercer da parece ser mayor que la de los dos primeros das. Posteriormente el programa nos presenta la prueba de inferencia correspondiente:

Partiendo de este resultado podemos concluir que la posicin en la que han terminado la carrera este grupo de atletas se ha ido modificando a lo largo de los tres das en los que hemos obtenido los datos.

ANLISIS FACTORIAL
ANLISIS FACTORIAL

En la siguientes seccin se estudia la tcnica del Anlisis Factorial. El contenido de esta seccin se divide en tres apartados:

Presentacin del problema y de las situaciones donde este tipo de anlisis es relevante. Una breve introduccin a los fundamentos tericos del anlisis y a la nomenclatura utilizada habitualmente. Es recomendable que el lector revise esta seccin para comprender correctamente la utilizacin de esta tcnica, as como la interpretacin de los resultados obtenidos.

Anlisis de un caso prctico mediante Anlisis Factorial. En este apartado se distinguen dos finalidades: a) exponer detalladamente cmo analizar datos mediante la tcnica del Anlisis Factorial mediante SPSS; y b) exponer el proceso del anlisis y la interpretacin de los resultados en un caso realista.

72

DESCRIPCIN

DEL

PROBLEMA

Supongamos que pretendemos medir la percepcin que las mujeres tienen de su propio cuerpo y de cmo esta percepcin afecta a su relacin con los dems, a su propia aceptacin y a sus hbitos alimentarios. En particular estamos interesados en medir cuatro variables: (a) la percepcin negativa que una mujer pueda tener de s misma; (b) su percepcin de hasta qu punto los dems la aceptan en funcin de su aspecto fsico; (c) hasta qu punto su aspecto fsico determina su propia aceptacin; y, finalmente, (d) su actitud hacia la ingesta de alimentos como medio de controlar su aspecto fsico. Obtener una puntuacin de una mujer particular en cada una de estas cuatro variables no es fcil, ya que ninguna de esas variables se puede observar directamente. Son variables denominadas latentes.

Una manera de abordar el problema consiste en medir variables que sean indicadores indirectos de cada una de las variables latentes, que son las que realmente nos interesan medir. Las variables que mediremos han de ser directamente observables. Cuanto mejores indicadores sean las variables observables (ms relacionadas estn con la variable latente), ms acertada ser nuestra apreciacin de la puntuacin de una mujer particular en cada una de las variables latentes. Dado que la relacin entre las variables que realmente medimos y las que nos interesan medir es indirecta, probablemente sea necesario medir ms de una variable observable para llegar a estimar con ms precisin la medida en la variable latente.

Un tipo de variables observables que se utilizan con frecuencia son los tems de un test. Cada tem de un test forma parte de un grupo de tems que se suponen relacionados con una variable latente. Si se pretende medir una nica variable latente, se dice que el test es unidimensional. Por el contrario, si se pretenden medir ms de una variable latente, se dice que el test es multidimensional. Para medir las cuatro variables que proponemos ms arriba, ser preciso un test con cuatro dimensiones: cada dimensin se debe identificar con un grupo de tems (o subescala del test total).

Con esta finalidad, los autores Cooper, Cohen-Tove, Todd, Wells y Tove (1997) propusieron el test: The Eating Disorder Belief Questionnaire (TEDBQ). Cada tem fue redactado para ser un indicador de una nica variable latente, si bien es de esperar que las puntuaciones en las variables latentes estn relacionadas (es decir, se observe correlacin entre las variables latentes). Los tems del test fueron los siguientes:

Primera variable latente Nmero de tem 1 2 3 4 5 6 7 8 9 I'm stupid I'm no good I'm a failure I'm useless I'm dull I'm not a likeable person I'm all alone I don't like myself very much I'm unloveable 73 Contenido del tem

10

I'm ugly Segunda variable latente

Nmero de tem 11 12 13 14 15 16 17 18 19 20

Contenido del tem If my thighs are firm it means I'm a better person If my hips are narrow it means I'm successful If my bottom is small people will take me seriously If I gain weight it means I'm a bad person If I gain weight I'm nothing If my body shape is in proportion people will love me If my hips are thin people will approve of me If I lose weight people will be friendly and want to get to know me If I lose weight people will care about me If I lose weight I'll count more in the world Tercera variable latente

Nmero de tem 21 22 23 24 25 26

Contenido del tem If my stomach is flat I'll be more desirable If my flesh is firm I'm more attractive If my body is lean I can feel good about myself If I eat desserts or puddings I'll get fat Body fat/flabbiness is disgusting If I eat bad foods such as fats, sweets, bread and cereals they will turn into fat Cuarta variable latente

Nmero de tem 27 28 29 30 31

Contenido del tem If I've eaten something I have to get rid of it as soon as possible If I binge and vomit I can stay in control If I eat three meals a day like other people I'll gain weight If I eat normally I'll gain weight If I stay hungry I can guard against losing control and getting fat 74

32

If I eat a forbidden food I won't be able to stop

Cada mujer a la que se administra el test (es decir, el sujeto que responde al test) debe indicar en una escala de 1 a 100 cul es su postura respecto a cada uno de los tems. Un valor extremo de 1 se refiere a: "I do not usually believe this at all". Mientras que un valor extremo de 100 se refiere a: "I am usually completely convinced that this is true". Valores intermedios indican posturas ms o menos relacionadas con cada extremo. A los sujetos se les pidi responder basndose "on what you emotionally believe or feel, not on what rationally believe to be true and try to choose the rating that best describes what you usually believe or what you believe most of the time". La estimacin de la puntuacin del sujeto en una variable latente se obtiene mediante la suma de las respuestas en cada uno de los tems que son indicadores de dicha variable latente.

Por el momento hemos supuesto que cada tem es realmente un indicador correcto de una de las cuatro variables latentes. Sin embargo, esta suposicin podra no ser correcta. De hecho, se plantean muchos interrogantes a esta suposicin. Hasta qu punto podemos afirmar que realmente subyacen cuatro variables latentes en el test? Podra ser que en realidad haya ms variables latentes? O por el contrario, podra ser que en realidad haya menos variables latentes? Si finalmente podemos afirmar que subyacen cuatro variables latentes, hasta qu punto los tems son buenos indicadores de estas dimensiones? Cada tem es un indicador de la variable latente que se le supone? Las variables latentes se hallan correlacionadas?

Para responder a estas preguntas, Cooper y colaboradores (1997) administraron el test a 249 mujeres y analizaron las respuestas a los tems mediante la tcnica del Anlisis Factorial. Para entender porqu optaron por esta tcnica de anlisis y las respuestas a las preguntas anteriores es imprescindible hacer un inciso en los aspectos tericos de la tcnica. A continuacin, replicaremos los anlisis realizados por los autores mediante el programa SPSS. El fichero de datos para ser analizado es eating.sav. Finalmente, responderemos a las preguntas planteadas.

Aspectos Tericos
Anlisis Factorial versus Anlisis en Componentes Principales
Anlisis Factorial versus Anlisis en Componentes Principales

Estas dos tcnicas de anlisis tienen ciertos aspectos en comn, razn por la cual se utilizan de forma indistinta en muchos casos prcticos (aunque no siempre es correcto este uso indiscriminado). Ambas tcnicas tienen como finalidad ltima el obtener un conjunto de variables nuevas a partir de las variables originales. Lo interesante de estas tcnicas de anlisis es que el nmero de variables nuevo es mucho menor que el nmero inicial de variables.

De todos modos, no se debe olvidar que son dos tcnicas diferentes. El Anlisis Factorial (FA) distingue dos tipos de variabilidad en la matriz de correlaciones: una variabilidad que es comn a todas las variables (conocida como comunalidad) y otra variabilidad que es propia de cada variable (conocida como unicidad). La finalidad del AF es encontrar un nmero de variables reducido que permita explicar la variabilidad comn en la matriz de correlaciones. Por otra parte, el Anlisis de Componentes Principales (ACP) no realiza ninguna distincin, por lo que la variabilidad comn y la variabilidad especfica quedan confundidas. La finalidad del APC es encontrar un nmero de variables reducido que permita explicar la variabilidad total en la matriz de correlaciones.

El AF no es propiamente un mtodo de reduccin de informacin, ya que supone que las nuevas variables realmente existen aunque no sean directamente observables. Las puntuaciones de los sujetos en las variables no directamente observables (las que se estiman mediante el

75

anlisis) determinan la puntuacin en las variables que s son observables (de las que parte el anlisis).

El ACP es propiamente un mtodo de reduccin de informacin, donde las variables obtenidas se ordenan de forma decreciente en funcin la cantidad de variabilidad total que explican. Este mtodo es de espacial inters cuando se busca reducir el nmero de variables, explicando cada variable nueva el mximo de varianza posible.

Desde un punto de vista aplicado, hay una relacin bastante clara entre los resultados del AF y del ACP: tendern a resultados similares cuando se analice un gran nmero de variables con poco error de medida o con una dispersin de errores similar en todas ellas. Es decir, cuando la unicidad sea baja o inexistente, ambos mtodos llevan a soluciones factoriales proporcionales.

En ambos casos el anlisis se realiza en tres pasos principales: (a) determinar si la matriz de correlaciones es adecuada para el anlisis; (b) determinar el nmero ptimo de variables nuevas (factores); y (c) determinar la relacin entre cada variable observada y las variables nuevas.

Antes de afrontar estos tres pasos, es preciso conocer cmo se presenta la informacin en este tipo de tcnicas de anlisis. Por otra parte, existe una nomenclatura muy particular sin la cul es difcil adentrase en el mundo del AF y el ACP.

Informacin y nomenclatura
Informacin y nomenclatura

Informacin

en

la

rotacin

ortogonal

Informacin

en

la

rotacin

oblicua

El anlisis parte de una matriz (conjunto de datos ordenados por filas y columnas) de datos directos. En esta matriz, las columnas se refieren a las variables observadas, mientras que las filas corresponden a las puntuaciones de los sujetos en cada una de las variables observadas. A partir de la matriz de datos directos, se obtiene la matriz de correlaciones desde donde se inicia el anlisis. Alternativamente, el anlisis se puede iniciar desde la matriz de covarianzas, aunque esta posibilidad no se va a considerar en este manual.

La finalidad del anlisis es obtener un conjunto de variables nuevas, cuyo nmero es inferior al que se tena originalmente. Cada una de estas variables nuevas se denomina factor o componente (dependiendo de si se realiza un AF o un ACP). Cada uno de los factores es una variable abstracta o latente (no directamente observable), as que ser preciso determinar qu mide en realidad cada factor. Dado que cada factor es en realidad una aglutinacin de variables (con las que el factor mantiene una relacin ms o menos directa), la mejor gua para interpretar el significado de cada factor es el conjunto de variables resumidas por dicho factor.

Una vez se ha realizado el anlisis se obtiene la conocida solucin factorial. La solucin consiste en una serie de matrices que resumen las relaciones entre las variables observadas y los factores. La solucin inicial resume en una nica matriz las relaciones entre las variables y los factores. Sin embargo, es una matriz compleja de interpretar por lo que no ayuda a determinar el significado de los factores.

Para solucionar el problema de determinar el significado de los factores, es preciso realizar una rotacin factorial. La rotacin factorial consiste en una transformacin de la solucin inicial, cuya finalidad es la de identificar el grado de relacin entre las variables observadas y los factores. Existen dos tipos de rotacin factorial: la rotacin ortogonal y la rotacin oblicua. En el primer tipo de rotacin la correlacin entre factores es siempre cero (es decir, las puntuaciones de los sujetos en las variables nuevas no correlacionan entre s). Esta rotacin es la ms simple ya que la informacin se resume en menos matrices. En el segundo tipo de rotacin se permite que, si es preciso, exista correlacin entre factores (es decir, las puntuaciones de los sujetos en las variables nuevas pueden hallarse correlacionados). Es importante

76

indicar que la magnitud de la correlacin entre los factores depender de la complejidad de los propios datos: si existe una transformacin de la solucin inicial que para ser simple no requiere que los factores estn correlacionados, los factores no estarn correlacionados. Esta rotacin es ms compleja, ya que requiere interpretar ms matrices.

A continuacin se enumeran y se describen brevemente las matrices obtenidas despus de cada tipo de rotacin. Algunas de las matrices reciben nombres diferentes en la literatura factorial especializada. Por otra parte, SPSS nombra las matrices siguiendo una nomenclatura propia que no siempre coincide con la utilizada en la literatura. En las siguientes tablas se recogen las diferentes denominaciones posibles.

Informacin en la rotacin ortogonal

Nombre de la matriz Patrn factorial

Denominacin en SPSS Matriz de factores rotados

Descripcin de la matriz
Los elementos de esta matriz se denominan saturaciones, pesos o loadings. Indican la correlacin entre cada variable observada y cada factor.

Matriz de saturaciones Matriz de rotacin Matriz de Transformacin Matriz de transformacin de los factores

Consiste en una matriz de transformacin de la solucin original a la solucin rotada que carece de interpretacin terica.

Para interpretar la solucin factorial es preciso interpretar la Matriz de factores rotados. Las saturaciones se pueden interpretar en trminos de coeficientes de correlacin entre las variables observadas y los factores. Habitualmente, las saturaciones inferiores a 0,20 (aunque se pueden utilizar hasta valores de 0,40) en valores absolutos se toman como una correlacin despreciable. As pues, cada factor se define por las variables con saturaciones (positivas o negativas) ms altas (superiores a 0,20 en valores absolutos). Despus de la rotacin cada variable observada debera correlacionar (en trminos de saturaciones altas) con un nico factor, mientras que cada factor se debera definir por un mnimo de tres variables observadas (sin que existan grandes diferencias entre el nmero de variables que definen cada factor). Esta matriz es la ms importante de todas las obtenidas y ha de ser incluida en los resultados del anlisis.

Informacin en la rotacin oblicua

Nombre de la matriz Patrn factorial

Denominacin en SPSS Matriz de configuracin

Descripcin de la matriz
Los elementos de esta matriz se denominan saturaciones, pesos o loadings. Indican el peso entre cada variable observada y cada factor. Se deben interpretar como pendientes estandarizadas (betas) en un anlisis de regresin mltiple.

Matriz de saturaciones Matriz estructura Matriz Phi Matriz correlacin factorial Matriz estructura Matriz de correlacin entre los factores

Los elementos esta matriz indican la correlacin entre cada variable observada y cada factor.

Los elementos de esta matriz indican las correlaciones entre los factores.

Para interpretar la solucin factorial es preciso interpretar la Matriz de configuracin. El modo de interpretacin es similar al de la matriz de

77

factores rotados en el caso ortogonal. En el caso oblicuo, las matrices ms importantes de todas las obtenidas son la Matriz de configuracin y la Matriz de correlacin entre los factores. As pues, han de ser necesariamente incluidas en los resultados del anlisis.

Evaluacin de la matriz de correlacin


Evaluacin de la matriz de correlacin: ndices de adecuacin muestral

Los ndices de adecuacin hacen referencia a los ndices que indican si la matriz de correlacin se adecua a los supuestos de las tcnicas AF y ACP. Una matriz de correlacin apropiada debe presentar una variabilidad sistemtica entre las variables. Los dos ndices ms populares para evaluar la adecuacin de la matriz de correlaciones son el ndice de Esferidad de Bartlett (TEB) y el test de Kaiser-Meyer-Olkin (KMO).

Test de Esferidad de Bartlett

El TEB se utiliza como una prueba convencional de Ji-cuadrado y evala la hiptesis nula de que la matriz R muestral proviene de una poblacin en la que las variables no estn correlacionadas. Si no puede rechazarse la hiptesis, la solucin factorial reflejar relaciones debidas al azar y realmente inexistentes, por lo que la matriz de correlaciones no debe analizarse.

Test de Kaiser-Meyer-Olkin

El KMO indica hasta qu punto las asociaciones entre las variables pueden ser explicadas por un nmero de componentes o factores ms reducido que el de variables. Tiene un rango de valores entre 0 y 1 y se aconseja un valor mnimo de 0,5 para poder llevar a cabo el anlisis.

Determinacin

del

nmero

de

factores

Determinacin del nmero ptimo de variables nuevas (factores)

Mtodos de extraccin

Nmero ptimo de factores

o o o o

Autovalor mayor de uno Grfico de Sedimentacin (Scree Test) Nmero de factores esperado Prueba de inferencia estadstica

En el AF y el ACP es preciso determinar el nmero de factores que componen la solucin factorial final. Por una parte, se debe determinar un mtodo de extraer factores y un mtodo para determinar cundo se han extrado suficientes factores. De otro modo, se podra a llegar a extraer un nmero de factores igual al nmero de variables. En este caso, el AF no tendra ninguna utilidad como tcnica para reduccin de la informacin.

Mtodos

de

extraccin

Existe una gran cantidad de mtodos de extraccin, por lo que se presenta un breve resumen de los ms habituales, as como su denominacin en SPSS.

Mtodo de extraccin

Denominacin en SPSS

Descripcin del mtodo 78

Componentes Principales ACP PCA Anlisis factorial de ejes principales Anlisis factorial de mnimos cuadrados residuales Mn. cuadrados no ponderados MINRES ULS Ejes Principales Componentes Principales

Es el nico mtodo de extraccin relacionado con ACP. Los componentes se hallan estandarizados, por lo que se podra obtener una solucin rotada (esto no sucede en todos los programas estadsticos, as que se debe actuar con precaucin).

Desde un punto de vista computacional es similar a los Componentes Principales, si bien la varianza total se divide en comunalidad mas unicidad.

Cada factor se obtiene con la finalidad de minimizar un criterio de suma de cuadrados. Es un mtodo recomendable cuando los datos definen una solucin factorial compleja.

Cada factor se obtiene con la finalidad de maximizar un criterio de

Anlisis factorial por mxima verosimilitud ML

verosimilitud. Es un mtodo estadstico que permite evaluar la adecuacin del nmero de factores extrados mediante una prueba de Ji-

Mxima verosimilitud

cuadrado. Cuando los datos definen una solucin factorial compleja, podra no llegar a converger. Por otra parte, para interpretar el test de Jicuadrado requiere que las variables observadas presenten una distribucin normal multivariada.

Nmero ptimo de factores

La mejor solucin factorial posible representa un compromiso entre un nmero bajo de factores y una proporcin de varianza explicada alta. En un caso extremo, la solucin factorial presenta tantos factores como variables observadas se disponen. En este caso, el anlisis no tendra sentido ya que no se habra conseguido resumir la informacin (en el caso del ACP), o se asumira que cada factor se identifica perfectamente con una variable observada (en el caso del FA). Existen diferentes mtodos para determinar el nmero adecuado de factores.

Autovalor mayor de uno

La cantidad de varianza explicada mediante el nmero de factores extrados est directamente relacionada con los autovalores asociados a los factores: la suma de los autovalores es igual al total de la varianza explicada. Cuanto mayor sean los autovalores asociados a los factores extrados, mayor ser la cantidad de varianza explicada. Este mtodo establece que cada factor extrado debe tener un autovalor asociado igual o superior a 1 (aunque este valor se puede alterar). Considerando que los factores se extraen de forma consecutiva y que cada factor extrado presenta cada vez un autovalor asociado menor, la extraccin finaliza cuando el autovalor asociado al ltimo factor extrado es inferior a 1. En la prctica el criterio resulta muy arbitrario: la importancia (en trminos de proporcin de varianza explicada) de un factor cuyo autovalor asociado se halle alrededor de 1 depende directamente de la magnitud de los autovalores asociados a los factores ya extrados (e indirectamente a la cantidad de varianza comn existente en los datos). En situaciones con un nmero alto de variables, los primeros factores pueden obtener autovalores muy superiores a 1. En este caso, factores con autovalores asociados cuyo valor sea cercano a 1 pueden ser considerados no relevantes (ya que explicaran una proporcin de varianza pequea). Resumiendo, este criterio no es recomendable ya que en general lleva a extraer ms factores de los que en general se requieren.

79

Grfico de Sedimentacin (Scree Test)

El grfico de Sedimentacin se basa en el mismo principio que en el mtodo anterior (es decir, la suma de los autovalores es igual al total de la varianza explicada). Si bien en este caso se pretenden identificar los factores cuyo autovalor asociado sea lo suficientemente grande como para ser considerados. La decisin se toma representando los autovalores asociados a cada factor en un grfico. Los autovalores asociados a los factores iniciales son habitualmente altos, mientras que el valor de los autovalores decrece progresivamente a mediada que se extraen factores (presentando el grfico una pendiente pronunciada). Llega un punto en que los autovalores son bajos y similares entre ellos (presentando el grfico un pendiente mnima). El punto de inflexin donde cambia la tendencia del grfico pasando de una pendiente pronunciada a una pendiente mnima se toma como indicador del nmero de factores a extraer.

Este procedimiento es recomendable cuando el anlisis tenga un claro carcter exploratorio y se pretenda encontrar la mejor solucin posible. Se utiliza en el denominado Anlisis Factorial Exploratorio (AFE).

Nmero de factores esperado

Existen situaciones en las que se espera un nmero determinado de factores. Ya sea por las caractersticas propias de las variables observadas o por los resultados obtenidos en anlisis anteriores, existe una hiptesis previa sobre el nmero que se espera obtener. En este caso el criterio consiste en extraer ese nmero exacto de factores. Es recomendable acompaar este criterio de extraccin con alguno otro que nos permita determinar si el nmero de factores retenido ha sido apropiado. El grfico de sedimentacin o una prueba de inferencia estadstica seran adecuados.

Este procedimiento es recomendable cuando el anlisis tenga un carcter confirmatorio: se pretende confirmar la solucin que se suponan en los datos. Se utiliza en el denominado Anlisis Factorial Confirmatorio (AFC).

Prueba de inferencia estadstica

Al explicar el procedimiento de extraccin ML se ha apuntado que este mtodo de extraccin permite evaluar estadsticamente el ajuste del modelo propuesto. El test de bondad de ajuste del modelo (nmero de factores que se ha propuesto como el adecuado) se basa en un estadstico referido a la distribucin Ji-cuadrado. La hiptesis nula del test es que la matriz de correlacin entre variables observadas puede ser reproducida exactamente por el modelo en la poblacin. El rechazo de dicha hiptesis debera interpretarse como que el modelo propuesto no se cumple exactamente en la poblacin. En la prctica el modelo se espera que se cumpla aproximadamente.

Rotacin de la solucin
Determinacin de la relacin entre variables observadas y factores

Mtodos de rotacin ortogonal

Mtodos de rotacin oblicua

Como ya se ha indicado en un apartado previo (ver apartado), la finalidad ltima del AF no es tan slo determinar un nmero de factores, sino tambin el establecer la relacin entre las variables observadas y los factores. Esta identificacin se consigue mediante la rotacin factorial. Existen muchos mtodos de rotacin factorial, as que nos limitaremos a clasificar y comentar los disponibles en SPSS.

Mtodos de rotacin ortogonal

80

Mtodo de rotacin Quartimax Varimax Equamax

Comentarios Este mtodo tiende a obtener un factor definido por muchas variables.
Es el mtodo ms popular y quizs el que determina soluciones ms simples. Es muy eficiente pero muy poco utilizado en investigacin aplicada.

Mtodos de rotacin oblicua

Mtodo de rotacin Oblimin Promax

Comentarios
Es el mtodo de rotacin oblicua ms popular y probablemente uno de los ms efectivos. Requiere definir el valor de un parmetro, siendo el valor cero el ms recomendable. Requiere definir el valor de un parmetro, siendo el valor cuatro el ms recomendable.

Anlisis
Disposicin
Disposicin

de
de
de

un

caso
los
los

prctico
datos
datos

Cmo se puede apreciar en el fichero de datos, cada columna se refiere a un tem del cuestionario, mientras que cada fila se refiere a las respuestas de cada sujeto a cada uno de los tems. En la figura se puede observar que se ha incluido una primera columna para incluir un identificador numrico para cada sujeto. Tambin se puede apreciar que la etiqueta de los tems corresponde al enunciado de cada tem. De este modo, las tablas de resultados ya incluyen el contenido de los tems, por lo que ser ms fcil elaborar el informe de resultados.

81

Configuracin

del

anlisis

por

mens

Configuracin
Descriptivos
Descriptivos

del

anlisis

por

mens

Pulsando el botn Descriptivos se activa la ventana Anlisis Factorial: Descriptivos. En esta ventana se deben seleccionar la opcin Solucin inicial y la opcin KMO y prueba de esfericidad de Bartlett. La primera permite obtener un listado detallado de las comunalidades estimadas antes y despus del anlisis, as como de la proporcin de varianza explicada por cada factor, incluso de los factores que no se llegan a extraer. La segunda opcin muestra los ndices de adecuacin de la matriz de correlacin a los supuestos del modelo.

82

Extraccin
Extraccin

Pulsando el botn Extraccin se activa la ventana Anlisis Factorial: Extraccin. En esta ventana se deben seleccionar el mtodo de extraccin que se considera adecuado. En este anlisis se ha seleccionado el mtodo Mn. cuadrados no ponderados (MINRES), por lo que el anlisis es realmente un Anlisis Factorial. Por otra parte, se ha seleccionado la opcin Solucin factorial sin rotar y la opcin Grfico de sedimentacin. La primera muestra la matriz factorial (solucin factorial inicial). Aunque es una matriz difcil de interpretar, resulta conveniente inspeccionarla. La segunda opcin permite determinar el nmero adecuado de factores a retener segn la prueba Scree Test.

En la figura tambin se puede observar que se ha seleccionado un nmero exacto de factores (cuatro en este caso), mediante la opcin Nmero de factores. As pues, la finalidad de este primer anlisis es la de confirmar la estructura factorial propuesta por Cooper y colaboradores (1997). La opcin Autovalores mayores que: permite aplicar el criterio de Autovalor mayor que uno explicado previamente (ntese que el valor por defecto es 1 ya que es el valor ms habitual). Finalmente, si la convergencia del mtodo de extraccin requiere ms de 25 iteraciones, se finalizar el anlisis con un mensaje de aviso de que ha sido imposible converger la solucin. A la prctica, si una solucin no converge con 25 iteraciones, dada la eficiencia de clculo actual de los ordenadores, este valor se puede aumentar. Si el mtodo no converge, por ejemplo, en 100 iteraciones entonces se puede concluir que los datos son demasiado complejos para ser analizados mediante el mtodo de extraccin seleccionado. Habitualmente, el mtodo MINRES converge rpidamente en pocas iteraciones incluso con datos complejos.

Rotacin
Rotacin

Pulsando el botn Rotacin se activa la ventana Anlisis Factorial: Rotacin. Dado que es posible que los cuatro factores extrados se hallen correlacionados, se va a realizar una rotacin oblicua de los factores. Para ello, se ha seleccionado el mtodo de rotacin Oblimin directo con el valor del parmetro delta igual a cero (que de hecho es el valor por defecto). Por otra parte, se ha seleccionado la opcin mostrar la Solucin rotada. esta opcin muestra las matrices Matriz de configuracin, Matriz de estructura y Matriz de correlaciones entre factores. Son de especial inters la primera y la tercera. La opcin Grficos de saturaciones no ha sido seleccionada en este caso. Sin embargo, en los dos anlisis siguientes s que ser seleccionada. Esta opcin representa de forma grfica la solucin factorial.

83

Finalmente, si la convergencia del mtodo de rotacin requiere ms de 25 iteraciones, se finalizar el anlisis con un mensaje de aviso de que ha sido imposible converger la rotacin. Una vez ms, si una solucin no converge con 25 iteraciones este valor se puede aumentar. Si el mtodo no converge, por ejemplo, en 100 iteraciones se puede concluir que la solucin factorial es demasiado compleja para ser rotada mediante el mtodo seleccionado.

Puntuaciones
Puntuaciones

Pulsando el botn Puntuaciones se activa la ventana Anlisis Factorial: Puntuaciones factoriales. La finalidad de esta ventana es determinar qu procedimiento se debe utilizar para estimar las puntuaciones de los sujetos en los factores (en las variables latentes). Despus del anlisis las puntuaciones en las variables latentes se incluirn como columnas en la ventana de datos del SPSS.

En la figura se puede observar que se ha seleccionado el mtodo Regresin. En la practica, es recomendable no activar ningn mtodo (desactivar la opcin Guardar como variables) hasta que no se determine con seguridad el nmero de factores ms adecuado.

Opciones
Opciones

Pulsando el botn Opciones se activa la ventana Anlisis Factorial: Opciones. La finalidad de esta ventana es configurar el tratamiento de las respuestas faltantes y la presentacin de los datos en las matrices factoriales. Para interpretar la solucin rotada, resulta de ayuda el no imprimir las saturaciones que presenten valores cercanos a cero (ya que son saturaciones que se consideran residuales). En este caso se eliminan de las matrices las saturaciones que sean menores de 0.30 en valores absolutos.

84

No obstante, es importante indicar que en el informe final de resultados se deben incluir necesariamente todas las saturaciones (incluso las que se consideren residuales). En todo caso, se puede formatear la tabla para que las saturaciones salientes se impriman, por ejemplo, en negrita con la finalidad de facilitar su comprensin visual.

Configuracin
Configuracin del

del

anlisis
anlisis

por
por

sintaxis
sintaxis

El anlisis factorial configurado mediante mens se poda haber realizado mediante la sintaxis habitual del SPSS. En la siguiente figura se muestra el programa que hubiese sido necesario.

Diversos anlisis de los datos

Diversos

anlisis

de

los

datos
85

Extraccin
Extraccin de cuatro factores

de

cuatro

factores

ndices de adecuacin muestral Comunalidades Decisin del nmero de factores Solucin factorial rotada Conclusion del estudio

ndices de adecuacin muestral La matriz de correlacin cumple perfectamente los requisitos para ser analizada mediante AF. La prueba de esfericidad indica que la matriz difiere significativamente de una matriz donde las variables no correlacionan. Por otra parte, la prueba de KMO es muy alta, indicando que existe una variabilidad sistemtica en la matriz.

Comunalidades

El mtodo estima las comunalidades de las variables antes y despus del anlisis. Se puede observar que las comunalidades finales son, en general, altas. De hecho, esta es una propiedad muy apreciada de un cuestionario, ya que si las comunalidades son altas el cuestionario puede ser validado incluso con muestras de sujetos relativamente pequeas (en la literatura especializada se propone un mnimo de 60 sujetos cuando las comunalidades son muy altas, y un mnimo de 500 cuando las comunalidades son muy bajas).

86

87

Decisin

del

nmero

de

factores

En la configuracin inicial hemos propuesto extraer cuatro factores con la intencin de comprobar si realmente es el nmero ms adecuado de factores. Para evaluar la dimensionalidad (nmero de factores), disponemos de dos informaciones: la magnitud de los autovalores (indicadores de la cantidad de varianza explicada por los factores) y la proporcin de varianza explicada por cada factor (as como la proporcin varianza explicada total). Esta informacin se muestra en la siguiente tabla:

88

Como se puede apreciar, el primer factor explica un total de varianza de 17.28 (que representa el 53.145% de la varianza), mientras que el segundo explica un total de 3.46 (que representa el 9.789% de la varianza), siendo la proporcin total del 62.934%. Los otros dos factores explican una proporcin de varianza mucho ms baja. Ntese que si se hubiese extrado un quinto factor hubiese explicado una varianza total de 0.53 (este dato aparece en la segunda columna de la tabla).

Por otra parte, la prueba del Scree Test parece indicar igualmente una diferencia importante entre el segundo y el tercer factor (a partir del cual todos los factores explican cantidades de varianza similares). Esta prueba se presenta en la siguiente figura.

La conclusin es que el cuestionario es casi unidimensional (ya que el primer factor explica una cantidad de varianza muy alta respecto a los dems), si bien es posible aceptar la existencia de un segundo factor. En este punto, no sera preciso estudiar la solucin rotada, sino ms bien volver a iniciar el anlisis con dos factores. No obstante, en este manual se estudia la solucin rotada con una finalidad didctica.

Finalmente, apuntar que el criterio de extraccin de un autovalor mayor de uno hubiese reforzado nuestra hiptesis inicial de que existen cuatro factores (ya que el cuarto factor es el ltimo que ha presentado un auto valor mayor de uno). Sin embargo, los otros cirterios apuntan a una solucin bifactorial en el mejor de los casos.

Solucin

factorial

rotada

Previa a la inspeccin de la solucin factorial rotada, se obtiene la solucin factorial inicial. Como se puede apreciar en la siguiente tabla, es una solucin difcil de interpretar.

89

90

A continuacin se obtiene el patn factorial rotado (donde las saturaciones menores de 0.30 en valores absolutos no se muestran). Como se puede observar, los diez tems que se suponan relacionados con la variable latente percepcin negativa que una mujer pueda tener de s misma, presentan saturaciones altas slo en el segundo factor. Esto implica que todos estos tems se comportan correctamente, y que hemos podido determinar una variable latente (el segundo factor en este caso) que explica las respuestas de los sujetos en estos diez primeros tems. Lo mismo sucede en los dos grupos de diez y seis tems siguientes, por lo que las variables latentes la percepcin de hasta qu punto los dems la aceptan en funcin de su aspecto fsico (el primer factor en este caso) y hasta qu punto su aspecto fsico determina su propia aceptacin (el tercer factor en este caso) tambin pueden considerarse identificadas. Finalmente, los seis tems finales deberan relacionarse con un nico factor (el cuarto en este caso), si bien las saturaciones son ms bajas y dos tems (los dos ltimos) presentan saturaciones significativas en otras dimensiones. Por lo tanto, la variable latente actitud hacia la ingesta de alimentos como medio de controlar su aspecto fsico no ha sido tan bien identificada como hubiese sido de esperar.

91

92

A continuacin se muestra la matriz estructura que indica la correlacin entre los tems y los factores. La mayora de los tems muestra correlaciones altas con los cuatro factores, mientras en la solucin pareca mucho ms simple cuando se ha inspeccionado el patrn factorial. Cuando se observa esta situacin es debido, como veremos a continuacin, a que existe una correlacin alta entre las puntuaciones en los factores.

93

94

Finalmente, la solucin factorial rotada requiere estudiar la correlacin entre las puntuaciones de los factores. Al aplicar un mtodo de rotacin oblicuo, se ha dado libertad para que los factores correlacionen (si es que era preciso para obtener un patrn factorial simple). La matriz de correlaciones entre factores se presenta a continuacin.

Las correlaciones ms altas se observan entre los factores 1, 3 y 4, que son los relacionados con la autopercepcin del aspecto fsico.

Conclusin del estudio

La matriz de correlaciones es vlida para ser analizada, si bien la estructura factorial de cuatro factores no se ha visto completamente reforzada. La solucin parece ser bifactorial. No obstante, al extraer cuatro factores, slo dos tems no se comportan como era de esperar (parecen mejores indicadores de otros factores diferentes de los que inicialmente cabra esperar). Por otra parte, las puntuaciones en los cuatro factores muestran una correlacin alta, especialmente entre los tres factores relacionados con la autopercepcin del aspecto fsico.

Extraccin
Extraccin de dos factores

de

dos

factores

Solucin factorial rotada Presentacin grfica bidimensional Conclusin del estudio

Como consecuencia de los resultados obtenidos en el estudio anterior, se pasa a reanalizar la matriz de correlaciones, pero extrayendo dos factores en esta ocasin. La nica diferencia es que en esta ocasin en la ventana Anlisis Factorial: Extraccin se ha seleccionado el nmero exacto de dos factores, mediante la opcin Nmero de factores. Otra diferencia es que la ventana Anlisis Factorial: rotacin se ha seleccionado la opcin Grficos de saturaciones. Esta opcin representa de forma grfica la solucin factorial (que es una representacin muy informativa cuando la solucin es bidimensional).

Dado que las variables que se estudian son las mismas que en el caso anterior (los mismos tems), no hace falta volver a comentar los ndices de adecuacin, ni volver a revisar cuantos factores seran adecuados (ya que esta informacin es idntica a la obtenida en el anlisis de con cuatro factores). Las comunalidades s que han de variar (siendo ms bajas en este caso). Dado que la diferencia es mnima, tampoco van a ser comentadas.

Respecto a la solucin factorial rotada slo se comentan el patrn factorial y la matriz de correlaciones entre factores (si bien el lector puede consultar la matriz estructura en su propio ordenador).

Solucin

factorial

rotada

El patrn factorial muestra una clara solucin bifactorial. Los tems relacionados con la autoestima definen el segundo factor (con

95

saturaciones muy altas, excepto en un tem que presenta una saturacin algo inferior). Este factor es pues un factor de autoestima. El resto de tems definen el primer factor, siendo todas las saturaciones muy altas (excepto en un tem que muestra una saturacin algo inferior). Este primer factor es un factor de autopercepcin del aspecto fsico. El primer factor es un factor muy bien definido, que explica una proporcin de varianza muy alta, mientras que el segundo factor explica un proporcin menor de varianza (probablemente porque est definido por menos variables).

96

97

La matriz de correlaciones entre factores muestra una correlacin alta entre las puntuaciones en los factores. Esta correlacin indica que la autoestima y la autopercepcin del aspecto fsico estn muy relacionadas.

Presentacin

grfica

bidimensional

La representacin grfica de la solucin es muy informativa. Se puede apreciar que los tems (representados como los puntos del grfico) se agrupan muy bien entorno a los factores (representados como los ejes del grfico).

Cabe apuntar que la representacin generada por el SPSS en el caso de la rotacin oblicua no es muy realista. Si los factores estn relacionados, el ngulo entre los ejes del grfico debera ser mostrado como un ngulo obtuso, y no como un ngulo recto de 90 grados (que ms bien indica ausencia de correlacin).

Conclusin del estudio

La conclusin del estudio es que la solucin bifactorial responde muy bien a los datos obtenidos. Un factor muy bien definido por un nmero alto de tems se puede interpretar como un factor de autopercepcin del aspecto fsico, mientras que un segundo grupo de tems definen un segundo factor de autoestima (que explica menos varianza por estar definido por un nmero muy inferior de tems). Por otra parte, ambos factores muestran una correlacin muy alta.

La siguiente cuestin que surge es: si se analizan nicamente los tems que definen el primer factor (autopercepcin del aspecto fsico), que es un grupo muy alto de tems, se agruparn los tems entorno a las tres variables latentes que se pretendan medir? Dado que eran tres

98

variables relacionadas con la autopercepcin del aspecto fsico, ya era de esperar que pudiesen llegar a formar un nico factor (especialmente cuando se las analiza junto con tems que miden otra variable latente). Pero si se analizan por separado, obtendramos las tres variables latentes (factores) que se esperaban? Para responder a esta pregunta es preciso reanalizar los tems que hacen referencia a la autopercepcin del aspecto fsico por separado y extraer tres factores.

Extraccin de tres factores


Extraccin de tres factores

ndices de adecuacin muestral Decisin del nmero de factores Solucin factorial rotada Presentacin grfica tridimensional Conclusin del estudio

En el siguiente ejemplo se analizan 22 tems del cuestionario (del tem 11 al tem 32), los tems relacionados con la autopercepcin del aspecto fsico, mediante AF. La finalidad del anlisis es la siguiente. En los dos anlisis anteriores se ha constatado que estos tems son unidimensionales (es decir, se agrupan en torno a un nico factor). Ahora bien, si se analizan estos tems por separado mediante AF y se extraen tres factores, cada uno de los factores corresponder con una de las variables latentes que se pretendan medir? Dicho de otro modo, el factor general puede ser divido en tres subfactores segn el contenido de los tems que los definen? En la literatura especializada, algunos autores defienden que la unidimensionalidad es la suma de varias dimensiones menores y muy correlacionadas. Si esto es cierto, en nuestro caso deberamos obtener tres factores perfectamente identificados por los contenidos de los tems y altamente correlacionados.

En la ventana Anlisis Factorial se han seleccionado slo los tems que se pretenden analizar. Por otra parte, en la ventana Anlisis Factorial: Extraccin se ha seleccionado el nmero exacto de tres factores, mediante la opcin Nmero de factores. Finalmente, la ventana Anlisis Factorial: rotacin se ha seleccionado la opcin Grficos de saturaciones. Esta opcin representa de forma grfica la solucin factorial (que permitir una representacin tridimensional de la solucin factorial).

En

este

ejemplo

no

se

revisan

todas

las

matrices

obtenidas,

sino

que

se

comentan

nicamente

las

ms

interesantes.

ndices

de

adecuacin

muestral

La matriz de correlacin cumple perfectamente los requisitos para ser analizada mediante AF. La prueba de esfericidad indica que la matriz difiere significativamente de una matriz donde las variables no correlacionan. Por otra parte, la prueba de KMO es muy alta, indicando que existe una variabilidad sistemtica en la matriz.

99

Decisin

del

nmero

de

factores

En la configuracin hemos propuesto extraer tres factores con la intencin de comprobar si realmente es el nmero ms adecuado de factores. Para tomar esta decisin consideraremos el total de varianza explicada y la proporcin de varianza explicada por cada factor. Esta informacin se muestra en la siguiente tabla:

Como se puede apreciar, el primer factor explica un total de varianza de 13.984 (que representa el 62.389% de la varianza). El segundo factor explica un total de varianza de 1.559 (que representa el 5.739% de la varianza). Finalmente, el tercero explica un total de 1.156 (que representa el 3.922% de la varianza) siendo la proporcin total del 72.05%. Es interesante destacar que el siguiente factor habra explicado una varianza total de 0.536.

La prueba del Scree Test indica igualmente una diferencia importante entre el primer y el segundo factor. Esta prueba se presenta en la siguiente figura.

100

Observando estos datos, se llega a la conclusin que ya hemos obtenido previamente: este conjunto de tems es prcticamente unidimensional (ya que el primer factor explica una cantidad de varianza muy alta respecto a los dems). De todos modos, recordemos que la finalidad de este anlisis es extraer tres factores para comprobar si el factor general se divide en tres subfactores bien delimitados por los contenidos de los tems que los definen. Por el momento podemos observar que se pueden considerar los tres factores (aunque dos de ellos explican poca varianza). A continuacin es importante estudiar la solucin rotada.

Solucin

factorial

rotada

El patrn factorial rotado (donde las saturaciones menores de 0.30 en valores absolutos no se imprimen) se muestra a continuacin.

101

102

Como se puede observar, los diez primeros tems muestran saturaciones altas en el primer factor, mientras que los seis tems siguientes muestran saturaciones altas en el segundo factor. As pues, cada uno de estos factores corresponde a las variables latentes la percepcin de hasta qu punto los dems la aceptan en funcin de su aspecto fsico (el primer factor) y hasta qu punto su aspecto fsico determina su propia aceptacin (el segundo factor). Finalmente, los seis tems finales se relacionan con el tercer factor, si bien las saturaciones son ms bajas y un tem (el ltimo) presenta una saturacin significativa en otra dimensin. Pese a estas limitaciones, la variable latente actitud hacia la ingesta de alimentos como medio de controlar su aspecto fsico ha sido tambin identificada.

Finalmente, la solucin factorial rotada requiere estudiar la correlacin entre las puntuaciones de los factores. Como se ha apuntado previamente, es de esperar que los factores se encuentren muy correlacionados. La matriz de correlaciones entre factores se presenta a continuacin.

Como

era

de

esperar

las

correlaciones

son

de

hecho

altas.

Presentacin

grfica

tridimensional

La representacin grfica tridimensional requiere encontrar el punto de vista que mejor clarifique cmo los tems (representados como los puntos del grfico) se agrupan entorno a los factores (representados como los ejes del grfico). Prcticamente siempre es necesario cambiar el punto de vista del grfico (e incluso es recomendable probar puntos de vista alternativos). Para ello se debe pulsar dos veces consecutivas el botn del ratn a la vez que se sita el puntero sobre el grfico. De este modo el grfico se activa en modo edicin, apareciendo una barra de herramientas en la parte superior de la pantalla:

En esta barra de herramientas, se debe pulsar el botn Activar/desactivar modo de giro (en la figura corresponde al ltimo botn). A continuacin se activa una nueva barra de herramientas:

Pulsando sobre los diferentes botones de la barra, el punto de vista cambia. Se invita al lector a probar diferentes puntos de vista, e incluso cambiar el punto de vista de forma sistemtica para obtener una impresin de tridimensionalidad ms real. En nuestro caso nos parece adecuado el siguiente punto de vista:

103

Desde este punto de vista se puede observar que el primer factor es el mejor definido (un nmero mayor de tems se agrupa alrededor de este primer factor, formando un ncleo relativamente compacto). Entre los factores dos y tres se puede observar que hay un par de tems (segn el patrn factorial podran ser los tems 26 y 32). Estos son los tems ms complejos del anlisis, ya que parecen estar relacionados con dos factores.

Una vez finalizada la edicin del grfico, el aspecto final es el mostrado en la siguiente figura.

104

Conclusin del estudio

La conclusin de este estudio es que el factor general de autopercepcin del aspecto fsico puede ser divido en tres subfactores que muestran entre ellos una alta correlacin.

Conclusin final despus de los tres anlisis


Conclusin final despus de los tres anlisis

Los 32 tems del cuestionario estudiado han sido analizados mediante AF. Esta tcnica ha sido utilizada por el hecho de que los tems se han tomado como indicadores indirectos de cuatro variables latentes (factores). Han sido necesarios tres anlisis antes de comprender exactamente la estructura factorial de estos tems. Las conclusiones generales a las que se ha llegado son las siguientes:

Los 32 tems del cuestionario definen dos factores (o variables latentes). Los diez primeros tems definen un factor de autoestima, mientras que los 22 restantes tems definen un factor de autopercepcin del aspecto fsico. El factor de autopercepcin del aspecto fsico puede ser dividido en tres subfactores altamente correlacionados. Estos factores son (1) la percepcin de hasta qu punto los dems la aceptan en funcin de su aspecto fsico, (2) hasta qu punto su aspecto fsico determina su propia aceptacin y (3) actitud hacia la ingesta de alimentos como medio de controlar su aspecto fsico.

Los autores originales del cuestionario ya consideraron en su artculo los aspectos positivos y negativos de incluir en su cuestionario (inicialmente desarrollado para detectar alteraciones en la ingesta de alimentos debidos a la autopercepcin del aspecto fsico) tems relacionados con una variable latente de autoestima. Uno de los inconvenientes es que la presencia de un grupo de tems tan diferenciado (tems de autoestima) respecto al grupo central de tems (tems de autopercepcin del aspecto fsico) puede provocar que la estructura factorial del cuestionario sea bifactorial: un factor para cada tipo de tems. La estructura interna de los tems relacionados con la autopercepcin del aspecto fsico aparece con mayor claridad cuando estos tems se analizan por separado. Sin embargo, los autores consideraron positivo el hecho de facilitar una escala de autoestima en su propio cuestionario con la finalidad de reducir el trabajo del psiclogo: con la administracin de un nico cuestionario se obtienen estimaciones de las puntuaciones del sujeto en las cuatro variables latentes que parecen ser relevantes.

FIABILIDAD Y ESCALAS

ANLISIS

DE

LA

FIABILIDAD

El programa estadstico SPSS permite obtener el anlisis de la fiabilidad de las puntuaciones en un test, entendida sta como la consistencia interna del test (y no como estabilidad temporal de las puntuaciones).La fiabilidad como estabilidad temporal debera obtenerse mediante los subprogramas de creacin de nuevas variables y de correlacin.

PROCEDIMIENTO:

Una vez introducidas as puntuaciones del test seleccionaremos en el men el apartado analizar , dentro de ste el subapartado escalas y, por ltimo, la opcin fiabilidad, tal y como vemos a continuacin:

105

Aparece entonces la ventana Anlisis de fiabilidad:

El primer paso consiste en seleccionar las variables (los tems) que queremos analizar. Esto lo haremos seleccionando las variables que aparecen en el recuadro de la izquierda y trasladndolas al de la derecha mediante el botn intermedio. El SPSS permite estimar la

fiabilidad mediante varios procedimientos. Pulsando el botn Modelo aparecen las diferentes posibilidades:

Alfa. Dos mitades. Guttman. Paralelo. Paralelo estricto.

Alfa: Seleccionando esta opcin, el programa estimar a, es decir, el coeficiente de generalizabilidad de Cronbach. El coeficiente a es un estimador consistente de la fiabilidad si los tems son esencialmente tau-equivalentes (esto es, si miden el rasgo con la misma unidad de medida). En otro caso, a es una cota inferior para la fiabilidad del test. Es decir, la fiabilidad "real" no ser inferior al valor estimado por el programa.

106

Alfa es el promedio de las fiabilidades (calculadas mediante la prueba de Rulon) resultantes de la divisin del test en dos mitades de todas las formas posibles. Por lo tanto, esta prueba nos ofrece un valor de la fiabilidad ms general, pues no depende de la particular divisin en mitades que se realice, y es ms estable.

Dos mitades: Este modelo estima la fiabilidad de las puntuaciones a partir de la divisin del test en 2 mitades, mediante los siguientes coeficientes:

Spearman-Brown: estima la fiabildad suponiendo que las 2 mitades son paralelas y lo hace de 2 formas:

1.

Considerando que las dos mitades tienen el mismo nmero de tems (equal-length Spearman-Brown).

2.

Considerando que las dos mitades tienen diferente nmero de tems (unequal-length Spearman-Brown).

Guttman: se estima la fiabilidad de las puntuaciones del test a partir de la divisin del test en dos mitades que el programa supone tau-equivalentes.

Alfa: estima el valor del coeficiente a para la 1 mitad del test y a para la 2 mitad del test.

Ntese que los valores de los coeficientes dependern de los tems que formen cada una de las mitades. El programa, por defecto, obtiene las dos mitades partiendo del orden de introduccin de los tems. Por ejemplo: tenemos las puntuaciones de un test formando por diez tems; los cinco primeros tems introducidos constituirn la primera mitad y el resto la segunda mitad.

Si queremos determinar qu tems constituirn cada una de las dos mitades, lo haremos de la siguiente manera: en la ventana Anlisis de fiabilidad pulsaremos el botn pegar, aparecer entonces la ventana Editor de sintaxis SPSS. En el comando: /SCALE(SPLIT)=ALL/MODEL=SPLIT. Introduciremos las variables en el orden que nos interese. Por ejemplo, si queremos que los tems 2, 3 y 5, formen la primera mitad y que los tems 1, 4 y 6 formen la segunda, introduciremos las tems en el comando como sigue:

/SCALE(SPLIT)=V3_V2_V5_V1_V4_V6/MODEL=SPLIT

ESTADSTICOS

DESCRIPTIVOS

Por ltimo, la ventana Anlisis de fiabilidad dispone de un botn denominado a partir del cual se pueden seleccionar los descriptivos que interese obtener. Pulsando este botn aparece una nueva ventana:

107

Descriptivos para : permite determinar si los descriptivos han de ser calculados para cada tem por separado, para toda la escala o para la escala eliminando el tem. Esta ltima opcin nos ofrece un dato especialmente interesante: los valores de Alfa para las puntuaciones de la escala eliminando un tem cada vez. De esta manera podremos determinar qu tems deben ser eliminados para aumentar el coeficiente de generalizabilidad de la escala (a).

Entre elementos:

o o

Covarianzas: eligiendo esta opcin obtenemos la matriz de varianzas-covarianzas entre tems.

Correlacin: permite obtener la matriz de correlaciones de los tems.

Resmenes: Ofrece cuadros resumen de la distribucin de los estadsticos descriptivos de los tems (a travs de los tems que constituyen la escala). Podemos elegir entre los siguientes estadsticos: medias, varianzas, covarianzas y correlaciones.

Por ejemplo, si seleccionamos la opcin medias obtendremos los siguientes valores: la media de las medias de los tems, la media mnima y la mxima de los tems, el rango, el cociente entre la media mxima y la mnima, y la varianza de las medias de los tems.

Tabla de ANOVA : el programa realiza el anlisis de la varianza para lo que podemos considerar como un diseo de medidas repetidas sujetos x tratamientos, en el que los tratamientos son los tems que componen el test. La prueba F en la tabla del ANOVA evala la hiptesis de que los tratamientos (tems) tienen medias iguales.

El modelo de ANOVA descrito asume que la matriz de varianzas-covarianzas entre tems es homognea. De no ser as, la prueba F puede llevar a resultados errneos y es preferible utilizar la prueba T-cuadrado de Hotelling, que es exacta an cuando la matriz de varianzas-covarianzas no sea homognea. En el caso de que lo sea, ambas pruebas dan exactamente el mismo resultado.

108

El modelo de anlisis tambin asume la aditividad (o no interaccin) tratamientos x sujetos. Este supuesto se puede evaluar mediante la prueba de Tukey. Existira interaccin, por ejemplo, si el orden de dificultad de los tems no fuese el mismo para todos los sujetos. En este caso las caractersticas de los tems no seran comunes a todo el grupo, tal como se asume habitualmente en la teora del test.

Si la matriz de datos de diseo no contiene puntuaciones mtricas sino rangos, entonces, no se cumplen los supuestos bsicos de las pruebas paramtricas y es preferible una tcnica no paramtrica. El programa SPSS utiliza en este caso la prueba de Friedman. Por otra parte, si los tems son dicotmicos la prueba adecuada para analizar este diseo es la prueba Q de Cochran, tambin disponible en el programa.

EJEMPLO

PRCTICO

A continuacin, exponemos parte de las respuestas de una muestra de 592 sujetos a una escala de personalidad (ansiedad rasgo) compuesta por seis tems tipo Likert en 5 puntos, con las respuestas puntuadas de 1 a 5. Los tems estn todos ellos puntuados en la misma direccin: a mayor nivel en el rasgo (mayor nivel de ansiedad) corresponde una mayor puntuacin en cada uno de los tems.

Apartir de estos datos, realizaremos un anlisis de la fiabilidad de la escala, utilizando el modelo Alfa, y los estadsticos descriptivos sealados en la siguiente ventana:

109

La primera tabla del output muestra las medias, las desviaciones tpicas y el nmero de casos de cada uno de los tems y para la escala:

La media de un tem tipo Likert es su ndice de dificultad. Se considera que el tem es demasiado difcil cuando todos los sujetos puntan en el extremo inferior, y se considera que es demasiado fcil cuando todos los sujetos puntan en el extremo superior. Estos tems deben ser eliminados, pues no permiten discriminar entre los sujetos y alteran la forma de la distribucin de las puntuaciones del test. En nuestro ejemplo, esto no sucede en ningn tem, ya que las medias corresponden a puntuaciones intermedias.

El output correspondiente a Item-total Statistics incluye los ndices de discriminacin de los tems, en la columna denominada Corrected Item-Total Correlation

110

Se considera que un tem no discrimina suficientemente cuando su ndice de discriminacin es menor de 0.2. Por otra parte, los tems con ndice de discriminacin superiores a 0.8 se podran considerar redundantes (Wilmut, 1975). Por este motivo, es aconsejable eliminar los tems con ndices de discriminacin por debajo de 0.2 o por encima de 0.8. En nuestro caso, esto no sucede en ningn tem.

En este ejemplo podramos considerar a las respuestas Likert como variables contnuas (aunque estrictamente hablando no lo son). Si lo hacemos as, podemos evaluar la hiptesis de que las medias de todos los tems son iguales (es decir, que todos los tems tienen la misma dificultad) mediante la prueba T cuadrado de Hotelling, que contrasta la hiptesis nula de que las medias de los tems no difieren significativamente.

Como vemos, el valor emprico de F es 200.7578 con 5 y 587 grados de libertad, y el valor terico es 1010.629. La probabilidad, bajo la hiptesis nula, de encontrar este valor emprico es muy pequea (Prob. = .0000). En principio, estos resultados nos llevan a pensar que los tems tienen medias diferentes. Sin embargo, como tenemos una muestra muy grande, aunque las diferencias en las medias sean muy pequeas, la prueba es tan potente que las detecta (por pequeas que sean estas diferencias sern significativas).

El siguiente output muestra el valor del coeficiente de fiabilidad Alfa para puntuaciones directas y para puntuaciones tpicas:

A partir del output Item-total Statistics mostrado anteriormente, podemos comprobar cmo afectara al coeficiente Alfa la eliminacin de cada uno de los items (columna Alfa if Item Deleted). De esta forma, se puede determinar qu tems se deben eliminar si se desea aumentar el coeficiente Alfa. En nuestro ejemplo, podemos observar que eliminando el tem 4 aumentara la fiabilidad (de 0.7279 a 0.7333). Por otra parte, este output nos permite averiguar cmo afectara la eliminacin de cada uno de los tems a la media y la varianza del test.

En conjunto, podemos considerar que este pequeo cuestionario tiene unas propiedades psicomtricas bastante aceptables. Una fiabilidad de .73 puede considerarse alta para un test de personalidad de tan slo 6 tems. Todos los ndices de discriminacin son altos y positivos (lo cual indica elevada consistencia interna de la escala), en tanto que los ndices de dificultad son diferentes entre ellos, pero no demasiado

111

extremos. En consecuencia las puntuaciones totales se distribuyen con una media bastante centrada en la mitad del rango de valores de la escala y sin efectos lmite en ninguna direccin (efecto suelo o efecto techo). Esto podemos evaluarlo con ms detalle si solicitamos al programa el histograma de las puntuaciones totales:

Como podemos observar en el grfico, a pesar de que la distribucin de las puntuaciones totales del test presenta un ligero sesgo negativo, en general podemos considerar que la distribucin es bastante simtrica. Por otra parte, ningn sujeto ha obtenido la puntuacin total mxima, ni la puntuacin total mnima posible en el test (como se puede apreciar en la tabla de frecuencias que se presenta a continuacin). Por lo tanto, podemos concluir que el nivel de dificultad global del test corresponde a los niveles en el rasgo que tienen los sujetos de esta muestra.

112

Link
www.spss.com Psicoenlaces AEMCO SEIDI

CARACTERSTICAS
Pgina oficial de SPSS Amplia guia de enlaces de Psicologia Asociacin espaola de ciencias del comportamiento Sociedad espaola para el estudio de las diferencias individuales 113

BIBLIOGRAFIA ESPECFICA SPSS

Camacho, J. (1998) Estadstica con SPSS para Windows. Madrid. RAMA. Norussis (2000) SPSS 10.0 guide to data analysis. London. Prentice Hall Renom, J. (1997) Tratamiento informtico de datos. Barcelona. Masson. Visauta , B. (1997) Anlisis estadsticos con SPSS para Windows. Madrid. McGraw-Hill.

114

You might also like