Análisis y Tratamiento de Datos en SPSS

1
ANLISIS Y TRATAMIENTO DE DATOS EN SPSS Autores Eduardo Escalante Gmez Alberto Caro Martn Colaborador Luis Barahona Carvajal
Autores Eduardo Escalante Gmez Alberto Caro Martn Colaborador Luis Barahona Carvajal ANLISIS Y TRATAMIENTO DE DATOS EN SPSS UNIVERSIDAD DE PLAYA ANCHA / VALPARASO
Ediciones Universidad de Playa Ancha de Ciencias de la Educacin. Casilla 34-V / Fax: 285041 Valparaso. Se termin de imprimir esta PRIMERA EDICIN en el mes de diciembre del ao 2002 Portada: Alejandro Torres Diagramacin: Osvaldo Moraga Impresin: Imprenta de la Universidad de Playa Ancha de Ciencias de la Educacin, Valparaso. IMPRESO EN CHILE / PRINTED IN CHILE
Sobre los autores Eduardo Escalante Gmez Profesor de Estado en Castellano, Universidad de Chile; Magister en Ciencias Sociales, Universidad de Gales (Gran Bretaa). Alberto Caro Martn Profesor de Estado en Matemtica y Estadstica, Universidad Tcnica del Estado; Licenciado en Bioestadstica, Universidad de Chile y Magister en Evaluacin, Universidad de Playa Ancha. Colaborador Luis Barahona Carvajal Licenciado en Estadstica, Universidad de Valparaso.
NDICE
Introduccin ................................................................................. Cap. I: Conceptos Bsicos para el Procesamiento y Anlisis de Datos Definiciones........................................................................ 9 El procesamiento de los datos ............................................ 16 Ejercicio ............................................................................. 27 Cap. II: El Proceso de Medicin y el Anlisis Estadstico La Medicin ....................................................................... Instrumentos de medicin. Escalas de actitudes ................ El anlisis de los datos ....................................................... Ejercicios ........................................................................... Cap. III: El Caso de Estudio La escala de autoestima ...................................................... 65 Validacin de la escala ....................................................... 74 Ejemplo de hiptesis .......................................................... 75 Cap. IV: Anlisis Descriptivo Univariante El anlisis grfico .............................................................. 77 El anlisis descriptivo ........................................................ 83 Ejercicio ............................................................................. 113 Cap. V: Comparacin de Dos o Ms Poblaciones Comparacin de dos poblaciones independientes ............. 115 Poblaciones relacionadas o dependientes .......................... 121 Comparacin de ms de dos poblaciones .......................... 123 Cap. VI: Anlisis Bivariado Asociacin y prueba de Chi-Cuadrado .............................. 133 Correlacin lineal ............................................................... 140 Regresin lineal ................................................................. 152 29 44 51 60 7
Cap. VII: Confiabilidad y Validez de una Escala Confiabilidad, significado y medicin ................................ 165 Validez, significado y medicin .......................................... 173 Anlisis factorial, caractersticas y tipos ............................. 174 Pasos en el desarrollo del Anlisis Factorial ...................... 176 Validez factorial de la escala de autoestima ........................ 181 Ejercicios ............................................................................ 193 Anexo 1: Notas sobre Inferencia ................................................. 197 Anexo 2: Esquema de algunas pruebas estadsticas ................. 205
INTRODUCCIN
Este libro se origina en la experiencia obtenida en la enseanza en cursos de posgrado. Los investigadores y analistas a menudo se encuentran ante grandes volmenes de informacin que deben procesar numricamente. Algunos realizan los procesos de clculos en planillas electrnicas como Excel mediante la activacin del mdulo estadstico disponible en la versin 5 (anlisis de datos), y tambin se emplean las tablas dinmicas. Pero cuando se trata de muestras relativamente grandes, los procedimientos se hacen ms complejos y se requiere una mayor velocidad de procesamiento y herramientas de anlisis ms sofisticadas. Por este motivo, en los cursos de posgrado siempre optamos por la eleccin de programas estadsticos ms especializados. ltimamente, hemos venido trabajando con el programa SPSS versin 10 para ambiente Windows. Este es un paquete estadstico de anlisis de datos con ms de 20 aos de aplicacin en la investigacin de las ciencias sociales y econmicas. Contiene programas capaces de realizar desde un simple anlisis descriptivo hasta diferentes tipos de anlisis multivariantes de datos, como pueden ser: anlisis factorial, anlisis discriminante, anlisis de regresin, cluster, anlisis de varianza, etc. Tambin permite analizar series temporales, obtener tablas de frecuencias, realizar grficos. Esto lo constituye en una excelente herramienta para el investigador. A travs del desarrollo de este libro, hemos querido ilustrar sobre el uso de algunas de las herramientas disponibles en el programa, pero por sobre todo clarificar su aplicacin en vista a los objetivos e hiptesis del investigador. Hemos dividido el trabajo en dos grandes tratamientos: el anlisis unidimensional y el anlisis
bidimensional, dejando para otro trabajo el anlisis multidimensional. Sin embargo, hemos incluido dos secciones de bastante importancia para el investigador: el anlisis de confiabilidad y el anlisis factorial de un instrumento. Nuestra intencin es ayudar al investigador en su toma de decisiones cuando debe enfrentar su plan de investigacin (planteamiento del problema, objetivos e hiptesis) y el plan estadstico asociado a l. Esto nos ha llevado a elegir un caso de estudio como eje transversal del libro en lo que se refiere a la ilustracin de procedimientos estadsticos, pero tambin hemos incluido algunos ejemplos especficos que permitan ilustrar un procedimiento numrico. Tambin hemos considerado conveniente incluir despus de algunos captulos, ejercicios y preguntas que permitan reflexionar sobre los temas que se van tratando en el libro. Tambin con el propsito anterior, se incluyen dos Apndices: Notas sobre Inferencia y Esquema de Pruebas Estadsticas. En el primero, se recuerdan algunos conceptos estadsticos sobre Inferencia; en el segundo, se resumen las caractersticas fundamentales de algunas de las pruebas que se presentan en el texto, en un lenguaje no tcnico.
Los autores
Diciembre 2.002
CAPTULO I
CONCEPTOS BSICOS PARA EL PROCESAMIENTO Y ANLISIS DE DATOS

Cualquier libro que aborde el tratamiento de datos derivados de la investigacin cientfica, se enfrenta con algo ms que la explicacin de un procedimiento numrico destinado a reducir informacin, y obtener as un conjunto ms reducido de ella, pero capaz de explicar la caracterstica de un grupo de sujetos investigados. En este captulo se presentan algunas definiciones sobre conceptos bsicos relativos a la investigacin y la Estadstica, as como la descripcin de algunos aspectos relevantes del procesamiento de los datos.
DEFINICIONES Investigacin Es una indagacin disciplinada. La investigacin disciplinada que difiere de la opinin y creencia, se conduce y maneja de manera tal que el argumento puede examinarse con mucho cuidado. El informe no depende de la elocuencia del escritor o de alguna justificacin superficial. (Cronbach y Supples, 1969:15, como lo citaron McMillan y Schumacher1 , 1989:9). Los principios pueden variar de una a otra disciplina.
McMillan, J. y Schumacher, S. (1989). Research in Education: A Conceptual Introduction (segunda edicin). Glenview, Il. Scott, Foresman y Co.
10
Estudio Es la bsqueda de conocimiento, empleando mtodos reconocidos para la recopilacin, el anlisis e interpretacin de observaciones. Como tal, Kerlinger (1973)2 sostiene que el estudio es una de las numerosas formas de conocimiento. Otras formas de ste incluyen la revelacin, la tradicin, la autoridad, la lgica, la intuicin y el pacto social.
Estudio Cientfico / Investigacin Cientfica Es una investigacin crtica, sistemtica, controlada, emprica sobre preposiciones hipotticas acerca de las supuestas relaciones entre fenmenos naturales. (Kerlinger, 1973:11). De acuerdo con Borg y Gall (1983)3 los objetivos de la ciencia y de la investigacin cientfica son: 1) describir, 2) predecir, 3) controlar, y 4) explicar la naturaleza y las relaciones entre fenmenos. El estudio cientfico puede considerarse como una creacin inductiva o deductiva, y ambas son consideradas como parte de la tradicin filosfica positivista (Borg y Gall, 1983:26).
Estudio Social / Investigacin Social Es la investigacin sistemtica, emprica y analtica de un fenmeno social (es decir, incluye individuos y grupos, hechos y procesos). En los mbitos educativos, los fenmenos de inters comparten creencias comunes, prcticas, artefactos, conocimientos tradicionales y comportamientos (Goetz y
Kerlinger, F. (1973). Foundations of Behavioral Research (segunda edicin), Nueva York: Holt, Reinhart y Winston, Inc. Borg, W. (1987). Applying Educational Research: A Practical Guide for Teachers (segunda edicin), Nueva York: Longman.Borg. W. y Gall, M. (1983). Educational Research: An Introduction (cuarta edicin), Nueva York: Longman Inc.
11
LeCompte, 1984:2-3, citado en McMillan y Schumacher, 1989:386). Hay una serie de mtodos de investigacin utilizados por varias ciencias sociales. Por ejemplo, el estudio social/ investigacin social puede tomar un modelo inductivo o deductivo (p.e., etnografas y estudios de caso sujeto-nico, respectivamente), e involucrar la utilizacin de estrategias interactivas y/o no interactivas. Como resultado del estudio/investigacin social, se puede tomar un modelo positivista (es decir, como ciencia social), u otro modelo al cual recurren numerosas reas afines etiquetadas como naturales, artsticas, ilustrativas y subjetivas (Borg y Gall, 1983:27; McMillan y Schumacher, 1989:385).
Estudio Educativo / Investigacin Educativa Es el rea particular del estudio disciplinado enfocado sobre el estudio de un fenmeno educativo. La educacin es un campo de interrogantes donde los fenmenos, hechos, gente, procesos e instituciones constituyen los elementos en vivo para hacer preguntas de diversa ndole. Las perspectivas y los mtodos (han sido) tomados para apuntalar las preguntas que provienen de la educacin y que son inherentes a la educacin (McMillan y Schumacher, 1989:9).
Estadstica Cuerpo de conceptos y mtodos usados para recolectar e interpretar datos referentes a un rea particular de investigacin y extraer conclusiones en situaciones en que la incertidumbre y la variacin estn presentes. Tambin se puede entender como la ciencia que transforma datos en informacin.
Clasificacin de la Estadstica Estadstica Descriptiva: Se encarga de recoger y resumir las
12
caractersticas de una poblacin o muestra, deduciendo de esta descripcin conclusiones sobre su estructura, adems de las relaciones existentes entre otros colectivos distintos con los cuales se compara. Estadstica Inferencial: Basndose en los resultados del anlisis de la muestra de la poblacin, induce o estima las leyes generales de comportamiento de la poblacin.
Componentes de la Investigacin Estadstica Poblacin: Es un conjunto de elementos al que est referida la investigacin y de la que se extraen los datos. Individuo o unidad estadstica: Cada uno de los elementos que componen la poblacin. Es un ente observable que no tiene por qu ser una persona, puede ser algo abstracto. Muestra: Subconjunto de elementos de la poblacin, a partir del cual se realiza el estudio estadstico en caso de que no sea posible recopilar toda la informacin de la poblacin. Parmetro: Caracterstica de una poblacin, resumida para su estudio. Se considera como un valor verdadero de la caracterstica estudiada. Variable o serie estadstica: Es una representacin numrica de los valores, o una funcin que asigna un valor. Variables discretas: Pueden tomar un nmero finito o infinito de valores. Variables continuas: Pueden tomar un nmero infinito de valores.
13
Ejemplo:
Poblacin: Alumnos de la Universidad de Playa Ancha Individuo: Alumno Muestra: Subconjunto de los alumnos de la Universidad de Playa Ancha Variables: Carrera: (Cualitativa). Valores que puede tomar esta variable: - Ingeniera. - Matemticas. - Fsica. - Pedagoga.... Ao de nacimiento (Cuantitativa discreto) N de Hermanos (Cuantitativa discreto) Lugar de nacimiento (Cualitativa) Altura (Cuantitativa continua)
14
Tabla 1.1. Tipos de Diseos
Panormica de las caractersticas clave de diseos cuantitativos no experimentales Tipo y caractersticas claves Estudios Descriptivos a) Se usan para investigar la incidencia, frecuencia y/o la distribucin de caractersticas en una o ms poblaciones identificadas y discretas; b) se emplean mtodos establecidos para seleccionar una o ms muestras de cada poblacin; c) se utilizan tcnicas estandarizadas para recopilar de cada individuo de cada muestra (p.e. instrumentos lpiz y papel, entrevistas, observaciones; y d) se aplican estadsticas descriptivas y/o comparativas para analizar los datos para pautas postuladas de diferencia y/o relacin. Experimental a) Se emplea para investigar pautas y secuencias de crecimiento y/o cambio en una poblacin como funcin del tiempo; b) se aplican mtodos establecidos para seleccionar una o ms muestras de poblacin; c) se usan tcnicas estadarizadas para recopilar datos de cada individuo de cada muestra (p.e. instrumentos lpiz-y-papel, entrevistas, observaciones); y d) se traducen datos a forma numrica, cuando sea necesario; y se aplican procedimientos de estadsticas descriptivas y/o comparativas para analizar los datos para pautas postuladas de diferencia y/o relacin.
15
Correlacional a) Se usa para investigar la naturaleza y la fuerza de las relaciones entre dos o ms variables; b) se emplea mtodos establecidos para seleccionar una o ms muestras de individuos; c) se aplican tcnicas estandarizadas para recopilar datos de cada miembro de cada muestra (p.e. instrumento, lpiz y papel, entrevistas, protocolos, observaciones); d) se emplean procedimientos para la traduccin de datos de forma numrica cuando sea necesario; y e) se aplican estadsticas correctivas, adecuadas para el tipo de datos recopilado, para analizarlos y generar un coeficiente de correlacin: es decir un ndice numrico de la relacin entre cada par de variables investigadas. Predictivo a) Se emplean para investigar los alcances de una o ms variables de prediccin tiles en la eleccin de un criterio variable especfico (es decir un comportamiento comn, serie de comportamientos o calidad de grupo); o para construir teoras acerca de las posibles determinantes de un criterio variable; b) se usan mtodos establecidos para una o ms muestras de individuos; c) se aplican tcnicas estandarizadas para recopilar datos de cada miembro de cada muestra sobre prediccin y criterios variables (por ejemplo, instrumentos, lpiz y papel, protocolo de entrevistas; d) se aplican procedimientos de traduccin de datos de forma numrica cuando sea necesario; y e) se ejecutan procedimientos de correlacin, correlacin parcial y/o estadstica de correlacin mltiple (p.e. regresin mltiple) que aporte un ndice numrico de la capacidad de las variables de prediccin a considerar por o para explicar la variabilidad en el criterio.
16
EL PROCESAMIENTO DE LOS DATOS Resulta conveniente hacer una sntesis del proceso de investigacin que se inicia con el planteamiento de un problema de investigacin y que implica responder a interrogantes situadas en la frontera de los conocimientos existentes. Se recorre luego un largo camino donde es preciso atender, simultneamente, a dos niveles diferentes: el terico y el emprico. El primero de ellos se resume en la construccin del llamado marco terico que, convenientemente llevado a la prctica u bien operacionalizado, indicar en definitiva qu datos es preciso obtener para satisfacer las interrogantes iniciales. En cuanto al nivel emprico, la aproximacin a la realidad quedar concretada en un cierto tipo de diseo, implementado a travs de las tcnicas de recoleccin que permitan obtener los datos requeridos. El instrumento de recoleccin de datos sintetizar ambos planos y ser la herramienta concreta que proporcione la informacin que se necesita. Se abre, a partir de ese momento, la etapa propiamente dicha de la recoleccin de datos, que puede tener mayor o menor complejidad y duracin. En ella se aplican los instrumentos a los objetos de estudio, se completan las lecturas, y se procede a realizar efectivamente los experimentos, encuestas o estudios que sea menester. Finalizadas las tareas de recoleccin, el investigador quedar en posesin de un cierto nmero de datos, a partir de los cuales ser posible sacar las conclusiones generales que apunten a esclarecer el problema formulado en los inicios del trabajo. Pero esa masa de datos, por s sola, no dir en principio nada, no permitir alcanzar ninguna conclusin si, previamente, no se ejerce sobre ella una serie de actividades tendientes a organizarla, a poner orden en todo ese multiforme conjunto. Estas acciones son las que integran el llamado tratamiento o procesamiento de los datos.
17
Informacin Cuantitativa y Cualitativa Lo primero que suele hacerse con el conjunto de los datos obtenidos es dividirlos de acuerdo a un criterio bien elemental, separando de un lado la informacin que es de tipo numrica de la informacin que se expresa verbalmente o mediante palabras. Los datos numricos quedarn como tales, cualquiera sea su naturaleza, y se procesarn luego, para exponerlos en forma clara y fcilmente asimilable. El objetivo final ser construir con ellos cuadros estadsticos, promedios generales y grficos ilustrativos, de tal modo que se sinteticen sus valores y se pueda extraer, a partir de su anlisis, enunciados tericos de alcance ms general. Los datos que se presentan de forma verbal podrn sufrir dos destinos diferentes: se convertirn en datos numricos o quedarn como informacin no cuantificada, cualitativa. As, si se ha realizado una serie de entrevistas en profundidad, de tipo no estructurado, pueden cuantificarse algunos de los datos obtenidos, el nmero de entrevistados por sexo y edad, la respuesta a alguna pregunta especfica, en tanto que otras informaciones se mantendrn en su forma verbal, como paradigmas o ejemplos de las opiniones de la muestra frente a ciertos problemas de inters. El criterio por adoptar depender de circunstancias concretas: de los objetivos del trabajo, de la posibilidad de cuantificar cada variable, del tamao del universo o muestra considerados y de varios otros criterios. En todo caso, se debe tener presente que, siempre que tenga sentido, es preferible cuantificar en lo posible los datos obtenidos. No existe, como pretenden algunos metodlogos, ninguna oposicin entre datos cuantitativos y datos cualitativos: lo que existe es un diferente grado de precisin y de complejidad en cada una de las variables que se miden, de modo tal, que siempre es posible abstraer de ellas algunos aspectos cuantitativos en tanto que otros, por su complejidad, tendrn que permanecer como cualitativos. Una vez adoptado un criterio frente a cada categora o
18
subconjunto de datos se podr abordar ya, con mayor claridad los objetivos del investigador, y las tareas bsicas del procesamiento. En primer lugar, ser preciso hacer una revisin detallada de todos los datos obtenidos, atendiendo en especial a su coherencia. Si se trata de cuestionarios o de pautas de observacin, de registros de tests, o de cualquier otro instrumento de recoleccin, habr que examinar cada uno de ellos para analizarlos internamente, buscando sus posibles incongruencias, omisiones o errores, y enmendndolos si cabe hacerlo. Es decir, se revisar sistemticamente toda la informacin disponible, juzgando su calidad y el grado de confianza que merece, para determinar qu parte puede incluirse en el informe de investigacin, cual debe corregirse o modificarse en algo (acudiendo, llegado el caso, a una nueva recoleccin de datos) y cual, por sus graves deficiencias, deber ser excluidas sin ms. Por cada tipo de datos se proceder entonces como sigue: Los datos numricos se procesarn, agrupndolos en intervalos y se tabularn. Luego se construirn con ellos cuadros estadsticos, calculndose adems las medidas de tendencia central, de dispersin o de correlacin que resulten necesarias. Los datos verbales que se desee presentar como numricos sufrirn una primera operacin que se denomina codificacin. De all en adelante se trabajarn al igual que los otros datos numricos, mediante la tabulacin y el procesamiento en cuadros estadsticos. La Codificacin de la Informacin Verbal La codificacin es un procedimiento que tiene por objeto agrupar numricamente los datos que se expresan en forma verbal para poder luego operar con ellos como si se tratara, simplemente, de datos cuantitativos. Corresponde al Anlisis de Contenido. Para lograrlo, se habr de partir de un cmulo de informaciones que tengan una mnima homogeneidad, condicin necesaria para poder
19
integrarlas. Pueden tratarse de cientos de respuestas a una misma pregunta o de una variedad de posibles situaciones observadas mediante un mismo tem de una pauta de observacin: en ambos casos, existir una determinada variedad de declaraciones o de observaciones que presenten las respuestas o los comportamientos de los objetos de estudio. El primer paso a dar frente a todos estos datos, es realizar una revisin atenta de un subgrupo reducido de ellos con el objeto de encontrar una tipologa de respuestas posibles, en concordancia, por otra parte, con las formulaciones tericas que guan la investigacin y con los criterios adoptados en la etapa de operacionalizacin. A cada categora de respuestas se les asigna un cdigo particular, un nmero o letra diferente, que servir para agrupar tras de s a todas las respuestas u observaciones que sean idnticas o que, al menos, aparezcan como equivalentes. Luego se procede a sealar a cada uno de los cuestionarios u hojas de observacin con el cdigo que le corresponde a cada respuesta. El procesamiento de los datos codificados se facilita grandemente cuando se realiza mediante computadoras; en este libro se emplea el programa SPSS versin 10 para ambiente Windows (Otras versiones tienen caractersticas muy semejantes, por lo que tambin son aplicables en ellas). Este programa tiene implementados un elevado nmero de anlisis estadsticos, la mayora de ellos bajo el epgrafe Anlisis del men principal. Al igual que en el apartado relativo a los grficos, un conocimiento profundo de los datos y una idea clara de las preguntas que se desean responder facilitarn el correcto uso y el mximo aprovechamiento de los anlisis estadsticos disponibles. Supongamos que hemos preguntado, por medio de entrevistas estructuradas hechas a una muestra, la opinin que tienen las personas respecto a las Naciones Unidas y su posicin ante los conflictos del Medio Oriente. Si la pregunta ha sido abierta, cada sujeto habr expuesto sus opiniones en algunas breves frases. La codificacin permitir agrupar sus respuestas, para poder
20
evaluar cules son las opiniones ms salientes al respecto y posteriormente permitir crear sistema categoriales. Por supuesto que podran elaborarse otros cdigos, categorizando ms o menos detalladamente las respuestas. Casi siempre que se encuentran ideas similares pero que se expresan a travs de palabras diferentes, se procede a unificarlas en un mismo cdigo. Excepcionalmente, cuando no slo interesa la idea bsica sino adems los aspectos lingsticos con que sta se manifiesta, es necesario buscar un cdigo para cada respuesta tomada textualmente. Los casos difciles de ubicar, o de respuestas que pudieran situarse en ms de una categora, slo pueden ser resueltos, consultando con el marco terico planteado inicialmente. Cuando aparecen respuestas ambiguas, extraas o simplemente anmalas, es conveniente agruparlas en el cdigo otras respuestas, para no abrir demasiadas categoras a una sola pregunta pues eso puede dificultar el anlisis. Se debe evitar que esta categora quede con una frecuencia alta.
El Libro de Cdigos Una de las herramientas bsicas para una procesamiento adecuado de los datos es disponer de lo que se denomina libro de cdigos que es una matriz que incluye todas las definiciones asociadas a los datos que se recopilarn o se recopilaron. Algunos analistas emplean el libro de cdigos para la caracterizacin de las variables (variable, categoras, subcategoras, cdigos). Esta es una versin que apunta ms que nada a identificar la manera como se recogen los datos. Otros analistas incluyen el plan de anlisis estadstico asociado a las variables en estudio. Finalmente, algunos optamos por la elaboracin de una matriz que incluya las fases del proceso investigativo y el tratamiento de los datos. De este modo, se obtiene una visin completa del proceso investigativo y se puede controlar de manera ms consistente el tratamiento de la informacin a procesar.
21
Independientemente del formato que se elija para elaborar el libro de cdigos, el anlisis de datos se inicia con su preparacin, que mnimamente debera incluir una lista completa de todas las variables, identificando el nombre de la variable, los valores que se han asignado, y una completa descripcin de cmo ha sido operacionalizada la variable. En el libro de cdigos, se puede identificar el tipo y escala de medicin de cada variable. Finalmente, en funcin del proyecto de investigacin, se identifica el plan de anlisis 1: estadstica descriptiva y el plan de anlisis 2: estadstica inferencial. El libro de cdigos es fundamental para interpretar los datos y no perderse con los nmeros. Supongamos que se tiene un cuestionario que en una de sus partes incluye los siguientes aspectos: Cuestionario Items 1. 2. Controlo las circunstancias de mi vida Estoy satisfecho con mi vida 3. Sexo: 1. Hombre 2. Mujer 4. Rango Acadmico 1. Instructor 2. Asistente 3. Asociado 4. Titular
1 (TD) 2(D) 3 (I) 4 (A) 5(TA)
Un libro de cdigos bsicos incluira lo siguiente: Casos = 30 (N=30) Variables = 5
22
Nombre de las Variables: Control SatisVid Sexo RanAcad Descripcin de las Variables: Control: Control personal SatisVid: Satisfaccin con la vida de uno Sexo: Sexo del Encuestado RanAcad: Rango Acadmico del encuestado Nombre de la Variables/Atributos de la Variables (Cdigos) Control 1 = Totalmente en Desacuerdo 2 = En Desacuerdo 3 = Indeciso 4 = Acuerdo 5 = Totalmente de Acuerdo SatisVid 1 = Totalmente en Desacuerdo 2 = En Desacuerdo 3 = Indeciso 4 = Acuerdo 5 = Totalmente de Acuerdo Sexo 1 = Hombre 2 = Mujer RanAcad 1 = Instructor 2 = Asistente 3 = Asociado 4 = Titular El investigador ha recogido los siguientes datos a partir del cuestionario, el correspondiente libro de cdigos y los ha vaciado en la siguiente matriz:
23
Tabla 1.1. Datos de Prueba del Cuestionario (N=30) Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 SatisVid 4 5 3 3 4 5 5 3 2 3 3 4 3 4 5 4 2 3 2 4 4 5 4 3 2 4 5 4 3 5 Control 3 4 3 2 3 4 5 3 2 3 3 5 3 5 4 3 1 2 3 4 3 5 4 2 2 3 4 3 2 4 Sexo 2 1 1 1 2 2 2 1 2 2 1 1 1 2 1 2 1 2 2 1 1 1 2 1 1 2 2 2 1 1 RenAcad 4 2 1 1 2 3 3 1 1 1 2 3 2 3 3 4 2 1 1 3 2 3 3 2 1 1 4 2 1 2
24
La elaboracin del libro de cdigos le permitir procesar los datos y definir las operaciones estadsticas que desea realizar. Por ejemplo, producir una tabla de frecuencia para la variable Sexo, un grfico de barras para la variable RenAcad, solicitar de SPSS la estadstica descriptiva para las variables Control y SatisVid, aunque previamente solicitar el histograma para ambas variables, en orden a examinar su distribucin. Adems, se pregunta si existe relacin entre el rango acadmico y el grado de satisfaccin con la vida de uno.
La Tabulacin Una vez definidos los cdigos, y ya marcados los cuestionarios o pautas con los mismos, se est en condiciones de proceder a la subsiguiente etapa, la de tabulacin. La palabra tabulacin deriva etimolgicamente del latn tabula, y significa hacer tablas, listados de datos que los muestren agrupados y contabilizados. Para ello es preciso contar cada una de las respuestas que aparecen, distribuyndolas de acuerdo a las categoras o cdigos previamente definidos. Cada una de las preguntas de un cuestionario o de una hoja de observacin tendr que ser tabulada independientemente, por lo que es preciso hacer previamente un plan de tabulacin que prepare adecuadamente la tarea por realizar. Esta etapa del trabajo puede desarrollarse manualmente, mediante el procedimiento que se esbozar a continuacin, cuando se trate de un nmero relativamente pequeo de datos; cuando esto no sea as, resultar mejor acudir al procesamiento electrnico de datos, para lo cual existen ya adecuados paquetes de computacin que facilitan grandemente esta tarea. Para ello, es necesario preparar los instrumentos de recoleccin con casilleros especiales de registro para que las mquinas los procesen. Para realizar una tabulacin manual debern confeccionarse
25
planillas u hojas de tabulacin donde figuren los cdigos sobre la base de los cuales se habrn de distribuir los datos. Tambin deben dejarse espacios para sealar, mediante signos convencionales, las unidades que se van contabilizando. En la columna de cdigos, se anotarn cada uno de los que se hayan establecido en el proceso de codificacin de la variable, si sta no se presentaba inicialmente en forma cuantificada. Si no es as, irn directamente los intervalos establecidos para la distribucin. En el espacio reservado a las respuestas se colocar, por cada cuestionario que se tabule, un signo en la categora que corresponda segn la respuesta que en l aparezca. Una vez tabulados todos los cuestionarios, se contarn las respuestas anotadas en cada casillero, expresndose en nmeros en la columna del total. El resultado de la tabulacin ser este cmputo ordenado de las respuestas. Sin embargo, las tablas as obtenidas no sern aptas todava para presentarse al pblico, pues debern sufrir algunas transformaciones de forma que permitan su mejor comprensin. Las tablas que resultan de la tabulacin deben considerarse, por lo tanto, como un material de trabajo, como un producto preliminar todava no completamente terminado.
Los Cuadros Estadsticos Luego de terminar con la tabulacin de toda la informacin contenida en los instrumentos de recoleccin de datos, es preciso presentar los resultados de modo tal que stos se hagan fcilmente inteligibles an para los lectores no especializados. Para lograrlo, es preciso presentarlos en la forma ms clara posible, haciendo explcito cualquier elemento que pueda dar origen a confusiones o dobles interpretaciones y ordenando toda la informacin de la manera ms rigurosa. Este criterio se manifiesta, en primer lugar, en el correcto titulado de cada cuadro. Ello significa que el ttulo debe contener todas las caractersticas de la informacin que se presenta, en forma concreta, especfica y no difusa. Debera
26
responder a las preguntas Qu?, Cmo?, Cundo? y Dnde? Cuando en un cuadro aparecen dos variables, deber mencionarse primero aquella que suponemos dependiente y luego la independiente. As quedara, v.g.: Opinin de los entrevistados frente al control de la natalidad, segn su edad. Si existen ms variables, se respetar la misma regla, anotando para el caso mencionado: Opinin de los entrevistados frente al control de la natalidad, segn sexo y edad. Despus de encontrar un ttulo adecuado para el cuadro, la tarea siguiente es convertir en porcentajes las cifras reales (llamadas absolutas) que hemos obtenido de la tabulacin. Ello permite, por una parte, tener una mejor idea de lo que puede representar una parte frente al todo. Es muy claro lo que significa que el 23% de la gente prefiere X y no Y. En cambio, no se percibe tan claramente el valor relativo de 171 respuestas favorables a X sobre el total de 743 casos. De la misma manera, la prctica de calcular porcentajes permite, de una rpida ojeada, percibir diferencias y similitudes, apreciar variaciones y tendencias y hacer comparaciones con otras investigaciones. Por ello su uso es constante prcticamente en todos los cuadros estadsticos. Puede ocurrir que, en un cierto cuadro, aparezcan diferentes bases, algunas de las cuales puede llegar a ser menores que las cifras fijadas como mnimas. Las cifras presentadas deben tender a redondearse en lo posible, pues se introduce cierta confusin al mencionar que hay 32,87% de una cierta categora y 67,13% de la contraria. Mucho ms simple es hablar de 32,8 % y 67,1 por ciento. Por supuesto que, cuando la muestra se mayor, ms aceptable ser incluir decimales en las cifras presentadas. En cambio, si las bases son pequeas hay que evitar dar la impresin de una exactitud que la informacin, en realidad, no posee.
27
Ejercicio Elabore un libro de cdigos para un proyecto de estudio sobre la Adaptacin a la Modernidad, que se realizar en Profesores , y que considera 3 variables de clasificacin: sexo, edad, y origen (urbano-rural) y una escala de actitudes de 15 tems con 5 alternativas de respuestas (muy en desacuerdo, en desacuerdo, no opina, de acuerdo y muy de acuerdo) sobre el proceso de adaptacin a la modernidad.
28
29
CAPTULO II
EL PROCESO DE MEDICIN Y EL ANLISIS ESTADSTICO
LA MEDICIN Campbell (1928)4 concibe la medicin como la asignacin de nmeros para representar propiedades de sistemas materiales no numricos, en virtud de leyes que gobiernan esas propiedades. Este autor asigna a la medicin el papel de establecer el isomorfismo entre la idea de cantidad y las magnitudes de las propiedades a ser medidas: Para que la medida sea posible, es necesario que haya una correspondencia unvoca (isomorfismo) entre los nmeros y los objetos, de manera que se puedan realizar las mismas operaciones con stos que con los nmeros. Campbell reduce la medicin al uso de escalas cuantitativas de intervalo o de razn, a la vez que considera que su sistema no es extensible a la medicin de atributos psicolgicos. El argumento utilizado para ello fue el de que tales atributos, al ser intrnsecos o no observables, son incapaces de ser medidos. Para este autor, las propiedades de los nmeros que son ms importantes para la medicin son tres:
An Account of the Principles of Measurement and Calculation, Londres, Longman.
30
1) Identidad - a es igual a b o diferente de b (no hay tercera alternativa) - Si a=b, entonces b=a (simetra o reflexibilidad) - Si a=b y b=c, entonces a=c (transitividad) 2) Orden jerrquico - Si a>b entonces b<a (asimetra) - Si a>b y b>c entonces a>c (transitividad) 3) Aditividad - Si a=p y b>0 entonces a+b>p (aditividad) - a+b=b+a (conmutatividad) - Si a=p y b=q entonces a+b=p+q (objetos idnticos pueden sustiturse) - (a+b)+c=a+(b+c) (asociatividad) Stevens (1951)5 , por su parte, se refiere a la medicin como la asignacin de nmeros a objetos o eventos segn ciertas reglas, mientras que Torgerson (1958)6 entiende por tal, la asignacin de nmeros a sistemas que representan la propiedad objeto de medicin. Para Stevens, la escala de medida determina enteramente qu tipo de anlisis estadsticos son los apropiados. Supples y Zinnes (1963)7 consideran que el proceso de medicin implica la conversin de la informacin acerca de un sistema emprico en un sistema numrico. Posteriormente, Lord y
5
Mathematichs, measurement and psychophysics, en S.S. Stevens (ed.) Handbook of Experimental Psychology, Nueva York, Willey, p. 1-49 Theory and Method of Scaling, New York, Wiley. Basic measurement theory, en R.D. Luce, R. R. Bush y E. Galanter (eds.), Handbook of Mathematical Psychology, vol. I, pg.s 1-76, Nueva York, Wiley.
6 7
31
Novick (1968)8 la definen como un procedimiento para asignar nmeros a propiedades especficas de unidades experimentales de forma que caracteriza y preserva las relaciones especficas en el dominio conductual9. Entre las definiciones ms recientes, se destacan las de Coombs, Dawes y Tversky (1981)6 segn la cual, la medicin es el proceso por medio del cual se representan propiedades por medio de nmeros.
El Procedimiento de Medicin Los tericos coinciden en que la medida comienza con un procedimiento para identificar los elementos del mundo real con los elementos o constructos del sistema lgico, por medio de una definicin semntica precisa; una vez hecho esto, puede procederse a la medicin, para lo cual deben seguirse los siguientes pasos: 1) identificar el objeto o sujeto a medir; 2) identificar la propiedad o conducta que se quiere medir en el objeto o sujeto y el instrumento; 3) aplicar una regla de asignacin numrica por la que se asigna un nmero a la propiedad de la unidad experimental (objeto o sujeto) que se est midiendo. Entonces, en sentido amplio, la medicin es un procedimiento por el cual asignamos una determinada categora o valor a una variable, y para un determinado sujeto, muestra o poblacin. Cuando a Juan (sujeto) le asignamos el valor 1,70 metros para la variable estatura, hemos hecho una medicin. Tambin hacemos una medicin cuando a Beatriz le asignamos la categora soltera para la variable estado civil, lo cual muestra que estamos tomando la idea de medicin en sentido amplio, ya que no slo abarca mediciones cuantitativas (1,70 metros) sino tambin cualitativas (soltera). Esta ampliacin del concepto se hace
8 9
Statistical theories of Mental Test Scores, Reading, Mass., Addison-Wiley. Introducin a la psicologa matemtica, Madrid, Alianza
32
especialmente importante en las ciencias sociales, porque en este mbito se manejan mayor cantidad de variables cualitativas que en ciencias como la fsica o la qumica, donde prevalecen las variables cuantitativas y de donde hemos sacado la creencia de que slo se puede medir con reglas, balanzas y decibelmetros. Las mediciones individuales recaen sobre sujetos, mientras que las mediciones estadsticas adems recaen sobre muestras o poblaciones. As por ejemplo decimos que medimos una muestra A cuando le asignamos la media aritmtica 120 respecto de la variable inteligencia. Obviamente, las medidas estadsticas se derivan de las individuales, pues, no se puede obtener un promedio si desconocemos los valores individuales de los sujetos de la muestra. Para llevar a cabo una medicin, necesitamos obligatoriamente tres cosas: a) un instrumento de medicin, b) un sistema de medicin (o escala), ya que hay diferentes grados de precisin en la medicin, y c) un procedimiento para hacer la medicin. Un instrumento de medicin es un artificio usado para medir. Una balanza es un instrumento para medir peso, un test mide personalidad, inteligencia, aptitud vocacional, etc., un cuestionario mide conocimientos, etc., pero sea cual fuere el instrumento utilizado, para que sea eficaz debe reunir dos requisitos: confiabilidad y validez. Si la misma balanza hoy informa que peso 70 kg, maana 80 kg y pasado 63 kg, es un instrumento poco confiable. Un test puede tambin ser poco confiable si, respecto del mismo sujeto, arroja resultados dispares en diferentes momentos de administracin. Confiabilidad significa, entonces, estabilidad o constancia de los resultados. Esta constancia no es nunca perfecta. El hecho de que puedan existir ligeras variaciones debidas al azar no compromete la confiabilidad del instrumento de medida, siempre que esas variaciones sean poco significativas. Tambin debemos tener en
33
cuenta los cambios propios del sujeto cuya propiedad medimos. Si el sujeto aumenta de peso o mejora su rendimiento intelectual por un efecto madurativo habr una variabilidad en los resultados, lo cual no implica necesariamente que el instrumento no sea confiable. En la confiabilidad, como aqu la entendemos, la constancia o la variabilidad en los resultados depende de la habilidad del instrumento mismo, no del sujeto. Por ejemplo, si el instrumento tiene una consigna de aplicacin ambigua, podr ser aplicado de manera distinta antes y despus, y los resultados podrn ser diferentes. Un test o cualquier otro instrumento puede ser confiable pero no vlido: es vlido cuando mide lo que efectivamente pretende medir, lo cual puede parecer una perogrullada pero que no es tal si nos damos cuenta de los casos de instrumentos que queran medir una propiedad y medan otra. Si con un determinado test pretendemos medir memoria pero slo medimos ansiedad, no es vlido. La validez de un test puede establecerse prospectivamente: nos percatamos que un test de aptitud para la ingeniera es vlido cuando, andando el tiempo, constatamos que quienes obtuvieron altos puntajes hoy son buenos ingenieros, y quienes sacaron bajos puntajes no lo son. Siempre estamos haciendo mediciones. Por ejemplo, cuando decimos que tal o cual individuo es catlico (medicin nominal), o que tal sujeto tiene ms mrito que otro (medicin ordinal), o cuando decimos que tal otro sujeto tiene 30 aos (medicin de razn). Pero la importancia de la medicin no reside simplemente en el hecho de que siempre estamos haciendo mediciones, sino en que el acto de medir nos permite conocer cmo varan los fenmenos de la realidad tanto en cantidad como en calidad, lo cual a su vez, es muy importante porque es gracias a que existen unas variaciones que dependen causalmente de otras, que podemos organizar nuestro conocimiento del mundo.
34
Las Escalas Derivadas Las escalas de representacin derivadas de los valores originales sirven para mejorar la interpretacin y la comprensin de los datos, pero adems posibilitan la comparacin de resultados de variables distintas expresadas en unidades diferentes. Es el caso de los percentiles y las puntuaciones tpicas . Percentiles: Corresponden al punto de la distribucin por encima y por debajo del cual se sita un determinado tanto por ciento del grupo. Los 99 puntos percentiles dividen la distribucin en 100 partes y cada una de ellas contiene el 1% de los casos. Puntajes estandarizados (z): Emplean la estandarizacin de la variable, la cual es una manera de transformar el puntaje bruto original de modo que cada puntaje se especifica en trminos de magnitud y de direccin de su desviacin de la media, medida en unidades de desviacin estndar. La estandarizacin se usa para hacer los datos ms interpretables. Por ejemplo, estandarizar las variables permite hacer comparaciones entre individuos que tomaron una prueba en diferentes tiempos, y fueron medidos usando diferentes instrumentos. Para calcular el puntaje Z, esto es para estandarizar un valor, se sustrae el puntaje bruto de la media de la distribucin y luego se divide este puntaje por la desviacin estndar. La estandarizacin produce una transformacin de los puntajes originales de modo que la nueva distribucin tendr una media que es igual a cero y una desviacin estndar que es uno..
A partir del puntaje Z se obtienen escalas derivadas (T, CEEB) las que permiten una mejor presentacin de los puntajes Z. Notas T: la media equivale a 50 y la desviacin estndar a 10.
35
Notas CEEB: la media equivale a 500 y la desviacin estndar equivalente a 100.
Escalas de Medicin y su Clasificacin La introduccin del concepto de escalas de medida en psicologa y educacin se remonta al trabajo desarrollado por Stevens, demostrando que en las ciencias del comportamiento son posibles diversos niveles de medicin, mediante la elaboracin de diversas axiomatologas. Este modelo de medicin constituye y ha constituido una herramienta formal poderosa en la catalogacin de las pruebas estadsticas. Y si atiende a esta clasificacin prevista por Stevens, los datos psicolgicos y educacionales que pueden ser medidos en una escala de intervalos no son en principio abundantes. Es decir, la mayora de las variables psicolgicas y educacionales estaran dentro del modelo de escala ordinal (por ejemplo, los tests de inteligencia o los cuestionarios de personalidad). La medicin supone que se puede establecer una relacin homomrfica entre un sistema relacional emprico y otro formal. Esto permite introducir la distincin entre niveles de medicin, o escalas de medicin. Es interesante la apreciacin de Kerlinger quien indica que a pesar de que el nivel de medicin de la mayora de las variables psicolgicas es slo ordinal, el tratamiento estadstico que se hace con ellas es asimilable al de los otros niveles pues funcionan bien simplemente. Esto est de acuerdo con la idea que los niveles de medicin no condicionan el procesamiento estadstico pues ambos tienen supuestos diferentes. Se han ofrecido muchas clasificaciones de los tipos de escala ,teniendo en cuenta las propiedades de los sistemas numricos: Campbell (1928): escalas en ordinales y de razn. Stevens (1951): nominales, ordinales, de intervalo y de razn
36
Tanto las escalas de medicin como las de clasificacin, implican la formulacin y evaluacin de reglas. Estas reglas son usadas para medir atributos de los objetos, por lo general, pero no de manera exclusiva, sino tambin de personas. Es importante recordar que se pueden medir slo atributos de los objetos, no a los objetos mismos. Entre las caractersticas de las buenas reglas estn la receptibilidad (confiabilidad) y de modo ms importante, la validez en los sentidos que se describan. La estandarizacin es un objetivo importante de la medicin debido a que facilita la objetividad, cuantificacin, comunicacin, economa y generalizacin cientfica. Un aspecto tradicionalmente importante, pero controvertido, de las escalas de medicin, es que stas, por lo general, caen en uno de cuatro niveles (han sido sugeridos otros): nominal, ordinal, de intervalos y de razn. Estos cuatro niveles representan de manera progresiva reglas mejor articuladas, por ejemplo, las escalas nominales tan slo definen si dos (2) objetos son equivalentes o no, entre s, con respecto a un atributo crtico, pero las escalas ordinales determinan si un objeto que no es equivalente a otro es mayor o menor que el otro; son posibles resultados ms consistentes con niveles superiores de medicin. El concepto de invarianza es bsico para estos niveles de medicin, el cual tiene que ver con lo que permanece igual cuando se realizan cambios permisibles en la escala. Las escalas de niveles superiores estn ms restringidas en cuanto a la manera en que pueden ser transformadas y pueden an conservar invarianzas claves. La idea de medicin es intrnsecamente comparativa. Medir algo, en el caso ms sencillo, es determinar cuantas veces una cierta unidad o patrn de medida, cabe en el objeto a medir. Para medir la longitud de un objeto fsico, nosotros desplazamos una regla o cinta graduada sobre el mismo, observando cuantas unidades (en este caso centmetros o metros) abarca el objeto en cuestin. Es decir que comparamos el objeto con nuestro patrn
37
de medicin para determinar cuntas unidades y fracciones del mismo incluye. Una escala puede concebirse como un continuo de valores ordenados correlativamente que admite un punto inicial y otro final. Si evaluamos el rendimiento acadmico de estudiantes, podemos asignar el valor cero al mnimo rendimiento imaginable y un valor de 7, 10, 20 100 puntos, segn convenga, al mayor rendimiento posible. Con estos dos valores tendramos ya marcados los lmites de nuestra escala: para concluir de confeccionarla, ser necesario asignar a los posibles rendimientos intermedios puntajes tambin intermedios. Con ello obtendremos una escala capaz de medir la variable rendimiento acadmico a travs de los indicadores concretos de los trabajos presentados por los estudiantes, de sus exmenes, pruebas y otras formas de evaluacin posibles. Existen diferentes tipos de escalas que se distinguen de acuerdo a la rigurosidad con que han sido construidas y al propio comportamiento de las variables que miden. Se acostumbra a clasificarlas en cuatro tipos generales que son los siguientes: escalas nominales, ordinales, de intervalos iguales y de cocientes o razones.
Tipos de variable Cualitativa Cuantitativa
Clasificacin Discreta Discreta Continua
Escala de Medicin Nominal Ordinal Intervalo Razn Intervalo Razn
Tabla No.2.1. Tipos de variables y escalas de medicin
38
Tabla No. 2.2: Escalas y operaciones empricas Escalas Nominal Ordinal Intervalo Operaciones empricas bsicas Relacin de igualdades Relacin de mayor o menor Determinacin de la igualdad de la diferencia de intervalos Existencia de un cero real Ejemplo Sexo La clase social El rendimiento acadmico medido en el rango de 0 a 7 El tiempo de reaccin
Razn
Escalas nominales son aqullas en que slo se establece una equivalencia entre la escala y los diferentes puntos o valores que asume la variable. Son una simple lista de las diferentes posiciones que pueda adoptar la variable, pero sin que en ella se defina ningn tipo de orden o de relacin. Si en una investigacin educativa al estudiar la ficha escolar, se quiere determinar la estructura de la familia de los estudiantes, tendremos una variable que se designar como condicin familiar. Los distintos valores que esa variable reconoce sern, concretamente: monoparental, biparental, etc. Entre estos valores no cabe obviamente ninguna jerarqua, no se puede trazar ningn ordenamiento. Sin embargo, a la enunciacin explcita de todas estas posibilidades la consideramos como una escala, pues de algn modo es til para medir el comportamiento de la variable, indicndonos en qu posicin se halla en cada caso. Las escalas ordinales distinguen los diferentes valores de la variable, jerarquizndolos simplemente de acuerdo a un rango. Establecen que existe una gradacin entre uno y otro valor de la escala, de tal modo que cualquiera de ellos es mayor que el
39
precedente y menor que el que le sigue a continuacin. Sin embargo, la distancia entre un valor y otro queda indeterminada. En otras palabras, tales escalas nos esclarecen solamente el rango que las distintas posiciones guardan entre s. Un ejemplo de escala ordinal es el que suele usarse para medir la variable grado de escolaridad: podemos decir que una persona que ha tenido 2 aos de instruccin escolar ha recibido ms instruccin que quien slo tiene un ao y menos que quien posee tres. Sin embargo, no puede afirmarse vlidamente que la diferencia entre quien posee 2 aos de instruccin y quien ha recibido un ao es igual a la diferencia entre quienes han recibido 16 y 17 aos de educacin formal. Por tanto, como no podemos determinar la equivalencia entre las distancias que separan un valor de otro, debemos concluir que la escala pertenece a la categora ordinal. Las escalas de intervalos iguales, adems de poseer la equivalencia de categoras y el ordenamiento interno entre ellas, como en el caso de las ordinales, tienen la caracterstica de que la distancia entre sus intervalos est claramente determinada y que stos son iguales entre s. Un ejemplo tpico de las escalas de intervalos iguales est dado por las escalas termomtricas. Entre 23 y 24 grados centgrados, por ejemplo, existe la misma diferencia que hay entre 45 y 46 grados. Muchas otras escalas, como las que se utilizan en los test psicolgicos y de rendimiento, pertenecen a este tipo. La limitacin que poseen es que no definen un cero absoluto, un valor lmite que exprese realmente la ausencia completa de la cualidad medida. Por ello no se pueden establecer equivalencias matemticas como las de proporcionalidad: no puede afirmarse que 24C es el doble de temperatura que 12C, porque el cero de la escala es un valor arbitrario y no se corresponde con la ausencia absoluta de la variable que se mide. Por ltimo, estn las escalas de cocientes o razones. En ellas se conservan todas las propiedades de los casos anteriores, pero adems se aade la existencia de un valor cero real, con lo que se hacen posibles ciertas operaciones matemticas, tales como la
40
obtencin de proporciones y cocientes. Esto quiere decir que un valor de 20 en una escala de este tipo es el doble de un valor de 10, o de las dos terceras partes de un valor de 30. Son escalas de cocientes las que miden el peso, los ingresos, etc. Difcilmente, las variables que intervienen en las ciencias sociales son medidas con escalas de razones, pues son contados los casos en que dichas variables pueden ser definidas con la exactitud y precisin necesarias. La economa y la demografa son, entre estas disciplinas, las que ms utilizan escalas de razones.
En SPSS v.10 se pueden definir las variables en Vista de Variables columna Medida. El programa admite las definiciones Nominal, Ordinal (que corresponden a las discretas) y de Escala (las que corresponden a continuas o discretas con ms de 24 valores distintos):
Figura 2.1. Hoja de ingreso de las variables y sus respectivas especificaciones
41
Para que las observaciones de la realidad sean tiles, tienen que llevarse a cabo en condiciones de rigor metodolgico: el objeto de medicin ha de ser observable empricamente (directa o indirectamente), debe presentar cierta variabilidad, y para efectuar las mediciones, es necesario disponer de instrumentos de medidas precisos. Este ltimo aspecto de las condiciones de bondad de un instrumento de medida acapara una amplia zona de estudio de la psicometra clsica.
Escalas de Medicin y Anlisis Estadstico Lord (1953) 10 , Anderson (1961)11 o Prytulak (1975) 12 sostienen que la medicin y el tratamiento estadstico son dominios independientes, y como consecuencia de ello, las consideraciones de la medicin no influyen en las tcnicas estadsticas. Al respecto, existe controversia entre los estadsticos, los experimentalistas y psicmetras respecto a la aplicacin de los conceptos de escalas de medicin y su asociacin con las pruebas estadsticas. As nos podemos encontrar con que mientras unos investigadores, fuertemente impregnados por las ideas de Stevens, han preconizado que los datos debern ser analizados con tcnicas estadsticas que contemplen el tipo de medida empleada, otros investigadores consideran que los niveles de medida no juegan un papel esencial en la inferencia estadstica, ya que ambos campos constituyen dominio independientes (en la lnea de Lord). De esta forma, la escala de medida es determinada por el anlisis, asumiendo que la restriccin de los estadsticos, atendiendo a la escala de medida utilizada es una idea errnea (y adems es ignorada en la mayora
10
On the statistical treatment of football numbers, The American Psychologist, 8 Scales and statitics: parametric and nonparametric, Psychological Bulletin, 58. Critique of S.S. StevensTheory of Measuremnt Scale Classficiation, Perceptual and Motor Skills, 41.
11
12
42
de los anlisis estadsticos reales). Compartimos la postura de Muiz cuando seala que aunque Stevens al desarrollar la idea de las escalas prest un servicio a la teora de la medicin, su nocin condujo a un malentendido que ha sido difcil de eliminar (2001:302)13 . Cuando se inicia el procesamiento de los datos se observa primero los tipos de variables que existen, tratando de identificar aqullas que pueden influir en el resto de la variables como por ejemplo sexo, edad, estado civil, tipo de colegio, etc.. Fuentes de Variacin en las Mediciones Cuando tenemos un conjunto de mediciones, las variaciones se deben frecuentemente a dos motivos: 1. A la variacin del fenmeno en s. El fenmeno varia en relacin a los dems fenmenos y en relacin a si mismo: entre e intra. Al error producido en la medicin del fenmeno: el error es debido al observador, al instrumento utilizado o a la situacin donde se efecta la medicin.
2.
Tipos de Errores de Medicin El tipo de error cometido puede ser: 1.- Aleatorio: es el producido por el sistema de realizacin de la medicin. Su valor no afecta al valor real ni al promedio. 2.- Sistemtico: es el error de redondeo que se lleva a cabo en cada una de las mediciones que se efectan. Es el llamado sesgo.
13
Teora Clsica de los tests, Pirmide, Madrid
43
Los dos tipos de errores pueden darse conjuntamente. Es muy importante conocer la cantidad de error que se est cometiendo. Fuentes de Error en la Medicin El empleo de instrumentos de medicin produce dos tipos de errores: el error de medicin y el error de muestreo. El primero se asocia a las diferencias que se producen al medir a un individuo en diversas ocasiones; el segundo, al emplear muestras de individuos para estimar caractersticas de la poblacin. Un problema que se presenta al estudiar los resultados de las mediciones y el efecto de los errores, es decidir qu es un resultado habitual y qu no. Una forma de resolverlo es tomar como referencia la distribucin Normal en la cual aproximadamente el 95% de los valores se encuentran en el intervalo definido por la media menos dos desviaciones estndar y la media ms dos desviaciones estndar. Los valores que caen en ese intervalo se consideran habituales mientras que los que caen fuera de ese intervalos se consideran no habituales. Cuando se asume que las variables tienen un distribucin normal, se supone que lo habitual o no sigue el patrn indicado, llegndose a considerar como normales los resultados incluidos en el intervalo indicado y como no normales los que caen fuera. El supuesto de normalidad es necesario en muchos procedimientos estadsticos. El problema de aplicar este criterio es que determina que la normalidad es uniforme, se asume que todas las variables son normales, pero no siempre es un buen modelo, ni siquiera como modelo estadstico; es ms aplicable para algunas variables y por ello se deber probar este supuesto cuando corresponda. Existen formas de medicin ms robustas que sta; cuando hablamos de rango de normalidad no se habla de la curva normal sino que se est determinando la proporcin de personas que estn dentro del percentil 97,5 (normalidad) y 2,5 (anormalidad). Los percentiles no dependen de la forma concreta de la
44
distribucin; son independientes del hecho de que la curva sea de distribucin normal o no. Este criterio tambin es estadstico y se emplea cuando no se tienen otros criterios. INSTRUMENTOS DE MEDICIN: ESCALAS DE ACTITUDES Escala Tipo Likert En la recoleccin de los datos, es fundamental que se defina el tipo de instrumento de medicin que se emplear para recogerlos. Existen muchos tipos de instrumentos: escalas, pruebas, cuestionarios, pautas de observacin. Entre las escalas, unas de las ms usadas en la investigacin para medir actitudes es la escala tipo Likert, pero existen otras escalas como el Diferencial Semntico, la de Thurstone y la de Guttman,. En esta seccin nos referiremos a las escalas tipo Likert que son las que se aplicaron en nuestro caso de estudio.
Las Actitudes Likert seala que las actitudes pueden medirse a travs de manifestaciones verbales y asume la posibilidad de estudiar dimensiones de actitud a partir de un conjunto de enunciados que operen como reactivos para los sujetos. stos pueden situarse en la variable de actitud desde el polo ms favorable al ms desfavorable, de tal manera que la variacin de las respuestas ser debida a diferencias individuales de los sujetos. Allport (1935:81)14 concibe las actitudes como, un estado mental y nervioso de disposicin, adquirido a travs de la experiencia, que ejerce una influencia directiva o dinmica sobre las respuestas del individuo. Esta definicin pone el acento en que las actitudes son disposiciones de comportamiento, por tanto,
14
Psicologa de la personalidad. Paidos, Buenos Aires
45
no conductas actuales y, adems, predisposiciones habituales que tienen un fundamento fisiolgico en conexiones nerviosas determinadas y que se adquieren por la experiencia. La actitud representa una relacin entre un objeto, en esto reside su importancia, y para completar el estudio de su naturaleza, a continuacin, nos ocuparemos de analizar los elementos o componentes que las configuran.
Escalas Sumativas Este tipo de escala de puntuaciones sumadas est formada por un conjunto de sentencias o proposiciones actitudinales de idntico valor, a cada una de las cuales los sujetos deben responder, matizando el grado de acuerdo o desacuerdo que personalmente tienen con ellas. Al sumar todas las puntuaciones dadas de todas las preguntas de la escala, se obtiene la puntuacin de la actitud del sujeto concreto o de todos los sujetos frente a un determinado tpico. Estas escalas deben tener las propiedades de un instrumento psicomtrico que se caracteriza porque intenta representar el constructo por medio de un puntaje numrico derivado de la aplicacin de un conjunto de reactivos o estmulos a los sujetos de inters. En su forma ms usual, el instrumento est compuesto por una serie de tems o preguntas, cada uno de los cuales es calificado o respondido por el individuo de acuerdo con una cierta escala de medicin. En muchas ocasiones, las opciones de respuesta se pueden categorizar en dos tipos, correcto o incorrecto, como en el caso de las pruebas de conocimientos y habilidades intelectuales. En otras ocasiones interesa medir ms bien sentimientos o dimensiones afectivas como motivacin o actitud. En ese contexto generalmente se usan categoras ordinales para las opciones de respuesta (una de las ms comunes es la escala Likert de cinco puntos). El puntaje total en el instrumento se genera, sumando las puntuaciones individuales para cada item y
46
es el indicador que representa el nivel que toma el constructo de inters en cada uno de los sujetos estudiados. Determinar el grado de calidad mtrica de un instrumento es de mucha importancia. Al respecto, se puede pensar en las consecuencias derivadas de los resultados de las pruebas estandarizadas de conocimientos que realizan en muchos pases los estudiantes en educacin bsica y media; las pruebas de aptitud acadmica para ingreso a universidades y los instrumentos psicomtricos para medir factores de personalidad que se aplican frecuentemente en la seleccin de personal para puestos de trabajo.
Algunos Tipos de Escala Likert Algunos de las categoras que se emplean en las escala tipo Likert son: Nunca / Rara vez/ A veces/ A menudo / Siempre Totalmente de Acuerdo/ De acuerdo/ Cerca de 50-50/ En desacuerdo /Totalmente en desacuerdo Aprueba decididamente/ Aprueba/Necesita ms informacin/ Desaprueba/ Desaprueba decididamente A continuacin, se presentan algunos ejemplos de escalas tipo Likert ms recomendadas. Escala de 4 puntos Esta escala recibe puntajes altos por discriminacin y confiabilidad, ejemplo, Por favor, indique cun bien la Institucin atiende sus requerimientos
Excede 4
Los cumple 3
Casi los cumple 2
No los aborda 1
47
Escala de 5 puntos Tambin recibe altos puntajes en trminos de discriminacin y confiabilidad, ejemplo, Califique el desempeo de su organizacin Significan- Sobre temente por sobre 5 4 Satisface condiciones 3 Por debajo Significantemente por debajo 2 1
Ejemplo de Escala Tipo Likert La siguiente escala tipo Likert es parte de una batera de escalas para medir el impacto de las nuevas tecnologas como parte del proyecto para medir las actitudes y los docentes hacia las nuevas tecnologas. En nota a pi de pgina se indica el sitio electrnico donde se puede encontrar ms informacin sobre este proyecto15 . Lea cada uno de los enunciados y encierre en un crculo el nmero correspondiente a la opcin que refleja mejor su opinin al respecto.
Totalmente de Acuerdo=TA De Acuerdo=A Indeciso=I En Desacuerdo=D Totalmente en Desacuerdo =TD
15
Morales, Cesareo, et. al., Actitudes de los estudiantes y docentes hacia la computadora y los medios para el aprendizaje,
http://investigacion.ilce.edu.mx/dice/proyectos/actitudes/marcoactitudes.htm
48
Factor 1 Uso de Correo Electrnico No. Reactivo

1. El correo electrnico es un medio efectivo para la divulgacin de informacin para el grupo tareas Prefiero el correo electrnico a las tradicionales clases informativas como medio de divulgacin Ms cursos debieron haber utilizado el correo electrnico para proporcionar informacin de la clase El correo electrnico permite un mayor contacto con el asesor
TD
1
D
2
I
3
A
4
TA
5
2.
3.
4.
5.
El uso del correo electrnico 1 propicia una mayor interaccin entre los estudiantes de cada curso El uso del correo electrnico propicia una mayor interaccin entre estudiante e instructor El uso del correo electrnico aumenta la motivacin para un curso El uso del correo electrnico hace ms interesante un curso El uso del correo electrnico hace que los estudiantes se sientan ms involucrados 1
6.
7.
8. 9.
1 1
2 2
3 3
4 4
5 5
10. El uso del correo electrnico ayuda a los estudiantes a aprender ms 11. El uso del correo electrnico ayuda a proporcionar una mejor experiencia de aprendizaje
49
El Diferencial Semntico El Diferencial Semntico es otro instrumento que se emplea para medir actitudes. Se basa en adjetivos polares, que caracterizan un objeto de actitud estudiado. El sujeto debe manifestar su apreciacin marcando, en el espacio entre los extremos, el lugar en que l se ubica. Hay diferentes formas de sealar las alternativas entre los polos. Una de ellas se presenta en el ejemplo siguiente: A continuacin, se presenta una relacin de adjetivos con los que se puede calificar el curso en el que ha participado. Se solicita que marque con una cruz (X) en el espacio que mejor exprese su opinin global del curso: Util Malo Fcil Se disfruta Fragmentado Satisfactorio Confuso Sin valor Muy importante Estrecho Consistente Optimista Falso Relevante Dbil Profundo Pasivo Reducido Informativo Prctico Aburrido Rpido Formal Imaginativo No estimula Intil Bueno Difcil Detestable Coherente Insatisfactorio Claro Vlido Innecesario Amplio Inconsistente Pesimista Cierto Irrelevante Fuerte Superficial Activo Prolongado Desinformativo Terico Interesante Lento Informal Convencional Estimulante
50
Anlisis de Instrumentos: Teora de Respuesta al tem Existe en la actualidad un enfoque ms poderoso que la Teora Clsica para el anlisis de la calidad tcnica de un instrumento de medicin psicomtrico. Este se llama Teora de Respuesta a los Itemes o TRI (Item Response Theory, IRT, en ingls). En cuanto a los requisitos que se deben cumplir para ajustar un modelo de TRI, es necesario mencionar que debe contarse con los datos derivados de la aplicacin del instrumento en muestras relativamente grandes de sujetos (como mnimo 200 personas). En general, las respuestas a los temes deben ser dicotomizadas, es decir, clasificadas usando los cdigos 0 1. Esta codificacin dicotmica resulta obvia cuando se estn analizando los resultados de pruebas para medir conocimientos o habilidades intelectuales, pues la mayora de ellas utilizan temes de escogencia nica (multiple choice en ingls). Pero es tambin posible dicotomizar las respuestas a temes que se contestan en una escala ordinal, tipo Likert, por ejemplo, asignando el 1 a las categoras que representen mayor intensidad o nivel en el constructo de inters, y el 0 a las que representen niveles ms bajos. As, por ejemplo, en una prueba psicomtrica para medir motivacin, se asignar un 1 para las respuestas que indiquen mayores niveles de motivacin y 0 para las que indiquen niveles ms bajos. Una de las principales nociones en Teora de Respuesta a los Itemes es la Curva Caracterstica del Item o CCI. La CCI es el ajuste de una funcin matemtica al comportamiento del item, partiendo de las respuestas suministradas por los examinados en el instrumento. Cada punto en la CCI representa la probabilidad de que un sujeto con un nivel especfico en el constructo de inters responda correctamente al item. La escala que se mide en el eje horizontal, generalmente se ajusta para que, al igual que la distribucin normal estndar, tenga un promedio de 0 y una desviacin estndar igual a 1. Por tanto, la gran mayora de sus valores estarn incluidos en el intervalo [-3, 3].
51
EL ANLISIS DE LOS DATOS Caractersticas del Anlisis de Datos La informacin procesada tiene un valor inestimable: de ella depender, por cierto, que puedan o no resolverse las preguntas iniciales formuladas por el investigador. Pero, no obstante, esa informacin no nos habla por s misma, no es capaz por s sola de darnos las respuestas deseadas hasta tanto no se efecte sobre ella un trabajo de anlisis e interpretacin. Desde un punto de vista lgico, analizar significa descomponer un todo en su partes constitutivas para su ms concienzudo examen. La actividad opuesta y complementaria a sta es la sntesis, que consiste en explorar las relaciones entre las partes estudiadas y proceder a reconstruir la totalidad inicial. Lo dicho tiene aplicacin directa en la metodologa de la investigacin: si el objeto es siempre un conjunto coherente, por ms que tambin pueda decirse que es parte de un todo mayor con sus propias leyes y su propia estructura interior, los datos, en tal sentido, no son ms que sus elementos integrantes, las partes aisladas que slo cobran sentido por la sntesis que pueda integrarlos. El procesamiento implica ya un agrupamiento de los mismos en unidades coherentes, pero estas unidades necesitarn de un estudio minucioso de sus significados y de sus relaciones para que luego puedan ser sintetizadas en una globalidad mayor. Estas tareas constituyen, por lo tanto, las ltimas y necesarias etapas del trabajo. Resultan fundamentales, por cuanto sin ellas sera imposible encontrar un sentido a toda la labor previamente realizada. El anlisis de los datos no es una tarea que se improvisa, como si recin se comenzara a pensar en l luego de procesar todos los datos. Por el contrario, el anlisis surge ms del marco terico trazado que de los datos concretos obtenidos y todo investigador que domine su tema y trabaje con rigurosidad, deber tener una idea precisa de cules sern los lineamientos principales del anlisis que habr de efectuar antes de comenzar a recolectar datos. Se podr definir as, con suficiente antelacin, qu datos
52
sern capaces de rechazar o afirmar una hiptesis, qu resultados indicarn una u otra conclusin. Esta actividad, llamada por algunos autores anlisis anticipado es fundamental para evitar sorpresas lamentables, como por ejemplo la de encontrar que no tenemos suficientes datos al final del procesamiento, o de que los que poseemos no nos sirven en realidad para mucho. Para desarrollar la tarea analtica, hay que tomar cada uno de los datos o conjuntos homogneos de datos obtenidos, e interrogarnos acerca de su significado, explorndolos y examinndolos mediante todos los mtodos conocidos, en un trabajo que para obtener los mejores frutos, debe ser paciente y minucioso. De acuerdo al tipo de datos que se estn analizando, se proceder de un modo u otro, segn tcnicas y procedimientos que examinaremos en este libro. El Anlisis Cuantitativo Este tipo de operacin se efecta, naturalmente, con toda la informacin numrica resultante de la investigacin. Esta, luego del procesamiento que ya se le habr hecho, se nos presentar como un conjunto de cuadros, tablas y medidas, a las cuales se les han calculado sus porcentajes y presentado convenientemente. Para cada cuadro que se haya obtenido, ser preciso evaluar el comportamiento de las variables que aparezcan en l, precisando la forma en que actan individualmente. Luego se observarn las relaciones que pueden percibirse entre una y otra variable, si el cuadro es de doble entrada, tratando de precisar la forma en que una afecta a la otra. Si se trata de un cuadro de tres variables, ser conveniente examinar primero los valores totales, pues en ellos se ve el funcionamiento global de cada variable operando de modo independiente, para luego pasar a confrontar, por pares, las variables, tratando de detectar las influencias que existan entre ellas. Siguiendo con el proceso analtico, diremos que es preciso calcular, cuando se trata de datos obtenidos a partir de muestras, los niveles de significacin de las diferencias que aparecen entre
53
porcentajes o entre promedios. Pueden aparecer diferencias entre porcentajes que son inferiores a los errores muestrales, por lo que antes de afirmar alguna conclusin, es preciso conocer los lmites dentro de los cuales estas diferencias son estadsticamente significativas. Tambin ser necesario, segn los casos, calcular determinados coeficientes de correlacin, estudiar las variaciones sistemticas de la informacin registrada, buscar la estacionalidad y las tendencias que manifiestan las variables y muchas otras operaciones semejantes que permiten sacar conclusiones apropiadas sobre la base de los datos obtenidos. Cuando ya se hayan hecho todas estas actividades, el anlisis de las cifras, en un sentido estricto, habr concluido. Antes de pasar a la labor de sntesis, es necesario registrar por escrito todos los hallazgos del anlisis, para cada cuadro examinado. A partir de ellos es que se podrn extraer conclusiones ms generales, por lo que no conviene pasarlos por alto o confiarlos a la memoria. Cabe advertir, para terminar, que no conviene reproducir en palabras todo lo que aparece en un cuadro determinado: esa es ms una tarea de transcripcin verbal que de anlisis propiamente dicho y su resultado hace innecesariamente fatigosa la lectura del informe de investigacin. A manera de ejemplo, si se quiere presentar de un modo simple de presentar una distribucin de valores es mostrar cada valor como un punto en una escala. Si hay un gran nmero de valores, puede ser mejor clasificarlos primero y entonces presentar la frecuencia de cada clase como un histograma.
Figura 2.2. Histograma
54
Figura 2.2. Histograma Si nuestros estudios tienen que ver con personas, ocurrir con bastante frecuencia que nuestras mediciones estarn distribuidas de acuerdo con la distribucin normal. A veces, se quiere poner el nfasis no en la distribucin absoluta, sino en la proporcional o de porcentaje. Un diagrama apropiado para esto es el grfico de sectores. Por otra parte, el investigador puede estar interesado en examinar la distribuciones desde el punto de vista de las medidas de tendencia central y de las variaciones. El investigador puede elegir habitualmente aquella que muestra mejor el valor tpico de la variable. La media aritmtica es el ms popular, pero puede ofrecer un cuadro equivocado por ejemplo en datos que incluyen un valor que difiere en gran medida de los otros. A continuacin se presentan los estadsticos descriptivos de la variable total autoestima (puntaje total de la escala con la que se midi la autoestima de los sujetos) de nuestro caso de estudio. Cuadro 2.1. Estadsticos Descriptivos
Estadsticos descriptivos Asim etra Curtosis Estadstico Error tpico Estadstico Error tpico Estadstico Error tpico total autoestim a 436 -.876 .117 .061 .233 N vlido (segn lista) 436 N
55
Al examinar los resultados, se informan dos valores relacionados con la asimetra y dos con la curtosis. Para interpretar la significacin de la asimetra, se divide la simetra por el error estndar de la simetra (-0,876/0,117= -7,487). Esto crea un puntaje estandarizado. Es importante calcular este valor como el grado de simetra y es el criterio que se usa para seleccionar la prueba estadstica apropiada. Si el valor calculado es menos que + 2, la distribucin puede ser interpretada como no sesgada. Esto se puede confirmar, examinando el histograma. La curtosis si es mayor que cero, hay un apuntamiento mayor que la curva normal; si es negativa es ms achatada que la normal; si es igual a cero hay el mismo apuntamiento que la normal. SE pueden inerpretar los resultados entregados por SPSS para la curtosis, en forma anloga a los de asimetra.
1 20 1 00
80
60
40
20
D e sv. tp. = 5.39 M edia = 33.5 N = 436.00

1 7. 5 2 0. 0 2 2. 5 2 5. 0 2 7. 5 3 0. 0 3 2. 5 3 5. 0 3 7. 5 4 0. 0
tot a l a uto e sti m a
Figura 2.4 Curva sesgada
A sim . P o sitiv a
A sim . N e ga tiv a
Me
Me
Figura 2.5 Asimetra positiva y negativa
56
La distribucin de la variable que nos interesa comparar tambin es importante a la hora de establecer la prueba estadstica que nos permita evaluar la hiptesis nula de igualdad, de forma que si la distribucin es normal y cumple algunas otras condiciones, utilizaremos los denominados test paramtricos y si no cumple dichos criterios, tenemos la opcin de usar los llamados test no paramtricos o de distribucin libre, que se basan en los rangos, u otras caractersticas de la distribucin de la variable. Las pruebas no paramtricas son ms exigentes al rechazar la hiptesis nula y por tanto tienen menos posibilidades de acertar cuando no la rechazan (ms posibilidades de cometer un error tipo beta). Por otro lado, la potencia aumenta con el tamao de la muestra; de esta forma, para conseguir la misma potencia con una prueba no paramtrica, bastar con aumentar el tamao de la muestra en una cantidad determinada. As, la potencia de una prueba no paramtrica suele calcularse en referencia a su homloga paramtrica. Por ejemplo, la U de Mann-Whitney tiene una potencia relativa del 95% con respecto a la prueba paramtrica t de Student (significa que con una muestra de 100 sujetos, se consigue la misma potencia con la U que con 95 sujetos en la prueba t). Una manera de corregir los resultados es eliminar los valores extremos; esta opcin es justificable cuando hay uno o dos valores. Otra opcin es reemplazar los valores extremos con puntajes ms apropiados.
57
Ejemplo
2 D e sv. tp . = 2 .7 0 M e d ia = 5 .5 0 1 .0 2 .0 3 .0 4 .0 5 .0 6 .0 7 .0 8 .0 9 .0 1 0 .0 11 .0 1 2 .0 1 3 .0 1 4 .0 1 5 .0 N = 28 . 00
Pu n taje O rig in a l
Se obtuvieron los puntajes (1 a 10) de la aplicacin de un test de conocimientos de 28 estudiantes; se detect un valor extremo y se consider eliminarlo ya que corresponda a un error en la determinacin del puntaje.
Se observa en el histograma un valor extremo que podra provenir de un clculo errneo del puntaje total o un error de digitacin. Una vez eliminado el valor extremo, se produce un corrimiento de la media de las observaciones y una disminucin en su variabilidad.
D esv. tp. = 1.98 M ed ia = 5.1 N = 27.00
La eliminacin de valores extremos no siempre es adecuada; en muchos casos, el Pu ntaje corre gido investigador necesitar de anlisis ms exhaustivos de los valores extremos para determinar las causas de stos y el mtodo de accin a seguir para su anlisis.
1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0
58
El Anlisis Cualitativo Se refiere al que procedemos a hacer con la informacin de tipo verbal que se ha recogido mediante fichas de uno u otro tipo. Una vez clasificadas stas, es preciso tomar cada uno de los grupos que hemos as formado para proceder a analizarlos. El anlisis se efecta cotejando los datos que se refieren a un mismo aspecto y tratando de evaluar la fiabilidad de cada informacin. Si los datos, al ser comparados, no arrojan ninguna discrepancia seria, y si cubren todos los aspectos previamente requeridos, habr que tratar de expresar lo que de ellos se infiere, redactando una pequea nota donde se sinteticen los hallazgos. Si, en cambio, las fichas aportan ideas o datos divergentes, ser preciso primeramente determinar, mediante la revisin del material, si se ha cometido algn error en la recoleccin. Si esto no es as, ser necesario ver si la discrepancia se origina en un problema de opiniones o posiciones contrapuestas o si, por el contrario, obedece a alguna manera diferente de categorizar los datos o a errores de las propias fuentes con que estamos trabajando. En todo caso, ser conveniente evaluar el grado de confianza que merece cada fuente, teniendo en cuanta su seriedad, sus antecedentes y referencias y toda otra informacin que pueda resultar de valor al respecto. Ya adoptada una posicin frente a las discrepancias encontradas, ser el momento de pasar a registrar los hallazgos, nuestras opiniones personales y conclusiones parciales, con lo cual estaremos en condiciones de pasar al siguiente paso, el de la sntesis.
La Sntesis Con la sntesis e interpretacin final de todos los datos ya analizados, puede decirse que concluye la investigacin, aunque teniendo en cuenta que la misma, considerada como intento de obtencin de conocimientos, es siempre una tarea inacabada, que debe continuar por fuerza en otras investigaciones concretas.
59
Sintetizar es recomponer lo que el anlisis ha separado, integrar todas las conclusiones y anlisis parciales en un conjunto coherente que cobra sentido pleno, precisamente, al integrarse como un todo nico. La sntesis es, pues, la conclusin final, el resultado aparentemente simple pero que engloba dentro de s a todo el cmulo de apreciaciones que se han venido haciendo a lo largo del trabajo. Las conclusiones finales slo resultan pertinentes para responder al problema de investigacin planteado cuando, en la recoleccin, procesamiento y anlisis de los datos, se han seguido los lineamientos que surgen del marco terico. Para alcanzar este resultado, se deben tomar en consideracin todas las informaciones analizadas, utilizando para ello las notas ya elaboradas, donde se habrn registrado los hallazgos parciales que hemos hecho. En el caso de cuadros estadsticos, se proceder a comparar los hallazgos de cada cuadro con los otros que tienen relacin con el mismo. As se ir avanzando hacia conclusiones cada vez ms generales, menos parciales. Se podrn confeccionar cuadros-resumen, que sinteticen la informacin ms importante que se halla dispersa en otros, para poder presentar un panorama ms claro a nuestros lectores. Se proceder, slo entonces, a extraer las conclusiones finales, que reflejen el comportamiento global de las variables de inters. En funcin de ellas, redactaremos nuestra sntesis, lo que conviene hacer primero escuetamente, anotando slo lo esencial. Esta primera sntesis debe ser ordenada y precisa, para lo cual es conveniente numerar nuestras conclusiones correlativamente, teniendo presente el planteamiento inicial del trabajo. Para el caso de los datos secundarios, se ha de proceder como si se tratara de componer o montar el trabajo general a partir de los elementos parciales de que disponemos. Es una labor eminentemente constructiva, que ha de hacerse parcialmente, para cada punto o captulo, viendo qu se puede afirmar en cada caso, de qu elementos de apoyo disponemos y cules son las conclusiones del caso.
60
Ejercicios Datos, variables y escalas de medicin 1. En los siguientes ejemplos, seleccione primeramente la opcin que representa el tipo de dato empleado y luego la escala de medicin ms apropiada para los datos de cada ejemplo: Tipos de datos a. categrico b. numrico discreto c. numrico continuo Escalas de medicin a. nominal b. ordinal c. intervalar d. de razn 1. 2. 3. 4. 5. 6. 7. 8. 9. La edad (en aos) de 100 estudiantes Las respuestas de 80 estudiantes egresados de Enseanza Media que se les pregunt si rindieron la P.A.A. El puntaje obtenido por un grupo de estudiantes en una Prueba de Razonamiento Matemtico El CI de un grupo de 30 sujetos El nivel de satisfaccin con un trabajo (medido en escala Likert) de 300 empleados El sexo de 45 sujetos El peso de 50 damas de un curso de educacin fsica El Nivel de satisfaccin de los estudiantes de sociologa con el programa estadstico utilizado Notas obtenidas por un curso de 30 estudiante en la asignatura de de estadstica
61
2. La Universidad desea determinar cul de dos libros de metodologa de la investigacin se usar para la formacin de pregrado en el rea de las ciencias sociales. Para llegar a una decisin se ha decidido seleccionar 80 estudiantes y asignarlos a dos grupos diferentes 40 a cada una. Cada grupo utilizar un libro diferente. La informacin que se recoger de cada estudiante ser: sexo, edad (expresada en aos), ndice de rendimiento acadmico (expresado con decimales), libro utilizado en clase y puntuacin obtenida en la prueba final del curso (0-100, expresada en decimales). Basndose de esta situacin, hay que seleccionar la alternativa correcta en los ejercicios siguientes: 1. Qu dos variables son imprescindibles para poder realizar el estudio? a. sexo y edad b. ndice de rendimiento acadmico y sexo c. ndice de rendimiento acadmico y puntuacin en la prueba final d. puntuacin en la prueba final y libro utilizado en la clase 2. Qu variable es discreta? a. sexo b. ndice rendimiento acadmico c. puntuacin en la prueba final d. edad 3. Cules variables son continuas? a. sexo y edad b. ndice de rendimiento acadmico y sexo c. ndice de rendimiento acadmico y puntuacin en la prueba final d. puntuacin en la prueba final y libro utilizado en la clase
62
4. Qu variables son categricas? a. sexo y edad b. ndice de rendimiento acadmico y sexo c. ndice de rendimiento acadmico y puntuacin en la prueba final d. sexo y libro utilizado en la clase 5. Qu variable es dependiente? a. sexo b. ndice de rendimiento acadmico c. puntuacin en la prueba final d. libro utilizado en la clase 6. Los grupos de estudiantes seleccionados se llaman a. poblaciones b. muestras c. estadsticas d. parmetros
3. A continuacin aparece una lista de variables. Utilizando marcas de cotejo (X) indique lo siguiente: si es cualitativa o (N)umrica; si es numrica indica si es (D)iscreta o (Cont)nua; por ltimo identifica cul es la escala o nivel de medicin de la variable, esto es si es (N)ominal, (O)rdinal, (I)ntervalos o azn:
63
Variable Aos de servicio en la institucin Prestigio profesional Grado de satisfaccin de una persona Puntaje obtenido en la pruebas de habilidades matemticas Nivel socioeconmico Mximo de instruccin alcanzado Puntaje obtenido en una escala para medir Liderazgo El coeficiente de inteligencia de una persona(CI)
Cualitativa Numrica D C
Nivel de Medicin N O I R
4. Elabore el plan de preguntas y anlisis estadstico para los datos del ejemplo del Libro de Cdigos del Captulo I
5. Use esos datos para construir una base de datos y ejecutar los procedimientos estadsticos con SPSS (descripcin, resumen, etc.)
64
65
CAPTULO III
EL CASO DE ESTUDIO
LA ESCALA DE AUTOESTIMA En este captulo se presenta un caso de estudio basado en la aplicacin de varias escalas (autoestima, sentimientos negativos, sentimientos positivos, percepcin del estrs, nivel de satisfaccin de vida, etc.), cuyos resultados se han procesado en SPSS y servirn como base para los anlisis estadsticos que se abordan en este libro. Una de las escalas es la Escala de Autoestima de Rosenberg. La autoestima es la valoracin que tiene una persona acerca de s msma y, en mayor o menor medida, esta valoracin estar menos o ms ajustada a la realidad. De esta forma, la autoestima puede implicar una valoracin aproximadamente realista, una sobrevaloracin o una infravaloracin de s msmo. Ms especficamente, se debe considerar a la autoestima como una actitud de autovaloracin que la persona adopta hacia s msma. Si se la considera como una actitud, la autoestima abarcar tres manifestaciones o dimensiones distintas: cognitiva, afectiva y conductual. Precisamente son estos tres aspectos los que debern considerarse en el momento de evaluarla. Existen diferentes pruebas para evaluar la autoestima, como por ejemplo la Escala de Autoestima de Rosenberg (1965). sta es una escala tipo Likert, compuesta por 10 temes, los que tienen cuatro alternativas de respuesta, desde totalmente de acuerdo a totalmente en desacuerdo.
66
Los datos provienen de un estudio que involucr a 439 sujetos. Se contemplaron las siguientes variables de clasificacin: sexo, edad, estado civil y nivel educacional. Otras variables consideradas fueron: fuente de estrs, fumador/no fumador, los temes y el puntaje total obtenido en una escala de optimismo, de sentimiento positivo y sentimiento negativo. La edad de los sujetos fue divida en 3 grupos: 18 a 29, 30 a 44, y 45 y ms. En la Escala de Autoestima se asignan los valores siguientes a los temes: Para los temes 1,2,4,6,7: Fuertemente de acuerdo = 3, De acuerdo = 2, En desacuerdo = 1, y Fuertemente en desacuerdo = 0. Para los temes 3,5,8,9,10 (que tienen una valoracin inversa, y se destacan con **): Fuertemente de acuerdo = 0, De acuerdo =1, En desacuerdo = 2, y Fuertemente en desacuerdo = 3.
La escala tiene una puntuacin que va desde 0 a un mximo de 30 puntos. En estas escalas otros puntajes son posibles. Por ejemplo, se puede asignar valores 1-4 puntos en lugar de 0-3 puntos. Algunos investigadores usan una escala Likert de 5 7 puntos. Este caso de estudio servir de base para los diferentes anlisis univariados y bivariados que se exponen en los captulos siguientes. Adems nos servir para el anlisis de confiabilidad y anlisis factorial de la escala. La Base de Datos del caso de estudio se puede solicitar al correo: alberto.caro@uv.cl
67
Tabla No. 3.1. Escala de autoestima de Rosenberg

TEMES 1 2 3 4 Totalmente De En Totalmente en acuerdo desacuerdo en acuerdo desacuerdo
1. Siento que soy una persona que valgo, al menos en un plano similar con otros. 2. Siento que tengo buenas cualidades. 3. Me inclino a pensar, al final, que soy un fracaso.** 4. Soy capaz de hacer las cosas tan bien como otras personas. 5. Siento que no tengo mucho de que enorgullecerme.** 6. Tengo una actitud positiva hacia mi mismo. 7. En general, estoy satisfecho conmigo mismo. 8. Yo quisiera tener ms respeto por mi mismo.** 9. A veces me siento intil.** 10. A veces pienso que en general no soy bueno (a).**
TA
TD
TA TA
A A
D D
TD TD
TA
TD
TA
TD
TA
TD
TA
TD
TA TA
A A
D D
TD TD
68
A continuacin, se incluye un ejemplo abreviado del libro de cdigos con algunas de las variables que se consideraron en el caso de estudio. Incluiremos las ms relevantes para el tratamiento de los datos. Tabla No.3.2. Libro de Cdigos
Cdigo Descripcin Tipo Escala de Medicin Plan de Plan de Anlisis Anlisis 1 2 Estadstica descriptiva Tabla de Frecuencia
Edad
Edad del encuestado
Cuantitativa Escala
Fuente
La situacin Cualitativa, Nominal o agentes categrica de estrs Grupo de edades (3) Cualitativa Ordinal
Edadgp3
Tabla de Frecuencia, algunos estadsticos descriptivos Estadstica Edadgp3 descriptiva /Totautoe ANOVA
Totautoe Puntaje total Cuantitativa Escala obtenido en la escala de autoestima Tsatvid
Puntaje total Cuantitativa Escala Estadstica Sexo obtenido en descriptiva / Tsatvid la escala de t Student satisfaccin Muestra de vida independientes
El caso de estudio al que estamos aludiendo contiene 93 variables, de all que hayamos optado por presentar una versin abreviada de esta herramienta analtica.
69
El ingreso de los datos a SPSS versin 10 se realiza a travs de dos pantallas. La primera, que aparece en la figura 3.1, es para ingresar las variables y sus correspondientes definiciones: nombre, tipo, valores, escala de medicin, etc. En la figura 3.2 aparece parte de las variables de nuestro caso de estudio. Figura 3.1 Vista de Variables
Figura 3.1 Vista de Variables
Figura 3.2 Visin parcial de las variables de nuestro caso de estudio
Figura 3.2 Visin parcial de las variables de nuestro caso de estudio
70
La segunda corresponde al rea de ingreso de los datos, segn aparece en la figura 3.3. En esta matriz se digitan los valores, como se puede observar en la figura 3.5
Figura 3.3 rea de ingreso de los datos
Figura 3.4 Muestra de los datos de nuestro caso de estudio
71
Los cdigos que se asignan a las diferentes variables se definen en Vista de variables, columna valores:
Figura 3.5 Cuadro de dilogo para definicin de los cdigos de la variable sexo
La definicin de las escalas de medicin tambin se definen en la Vista de Variables, columna Medida:
Figura 3.6. Columna de deficin de las escalas de medicin
72
En relacin a nuestro caso de estudio, nos hemos formulado algunas de las siguientes interrogantes: (a) Cul es la edad promedio de la muestra? Cul es el rango de edad de la muestra (valores mnimo y mximo)? (b) Qu porcentaje de la muestra son fumadores? (c) Son normales las distribuciones de la edad y de los puntajes totales de cada una de las escalas empleadas en el estudio? (d) Son confiables las diferentes escalas (autoestima, sentimientos positivos, sentimientos negativos, percepcin del estrs, nivel de satisfaccin de vida) empleadas en el estudio? (e) Existen diferencias de gnero estadsticamente significativas en la percepcin de la autoestima?. (f) Existe una relacin estadsticamente significativa entre la autoestima (medida por la escala anterior) y la percepcin del estrs (medida por una escala especfica)? (g) Cul es el efecto del sexo y la edad en los puntajes de autoestima? (h) Hay un efecto de la edad que pueda ser una variable que puede estar afectando los resultados? cmo puede controlarla en su anlisis? (i) Cul es mejor predictor de los sentimientos negativos: el optimismo o la autoestima? (j) Son las personas ms jvenes (18-29 aos) ms proclives a ser fumadores que las personas mayores (30-44 aos o 45 y ms)? (k) Cul es la estructura factorial de la escala de autoestima? (l) Quines tienen mayor autoestima: los hombres o las mujeres? (m) Qu ocurre con la percepcin del estrs en los diferentes grupos de edades?
73
Algunas de las hiptesis que hemos establecido a partir de la interrogantes anteriores son por ejemplo: 1. 2. 3. 4. 5. 6. A menor autoestima, ms alta es la percepcin del estrs. Existe una relacin lineal entre la autoestima y la percepcin del estrs. La autoestima es un buen predictor de los sentimientos negativos de las personas. Las personas ms jvenes tienden a ser ms fumadoras que las personas mayores. Las personas optimistas tienen un mayor nivel de satisfaccin de vida Los hombres son ms fumadores que las mujeres. Y adems presentan un mayor nivel de estrs.
En orden a examinar estas hiptesis deberemos aplicar diferentes pruebas estadsticas que iremos comentando en el desarrollo de los siguientes captulos. Por ejemplo, pruebas de normalidad (Kolmogorov Smirnov), de correlaciones, de anlisis de regresin lineal, de comparacin de medias, anlisis de varianza, anlisis factorial, etc. Por ejemplo, se puede establecer una matriz de correlaciones para verificar las intercorrelaciones entre las siguientes variables: (a) edad (b) percepcin del estrs (ttestres) (c) sentimiento positivos (ttspos) (d) sentimiento negativos (ttsneg) (e) satisfaccin de vida (tsatv) El investigador puede explorar el impacto de numerosas variables en la experiencia de sentimientos positivos (ttspos), sentimiento negativos (ttsneg), y estrs percibido (ttestres). En particular, puede estar interesado en la edad, autoestima, y optimismo.
74
Tambin puede comparar el patrn de correlaciones en mujeres y hombres dividiendo el archivo.
VALIDACIN DE LA ESCALA Los objetivos especficos son: a) b) Estimar la confiabilidad del instrumento. Estudiar la validez de constructo del instrumento (estructura factorial).
Confiabilidad de la Escala El estudio psicomtrico de la escala de autoestima permite estimar la confiabilidad del instrumento en 0,8541, mediante Alfa de Cronbach. Es decir, el instrumento tienen consistencia interna, es confiable. El coeficiente de discriminacin, esto es, el grado en que un tem sirve para distinguir entre los individuos que obtienen puntuaciones altas y los que las obtienen bajas, vara entre 0,44 y 0,71 (ver detalles de los resultados del anlisis de confiabilidad en el captulo VII). Lo anterior ratifica la idea de la consistencia del instrumento. El anlisis de la confiabilidad tambin informa sobre el efecto de cada tem, sealando la confiabilidad si el tem es eliminado. Se concluye que no hay temes que tengan un gran efecto sobre la escala, pues la confiabilidad, eliminando un tem, vara entre 0,8280 (para el tem SEST6) y 0,8458 (para el tem SEST1). Tampoco hay un gran efecto sobre la media y la varianza de la escala si se elimina un tem. La media vara entre 29,83 (si se elimina el tem SEST1) y 30,54 (si es eliminado el tem SEST7). La varianza vara entre 23,09 (si se elimina el tem SEST9) y 26,83 (si se elimina el tem SEST2). En general, no se aprecia
75
algn tem que consistentemente influya en la escala. Finalmente, el alfa de Cronbach de 0,8541 result ser significativo, al nivel de significacin del 5%.
Validez Factorial de la Escala La validez de constructo, estudiada a travs del anlisis factorial con rotacin Varimax, permiten identificar la existencia de dos factores, que explican el 57,1 % de la variabilidad total. En el primer factor (que explica el 45,4% de la variabilidad) influyen fuertemente los temes SEST5, SEST7, SEST9 y SEST10, que se asocian con la escala de sentimiento nrgativo. El segundo factor est influenciado por los temes SEST1, SEST2, SEST4, los que se asocian con la escala de sentimiento positivo. En resumen, los resultados obtenidos han mostrado que la escala de autoestima tiene una buena consistencia interna y una adecuada validez de constructo. El estudio de la estructura factorial ha dado cuenta que el modelo bifactorial permitira no slo una puntuacin global de la autoestima, si no que tambin puntuaciones en las dos subescalas, identificadas como cargas positivas y cargas negativas, incrementando as su valor evaluativo.
EJEMPLO DE HIPTESIS En relacin a este caso de estudio, se plantearon diversas hiptesis y se aplicaron las pruebas estadsticas respectivas en SPSS. A modo de ejemplo examinaremos la siguiente hiptesis de investigacin: Existen diferencias de gnero estadsticamente significativa en la percepcin de la autoestima? se traduce en las siguientes hipotsis estadsticas. Hiptesis Nula: mH = mM (Los promedios de puntajes en la
76
Escala de Aurtoestima de Rosenberg para hombres y mujeres son iguales) Hiptesis Alternativa: mH= mM (Los promedios de puntajes en la Escala de Autoestima de Rosenberg para hombres y mujeres no son iguales). Para probar esta hiptesis se emplear la prueba de diferencia de medias para muestras independientes. (Se puede suponer varianzas iguales y desconocidas dado que se trabaja con la misma escala de puntajes. Ver Captulo V). La aplicacin de la prueba entrega los resultados siguientes:
Prueba de muestras independientes eba de Leve a la igualdad varianzas
F Sig. total auto han as Se 3.506 .062 1.622 434 varianzas No se han 1.661 2.349 varianzas
Prueba T para la igualdad de medias % Intervalo d nfianza para iferenciror tp. ddiferencia t gl . (bilater media nferioruperio e diferenc .105 .098 .85 .85 .52 -.18 1.87 .51 -.16 1.85
Se comprueba el supuesto de igualdad de varianzas con la prueba de Levene de lo cual se concluye lo siguiente: No se rechaza la hiptesis de igualdad de varianzas a un nivel de significancia del 5% (valor p = 0,062). Con esto se asume varianzas iguales de los puntajes logrados por hombres y mujeres en la escala de autoestima. No se rechaza la hiptesis de igualdad de medias de los puntajes de la escala de Autoestima para hombres y mujeres, a un nivel de significacin del 5% (valor p=0,105).Por lo tanto, existe evidencia para concluir que las medias de los puntajes en la escala de Autoestima para hombres y mujeres son iguales.
77
CAPTULO IV
ANLISIS DESCRIPTIVO UNIVARIANTE
Cuando se dispone de datos de una poblacin, y antes de abordar anlisis estadsticos ms complejos, un primer paso consiste en presentar esa informacin de forma que sta se pueda visualizar de una manera ms sistemtica y resumida. Los datos que nos interesan, dependen, en cada caso, del tipo de variables que estemos manejando. Esto se realiza empleando grficos o mediante la obtencin de medidas descriptivas de resumen de la informacin. Los procedimientos ms importantes, implementados en SPSS, se presentan a continuacin.
EL ANLISIS GRFICO Grficos de Sectores y de Barras Para variables categricas, como el sexo, profesin, etc., se quiere conocer la frecuencia y el porcentaje del total de casos que caen en cada categora. Una forma muy sencilla de representar grficamente estos resultados, es mediante diagramas de barras o diagramas de sectores (ms conocido como diagrama de torta). En los grficos de sectores, se divide un crculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un sector del crculo proporcional a su frecuencia absoluta o relativa. Si el nmero de categoras es excesivamente grande, la imagen proporcionada por el grfico de sectores no es lo suficientemente clara y por lo tanto la situacin ideal es cuando
78
hay alrededor de tres categoras. En este caso, se pueden apreciar con claridad dichos subgrupos. Los diagramas de barras son similares a los grficos de sectores. Se representan tantas barras como categoras tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase. Estos mismos grficos pueden utilizarse tambin para describir variables numricas discretas que toman pocos valores (por ejemplo, nmero de hijos).
Grfico de Tallo y Hojas Un mtodo para iniciar el anlisis exploratorio de los datos, previo al uso de los mtodos estadsticos tradicionales, y que adems proporciona informacin rpida, visual y es relativamente nueva, es la representacin grfica de tallo y hoja. Esta representacin se basa en la ordenacin de los datos a manera de grfico, pero sin llegar a ello, utilizando las decenas y las unidades. Esta tcnica se puede encontrar en el libro de Freud y Simon16 , pero comentaremos su uso a travs del siguiente ejemplo que contiene las calificaciones obtenidas en una prueba de matemticas: 78 66 93 73 61 76 100 81 70 83 83 64 88 91 74 70 97 77 72 86
Ahora pensaremos en cada uno de los datos, separando las decenas de las unidades, es decir, el nmero 51 se ver como 5 | 1. De esta manera las decenas se pondrn en una columna, en forma vertical, y las unidades a su derecha:
16
Freund, John E. y Gary A. Simon. Estadstica elemental. Prentice-Hall Hispanoamericana, SA. Mxico, 1994. (8 edicin.)
79
6 7 8 9 10
1 8 1 1 0
6 0 3 3
4 4 3 7
2 6
3 8
Cuadro 4.1. Diagrama de Tallo y Hoja.
Para entenderle un poco ms, hay que sealar que el primer rengln que dice 6 | 1 6 4 quiere decir que entre la lista de datos se encuentran los valores 61, 66 y 64. Esta es la representacin grfica tallo y hoja, donde cada rengln es una posicin de tronco y cada dgito de la derecha es una hoja. El procedimiento para realizarla es primero empezar con los troncos, es decir la columna de la izquierda, y despus dato por dato ir llenando las hojas a la derecha de la lnea vertical, en el tronco correspondiente. Adems, si se desean tener los datos ordenados, y hay gente que lo prefiere as, se pueden ordenar las hojas en cada rengln para que la representacin quede como sigue: 6 7 8 9 10 1 0 1 1 0 4 0 3 3 6 2 3 7 3 6 4 8 6 7 8
Cuadro 4.2 Datos ordenados. En realidad, una representacin de tallo y hojas presenta la misma informacin que la lista original de datos, pero de una manera mucho ms compacta (especialmente si la lista de datos es ms grande) y manejable. Sin embargo, una informacin ms compleja resulta un poco ms difcil de manejar, por lo que en
80
ocasiones conviene redondear los datos, ignorar sus partes decimales o utilizar las centenas u otras posiciones de los nmeros para las troncos. En cada uno de esos casos, conviene hacer alguna anotacin, o poner una nota, a fin de que los lectores puedan identificar las adecuaciones realizadas y as poder interpretar lo que se quiere transmitir. Para mostrar la informacin de manera ms clara, es posible modificar el nmero de posiciones del tallo, aumentndola o disminuyndola de acuerdo a las necesidades particulares de cada problema. Por ejemplo, con los datos anteriores, se pueden dividir en dos, cada posicin del tallo, utilizando la primera posicin para disponer las hojas 0, 1, 2, 3 y 4, y la segunda posicin para las hojas restantes. De esta manera, se obtiene la representacin grfica de doble tallo: 66+ 77+ 88+ 99+ 101 6 0 6 1 6 1 7 0 4 0 2 3 4 7 8 3 3 8 3
Cuadro 4.3. Representacin grfica de doble tronco. Con esto se han duplicado el nmero de posiciones del tallo, con la intencin de buscar una mayor claridad en la presentacin. Histograma Para variables numricas continuas, tales como la edad, el puntaje en un pretest o en un postest, el tipo de grfico ms utilizado es el histograma. Para construir un grfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud,
81
representando sobre cada intervalo, un rectngulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectngulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el rea de los rectngulos. Diagrama de Caja y Grficos para Normalidad Otro modo habitual, y muy til, de resumir una variable de tipo numrico es utilizando el concepto de percentiles, mediante diagramas de cajas. La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribucin. La lnea central en la caja es la mediana. De este modo, si la variable es simtrica, dicha lnea se encontrar en el centro de la caja. Los extremos de los bigotes que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribucin. Se suelen tambin representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente til para comprobar, grficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan ms apropiados para representar variables que presenten una gran desviacin de la distribucin normal.
Figura 4.1. Diagrama de caja.
82
Por ltimo, y en lo que respecta a la descripcin de los datos, suele ser necesario, para posteriores anlisis, comprobar la normalidad de alguna de las variables numricas de las que se dispone. Un diagrama de cajas o un histograma son grficos sencillos que permiten comprobar, de un modo puramente visual, la simetra y el apuntamiento de la distribucin de una variable y, por lo tanto, valorar su desviacin de la normalidad. Existen otros mtodos grficos especficos para este propsito, como son los grficos P-P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable con las de una distribucin normal. Si la variable seleccionada coincide con la distribucin de prueba, los puntos se concentran en torno a una lnea recta. Los grficos Q-Q se obtienen de modo anlogo, esta vez representando los cuantiles de distribucin de la variable respecto a los cuantiles de la distribucin normal.
Grfico Q-Q normal de EDAD

Para SEXO= hombres
3
Normal esperado
-1
-2 -3 0 10 20 30 40 50 60 70 80
Valor observado
Grfico 4.1. Grfico Q-Q.
83
EL ANLISIS DESCRIPTIVO
Para variables numricas, en las que puede haber un gran nmero de valores observados distintos, se intentan las siguiente preguntas: a. b. Alrededor de qu valor se agrupan los datos? Supuesto que se agrupan alrededor de un nmero, Cmo lo hacen? Muy concentrados? Muy dispersos?
La exploracin y anlisis de los datos obtenidos en una investigacin comienza necesariamente en el nivel univariado. El anlisis univariado de los datos consiste en hacer una revisin del valor de un solo indicador, por ejemplo, la edad, nivel de instruccin o el sexo de los sujetos. Suele usarse cuando interesa conocer en profundidad qu significan, por separado, algunos indicadores y es utilizado con fines descriptivos en las primeras etapas de los estudios realizados. El anlisis de los datos tiene como objetivo el responder a las preguntas que se hicieron los investigadores, pero para llegar a ese punto, primero se deben describir las variables o datos que se recogieron durante el estudio. Este anlisis permitir controlar la presencia de posibles errores en la fase de introduccin de los datos, es decir, detectaremos con l, valores fuera de rango (p. ej. un peso de 197 Kg es claramente un dato extrao), o la presencia de valores perdidos. Este anlisis inicial tambin proporcionar una idea de la forma que tienen los datos: su posible distribucin de probabilidad con sus parmetros de centralizacin; media, mediana y moda; as como sus parmetros de dispersin; varianza, desviacin tpica, etc. Como se ver ms adelante, SPSS proporciona varias herramientas para realizar esta descripcin, todas ellas bajo el men Analizar y, dentro de l, la opcin Estadsticos descriptivos. Estos procedimientos son: Frecuencias, Descriptivos, Explorar y
84
Tablas de Contingencia. En la siguiente pantalla se muestra la ventana para el clculo de las frecuencias.
Figura 4.2. Definicin de Tabla de Frecuencia.
Hay un error frecuente que es equiparar estadstica univariada y estadstica descriptiva, si se puede considerar que en el anlisis univariado, hay un nivel descriptivo y un nivel inferencial. El primero incluye el resumen de los datos mediante estadsticos descriptivos y la representacin grfica de los mismos. El segundo implica el contraste de hiptesis acerca del valor de los parmetros y del tipo de distribucin poblacional (anlisis inferencial). Si tenemos una muestra aleatoria de 1.000 estudiantes universitarios entre 17 y 26 aos, la interpretacin descriptiva dir por ejemplo que al 58% le gusta la vida nocturna. Se pasa al nivel inferencial si se dice que estos datos son compatibles con los resultados de una investigacin segn los cuales, el 60% de los jvenes universitarios de esa edad les gusta la vida nocturna.
85
Tablas 4.1. Anlisis univariado descriptivo e inferencial y el nivel de medicin de las variables.
Tipo de Variable
Estadsticos descriptivos Frecuencia y porcentajes o sectores percentiles Media, desviacin estndar, ndices de asimetra y curtosis
Representacin grfica Grfico de barras o sectores Grfico de barras
Categrica
Ordinal
Cuantitativa (*)
Histograma
(*) Si la distribucin es muy asimtrica, es aconsejable tratar la variable como ordinal.
Algunos de los contrastes de hiptesis ms utilizados en funcin del tipo de variables son: Tabla 4.2. Tipos de variables y tipos de contrastes Tipo de Variable Categrica Ordinal Cuantitativa (*) Contrastes de bondad de ajuste Chi Cuadrado Chi Cuadrado Prueba de Kolmogorov-Smirnov para poner a prueba la hiptesis de distribucin normal. Acerca de los valores de la media y varianza poblacional Contrastes paramtricos
86
Pero, adems, podran incluirse muchos otros contrastes o pruebas: proporcin, correlaciones, etc.
Anlisis Descriptivo con SPSS El primer paso en el anlisis de cualquier archivo de datos es la obtencin de la estadstica descriptiva para cada variable. Esto puede usarse tambin para limpiar los datos (eliminar datos fuera de rango), explorar la distribucin de los puntajes, y describir la muestra en estudio, por ejemplo, se pueden examinar preguntas del siguiente tipo: Cul es el promedio de edad de la muestra?, Cul es el rango de edad de la muestra (valores mnimos y mximos)?, Cul es el porcentaje de hombres y mujeres en la muestra?, Hay sujetos que no haya respondido esta pregunta?, Cun normal es la distribucin?. Gran parte de la utilidad que tiene la Estadstica Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de informacin depender de la presentacin de los datos, siendo la forma grfica uno de los ms rpidos y eficientes, aunque tambin uno de los que ms pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones bsicas al realizar las grficas. Existen tambin varios tipos de grficas, o representaciones grficas, utilizndose cada uno de ellos de acuerdo al tipo de informacin que se est usando y los objetivos que se persiguen al presentar la informacin. En SPSS, el procedimiento Explorar nos ofrece las posibilidades de representar grficamente los datos, examinar visualmente las distribuciones para varios grupos de datos, y realizar pruebas de normalidad y homogeneidad sobre los mismos. En este caso, estamos interesados en examinar la variable cuantitativa edad (dependiente) y la variable categrica sexo (factor) como se puede apreciar en la figura siguiente:
87
Figura 4.3. Definicin de variables. Cuando se activa la opcin Estadsticos se abre un cuadro de dilogo con los siguientes campos y opciones: Dependientes: en este campo, se introduce la variable o variables cuantitativas que contienen los datos a analizar y de las que se quiere obtener los grficos y/o estadsticos. Factores: aqu se indica la variable que sirve para dividir en grupos los datos. Puede ser numrica o carcter de cadena corta. Etiquetar los casos mediante: este otro campo se utiliza para etiquetar aquellos valores atpicos en los diagramas de caja. La variable que se usa puede ser numrica o carcter. Grficos: activando este campo y pulsando el botn Grficos, se abre una ventana para seleccionar el grfico a representar. Entre stos se encuentran: Diagramas de Caja; Descriptivos (Grficos de Tallo y Hoja, e Histogramas); Grficos con prueba de Normalidad; y Grficos de Dispersin por nivel con Prueba de Levene.
88
Estadsticos: con este campo y su respectiva opcin, se abre una ventana donde se pueden elegir una serie de medidas de tendencia central y de dispersin. As como una serie de estimadores robustos centrales, valores atpicos de los datos y percentiles. Ambos: en este punto se pueden seleccionar las opciones tanto de Grficos como de Estadsticos.
Figura 4.4. Explorar: Estadsticos. Los grficos con pruebas de normalidad muestran los diagramas de probabilidad normal, donde se representan los valores correspondientes a una distribucin normal terica mediante una recta, y los puntos que se corresponden a las diferentes puntuaciones observadas de los sujetos. Tambin los grficos de probabilidad sin tendencia, que recogen las desviaciones de los sujetos respecto de la recta normal. Calcula tambin los estadsticos de Kolmogorov-Smirnov y de Shapiro-Wilks para muestras con 50 o menos observaciones, para contrastar la normalidad. En este caso, se eligi el grfico de tallos y hojas, el histograma, y grficos con prueba de normalidad.
89
Figura 4.5.8 Explorar: Grficos.
La opcin dispersin por nivel con prueba de Levene sirve para representar los diagramas de dispersin por nivel, en el caso de seleccionar algn factor. Junto con los mismos, muestra la pendiente de la recta de regresin y realiza la prueba de Levene sobre la homogeneidad de varianzas. Si se realiza alguna transformacin sobre los datos, las pruebas de Levene se llevarn a cabo con los datos transformados. Dentro de este apartado se tienen las siguientes opciones: Estimacin de potencia: Representa un grfico de los logaritmos naturales de las amplitudes intercuartil, respecto a los logaritmos naturales de las medianas de todas las casillas, as como una estimacin de la transformacin de potencia necesaria para conseguir varianzas iguales de los grupos. Transformados: Genera grficos de los datos transformados cuando se selecciona una de las alternativas de potencia.
90
Aplicacin al Caso en Estudio a) Anlisis descriptivo de la variable edad A continuacin, se presenta el procesamiento de la variable edad de nuestro caso de estudio (dependiente en el lenguaje del cuadro de dilogo de SPSS) y la variable sexo (factor segn este programa). La secuencia de opciones seleccionadas es:
Analizar Estadsticos descriptivos Explorar Edad (dependiente), Sexo (factor) Grficos: Tallo y Hoja, Histograma y Grficos con prueba de Normalidad.
R esum en del procesam iento de los casos C asos sexo hom bre s m ujeres V lidos N P orce nta je 185 100.0% 254 100.0% P erdidos N P orce nta je 0 .0% 0 .0% N Total P orce nta je 185 100.0% 254 100.0%
ED AD
91
Descriptivos sexo hombres Estadstico 36.95 35.14 38.75 36.40 36.00 154.758 12.44 18 70 52 21.00 .462 -.596 37.80 36.10 39.49 37.00 36.00 188.907 13.74 18 82 64 21.50 .671 -.072 Error tp. .91
EDAD
Media Intervalo de confianza para la media al 95%
Lmite inferior Lmite superior
mujeres
Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Media Intervalo de confianza Lmite inferior para la media al 95% Lmite superior Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis
.179 .355 .86
.153 .304
Cuadro 4.4. Resultados opcin Explorar. Se observa en la tabla que la edad media de los hombres es de aproximadamente 37,0 aos y 37,8 aos en las mujeres, con una desviacin estndar (des. tip.) de 12,44 aos en hombres y 13,74 aos en mujeres. El intervalo de confianza del 95% para la media poblacional de la edad viene dado para los hombres por [35,14 aos a 38,75 aos] y [36,10 aos a 39,49 aos] para las mujeres. El coeficiente de asimetra nos dice que existe una leve asimetra a la derecha tanto en hombres como en mujeres, es decir, las frecuencias ms altas para la variable edad se encuentran al
92
lado izquierdo de la media. El coeficiente de curtosis nos muestra que la distribucin de edad en los hombres y mujeres presenta una bajo grado de concentracin alrededor de las medidas de tendencia central, denominndose a esta distribucin como platicrtica, es decir, ms achatada que una distribucin normal. La media recortada nos indica que eliminando el 5% de los datos extremos (ms altos y ms bajos), la media del 95% de los casos restantes es de 36,4 aos en los hombres y de 37,0 aos en las mujeres. La mediana indica que el 50% de los sujetos en estudio, hombres o mujeres, tienen una edad superior a los 36 aos (o, 50% de los hombres o mujeres tienen una edad inferior a los 36 aos). La dispersin determinada a travs de la amplitud intercuartil (diferencia entre el tercer y primer cuartil, esto es, el 50% central de los casos) es de 21,0 aos para hombres y 21,5 aos para las mujeres.
Valores extremos Nmero del caso 167 327 408 159 199 262 213 412 363 293 295 221 298 198 104 196 55 407 49 57
EDAD
sexo hombres
Valor 70 69 67 66 65 18 18 18 19 19 82 78 75 74 74 18 18 18 19 .a
Mayores
Menores
mujeres
Mayores
Menores
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
a. En la tabla de valores extremos menores slo se muestra una lista parcial de los casos con el valor 19.
Tabla 4.5. Valores extremos.
93
En la tabla de valores extremos, se aprecian las 5 edades mximas y mnimas, tanto para hombres como para mujeres con el nmero del caso para su ubicacin en la ventana de datos. Histogramas y Grficos de Tallo y Hoja Los Histogramas de la variable edad, para cada sexo, son los siguientes:
Histograma
Para SEXO= hombres
40
30
20
Frecuencia
10
Desv. tp. = 12.44 Media = 36.9 N = 185.00 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0
EDAD
Histograma
Para SEXO= mujeres
50
40
30
20
Frecuencia
10
Desv. tp. = 13.74 Media = 37.8 N = 254.00 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0
EDAD
Grfico 4.2. Histogramas. En los Histogramas puede observar la asimetra de la variable edad con respecto al sexo y su nivel de apuntamiento (curtosis) claramente achatada y desviada a la izquierda con respecto a la media.
94
EDAD Stem-and-Leaf Plot for SEXO= hombres Frequency Stem & Leaf 5.00 34.00 21.00 28.00 22.00 18.00 22.00 19.00 9.00 2.00 4.00 1.00 Stem width: Each leaf: 1 2 2 3 3 4 4 5 5 6 6 7 . . . . . . . . . . . . 88899 0 0 11111111 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 555566666667777777889 0001111111222222233333333444 5555666666666777788999 000001111222223344 5556666667777888888999 0000000001111244444 556667789 34 5679 0
10 1 case (s)
Cuadro 4.6. Grfico de Tallo y Hoja, variable edad para sexo (hombres)
EDAD Stem-and-Leaf Plot for SEXO= mujeres
Frequency Stem & Leaf 6.00 1 . 49.00 2 . 34.00 2 . 23.00 3 . 35.00 3 . 27.00 4 . 35.00 4 . 13.00 5 . 10.00 5 . 11.00 6 . 5 . 0 0 6 . 3 . 0 0 7 . 2 . 0 0 7 . 1.00 Extremes 89 00111111122223333444444 55556667777888899 00111123344 55555666677788899 0111122234444 5556667788888999 001233 5568& 00123 8 & 4 & & (>=82)
Stem width: 10 Each leaf: 2 case(s) & denotes fractional leaves.
Cuadro 4.7. Grfico de Tallo y Hoja, variable edad para sexo (mujeres)
95
En el diagrama de tallo y hoja, la longitud de cada fila corresponde al nmero de casos que hay dentro de cada intervalo. Cada caso se representa dentro de la fila con un valor numrico. Para ello, se divide cada valor observado en dos componentes: el tallo (dgito/s inicial/es) y la hoja (dgito/s final/es). La primera y ltima fila se utilizan para representar los casos extremos. Como se puede observar en el intervalo 9, frecuencia 9 hombres, los casos que caen dentro del mismo, tienen los valores de la edad iguales a: 55, 55, 56, 56, 56, 57, 57, 58, 59. Es importante fijarse en el nmero de casos para cada hoja (leaf). En mujeres, cada hoja representa dos casos.
Diagramas de Caja Los diagramas de caja proporcionan para la variable edad indican las mismas caracterstica ya sealadas. Se aprecia la asimetra de las distribuciones, tanto para hombres como para mujeres. Se aprecia, adems, que las distribuciones son muy parecidas: coinciden sus medianas, as como sus recorridos intercuartlicos (ancho de la caja)
100
80
295
60
40
20
EDAD
0
N= 185 254
hombres
mujeres
sexo
Grfico 4.3. Diagrama de Caja.
96
Grficos de Probabilidad Normal Los grficos de probabilidad normal constituyen otra importante herramienta grfica para comprobar si un conjunto de datos puede considerarse o no procedente de una distribucin normal. La idea bsica consiste en enfrentar, en un mismo grfico, los datos que han sido observados frente a los datos tericos que se obtendran de una distribucin gaussiana. Si la distribucin de la variable coincide con la normal, los puntos se concentrarn en torno a una lnea recta, aunque conviene tener en cuenta que siempre tender a observarse mayor variabilidad en los extremos. En los grficos Q-Q se representan los cuantiles respecto a los cuantiles de la distribucin normal. Adems de permitir valorar la desviacin de la normalidad, los grficos de probabilidad permiten conocer la causa de esa desviacin. Una curva en forma de U o con alguna curvatura significa que la distribucin es asimtrica con respecto a la normal, mientras que un grfico en forma de S significar que la distribucin tiene colas mayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas de la distribucin. Parece lgico que cada uno de estos mtodos se complemente con procedimientos de anlisis que cuantifiquen de un modo ms exacto las desviaciones de la distribucin normal. Existen distintos tests o pruebas estadsticas que podemos utilizar para este propsito. El test de Kolmogorov-Smirnov es el ms extendido en la prctica. Se basa en la idea de comparar la funcin de distribucin acumulada de los datos observados con la de una distribucin normal, midiendo la mxima distancia entre ambas curvas. Como en cualquier test de hiptesis, la hiptesis nula se rechaza cuando el valor del estadstico supera un cierto valor crtico que se obtiene de una tabla de probabilidad. Dado que en la mayora de los paquetes estadsticos, como el SPSS, aparece programado dicho procedimiento, y proporciona
97
tanto el valor del estadstico de prueba como el valor-p correspondiente, no nos detendremos ms en explicar su clculo. Otro procedimiento muy extendido es el test chi-cuadrado de bondad de ajuste. No obstante, este tipo de procedimientos deben ser utilizados con precaucin. Cuando se dispone de un nmero suficiente de datos, cualquier test ser capaz de detectar diferencias pequeas an cuando estas no sean relevantes para la mayor parte de los propsitos. El test de Kolmogorov-Smirnov, en este sentido, otorga un peso menor a las observaciones extremas y, por lo tanto, es menos sensible a las desviaciones que normalmente se producen en estos tramos.
Para SEXO= hombres
3 3 2

Para SEXO= mujeres
Normal esperado
Normal esperado
-1
-1
-2 -3 0 10 20 30 40 50 60 70 80
-2 -3 0 20 40 60 80 100
Valor observado
Valor observado
Grfico Q-Q normal sin tendencias de EDAD

Para SEXO= hombres
.8 .6
.4
.2
Desv. de normal
0.0
-.2 -.4 10 20 30 40 50 60 70 80
Valor observado
Grfico 4.4. Grfico Q-Q variable sexo (hombres).
98
En el grfico Q-Q de los puntajes normalizados (obtenidos de la distribucin normal acumulada) versus los valores observados (en este caso, los residuos), muestra una lnea recta que representa una distribucin normal perfecta y los puntos son las observaciones. La distribucin normal de los datos no se ve, ya que existen grandes desviaciones de la lnea recta y la distribucin en el histograma tiene relativamente una asimetra alrededor de la media. Entonces, proponer un supuesto de normalidad de la distribucin de la edad con respecto al sexo no sera aconsejable.
Grfico Q-Q normal sin tendencias de EDA

Para SEXO= mujeres
1.0 .8 .6 .4
Desv. de normal
.2 0.0 -.2 -.4 10 20 30 40 50 60 70 80 90
Valor observado
Grfico 4.5. Grfico Q-Q variable sexo (mujeres). En el grfico de probabilidad normal sin tendencias, se puede deducir que en la distribucin de la edad en hombres y mujeres, no existira tendencia a la normalidad.
99
b)
Anlisis Descriptivo de la Variable Estado Civil
Ahora examinaremos estado civil de nuestro caso de estudio. Puesto que se trata de una variable categrica, para describir la muestra en funcin de la misma, lo nico que se puede hacer es ver cuntos sujetos (y qu porcentaje) estn en cada nivel. Para elaborar la tabla de frecuencia, se selecciona en la barra de mens de SPSS la secuencia:
Analizar Estadsticos descriptivos Frecuencias Estado civil [estciv]
El investigador debe definir la(s) variable(s) que desea procesar:
Figura 4.6. Definicin de Tabla de Frecuencia para Variable estciv.
100
estado civil Frecuencia Porcentaje Vlidos soltero 105 23.9 relacin espordica 37 8.4 vive con la pareja 37 8.4 casado por primera vez 189 43.1 casado por segunda ve 30 6.8 separado 10 2.3 divorciado 24 5.5 viudo 7 1.6 Total 439 100.0 Porcentaje Porcentaje vlido acumulado 23.9 23.9 8.4 32.3 8.4 40.8 43.1 83.8 6.8 90.7 2.3 92.9 5.5 98.4 1.6 100.0 100.0
Cuadro 4.8. Tabla de Frecuencia variable estciv.

Estado civil (Estciv) Grfico de Sectores
relacin espordica soltero vive con la pareja
viudo divorciado separado casado por segunda v casado por primera v
Grfico 4.6. Grfico de Sectores variable Estciv. Una vez descrita la muestra en funcin de cada variable, se puede poner a prueba el ajuste entre la distribucin de frecuencias emprica y una determinada distribucin poblacional. Se pueden dar dos casos: (a) que se considere la muestra como representativa de la poblacin y usemos la distribucin de frecuencias de la muestra para comprobar la hiptesis de una determinada distribucin poblacional, generalmente la distribucin uniforme;
101
y (b) que se conozca la distribucin poblacional y se quiera determinar si la muestra es o no representativa de la poblacin. Supongamos que queremos ver si la muestra en estudio representa adecuadamente a la poblacin, en la que sabemos que el 20% son solteros, el 50% son casados y el 25% viven en pareja. Para ello, se usa la prueba chi-cuadrado (pruebas no paramtricas) que compara las frecuencias empricas de cada nivel con las que cabra esperar en funcin de los porcentajes que se dan en la poblacin. Por ejemplo, si en la poblacin, el 50% son casados cabra esperar que la mitad de los sujetos de la muestra, es decir, 30, fueran casados. Una vez selecccionada la prueba, se especifica la variable que se quiere contrastar, en nuestro caso, el estado civil, y Valores esperados se cambia la opcin Todas las categoras iguales (que pondra a prueba la distribucin uniforme) por la de Valores, donde se especifican los porcentajes poblacionales de los 8 niveles de la variable, y en el mismo orden en que se haban considerado en la matriz de datos (20, 5, 5, 50, 5, 5, 5, 5) es decir, en el mismo orden que se muestra en la ventana de etiquetas de valor en la hoja vistas de variables.
Figura 4.7. Men Chi-cuadrado.
102
Lo que hacemos con ello es someter a prueba la hiptesis nula de que cualquier diferencia entre los porcentajes obtenidos en la muestra para cada nivel y los que se dan en la poblacin (y en este caso conocemos) puede deberse al azar. Si la probabilidad asociada a la hiptesis nula es igual o mayor a 0,05 (p>0,05), tendremos que mantenerla; si es menor (p<0,05), se rechaza la hiptesis nula (con un nivel de significacin del 5%). Los resultados son los siguientes:
estado civil N observado N esperado 105 87.8 37 22.0 37 22.0 189 219.5 30 22.0 10 22.0 24 22.0 7 22.0 439 Residual 17.2 15.1 15.1 -30.5 8.1 -12.0 2.1 -15.0
soltero relacin espordica vive con la pareja casado por primera vez casado por segunda vez separado divorciado viudo Total
Es ta ds tic os de con tra ste C hi-cuad rad o a gl S ig. a sintt. estad o civ il 48 .077 7 .00 0
a. 0 cas illas (.0% ) tie ne n fr ec ue ncias esp era da s m e nores que 5 . L a frecue ncia de ca s illa e sp era da m n im a es 22 .0 .
Cuadro 4.9. Resultados variable Estciv y su correspondiente estadstico de contraste.
103
Se rechaza la hiptesis nula dado que la significacin (sig. asintt.) indicada en la tabla es 0,000, esto se interpreta como una probabilidad muy baja (p<0,001), mucho menor que 0,05. Por lo tanto, la muestra proviene de una poblacin que no tiene la estructura de la poblacin de referencia. Se aprecia que hay un sesgo, pues los solteros estn excesivamente representados. c) Anlisis Descriptivo de la Variable Nivel Educacional Examinaremos la variable nivel educacional de los sujetos de la muestra de nuestro caso de estudio. Esta variable ha sido considerada como ordinal, puesto que sus distintos niveles pueden ordenarse de menor a mayor. En este caso, tiene sentido obtener los porcentajes acumulados y la mediana (nivel correspondiente al sujeto que deja por debajo de s al 50% de los casos). La secuencia de pasos es la siguiente: Analizar Estadsticos descriptivos Frecuencias Nivel educacional [educ] Estadsticos la moda y la media Grficos, el grfico de barra El cuadro de dilogo en el que se seleccionan los procedimientos estadsticos seleccionados aparece en la figura siguiente:
Figura 4.8. Tabla de Frecuencias y Estadsticos.
104
Los resultados son los siguientes:
nivel educacional ms alto y completo Porcentaje vlido .5 12.1 19.4 27.3 28.0 12.8 100.0 Porcentaje acumulado .5 12.5 31.9 59.2 87.2 100.0
Vlidos
bsica media incompleta media completa capacitacin tcnica universitaria completa posgrado Total
Frecuencia 2 53 85 120 123 56 439
Porcentaje .5 12.1 19.4 27.3 28.0 12.8 100.0
Cuadro 4.10 Medidas de Tendencia Central y Tabla de Frecuencias. Para obtener un grfico de barras, ste se selecciona en el men siguiente
Figura 4.9. Cuadro para definicin de Grfico en opcin Frecuencias.
105
En la figura siguiente se presenta el grfico respectivo.

Nivel educacional Grfico de Barras
140 120 100 80 60
Frecuencia
40 20 0 bsica media incompleta media completa universitaria comple posgrado capacitacin tcnica
nivel educacional
Grfico 4.7. Grfico de Barras variable Nivel educacional A continuacin, comprobaremos, en primer lugar, el ajuste de los datos a la distribucin uniforme, es decir se pondr a prueba la hiptesis nula de que en la poblacin los sujetos se reparten de forma uniforme entre los distintos niveles educacionales, esto es, en cada nivel existe la misma proporcin de individuos. Para ello se ha seleccionado la opcin Chi-cuadrado dentro de pruebas no paramtricas y se deja la opcin (por defecto) de todas las categoras iguales.
Nivel educacional N observado bsica media incompleta media completa capacitacin tcnica universitaria completa posgrado Total 2 53 85 120 123 56 439
Estadsticos de contraste N ivel ed u caciona l 14 4 .64 0 5 .0 00
N esperado 73.2 73.2 73.2 73.2 73.2 73.2
Residual -71.2 -20.2 11.8 46.8 49.8 -17.2
C hi-c ua drad o a gl S ig . asintt.
a. 0 casilla s (.0% ) tie nen frec ue ncias esp e ra d a s m e no re s q ue 5. La frecu encia de ca silla e spera da m nim a es 73.2 .
Cuadro 4.11. Prueba de Chi-cuadrado para variable Nivel educacional.
106
La baja probabilidad (p=0,000) asociada a la hiptesis nula lleva a rechazarla; entonces, los sujetos de la poblacin a la que pertenece la muestra no se reparten uniformemente entre los distintos niveles educacionales del caso de estudio. d) Anlisis Descriptivo de la Variable Edad El archivo de datos del caso de estudio contiene tambin la variable edad que es tratada como cuantitativa, por lo que en principio, podramos calcular todos los estadsticos para describirla. Sin embargo, cuando la distribucin es muy asimtrica, adems de la media, conviene usar la mediana como estadstico de tendencia central, y, como estadstico de variabilidad, la amplitud intercuartil (diferencia entre el percentil 75 y el percentil 25) en lugar de la desviacin tpica. La mediana es menos sensible que la media a la presencia de puntuaciones extremas, y por lo tanto, representa mejor la tendencia central de los datos. Si el cociente entre el estadstico de asimetra y su error tpico (en valor absoluto) es mayor que 1,96; podemos considerar la distribucin como muy asimtrica, como ocurre en este caso, pues 0,606/0,117=5,18. Tenemos una clara asimetra positiva: hay muchos sujetos con puntuaciones bajas y pocos con puntuaciones altas. Ello se puede observar en el histograma obtenido mediante la activacin de la secuencia Grfico/Histograma e indicndole que muestre la curva normal.
80
60
40
20 Desv. tp. = 13.20 Media = 37.4 0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 N = 439.00
EDAD
Grfico 4.8. Histograma variable Edad
107
Puesto que la variable es asimtrica, podemos usar la mediana como ndice de tendencia central y la amplitud intercuartil como ndice de variabilidad.
Estadsticos EDAD N Mediana Percentiles
Vlidos Perdidos 25 50 75
439 0 36.00 26.00 36.00 47.00
Cuadro 4.12. Estadsticos variable Edad. As, la mediana es 36,0 aos y la amplitud intercuartil 47 26 = 21 aos. La interpretacin es: el 50% o menos de los casos tiene 36 aos o menos, y, por otra parte, entre 26 y 47 (es decir, 21 aos) se encuentra comprendido el 50% central de los sujetos de la muestra Para examinar la normalidad de una variable, se puede usar la prueba de Kolmogorov-Smirnov (K-S). La secuencia que se activa es la siguiente: Analizar Prueba no paramtricas K-S de 1-muestra Edad
Figura 4.10 Cuadro de dilogo para definicin de Prueba de Kolmogorov-Smirnov.
108
El resultado revela que la significacin que nos da el K-S es menor que 0,05 (p=0,001), por lo cual tenemos que rechazar la hiptesis nula de que esta variable tiene una distribucin normal en la poblacin.
Prueba de Kolmogorov-Smirnov para una muestra EDAD 439 37.44 13.20 .091 .091 -.070 1.899 .001
N Parmetros normales a,b
Media Desviacin tpica Absoluta Positiva Negativa
Diferencias ms extremas Z de Kolmogorov-Smirnov Sig. asintt. (bilateral)
a. La distribucin de contraste es la Normal. b. Se han calculado a partir de los datos.
Prueba de Kolmogorov-Smirnov para una muestra N Parmetros normales EDAD 439 37.44 13.20 .091 .091 -.070 1.899 .001
a,b
Media Desviacin tpica Absoluta Positiva Negativa
Diferencias ms extremas Z de Kolmogorov-Smirnov Sig. asintt. (bilateral)
a. La distribucin de contraste es la Normal. b. Se han calculado a partir de los datos.
Cuadro 4.13. Resultados K-S.
109
Creacin de Submuestras para el Anlisis con SPSS Una vez realizado un estudio descriptivo univariante de cada una de las variables sobre las que se quiere realizar el estudio, se pasa a una segunda fase consistente en realizar un estudio descriptivo de varias variables en conjunto. En esta primera fase descriptiva podemos hacer dos cosas: 1. Calcular coeficientes descriptivos de las variables considerndolas en grupos de dos (coeficientes de correlacin, asociacin, tablas de contingencia, etc., se vern ms adelante). Si la naturaleza del problema lo permite, se puede estudiar el comportamiento de una variable numrica en distintos subconjuntos de la muestra. Este no es un anlisis multivariante propiamente dicho ya que no se involucra el estudio de varias variables en conjunto, pero se puede decir que la particin realizada por la variable de clasificacin genera nuevas variables, por lo que lo se puede considerar como un anlisis de varias variables.
2.
Por ejemplo, supongamos que se dispone de informacin sobre la variable estatura de una muestra. Si adems se cuenta con la informacin del sexo de los mismos individuos, se pueden crear dos nuevas variables o submuestras (altura de los hombres y altura de las mujeres) a las que se las puede someter tanto a estudios descriptivos por separado como a comparaciones entre las dos submuestras. En SPSS se utiliza la opcin Datos / Seleccionar casos en orden a procesar solamente los sujetos de sexo masculino de la base de datos de nuestro caso de estudio. Despus de activar las dos opciones anteriores aparece, el siguiente cuadro de dilogo. Se puede observar que el programa est trabajando con Todos los casos. En este punto seleccionaremos la opcin Si se satisface la condicin para indicarle al programa que solamente trabajaremos con los sujetos de sexo masculino.
110
Figura 4.11. Seleccionar casos. Esto se realiza en la siguiente pantalla:
Figura 4.12. Cuadro de dilogo para establecer la condicin.
En seguida se indica la condicin selectiva: Sexo = 1 (cdigo de los hombres)
111
Figura 4.13. Condicin para la variable sexo Al activar esta opcin, el cuadro de dilogo nos informa de esto:
Figura 4.14. Condicin establecida: sexo=1.
112
Como resultado de esta operacin, en el rea de Vista de datos se nos indica los sujetos no seleccionados, marcando el nmero del sujeto como se indica en la siguiente pantalla y en la Vista de Variables se crea una nueva variable filtro que permanecer activa hasta que decidamos eliminarla.
Figura 4.15. Variable filtro y demarcacin de los casos. Para restablecer la base de datos, o se elimina la variable o en el men Datos / Seleccionar casos se activa Todos los casos y se elimina la condicin previamente establecida.
113
Ejercicios Medidas de localizacin y dispersin 1. Una medida de tendencia central es una puntuacin que describe: a. todos los otros valores de la distribucin b. el valor ms importante de la distribucin c. el centro de la desviacin estndar d. el centro alrededor del cual tiende a localizarse la distribucin 2. La media NO describe adecuadamente una distribucin cuando: a. la distribucin es simtrica b. el valor ms repetido de la distribucin es muy alto c. la distribucin no tiene moda d. hay valores atpicos en la distribucin 3. Cuando se predice una puntuacin individual de la distribucin utilizando la media nos aseguramos que: a. el error total es cero b. no hay error en la prediccin c. no se necesita ninguna otra informacin d. la media coincide con la mediana y la moda 4. Qu medida se afecta menos con los valores atpicos? a. media b. amplitud c. amplitud intercuartil d. desviacin estndar
114
5. La medida de localizacin que ms se afecta con los valores atpicos es la: a. media b. mediana c. moda d. primer cuartil
6. Si todos los valores de una muestra son iguales entonces la desviacin estndar: a. es positiva b. es igual a cero c. es negativa d. no se puede calcular
7. Las medidas de dispersin tienen como propsito indicar: a. la variacin en un conjunto de datos b. el promedio de las desviaciones con respecto a la media c. la diferencia entre la media, la moda y la mediana d. la diferencia entre el centro y los extremos de la distribucin
8. Si en una distribucin se eliminan los valores atpicos entonces, qu le sucede a la desviacin estndar ? a. No se afecta b. Aumenta c. Disminuye d. No se puede determinar como va a cambiar
115
CAPTULO V
COMPARACIN DE DOS O MS POBLACIONES
La prueba de hiptesis sobre medias poblacionales es una de las aplicaciones ms usadas por los investigadores en el campo de las Ciencias Sociales. El uso de software estadstico, como es el caso del SPSS, ofrece una variedad de procedimientos capaces de realizar este tipo de anlisis. El SPSS, como la mayora de los programas estadsticos, trabaja inicialmente sobre arreglos rectangulares de datos (matrices de datos), donde las filas corresponden a los casos, mientras las columnas denotan las variables. De esta forma, la pregunta esencial que debemos resolver cuando vamos a comparar dos o ms medias poblacionales, empleando muestras aleatorias de las mismas, es si estas representan a procesos de muestreos independientes o relacionados. La segunda pregunta que deberemos resolver es si se quiere comparar las medias de dos o ms de dos grupos de casos.
COMPARACIN DE DOS POBLACIONES INDEPENDIENTES A continuacin se presentarn varias pruebas que tienen la finalidad de comparar dos poblaciones y que corresponden al procedimiento Analizar/Comparar Medias de SPSS.
116
Las poblaciones pueden ser independientes o dependientes y esta distincin se emplear en la presentacin.
Muestras Independientes Para la comparacin de las medias de dos poblaciones independientes respecto a una variable de inters empleando muestras aleatorias de las mismas, por ejemplo, la comparacin de hombres y mujeres respecto a los resultados en el test de autoestima , una de las pruebas estadsticas ms populares es la prueba T para muestras independientes, que est implementada en SPSS. La prueba T es una prueba paramtrica, o sea que slo sirve para comparar variables numricas de distribucin normal. Tambin, permite comparar las medias de dos categoras dentro de una misma variable. En caso de tener que analizar variables numricas de distribucin no normal, se debe utilizar otro tipo de pruebas, del grupo de las no paramtricas, como la prueba U de Mann Withney, la cual emplea rangos de las observaciones muestrales. La matriz de datos debe estar configurada como es habitual, es decir, debe existir una columna para los datos de la variable de inters y una segunda columna con los cdigos. Tambin, pueden compararse dos variables ubicadas en diferentes columnas en la matriz de datos.
Ejemplo Asumamos que se est estudiando los efectos del involucramiento de los padres (variable independiente) en los puntajes de un test de los estudiantes (variable dependiente). La mitad de los alumnos de octavo ao fueron asignados aleatoriamente al grupo en que se involucr a los padres. El profesor contact a los padres de estos estudiantes a travs del
117
ao y les cont sobre los objetivos educacionales que se perseguan. La otra mitad de los estudiantes del curso se asignaron al grupo que no involucr a los padres. Los puntajes de la primera prueba fueron tabulados para todos los nios y se procedi a su procesamiento. La hiptesis nula establece que las medias de los puntajes, en el test, de alumnos con padres involucrados es igual a la media de los puntajes de los alumnos con padres no involucrados.
Figura 5.1. Etiquetas de valores. Despus de activar Analizar/Comparar medias/ Prueba T para muestras independientes se defini las variables:
Figra 5.2. Prueba T para muestras independientes
118
El resultado es el siguiente:
Estadsticos de grupo Invo lu cra m ie nto de los pa dres involu cra d o no invo lu cra d o E rro r tp . d e la m ed ia 3 .8 1 4 2 .8 9 9
N 8 8
P U N TA J E
M e d ia 8 2.2 88 7 1.0 00
D e sv ia c i n tp . 1 0.7 88 8 .2 0 0
P rueba de m uestras indep endientes P rue b a d e L eve ne pa ra la igu a lda d d e v a ria nza s
P rue b a T p ara la igu alda d d e m ed ias 9 5% Interv a lo d e c o nfia n za pa ra la d iferen cia In fe rio r S up e rio r 1 .01 2 .9 43 2 1.5 63 2 1.6 32
F P U N TA JE S e h an asu m id o v a ria nza s ig ua les N o s e h an a s u m id o v a ria nza s ig ua les .3 37
S ig . .5 71
t 2 .35 6 2 .35 6
gl 14 1 3.0 65
S ig . (bila te ral) .0 34 .0 35
D ife re nc ia d e m e dias 11.2 87 11.2 87
E rro r tp. d e la dife re nc ia 4 .79 1 4 .79 1
Cuadro 5.1. Resultados prueba T para muestras independientes. La segunda tabla presenta la prueba de Levene para varianzas iguales, que evala el supuesto bsico de la prueba T de que la varianzas de las dos poblaciones de las que provienen las muestras son aproximadamente iguales (hiptesis nula de homogeneidad de varianzas). En este caso, no se ha violado el supuesto, pues estadstico F=0,337 tiene un valor p=0,571 (mayor que 0,05) y debera usarse la t de 2,356 con 14 grados de libertad y el nivel de significacin de 0,034. Por lo tanto, se rechaza la hiptesis nula sobre igualdad de puntajes medir poblacionales (pues valor p=0,034 es menor a 0,05). En conclusin, los datos muestran que el involucramiento de los padres tiene un efecto significante en los puntajes obtenidos por los estudiantes. Aplicacin al Caso en Estudio Volviendo al caso en estudio, se estudiar la relacin entre el sexo de los sujetos (variable categrica) y el puntaje total obtenido en la escala de autoestima (variable numrica). La secuencia de pasos en SPSS es:
119
Analizar Compare Medias Prueba T para muestras independientes Total autoestima Sexo 1 2
Figura 5.3. Cuadro de dilogo prueba T para muestras independientes. En la ventana Prueba T para muestras independientes, se selecciona las variables total autoestima y se coloca en el espacio Contrastar variables. En seguida, se selecciona la variable sexo como Variable de agrupacin. Se activa Definir grupos. Aparecer la siguiente ventana:
Figura 5.4. Cuadro de definicin de grupos.
120
En la ventana Definir grupos se selecciona Usar valores especificados y en Grupo 1 se escribe 1 (hombre) y en Grupo 2, se escribe 2 (mujer). Se activa Continuar para regresar a la ventana Prueba T para muestras independientes. En esta ventana se selecciona Opciones y En Intervalo de Confianza se escribe 95. Se activa Continuar para regresar a la ventana Prueba T para muestras independientes. El resultado es el siguiente:
Estadsticos de grupo se x o h om bre s m u jere s N 1 84 2 52 M e d ia 3 4.0 2 3 3.1 7 D e sv ia ci n tp. 4 .9 1 5 .7 1 E rro r tp . d e la m ed ia .36 .36
tota l a u toe stim a
Prueba de m uestras independientes Prueba de Levene para la igua ld ad d e varianzas
Prueba T para la igu aldad d e m edias 95 % Intervalo de confianza pa ra la diferencia Inferior Sup erior -.18 -.16 1.8 7 1.8 5
F total autoestim a Se han a sum ido varianzas iguales N o se ha n asu m ido varianzas iguales 3.5 06
Sig. .06 2
t 1.6 22 1.6 61
gl 43 4 42 2.349
Sig. (bilateral) .10 5 .09 8
D ife rencia de m ed ias .85 .85
Error tp . de la diferencia .52 .51
Cuadro 5.2. Resultados descriptivos y prueba t Student. La salida del SPSS nos ofrece en primer lugar, las medias de ambos grupos y las desviaciones tpicas. Tambin da el resultado de la prueba de Levene para contrastar la hiptesis de igualdad de varianzas. Si la probabilidad asociada a esa prueba es 0,05 o menos, se tiene que rechazar la hiptesis nula de que las varianzas son iguales; en caso contrario, se mantiene. En este caso, no podemos rechazar la hiptesis de igualdad de varianzas pues el valor p (sig.) es 0,062 y es mayor al 5%. Por lo anterior, para contrastar la diferencia de medias, se elige la alternativa con el supuesto de varianzas iguales, cuyo
121
valor t=1,622 tiene una probabilidad asociada (valor p, sig. Bilateral) de 0,105 la cual, otra vez, al ser mayor que 0,05 hace no rechazar la hiptesis nula de que las medias poblacionales son iguales; luego, no hay diferencia significativa entre las medias de ambos grupos. Por lo tanto, el nivel medio de autoestima es igual para hombres y mujeres. POBLACIONES RELACIONADAS O DEPENDIENTES Existe una segunda alternativa para contrastar dos medias. sta se refiere al supuesto caso en el que las dos poblaciones no sean independientes, es decir, el caso en el que se trate de poblaciones relacionadas. Esta situacin se encuentra, por ejemplo, en los diseos apareados, diseos en los que los mismos individuos son observados antes y despus de una determinada intervencin o en los diseos en los que las muestras son emparejadas de acuerdo a una serie de variables para controlar su efecto (como por ejemplo en los diseos de casos y controles). La prueba t para muestras relacionadas se utiliza para comparar las medias de un mismo grupo en diferentes etapas, como por ejemplo pre y post tratamiento, o para comparar muestras emparejadas. Para la realizacin de este anlisis, las dos muestras deben estar en dos variables distintas de la matriz de datos y debe formarse la pareja de muestras antes de poder aadirse la comparacin a la lista de variables relacionadas del cuadro de dilogo. La estructuracin de datos es ahora diferente. Lo que representamos es una variable analizada en dos momentos distintos, y la forma de expresarlo es como si tuvisemos dos variables medidas para cada caso. Por ejemplo, podemos llamarlas Prueba1 y Prueba2, resultando una estructuracin de datos semejante a la siguiente:
122
Prueba1 4,50 4,70 4,30 4,60 5,60 6,00
Prueba2 4,90 5,20 6,20 5,00 7,30 8,30
El analista selecciona: Analizar Comparar medias Prueba T para muestras relacionadas pretest (prueba1) postest (prueba2)
Figura 5.5. Cuadro prueba T para muestras relacionadas. En seguida indica el intervalo de confianza, activando Opciones:
Figura 5.6. Cuadro para fijar el intervalo de confianza.
123
Los resultados sern los siguientes:

Estadsticos de m uestras relacionadas D e sv ia ci n tp. 6 6 .68 3 4 1 .3 9 53 E rro r tp . d e la m ed ia .27 9 0 .56 9 6
Par 1
PRUEBA1 PRUEBA2
M e d ia 4 .9 5 00 6 .1 5 00
Correlaciones de m uestras relacionadas N Par 1 PRUEBA1 y PRU EBA2 6 C o rre la ci n .8 76 S ig. .0 22
Prue ba d e m ue stra s relacionad as D ife renc ias relac ion adas 95% Inte rva lo d e c onfianz a p ara la diferencia Inferior S up erior -2.1052 -.2948
M edia P ar 1 P R U E B A 1 - P RU E B A 2 -1.2000
D esviacin tp. .8626
E rro r tp . de la m edia .3521
t -3.408
gl 5
S ig. (bilateral) .019
Cuadro 5.3. Resultado estadsticos prueba T Student para muestras relacionadas. El promedio de las diferencias es 1,2 y tiene un t= -3,408 el cual est asociado con un valor p (sig.) de 0,019 el cual es menor que el 5%. Por lo anterior, se rechaza la hiptesis nula que establece la igualdad de las medias poblacionales. Basados en estos resultados, podramos decir que el tratamiento produjo en el grupo una diferencia estadsticamente significativa entre la prueba1 y la prueba2, siendo la media del postest (prueba2) superior a la media del pretest (prueba1).
COMPARACIN DE MS DE DOS POBLACIONES Anlisis de varianza (ANOVA) El anlisis de varianza (ANOVA) es un mtodo de anlisis que puede aplicarse cuando el investigador est tratando con una variable dependiente, medida en forma en escala de razn o
124
intervalo, y una o ms variables independientes medidas en forma nominal u ordinal. Este tipo de anlisis es la base de los diseos experimentales tradicionales. El procedimiento permite examinar medias de dos o ms grupos y establecer la existencia de diferencias estadsticamente significativas. Su objetivo es comparar medias y la comparacin se realiza mediante un cociente entre varianzas. La varianza se puede descomponer en varianza entre grupos y varianza dentro de grupos. La varianza entre grupos mide la dispersin atribuible al efecto de la variable experimental. La variable experimental es la variable independiente. La varianza entre grupos es la variacin de la media de que cada grupo respecto a la media total. Esta variacin se produce en virtud de que cada grupo est sometido a un tratamiento distinto. Los distintos tratamientos generan diferencias en las puntuaciones de la variable dependiente. El ANOVA es una prueba semejante a la prueba t Student, en cuanto a la prctica, pero la comparacin entre grupos no es a travs de la media y su desviacin estndar, sino a travs de la varianza de la variable numrica y, en cada grupo de la variable categrica x. Bsicamente el Anlisis de Varianza, se utiliza para corroborar si la significacin de diferencias entre medias de dos o ms grupos, son o no debidas al azar. El estadstico de prueba empleado en el Anova es la razn F. Suponiendo que se analizan 2 grupos, el ANOVA analiza las variaciones entre los dos grupos (inter-grupal) y la compara con la variacin dentro de cada grupo (intra-grupal), para obtener mediante el cociente de sumas de cuadrados el valor de F. Si las diferencias de varianza entre cada grupo son mayores que las intra-grupales, seguramente existen diferencias significativas entre los grupos que no son debidas al azar. Los grupos se definen como en la prueba t, eligiendo una variable categrica. La variable por analizar debe ser numrica y de distribucin normal.
125
Tambin existe un modelo de anlisis de varianza multivariado, llamado MANOVA, en el cual se comparan ms de una variable numrica en dos o ms grupos. En caso de tener que analizar las medias de variables numricas cuya distribucin no es normal, se debe apelar a las pruebas no paramtricas siendo la prueba de Kruskal Wallis una de las ms utilizadas. La lgica del razonamiento es que cuando la dispersin producida por efecto de los tratamientos de la variable experimental es menor que la dispersin producida por los efectos ajenos a la variable experimental, cabe deducir que los tratamientos producen un efecto similar y las medias son iguales. En sentido contrario, si el efecto de los tratamientos de la variable experimental produce una dispersin mayor que la debida a efectos ajenos a la variable experimental, cabe deducir que los tratamientos producen efectos distintos y las medias son diferentes. Ejemplo Se requiere determinar si al aplicar 3 mtodos de enseanza de metodologa de la investigacin en la Universidad, se producen resultados diferentes que se comprueban aplicando una prueba final Mtodo 1. El profesor no desarrolla ni asigna problemas. Mtodo 2. El profesor desarrolla y asigna problemas. Mtodo 3. El profesor desarrolla y asigna problemas. Adems los estudiantes deben desarrollar un proyecto basado en los temas explicados y comentados en clase. El mismo profesor le ensea a 3 secciones diferentes de estudiantes, y usa uno de estos 3 mtodos en clase. Los estudiantes son asignados aleatoriamente a las 3 secciones. Solamente hay 12 estudiantes en el experimento 4 en cada una de las diferentes secciones. La matriz de datos es la siguiente:
126
Estudiante 1 2 3 4 Total
Mtodo 1 16 21 18 13 68
Mtodo 2 19 20 21 20 80
Mtodo 3 24 21 22 25 92
El formato de ingreso de los datos en SPSS es: Mtodo 1 1 1 1 2 2 2 2 3 3 3 3 Puntaje 16 21 18 13 19 20 21 20 24 21 22 25
En SPSS, se debe ingresar los datos en columnas por mtodo de enseanza y por puntaje. Se puede sealar que el mtodo de enseanza es la variable independiente (VI) con tres tratamientos como valores; mientras que el puntaje final es la variable dependiente (VD) con los puntajes de los estudiantes como valores. La secuencia que se activa es la siguiente: Analizar Comparar medias ANOVA de un factor Factor: mtodo de enseanza Dependientes: puntajes
127
Los resultados entregados pos SPSS son: Estadsticos Descriptivos

95% Intervalo de Confianza al 95% N Media Desv. Error Lmite Lmite Mnimo Mximo Est. Est. Superior Inferior
1 4 17.00 3.37 1.68 2 4 20.00 .82 .41 PuntajeMtodos 3 4 23.00 1.83 .91 Total12 20.00 3.28 .95
11.64 18.70 20.09 17.92
22.36 21.30 25.91 22.08
13 19 21 13
21 21 25 25
ANOVA
Suma de los Cuadrados Entre Grupos 72.000 Intra Grupos 46.000 Total 118.000 Media F Sig. gl Cuadrtica 2 36.000 7.043 .014 9 5.111 11
Puntaje
Cuadro 5.4. ANOVA La hiptesis nula H o seala que los 3 mtodos no son significativamente diferentes, medidos a travs de los puntajes medios en la prueba final; dicho de otro modo ellos, son igualmente efectivos en mejorar el desempeo de los estudiantes. La hiptesis alterna Ha seala que el puntaje promedio es significativamente diferente y que la diferencia entre ellos se debe al diferente grado de efectividad de los tratamientos aplicados (mtodos de enseanza). El nivel de significacin empleado es alfa = 0,05. Comparando el valor de probabilidad (valor p) que en SPSS aparece como (sig) de 0,014 con respecto a 0,05, se observa que es menor, lo que significa que la prueba es fuertemente significativa al 5%; entonces, Ho debe ser rechazada con ese nivel de significacin.
128
Basados en los resultados experimentales pareciera que los 3 mtodos de enseanza no tendran el mismo efecto en el rendimiento final de los estudiantes. El tercer mtodo de enseanza aparentemente es superior. Esto se puede verificar mediante la realizacin del procedimiento de comparaciones mltiples, como se presenta en el ejemplo siguiente, correspondiente al caso en estudio sobre autoestima.
Aplicacin al Caso en Estudio A continuacin, se analizar la hiptesis nula que no hay diferencia en el puntaje total de la autoestima (variable numrica, dependiente) entre los grupos de edades a los que pertenecen los sujetos (variable cualitativa, independiente). Se selecciona:
Analizar Comparar Medias ANOVA de un factor Factor: edad 3 grupos Dependientes: Total autoestima
Figura 5.7. Cuadro de dilogo para definir la ANOVA de un factor.
129
En la ventana ANOVA de un factor se selecciona la variable edadgp3 (tres grupos de edades) y se coloca en el espacio para Factor. Se selecciona la variable total autoestima como Dependiente. Se activa la opcin Post hoc. Aparecer la siguiente ventana.
Figura 5.8.. Cuadro definicin comparaciones post hoc. En la ventana ANOVA de un factor: Post Hoc Comparaciones Mltiples se selecciona Tukey en la seccin Asumiendo varianzas iguales. En nivel de significacin, seleccionar .05. Se activa Continuar para regresar a la ventana ANOVA de un factor. En seguida se activa Opciones y aparece el siguiente recuadro:
Figura 5.9. Cuadro de definicin de varianzas.
130
En la ventana ANOVA de un factor: Opciones, en la seccin Estadsticos, seleccionar Homogeneidad de varianzas y en la seccin Valores Perdidos seleccionar Excluir casos segn anlisis. Se activa Continuar para regresar a la ventana ANOVA de un factor. El resultado es el siguiente:
Prueba de homogeneidad de varianzas total autoestima Estadstico de Levene 1.303
total autoestima Suma de cuadrados Inter-grupos 258.075 Intra-grupos 12402.475 Total 12660.550 gl 2 433 435
gl1 2
ANOVA
gl2 433
Sig. .273
Media cuadrtica 129.038 28.643
F 4.505
Sig. .012
Comparaciones mltiples Variable dependiente: total autoestima HSD de Tukey Diferencia de medias (I-J) -.99 -1.91* .99 -.92 1.91* .92 Intervalo de confianza al 95% Lmite inferior Lmite superior .245 .008 .245 .315 .008 .315 -2.43 -3.40 -.46 -2.40 .42 -.57 .46 -.42 2.43 .57 3.40 2.40
(I) edad 3 grupos 18-29
30-44
45+
(J) edad 3 grupos 18-29 30-44 45+ 18-29 30-44 45+ 18-29 30-44 45+
Error tpico .62 .64 .62 .63 .64 .63
Sig.
*. La diferencia entre las medias es significativa al nivel .05.
total autoestima HSD de Tukey

a,b
Subconjunto para alfa = .05 edad 3 grupos 18-29 30-44 45+ Sig. N 149 152 135 1 32.60 33.59 .258 2 33.59 34.50 .310
Se muestran las medias para los grupos en los subconjuntos homogneos. a. Usa el tamao muestral de la media armnica = 144.943. b. Los tamaos de los grupos no son iguales. Se utilizar la media armnica de los tamaos de los grupos. Los niveles de error de tipo I no estn garantizados.
Cuadro 5.5. Resultados anlisis de varianza en SPSS.
131
Los resultados anteriores permiten no rechazar la hiptesis de igualdad de varianzas de los puntajes de autoestima, entre los grupos de edad (Levene=1,303 con valor p=0,273, mayor que 0,05). Los resultados de ANOVA permiten rechazar la hiptesis que los promedios de puntajes en los distintos niveles de edad son iguales (F=4,505 con valor p=0,012, menor que 0,05). Los resultados de las comparaciones mltiples, segn el mtodo de Tukey, sealan que slo hay una diferencia significativa y es entre los puntajes medios de autoestima para los grupos de 45 y ms aos y 18 a 29 aos (dif=-1,91 con valor p=0,008, menor que 0,05). La diferencia 1,91indica que el grupo de 45 y ms aos tiene un puntaje medio superior al de 18 a 29 aos. A continuacin se presentan otras mtodos de comparaciones mltiples post-hoc. Los ms usados son los de Scheff, Tukey, y Newman-Keuls (S-N-K). Todos ellos corrigen el error tipo I cuando se realizan mltiples comparaciones (disminuyen la probabilidad de que aparezca como significativa una diferencia que no lo es). La mayor correccin de este error se consigue, utilizando el contraste de Bonferroni.
Figura 5.10. Contrastes de Bonferroni, Scheffe y Tukey.
132
Comparaciones mltiples Variable dependiente: total autoestima Diferencia de medias (I-J) -.99 -1.91* .99 -.92 1.91* .92 Intervalo de confianza al 95% Lmite inferior Lmite superior -2.43 -3.40 -.46 -2.40 .42 -.57 .46 -.42 2.43 .57 3.40 2.40
HSD de Tukey
(I) edad 3 grupos 18-29
30-44
45+
Scheff
18-29
30-44
45+
Bonferroni
18-29
30-44
45+
(J) edad 3 grupos 18-29 30-44 45+ 18-29 30-44 45+ 18-29 30-44 45+ 18-29 30-44 45+ 18-29 30-44 45+ 18-29 30-44 45+ 18-29 30-44 45+ 18-29 30-44 45+ 18-29 30-44 45+
Error tpico .62 .64 .62 .63 .64 .63
Sig. .245 .008 .245 .315 .008 .315
-.99 -1.91* .99 -.92 1.91* .92
.62 .64 .62 .63 .64 .63
.278 .012 .278 .350 .012 .350
-2.50 -3.47 -.53 -2.47 .34 -.64
.53 -.34 2.50 .64 3.47 2.47
-.99 -1.91* .99 -.92 1.91* .92
.62 .64 .62 .63 .64 .63
.330 .009 .330 .443 .009 .443
-2.47 -3.43 -.49 -2.44 .38 -.60
.49 -.38 2.47 .60 3.43 2.44
*. La diferencia entre las medias es significativa al nivel .05.
total autoestima Subconjunto para alfa = .05 1 2 32.60 33.59 33.59 34.50 .258 .310 32.60 33.59 33.59 34.50 .292 .345
HSD de Tukey
a,b
Scheff
a,b
edad 3 grupos 18-29 30-44 45+ Sig. 18-29 30-44 45+ Sig.
N 149 152 135 149 152 135
Se muestran las medias para los grupos en los subconjuntos homogneos. a. Usa el tamao muestral de la media armnica = 144.943. b. Los tamaos de los grupos no son iguales. Se utilizar la media armnica de los tamaos de los grupos. Los niveles de error de tipo I no estn garantizados.
Cuadro 5.6. Resultados de la ejecucin de las pruebas de contraste. En el cuadro anterior se puede observar que, con cualquiera de los contrastes post-hoc utilizados, las diferencias significativas son las mismas indicadas antes.
133
CAPTULO VI
ANLISIS BIVARIADO
La estadstica bivariada analiza la relacin entre dos variables. Estas dos variables pueden estar al mismo nivel, o bien una de ellas puede ser categrica y la otra cuantitativa.
ASOCIACIN Y PRUEBA DE CHI-CUADRADO Cuando es necesario describir la relacin entre dos variables cualitativas, el formato preferido de presentacin de la informacin es la tabla de contingencia, bivariable o bidimensional Hay tres aspectos relacionados con el proceso de describir la asociacin entre dos variables. Primero, el concepto de asociacin mismo y las caractersticas de una asociacin. Segundo, el proceso de construccin y diseo de tablas cruzadas. Tercero, el anlisis de tablas cruzadas y la necesidad de desarrollar una medida que describa la asociacin entre las variables tabuladas y sus caractersticas.
Concepto de Asociacin Se dice que existe asociacin entre dos variables cuando las distribuciones de una variable no son iguales a lo largo de las distribuciones de la otra variable. Existen, por lo menos, tres formas de determinar si hay asociacin en la tabla. Por supuesto, todas ellas estn relacionadas entre si. Cuando se trabaja con dos variables a la vez, se dice que
134
se est trabajando con distribuciones de frecuencias condicionales. Con esto se quiere decir decir que una tabla nos permite examinar no slo la distribucin general de una variable cualitativa, sino que tambin nos permite ver las condiciones que afectan como esa variable est influida por otra. Caractersticas de la Asociacin Una asociacin puede tener las siguientes caractersticas: existencia, intensidad, direccin y forma. Examinemos cada una de stas. 1. Existencia Se dice que existe asociacin si las distribuciones de una variable son o no iguales a lo largo de las distribuciones de la otra variable. Se utilizan para establecer asociacin: el porcentual y el modelo de independencia o no asociacin. Intensidad - Se dice que la asociacin en la tabla es fuerte cuando la variable dependiente se distribuye de manera diferente entre las distintas condiciones de la variable independiente. Cuando esto no ocurre, esto es, cuando los valores de la variable dependiente se distribuyen aproximadamente igual entre los valores de la variable independiente, la asociacin es dbil. En el caso de los datos que se examinan previamente, el gnero de la persona no influye sobre la preferencia religiosa. Direccin de la asociacin - Cuando las variables en la tabla son por lo menos ordinales, podemos hablar de la direccin de la asociacin. Cuando las frecuencias de las categoras altas de la variable independiente se asocian con las frecuencias altas (o las bajas con las bajas) de la variable dependiente, se dice que la asociacin es positiva. Cuando las frecuencias bajas se asocian con las altas, se dice que la asociacin es negativa. Por ejemplo, normalmente esperamos que a ms alto es
2.
3.
135
la educacin de una persona, mayor sea su ingreso. Esta es una relacin positiva. Por el otro lado, tambin esperamos que el tamao de la familia decrezca con el nivel de ingreso. A mayor ingreso, menos hijos se tienen. Esta es una relacin negativa. 4. Forma de la asociacin - La asociacin en una tabla puede ser de dos tipos: lineal o curvilnea. En el primer caso, se observa un patrn escalonado de progresin en la concentracin de casos en la variable dependiente, segn nos movemos a las categoras ms altas de la variable independiente. En la relacin curvilnea, se observa primero una progresin escalonada segn nos movemos a las categoras ms altas de la variable independiente y luego un descenso escalonado en el patrn de los casos. En ambos casos, sera posible tirar una lnea a lo largo de las categoras de la tabla para detectar el patrn. La mejor forma de hacer esto es subrayando los por cientos ms altos en cada fila de la variable dependiente y ver que direccin toman.
A menudo, hay que trabajar con variables categricas y se puede estimar necesaria hacer preguntas que relacionen las variables. As por ejemplo, se puede preguntar si hay diferencias de autoestima en personas de diferente origen social. En una encuesta se puede examinar diferentes opiniones hacia el aborto y examinar si existen diferencias entre hombres y mujeres. Para examinar este tipo de relacin se emplea la prueba de Chicuadrado y se aplican los siguientes supuestos: 1. 2. 3. Se categorizan sujetos con respecto a una sola variable que tiene dos o ms categoras. Cada sujeto aparece una sola vez y en una sola categora. Cada asignacin a una categora es independiente de cualquier otra asignacin. (El que un sujeto se asigne a
136
una categora no tiene nada que ver con cmo se asigna otro sujeto). 4. 5. Los clculos se hacen con todos los sujetos del estudio. La frecuencia esperada (fe) en cada celda es igual o mayor de 5.
Ejemplo Se desea estudiar si la preferencia religiosa de una persona (variable dependiente) est afectada por su gnero. La teora que se sustentara sera que los hombres tienen preferencias religiosas distintas a las mujeres. Veamos los siguientes datos de prueba para 50 sujetos a los que se le ha preguntado su religin (c=catlico, p=protestante) y su genro (m=mujer, h=hombre). La secuencia que se activa es: Analizar Estadistica descriptiva Tablas de contingencia Sexo (columnas) Religiosidad (filas) Casillas Columna Estadstico Chi-cuadrado
Tabla de contingencia Religiosidad * Sexo del sujeto S exo del su je to h m R eligiosidad c p Tota l R ecue nto % de S exo de l s ujeto R ecue nto % de S exo de l s ujeto R ecue nto % de S exo de l s ujeto 9 47.4 % 10 52.6 % 19 100 .0% 13 41.9 % 18 58.1 % 31 100 .0% Tota l 22 44.0 % 28 56.0 % 50 100 .0%
137
P ruebas de chi-cu ad rad o Valor C hi-c uad rad o de P earson C orrec ci n po r c ontinuida da R az n de v eros im ilitud E stad stico e xac to d e F is her A soc ia ci n line al p or line al N de cas os v lid os .14 1 b .00 7 .14 1 gl 1 1 1 S ig . a sin ttica S ig . e xac ta (bilate ral) (bilate ral) .70 7 .93 5 .70 7 .77 4 .46 6 S ig . e xac ta (un ilatera l)
50
a. C alcu lad o s lo p ara un a tabla de 2x2 . b. 0 c as illas (.0 % ) tien en u na frec u en c ia e spe rad a in ferio r a 5. L a frec uen cia m nim a es pera da es 8.36.
Cuadro 6.1 Pruebas de Chi-cuadrado. El analista llega a la conclusin de que para esta muestra no se podra sustentar que los hombres tienen preferencias religiosas distintas a las mujeres. Aplicacin al Caso en Estudio En el caso del archivo de nuestro caso de estudio se puede relacionar la variable sexo con la variable dicotmica fuma/no fuma. Entonces, supongamos que queremos determinar si existe una relacin estadsticamente significativa entre el sexo del sujeto y si fuma o no fuma ya que en el libro de cdigos, el investigador se ha planteado la hiptesis alterna que vincula estas dos variables. Ambas variables son categricas.
Figura 6.1. Cuadro de dilogo de SPSS para Tablas de Contingencia.
138
Tabla de contingencia sexo * fumador(a) R ecuento s sexo Total hom bres m ujeres fum ador(a) no 33 151 52 200 85 351 Total 184 252 436
Cuadro 6.2. Resultado Tabla de Contingencia: sexo*fumador(a). La relacin entre las dos variables se realiza aplicando una prueba de asociacin para variables categricas. La ms usado es la chi-cuadrado y la transformacin de este en el coeficiente de contingencia. El coeficiente de contingencias se rige por las mismas reglas de la correlacin y las mediciones del ndice correspondiente fluctan entre + 1 y 1, pasando por el cero, donde ste ltimo significa que no hay correlacin entre las variables estudiadas y los dos primeros la correlacin mxima. La prueba chi-cuadrado es del tipo no paramtrica y por lo tanto, no requiere de presupuestos acerca de la distribucin poblacional (aceptan distribuciones no normales). Si las variables son dicotmicas puede utilizarse tambin el coeficiente de correlacin phi. El estadstico chi-cuadrado no debe utilizarse si hay alguna frecuencia esperada menor que 1, o si el 20% de las celdas tiene frecuencias esperadas menores que 5.
P ru e b a s d e ch i-c u ad rad o Va lo r C h i-c u a d ra d o d e P e a rs o n C o rr e c c i n p o r c o n tin u id a da R a z n d e v e r o s im ilitu d E s ta d s tic o e x a c to d e F is h e r A s o c ia c i n lin e a l p o r lin e a l N d e c a s o s v lid o s .4 9 4 b .3 3 7 .4 9 7 gl 1 1 1 S ig . a s in t tic a (b ila te ra l) .4 8 2 .5 6 2 .4 8 1 .5 4 1 .4 9 3 4 36 1 .4 8 3 .2 8 2 S ig . e x a c ta (b ila te ra l) S ig . e x a c ta (u n ila te r a l)
a . C a lc u la d o s lo p a ra u n a ta b la d e 2 x 2 . b . 0 c a s illa s (.0 % ) tie n e n u n a fre c u e n c ia e s p e ra d a in fe rio r a 5 . L a fr e c u e n c ia m n im a e s p e r a d a e s 3 5 .8 7 .
Cuadro 6.3. Resultados Pruebas de chi-cuadrado.
139
M ed idas sim trica s Va lo r N o m ina l p o r n o m in a l N d e ca so s vlido s C o e ficien te de co n tin g e n cia .0 34 436 E rror tp. a s in t.
a
T a p roxim a d a
S ig . a p ro xim ad a .4 82
a . A su m ie nd o la h ip tes is a lte rna tiva . b . E m p le an d o e l e rro r tp ico a sint tico ba sa d o e n la h ip tesis n u la .
Cuadro 6.4. Medidas simtricas. Si el valor de chi-cuadrado resulta estadsticamente significativo (p<0,05), se puede afirmar con un nivel de confianza del 5% que las dos variables estn relacionadas. En el ejemplo, el valor de chi-cuadrado es 0,494 y no es significativo pues su valor p=0,482 es mayor que 0,05. Por lo tanto, no se rechaza la hiptesis nula: ambas variables no estn relacionadas. Esto significa que las personas fumen o no, no depende del sexo. Ahora examinaremos si existe una relacin entre el sexo del sujeto (variable categrica) y la fuente de estrs (variable categrica):
Tabla d e conting encia sexo * fuen te d el estrs R e cu en to fu en te de l e strs trab ajo se xo To ta l h om bres m uje res 110 114 2 24 e spo sa 3 9 12 re lac ion es 5 7 12 n io s 5 20 25 fa m ilia 6 21 27 sa lud /enfe rm e da d 6 14 20 vid a en g ene ral 13 19 32 8 24 30 54 9 7 9 16 To ta l 1 79 2 43 4 22
P rue bas de chi-cua drad o Valor C h i-c ua d ra d o d e P e ar s o n C o rrec ci n p o r c o n tin u id ad R a z n d e v ero sim ilitu d A so c ia ci n line a l p or lin e a l N d e c a s o s v lid o s 1 6.6 5 7 a gl 8 S ig . a s in t tic a (b ilate ra l) .0 3 4
1 7.6 0 7 2 .5 5 6 4 22
8 1
.0 2 4 .11 0
a . 0 c as illa s (.0 % ) tie ne n un a fr ec u e n c ia e s p e ra d a in fe rio r a 5 . La fre c u en cia m n im a e s p erad a e s 5 .09 .
M edidas sim tricas Valor N om inal por no m inal N de casos vlidos C oeficiente de contingencia .195 42 2 E rror tp. asint.
a
T aproxim ada
S ig. ap roxim ada .034
a. A sum iendo la hiptesis alternativa. b. E m pleando el error tpico asinttico basado en la hiptesis nula.
Cuadro 6.5. Resultados relaciones entre variables.
140
El valor de chi-cuadrado resulta estadsticamente significativo (p<0,05) a un nivel del 5%. Por lo tanto, se rechaza la hiptesis nula, ambas variables estn relacionadas, la fuente de estrs est relacionada con el sexo. En trminos de precauciones con respecto al uso de esta prueba, habra que sealar que hay que contar con un tamao de muestra lo bastante grande para garantizar la semejanza entre la distribucin tericamente correcta y la distribucin de muestreo. Cuando las frecuencias esperadas resultan demasiado pequeas, el valor de la chi-cuadrado ser sobrestimado y dar origen a rechazos de la hiptesis nula.
CORRELACIN LINEAL Cuando se tienen observaciones formadas por una pareja de valores a partir de dos variables, surge la pregunta o necesidad de conocer acerca de si las variables estarn o no relacionadas y qu tan fuerte es esa relacin. Para saber esto, generalmente se piensa en obtener un coeficiente de correlacin que nos indique el grado de relacin lineal entre las variables, pero debe tenerse cuidado de no interpretarlo como una medida de la relacin causal entre las variables y tambin tomar en cuenta que si la relacin no es lineal, la correlacin no detecta la relacin existente entre las variables. En la estadstica paramtrica, se puede calcular el coeficiente de correlacin de Pearson, que se puede aplicar a variables que se miden en escala de intervalo o razn, pero bajo el supuesto de que los datos se distribuyen en base a una distribucin normal bivariada, pero cuando esto no se cumple, o cuando la escala de medida solamente es ordinal, es preferible usar una medida de asociacin de las que se tienen en la estadstica no paramtrica. El coeficiente de correlacin lineal mide el grado de relacin lineal que existe entre dos variables. Supongamos que queremos
141
estudiar la correlacin existente entre peso y altura de un grupo de personas tomadas al azar. Sometemos los datos recogidos de peso y altura al anlisis de correlacin y encontramos el coeficiente de correlacin entre ambas, que se representa con la letra r. Suponiendo que r = 0.78. Esto significa que a mayor altura, correspondera mayor peso. El coeficiente de correlacin de Pearson (r) es un ndice que mide la magnitud de la relacin lineal entre 2 variables cuantitativas, as como el sentido, positivo o negativo, de dicha relacin. Indica en qu grado, 2 variables X e Y fluctan simultneamente, es decir cunto aumenta X al aumentar Y (correlacin positiva), o cunto aumenta X al disminuir Y (correlacin negativa). A diferencia de la regresin lineal, el coeficiente de correlacin no presupone dependencia de una variable respecto a la otra; X e Y se sitan a un mismo nivel. Asimismo, la existencia de correlacin lineal entre 2 variables no implica necesariamente una relacin causal entre ellas, sino que se limita a explicar su covariacin. Los coeficientes de correlacin r siempre oscilan entre valores de -1 y 1. El valor cero (0) significa que las variables son independientes, esto es, no existe relacin lineal entre ellas. Un valor positivo indica que a incrementos en la variable X, se producen incrementos proporcionales en Y, mientras que un valor negativo indica que al aumentar X, la variable Y tiende a disminuir. Para interpretar el coeficiente de correlacin, Colton ha dado los siguientes lineamientos generales: Valor de r de 0 a 0.25 implica que no existe correlacin entre ambas variables. Valor de r de 0.25 a 0.50 implica una correlacin baja a moderada. Valor de r de 0.50 a 0.75 implica correlacin moderada a buena.
142
Valor de r de 0.75 o mayor, implica una muy buena a excelente correlacin. Estos rangos de valores se pueden extrapolar a correlaciones negativas tambin.
Se debe tener cuidado al analizar la correlacin entre dos variables, de que ambas varen juntas permanentemente. Esto parece redundante, pero es importante. Por ejemplo, si correlacionamos edad y altura. La altura ir aumentando con la edad hasta un determinado punto en donde ya no aumentar ms. Un coeficiente de correlacin que se basa en rangos y que es muy utilizado, es el de Spearman. Spearman desarroll un trabajo en 1940 donde present este coeficiente que en lugar de utilizar los valores de las variables, utilizaba los rangos asociados a ellas, mediante ste se tiene una medida de asociacin y adems permite probar hiptesis; el nico supuesto que tiene, es que la escala de medida de la variable es al menos ordinal. Adems de este coeficiente que nos permite medir la asociacin entre dos variables, hay otras medidas de asociacin para aquellos casos en los que la escala con la que se miden las variables es de otro tipo.
Aplicacin al caso en Estudio Para analizar la relacin lineal entre dos variables cuantitativas, el estadstico a usar es el de correlacin de Pearson; previamente hay que comprobar que corresponden a distribuciones normales (para lo cual aplicamos la prueba K-S, de KolmogorovSmirnov). Por ejemplo, este procedimiento se aplicar si estamos interesados en examinar si existe relacin entre el puntaje total obtenido en la escala de estrs y el puntaje total obtenido en la escala para medir el afecto negativo. Previamente veamos sus distribuciones, elaborando los histogramas respectivos.
143
120
100
100
80
80
60
60
40
40
20
20
Desv. tp. = 5.85 Media = 26.7 N = 433.00 12.5 15.0 17.5 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0 42.5 45.0
Desv. tp. = 7.07 Media = 19.4 0 10.0 12.5 15.0 17.5 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0 N = 435.00
total estrs percibido
total afecto negativo
Grfico 5.1. Histogramas variables cuantitativas Podemos ver en el grfico 5.1 que una de las variables tiene cierto grado de sesgo y por lo tanto aplicamos la prueba K-S para examinar la distribucin. La hiptesis nula es que la distribucin de la poblacin de la cual se ha extrado la muestra es normal.
Prueba de K olm og oro v-Sm irno v para u na m u estra tota l estrs pe rc ibido 43 3 26 .73 5.8 5 .06 9 .06 9 -.0 33 1.4 39 .03 2 tota l afecto ne g a tivo 43 5 19 .40 7.0 7 .12 3 .12 3 -.0 92 2.5 60 .00 0
N P a r m etros no rm a les a,b
M e dia D es via cin tpica A b solu ta P o sitiv a N eg a tiva
D iferenc ias m s ex tre m as Z de K olm og o rov -S m irn ov S ig. a sintt. (bila teral)
a. La distribu ci n de co n traste es la N o rm a l. b. S e han calcu la d o a p a rtir de los datos .
Cuadro 6.6. Resultados pruebas K-S. El resultado revela que la significacin que nos da el K-S es menor que 0,05 en ambas variables, por lo cual tenemos que rechazar la hiptesis nula. Por lo que, no se cumplira uno de los supuestos paramtricos para calcular la correlacin de Pearson, esto es, la normalidad de las variable. A pesar de los resultados anteriores, para ejemplificar, se examinar la relacin entre el estrs percibido y el afecto negativo, puesto que en nuestro plan de anlisis, se considera el estudio de esta hiptesis. Para este efecto, la secuencia de pasos es la siguiente:
144
Analizar, Correlaciones Bivariadas Total afecto negativo. Total estrs percibido Pearson
Cuadro 6.7. Resultados correlaciones bivariadas.
Este resultado indica que existe una correlacin positiva y fuerte que es estadsticamente significativa al nivel 0,01 con una prueba bilateral.
Diagrama de Dispersin El analista tambin explora los datos a travs de un diagrama de dispersin. Selecciona Grfico, Dispersin y aparecer la siguiente pantalla:
145
Figura 6.3. Cuadro definicin grfico de dispersin. En esta ventana se selecciona Simple/Definir y se procede a elegir las variables a considerar en el diagrama, en este caso, el total de la escala de optimismo, el total de la escala de autoestima, y el sexo de los sujetos.
Figura 6.4. Cuadro de dilogo Diagrama de dispersin simple. El paso siguiente es seleccionar en esta ventana Ttulos:
Figura 6.5. Cuadro definicin de ttulos.
146
El resultado ser el siguiente:
Figura 6.6. Cuadro definicin de marcador.

Diagrama de Dispersin Total Escala Autoestima - Total Escala Optimis
50
40
30
total autoestima
20
sexo
mujeres
10 0 10 20 30 40
hombres
total optimismo
Grfico 6.2. Grfico de Dispersin. Si se desea editar el grfico, se oprime el ratn dos veces dentro del recuadro donde se encuentra la grfica. Aparecer una nueva ventana: el editor de grficos que permite modificar la grfica.
147
Figura 6.7. Editor de grficos. Se selecciona la marca correspondiente al sexo femenino, y se activa Formato y Marcadores. Aparecer la siguiente ventana: Se selecciona el marcador requerido para cada uno de las categoras que identifican la variable sexo. Para lograr este efecto, se activa una categora especfica, por ejemplo mujeres. El analista puede en seguida seleccionar un color especfico del men Formato/Color:
Figura 6.8. Cuadro definicin de colores.
148
Se aplica el mismo procedimiento para la categora hombres (seleccionar marcador y color especfico). El resultado ser el siguiente:
Diagrama de Dispersin Total Esc. Autoestima - Total Esc. Optimismo
50
40
30
total autoestima
20
sexo
mujeres
10 0 10 20 30 40
hombres
total optimismo
Grfico 6.3. Grfico de dispersin con marcadores nuevos. Coeficientes de Correlacin por Rangos Existen dos mtodos para calcular el coeficiente de correlacin de los rangos: uno sealado por Spearman y otro por Kendall. El coeficiente de Spearman es ms fcil de calcular que el de Kendall. El coeficiente de correlacin de Spearman es exactamente el mismo que el coeficiente de correlacin de Pearson calculado sobre el rango de observaciones. En definitiva, la correlacin estimada entre X e Y se halla calculado el coeficiente de correlacin de Pearson para el conjunto de rangos apareados. El coeficiente de correlacin de Spearman es recomendable utilizarlo cuando los datos presentan valores extremos ya que
149
dichos valores afectan mucho el coeficiente de correlacin de Pearson, o ante distribuciones no normales. El ndice Tau-b de Kendall, al igual que el coeficiente de correlacin de Spearman, est indicado en el caso en que se quiera medir la asociacin existente en dos variables X e Y categricas, con categoras codificadas de forma ordinal. Sin embargo, mide dicha asociacin de distinta manera a como lo hace el coeficiente de correlacin de Spearman. El ndice Tau-a de Kendall est basado en la nocin de concordancia, teniendo en cuenta que no se realiza correccin por empates. Su interpretacin es la diferencia entre la proporcin de pares concordantes y de pares discordantes. En nuestro caso de estudio, se agrup la variable edad en 3 grupos de edades. A nivel de exploracin de los datos, interesaba examinar la relacin entre los grupos de edades de los sujetos (3 grupos) y su condicin de fumador(a) (1=S; 2=No). Para realizar este tipo de anlisis, se calcul los coeficientes Tau-b de Kendall y Spearman en la opcin Correlaciones. La secuencia de pasos en SPSS es la siguiente:
Analizar Correlaciones Bivariadas Edad 3 grupos [edadgr3] Fumador(a) [fumador]
150
Figura 6.9. Cuadro definicin de Correlacin Bivariada.

Correlaciones edad 3 grupos fumador(a) 1.000 .097* . .031 439 436 .097* 1.000 .031 . 436 436 1.000 .103* . .031 439 436 .103* 1.000 .031 . 436 436
Tau_b de Kendall edad 3 grupos Coeficiente de correlacin Sig. (bilateral) N fumador(a) Coeficiente de correlacin Sig. (bilateral) N Rho de Spearman edad 3 grupos Coeficiente de correlacin Sig. (bilateral) N fumador(a) Coeficiente de correlacin Sig. (bilateral) N *. La correlacin es significativa al nivel 0,05 (bilateral).
Cuadro 6.8. Resultados correlaciones entre variables. Puesto que para todos los grupos las correlaciones son significativas (p<0,05),se puede afirmar que existe relacin estadsticamente significativa entre ambas variables. Se aplicaron otros coeficientes para analizar la situacin. Se recurri al ChiCuadrado de Mantel-Haenszel y al coeficiente Gamma de Goodman y Kruskal. Se han utilizado estos estadsticos de prueba porque se desea contrastar la hiptesis de independencia entre el grupo de edad y su condicin de fumador y adems las variables utilizadas poseen pocas categoras.
151
Tabla de contingencia edad 3 grupos * fumador(a) Recuento fumador(a) s edad 3 grupos Total 18-29 30-44 45+ 34 34 17 85 no 114 119 118 351 Total 148 153 135 436
Pruebas de chi-cuadrado Sig. asinttica (bilateral) .051
Chi-cuadrado de Pearson Correccin por continuidad Razn de verosimilitud Asociacin lineal por lineal N de casos vlidos
Valor 5.964a
gl 2
6.349 4.707 436
2 1
.042 .030
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 26.32.
Medidas simtricas Sig. a b Valor Error tp. asint aproximadaaproximada T .213 .092 2.248 .025 436
Ordinal por ordinGamma N de casos vlidos
a. Asumiendo la hiptesis alternativa. b. Empleando el error tpico asinttico basado en la hiptesis nula.
Cuadro 6.9. Resultados Correlaciones. A partir de estos resultados, y con un nivel de significacin del 5%, se puede afirmar que existe relacin lineal entre ambas variables (Asociacin lineal por lineal = 4,707, p = 0,03 y Gamma =0,213 con p = 0,025).
152
REGRESIN LINEAL Muchas veces en un estudio no slo basta con conocer si existe o no una relacin entre dos variables sino que tambin interesa conocer el tipo de relacin existente y la prediccin de una con respecto a la otra. Representamos en un grfico los pares de valores de una distribucin bidimensional: la variable x en el eje horizontal o eje de abscisas, y la variable y en el eje vertical, o eje de ordenadas. Vemos que la nube de puntos sigue una tendencia lineal:
Grfico 6.4. Grfico de dispersin. El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir el modelo lineal simple (recta) que mejor se ajusta a esta nube de puntos.
Grfico 6.5. Grfico de regresin lineal.
153
Una recta viene definida por la siguiente frmula:
y = a + bx
Donde y sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable x (variable independiente). Para definir la recta, hay que estimar los valores de los parmetros a y b: El parmetro a es el intercepto valor que toma la variable dependiente y, cuando la variable independiente x vale 0, y es el punto donde la recta cruza el eje vertical. El parmetro b determina la pendiente de la recta, su grado de inclinacin. El Procedimiento Analizar/Regresin/Lineal de SPSS nos permite estimar el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos. Ejemplo En el siguiente ejemplo se desea estudiar que influencia tiene la edad en la resistencia al ejercicio fsico, tomada una muestra de 20 sujetos a los cuales se les aplic un test de resistencia fsica, midiendo el tiempo (segundos) que duraban sin fatigarse.
Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Edad 19 21 21 22 22 22 23 23 24 24 24 25 26 27 27 31 32 34 35 35 Resistencia 41 43 42 45 42 40 43 44 41 42 45 50 55 47 49 49 51 60 53 56
La primera pregunta que debemos formularnos es Estn relacionadas las variables de edad y resistencia fsica?. Para responder a esta interrogante se debe realizar una anlisis del Diagrama de dispersin, seleccionando: Grficos Interactivos Diagramas de Dispersin
154
Figura 6.9. Cuadro de dilogo para Crear diagrama de dispersin. Se ingresa la variable Edad en el eje horizontal y la variable Resistencia al esfuerzo fsico en el eje vertical. Seleccionado en la opcin Ajuste, el mtodo de regresin el cual nos muestra la recta ajustada:
1Resistencia al esfuerzo fsico = 21.32 + 0.99 * edad R-cuadrado = 0.73
60
Regresin lineal
Resistencia al esfuerzo fsico
55
50
45
40 20
25
30
35
Edad
Grfico 6.6. Diagrama con la recta ajustada.
155
El diagrama nos induce a pensar que podra haber una relacin entre edad y resistencia fsica y que sta debiera ser lineal. Por lo tanto, se ajustar un modelo lineal simple, en el que adems se comprobarn los supuestos para su aplicacin, los cuales son: Aleatoriedad de la muestra Linealidad Homogeneidad de varianzas Normalidad
Para efectuar la regresin lineal, seleccionar Analizar/ Regresin/Lineal y aparecer la siguiente pantalla:
Figura 6.10. Cuadro Regresin lineal. Se ingresa como variable dependiente Resistencia al esfuerzo fsico y como independiente la variable Edad. Seleccionar Grficos que entrega la siguiente ventana:
156
Figura 6.11. Cuadro grfico para la regresin lineal. Seleccionar la opcin Grfico de probabilidad normal y como eje horizontal (X) *ZPRED (estimaciones estandarizados) y en el eje vertical (Y) *ZRESID (residuos estandarizados), dando como resultado del ajuste:
Resum en del m odelob R c u a d ra d o c o rre g id a .7 1 3 E rro r tp . d e la e s tim a c i n 3 .0 8
M o d e lo 1
R .8 5 3 a
R c u a d ra d o .7 2 8
a . Va ria b le s p re d ic to ra s : (C o n s ta n te ), E d a d b . Va ria b le d e p e n d ie n te : R e sis te n cia a l e s fu e rz o fs ic o
Cuadro 6.10. Resumen modelo de regresin El coeficiente de correlacin (R), nos confirma que existe una relacin lineal entre ambas variables y que esta es fuerte y positiva. El coeficiente de determinacin (R cuadrado) muestra que el 73% de la variacin de la variable Resistencia al esfuerzo fsico est explicada por el modelo de regresin lineal, es decir existe un buen ajuste.
157
AN OVAb Sum a de c ua d ra d o s R e g re si n R e sid ua l Tota l 4 5 6.90 0 1 7 0.90 0 6 2 7.80 0 gl 1 18 19 M e d ia c ua d r tic a 4 5 6.90 0 9 .4 9 4 F 4 8 .1 23 S ig . .0 0 0 a
M o d elo 1
a . Va riab les p red ic to ras : (C o n s ta nte ), E d ad b . Va riab le de p e n dien te: R e s is te nc ia al e sfu erz o fs ic o
Cuadro 6.11. ANOVA. De la tabla de anlisis de varianza (ANOVA), se observa un valor de probabilidad asociada tendiente a cero, lo cual nos lleva a rechazar la hiptesis nula, y por lo tanto, el modelo propuesto da una buena explicacin de la variabilidad de la resistencia al esfuerzo fsico.
Coeficientesa C o e fic ie n te s C o e fic ie n te s n o e s ta n da riz a do s M o d e lo 1 B 2 1 .3 1 9 .9 9 0 E rro r tp . 3 .7 5 1 .1 4 3 e s ta n da ri z a do s B e ta .8 5 3 t 5 .6 8 3 6 .9 3 7 S ig . .0 0 0 .0 0 0
(C o n s ta n te ) Edad
a . Va ria ble d e pe n d ie n te : R e siste nc ia a l e s fu e rz o fs ic o
Cuadro 6.12. Coeficientes. Con respecto a los estimadores de los coeficientes del modelo de regresin, a(constante) y b (de la edad), los valores p asociados tienden a cero. Por lo tanto, se rechazan las hiptesis nulas, con un nivel de significacin del 5%, que los coeficientes son cero, en la poblacin. Es decir el modelo propuesto es el siguiente: (Resistencia al esfuerzo fsico)ESTIMADO = 21,319 + 0,99 * Edad Pero a pesar de esto, se deben verificar los supuestos para la aplicacin de la regresin.
158
El supuesto de aleatoriedad de la muestra queda asegurado con una adecuada obtencin de las observaciones. El diagrama que sigue, permite verificar la linealidad y la homogeneidad de varianzas, en el cual se ve la resistencia fsica al esfuerzo estimada con los residuos, ambos tipificados. Si la nube de puntos se mantiene paralela al eje horizontal y presenta un ancho homogneo, se cumpliran los supuestos de linealidad e igualdad de varianzas respectivamente; en caso contrario, alguno de ellos est siendo violado.
G rfico de dispersin Variable depen diente: R esistencia al e sfu erzo fsico
3
R eg res in R e sid u o tipifica d o
-1
-2 -1.5 -1.0 -.5 0 .0 .5 1 .0 1 .5 2 .0
R e gresi n Valor p ro nostic ado tipificad o
Grfico 6.7. Residuos En nuestro ejemplo, se estara cumpliendo el supuesto de linealidad, pero la anchura de la nube de puntos no es muy homognea, aunque no exageradamente. Otros de los supuestos es el de normalidad y para ello se utiliza el grfico de probabilidad normal, si las observaciones forman una lnea recta ajustada a la presentada, existir normalidad.
159
G rfico P-P norm al de regresin R esiduo tipificado Variable depend iente: R esistencia al esfuerzo fsico
1 .0 0
.7 5
Prob a cum e sp era da
.5 0
.2 5
0 .0 0 0 .0 0 .2 5 .5 0 .7 5 1 .0 0
P rob acum observada
Grfico 6.8. Grfico de probabilidad de normalidad.
Se observa una distorsin que pondra en duda el supuesto de normalidad, recomendndose aplicar una prueba como Kolmogorov-Smirnov para verificar normalidad, usando la variable residuos. Cuando se examina la relacin lineal entre dos variables y se concluye que sta no existe, podemos decir que no existe correlacin lineal entre ellas, pero se puede explorar otro tipo de relacin o la posibilidad de que esta relacin no lineal sea linealizable, por ejemplo si consideramos que la nube de puntos nos induce a pensar que existe una relacin exponencial.
Aplicacin al Caso en Estudio As, en el caso de estudio sobre autoestima, si pensamos que podra haber una relacin lineal entre el puntaje total de la escala
160
de optimismo (variable dependiente) y la edad (variable independiente), entonces al ejecutar la regresin lineal, podemos observar que el coeficiente de correlacin de Pearson es bastante bajo, lo que indica una baja correlacin lineal entre el puntaje total de la escala de autoestima y la edad.
Resumen del m odelo R .2 0 1 a R cu a d ra d o .0 4 0
b
M o d e lo 1
R cu a d ra d o c o rre g id a .0 3 8
E rro r tp . d e la e s tim a ci n 4 .3 4
a . Va ria ble s pre d ic to ra s : (C o n sta nte ), E D A D b . Va ria ble d e pe n d ie n te : to ta l o p tim is m o
Cuadro 6.13. Resumen del modelo. En la tabla de anlisis de varianza, se puede observar un valor F=18,171 con un valor p=0,000 que es menor a 0,05. Por lo tanto, se acepta que el modelo propuesto da una buena explicacin de la variabilidad de los puntajes de la escala de optimismo.
A NOVA b S um a de cua drados 342.8 62 8170 .159 8513 .021 gl 1 433 434 M edia cua drtica 342.8 62 18.86 9 F 18.17 1 S ig. .000 a
M ode lo 1
R egresin R esidua l Tota l
a. Variables predictoras: (Constante), E D AD b. Variable de pendien te: total optim ism o
Cuadro 6.14. ANOVA.

C oeficie ntes a C oe ficie n te s C oe ficie n te s n o e sta nd ariz ad os M o de lo 1 (C o ns tan te) ED AD B 1 9.59 3 6 .7 47 E -0 2 E rro r tp . .62 8 .01 6 e sta nd ari z ad os B e ta .20 1 3 1.21 6 4 .2 63 .00 0 .00 0 t S ig .
a . Variab le d ep en die n te : to ta l op tim ism o
Cuadro 6.15. Coeficientes.
161
Con respecto a los estimadores de los coeficientes a (constante) y b (de la edad) los valores p asociados son menores que 0,05 y por lo tanto, se rechaza la hiptesis nula de que estos son iguales a cero, con un nivel de significancia del 5%. Es decir el modelo propuesto es el siguiente: (Puntaje Total de Optimismo)ESTIMADO = 19,593 + 0,0067 * Edad
G r fico P-P no rm al de regresin R esiduo tip ificad o Variable depe ndiente : tota l optim is m o
1 .0 0
.7 5
Pro b a c u m e spe r ad a
.5 0
.2 5
0 .0 0 0 .0 0 .2 5 .5 0 .7 5 1 .0 0
P rob acum obs erv ada
Grfico 6.9. Grfico P-P. El grfico de probabilidad normal nos muestra que no hay muchos alejamientos de la lnea recta, por lo tanto, podra asumirse normalidad.
G rfic o de dispersin Variable depen diente: E D A D
4 3
Re g res in Re sid u o tip ificad o
2 1
-1 -2 -4 -3 -2 -1 0 1 2
R egresin Valo r pronosticado tipificad o
Grfico 6.10. Grfico de dispersin.
162
En el grfico de los residuos tipificados versus los puntajes de autoestima pronosticados y tipificados, no se observa homogeneidad en la nube de puntos, se recomienda utilizar algn test de homogeneidad de varianzas para confirmarlo. Sin embargo, a pesar de que se encontr un modelo lineal para ajustar los datos, esto no significa que sea bueno; no hay que olvidarse que el coeficiente de determinacin (R cuadrado) indica que el 4% de la variacin esta explicada por el modelo, es decir, el modelo no es de lo mejor.
Ejercicios En la pgina Web http://members.tripod.com/experimentum/ spssds.html#6 aparecen los siguientes datos y las pruebas estadsticas que se aplicaron. Examine la propiedad de los procedimientos aplicados y las interpretaciones que se hace de ellos.
ETIQUETAS: edocivil (Estado civil): 1= casado , 0= soltero. Antigued (Antiguedad en el puesto, en aos) antig2 (Antiguedad en el puesto ): 1= 5 aos o menos , 2= 611 aos , 3= 11-15 aos, 4= 16-20 aos. satlab1 (Satisfaccin laboral en el puesto 1) 1= nada satisfecho, 2= algo satisfecho , 3= bastante satisfecho , 4= totalmente satisfecho. satlab1b (Satisfaccin laboral en el puesto 1): 1= alta, 0= baja. satlab2 (Satisfaccin laboral en el puesto 2): 1= nada satisfecho, 2= algo satisfecho , 3= bastante satisfecho , 4= totalmente satisfecho.
163
DATOS:
sujeto edocivil antigued antig2 satlab1 satlab1b satlab2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1 1 1 0 1 1 0 0 0 1 0 1 0 0 0 0 1 1 0 0 1 0 0 1 1 0 0 0 1 1
10 7 15 2 5 10 1 2 5 6 2 20 3 2 3 4 8 15 1 9 4 20 3 8 5 2 2 6 6 4
2 2 3 1 1 2 1 1 1 2 1 4 1 1 1 1 2 3 1 2 1 4 1 2 1 1 1 2 2 1
4 3 4 1 3 2 1 2 1 3 2 4 2 2 1 2 3 3 1 3 1 4 1 3 4 1 2 4 3 2
1 1 1 0 1 0 0 0 0 1 1 1 0 1 0 0 1 0 0 0 1 1 0 1 1 0 1 0 1 0
3 2 3 2 4 3 1 3 2 1 3 3 4 4 2 3 4 2 2 1 2 3 2 3 4 1 3 2 3 1
164
Resultados:
Nro. Variables usadas. Coeficiente
Valor
Probabilidad H.nula
1.a
satlab1, edocivil satlab1b, edocivil satlab1, edocivil satlab1, edocivil satlab1, edocivil antig2, satlab2 antig2, satlab2 antig2, satlab2
Chi-cuadrado Coeficiente Phi Coef. de contingencia V de Cramer Lambda
11,58 0,535 0,528 0,621
0,009* 0,003* 0,009* 0,009*
rechazo rechazo rechazo rechazo rechazo rechazo rechazo acepto acepto acepto acepto
1.b
Gamma Tau-b de Kendall Eta Correlacin de Spearman Kappa
Simet. 0,389 0,01* satlab (VD) 0,273 0,021* edocivil (VD) 0,x71 0,02* 0,144 0,516 0,096 0,516
antig2 (VD) 0,467 satlab2 (VD) 0,146 0,108 0,57 -0,03 0,777
1.c
satlab1, satlab2
165
CAPTULO VII
CONFIABILIDAD Y VALIDEZ DE UNA ESCALA

Un test, como cualquier otro instrumento, no proporciona una medida perfecta, sino que existe un elemento de error e imperfeccin que resulta imprescindible conocer para saber si mide lo que pretende medir y la precisin con que lo hace. Por ello es importante elegir los instrumentos de medida con la mxima confiabilidad y validez posibles. La confiabilidad (o fiabilidad) se refiere a la exactitud (consistencia y estabilidad) de la medicin de un test. Por lo tanto, la fiabilidad nos informa de la cuanta de error de un instrumento de medida, por lo que a mayor fiabilidad, menor error, y por tanto ms exacto o preciso ser el test elegido. SPSS ofrece distintos estadsticos para calcular la confiabilidad de un test, de los cuales ser presentado el denominado Alfa de Cronbach. Adems de buscar la estabilidad, un instrumento debe medir la dimensin real que se supone est midiendo, es decir, debe tener validez. La validez no es una propiedad del test o de la evaluacin como tal, sino ms bien del significado de las puntuaciones. Por lo tanto, cuando el investigador elija un test, deber tener en cuenta sus caractersticas psicomtricas de confiabilidad y validez con el fin de que contenga el mnimo error posible y est midiendo el constructo que pretenda medir.
CONFIABILIDAD, SIGNIFICADO Y MEDICIN Examinaremos la confiabilidad desde el punto de vista de la consistencia interna. Al examinar la escala de autoestima que
166
hemos estado analizando, se espera que los temes estn balanceados para intentar romper la aquiescencia (tendencia a estar de acuerdo con el enunciado); si las preguntas tienen un sentido positivo, la aquiescencia es mayor. Como la aquiescencia aumenta si los temes son en sentido positivo, se deben ir intercalando con temes negativos. Se deben utilizar muchos temes para llegar a un solo valor. Esta es la forma de determinar la confiabilidad de la medida. La consistencia interna, es el aspecto comn que tienen todos los temes, en el ejemplo que estamos viendo es el grado de autoestima que mide cada tem. Para determinarla, se emplea el coeficiente a ( Alfa de Cronbach) la cual es una medida de la confiabilidad de consistencia interna. Su definicin es la siguiente:
a = (n/(n-1))*(1-SSi2/St2)
Siendo n=nmero de temes; SSi2 Suma de las varianzas de los n temes y St2= varianza de los puntajes totales. Las mediciones que realiza un investigador deben ser confiables: si las mediciones se repiten, y se obtienen siempre resultados aproximados, se dice que el instrumento con los que se recogieron los datos es confiable. Si el instrumento es mutidimensional o multifactico no es correcto medir la consistencia interna de todos, sino de las diferentes facetas por separado Si se usa una escala o una medida estandarizada en la investigacin (esto es comn en la investigacin psicolgica y educacional), es importante evaluar la confiabilidad (consistencia interna) de los puntajes de la misma. Es conveniente identificar los temes de la escala que sern analizados as como caracterizarlos, lo que se hace empleando algunos coeficientes o nices, as como medidas descriptivas de resumen (media y desviacin estndar, cuando corresponda). En algunos tests se habla del ndice de dificultad, pero se
167
refiere a aquellos instrumentos cuyos temes pueden clasificarse correcta o incorrectamente respondidos, as el indice de dificultad puede ser expresado en forma general como:
Indice de Dificultad = Nmero de sujetos que aciertan el tem Nmero de sujetos que han intentado resolver el tem
Ejemplo En la evaluacin que hemos realizado de un instrumento para medir los roles de los directivos, apoyados en la teora de H. Mintzberg, aplicamos el anlisis de temes desde el punto de vista de su confiabilidad, correlacin entre los temes y los ndices de homogeneidad (estos ltimos corresponden a lo que en la teora clsica se denominan ndice de discriminacin). El resultado fue el siguiente cuando analizamos el rol del directivo como cabeza visible. Escala : Cabeza visible 7
N de temes :
Matriz de correlaciones tem 1 1 2 3 4 5 6 7 2 3 4 5 6 7
1.00 .18 1.00 .11 -.01 1.00 .16 .21 -.06 1.00 .13 .47 .17 .12 1.00 .05 -.07 .20 .18 .03 1.00 .26* .10 -.06 .17 .19 -.12 1.00
*correlaciones significativas.
Los coeficientes de correlacin entre los temes son bajos, detectndose escasas correlaciones significativas(*).
168
Resumen de la escala: Mean=29.9351 Std.Dv.=2.60737 Valid N:77 Cronbach alpha: .469787 Standardized alpha: .474733 Average inter-tem corr.: .116831 Relacin entre cada tem y el test
tem 1 2 3 4 5 6 7 1 Mean if deleted 25.37662 25.72727 25.40260 26.03896 25.83117 25.38961 25.84416 2 Var.if deleted 5.689323 5.211335 5.902851 5.024457 4.529938 5.926126 5.274414 3 4 5 6 StDv.if Itm-Totl Squared Alpha if deleted Correl. Multp.R deleted 2.385230 2.282835 2.429578 2.241530 2.128365 2.434364 2.296609 .300414 .307952 .096121 .255392 .378327 .079639 .169467 .119598 .274047 .100083 .127944 .275279 .114174 .143011 .412095 .392725 .483319 .413857 .341798 .491189 .460553
El indice de homogeneidad corregido (columna n4), es decir, la correlacin entre el tem y la suma de los temes restantes nos dice que para correlaciones del ndice bajo 0,2 se dir que no hay mucha relacin entre el tem seleccionado y los restantes como lo es el tem 3, 6 y 7. El resto de los indices son moderadamente altos. La correlacin mltiple al cuadrado (columna n5), es decir el grado en que se puede predecir la puntuacin en el tem a partir de las puntuaciones en los restantes temes, nos indica que las correlaciones son adecuadas. El coeficiente Alfa de Cronbach si es eliminado un tem determinado (columna n6), nos indica que si eliminamos el tem n6 el Alfa de Cronbach aumentar a 0,4912. El coeficiente Alfa de Cronbach inicial es de 0,469787. Se propone eliminar aquellos temes que poseen los ndices
169
de homogeneidad ms bajos, es decir los temes 3 , 6 y 7. El coeficiente Alfa de Cronbach quedar en 0,55, lo que mejora la consistencia interna del instrumento, aunque an sin alcanzar el valor mnimo deseable en ciencias sociales: 0,67.
Aplicacin al caso en Estudio Para analizar la Escala de Autoestima a la que nos hemos venido refiriendo en este libro, en SPSS se selecciona la ruta: Analizar Escalas Anlisis de fiabilidad Modelo Alfa Estadstico Elemento Escala si se elimina elemento En la ventana Anlisis de Fiabilidad se selecciona los temes que sern sometidos a escrutinio; en este caso, los 10 temes de la escala de autoestima:
Figura 7.1. Cuadro anlisis de fiabilidad
170
El analista solicita la estadstica descriptiva para cada elemento y lo que ocurrir con la escala si se elimina el tem:
Figura 7.2. Cuadro definicin de estadsticos El resultado presenta la siguiente apariencia: R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A) Mean 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. SEST1 SEST2 SEST3 SEST4 SEST5 SEST6 SEST7 SEST8 SEST9 SEST10 Std 3.6720 3.7454 3.6239 3.4083 3.4037 3.2775 2.9564 3.1697 2.9610 3.2867 Dev .5874 .5180 .6820 .7448 .9334 .7928 1.0787 .8269 1.0152 .9698 Cases 436.0 436.0 436.0 436.0 436.0 436.0 436.0 436.0 436.0 436.0
171
tem-total Statistics Scale Mean if tem Deleted SEST1 SEST2 SEST3 SEST4 SEST5 SEST6 SEST7 SEST8 SEST9 SEST10 29.8326 29.7592 29.8807 30.0963 30.1009 30.2271 30.5482 30.3349 30.5436 30.2179 Scale Varianc if tem Deleted 26.6179 26.8269 25.4110 25.9217 25.0289 23.9506 22.7218 23.9060 23.0946 23.8949 Corrected temTotal Correlation .5098 .5511 .6075 .4715 .4447 .7054 .5997 .6756 .6075 .5502 Alpha if tem Deleted .8458 .8447 .8378 .8474 .8517 .8280 .8384 .8300 .8366 .8420
Reliability Coefficients N of Cases = 436.0 Alpha = .8541
N of temes = 10
El Alfa de Cronbach es de 0,8541, lo que indica que el instrumento tiene consistencia interna, es decir, es confiable. El coeficiente de discriminacin, esto es, el grado en que un tem sirve para distinguir entre los individuos que obtienen puntuaciones altas y los que las obtienen bajas, viene dado por la columna correlacin total-tem corregido En la tabla de resultados tem-total Statistics, se observa la relacin de cada tem y el test; si es eliminado este tem, por ejemplo si eliminamos el tem SEST5, implicara que la media
172
del test fuera 30,1009 y su varianza 25,0289. El ndice de discriminacin, esto es, el grado en que un tem sirve para distinguir entre los individuos que obtienen puntuaciones altas y los que las obtienen bajas, viene dado por la columna correlacin total-tem corregido y en nuestro problema estn en el rango 0,44 a 0,70, lo que indica que son aceptables y que nos permite afirmar que existe homogeneidad entre los temes que conforman la escala de Autoestima. Se recomendara eliminar el tem si alguna de estas correlaciones fuera menor que 0,2. La ltima columna entrega el Alfa de Cronbach si el tem es eliminado, ntese que eliminando el tem SEST5 el Alfa de Cronbach ser 0.8517 el cual es menor que Alfa de Cronbach con todos los temes.
Inferencia sobre el Coeficiente de Confiabiidad Se pueden emplear los resultados entregados por SPSS para complementar el estudio de la confiabilidad mediante la aplicacin de pruebas o del clculo de intervalos de confianza respectivos. Al disear un instrumento, interesa analizar si efectivamente la confiabilidad observada en la muestra, es compatible con algn valor determinado en la poblacin. Para estudiar este punto, se pueden aplicar los resultados presentados por Muiz (2001) desarrollados por Kristof (1963) y Feld (1965)) sobre la distribucin del estadstico de prueba F=(1-a)/(1-a0) el cual tiene una Distribucin F con (N-1) y (N-1)(n-1) grados de libertad, siendo N el nmero de sujetos en la muestra, n el nmero de temes del test, a el valor poblacional postulado y a 0 el valor obtenido en la muestra (No confundir la notacin de este Alfa de Cronbach con el empleado para el nivel de significacin). Con respecto a la Escala de Autoestima, dado que interesa analizar si la confiabilidad es significativa, puede plantearse la hiptesis nula que la confiabilidad poblacional es 0 con la hiptesis alternativa que es mayor que 0. Esto es H0: a < 0 versus H1:a > 0.
173
Empleando los resultados entregados por SPSS, ya vistos: Reliability Coefficients N of Cases = 436.0 Alpha = .8541 N of temes = 10
El estadstico tendr el valor F=(1-0)/(1-0,8541)=1/(0,1459)=6,854. Si se emplea un nivel de significacin del 5%, se compara el valor antes calculado con el entregado por la tabla F con (436-1) y (10-1)(436-1) grados de libertad, esto es 435 y 3.915 grados de libertad. El valor ms cercano en la tabla F para F(0,95; 435; 3915) es F(0,95; ; )=1. Por lo tanto, dado que el valor calculado para F=6,854 es mayor que 1, se concluye que la hiptesis nula es rechazada y por lo tanto, se acepta H1: a >0 o sea, la confiabilidad de la escala es significativa.
VALIDEZ, SIGNIFICADO Y MEDICIN La validez de un instrumento de medicin consiste en la exactitud con que pueden hacerse medidas significativas y adecuadas con l, en el sentido que midan realmente los rasgos que se pretenden medir. Un test es una muestra de conducta a partir de la cual se pretenden hacer ciertas inferencias. La validez se refiere al conjunto de pruebas y datos que han de recogerse para garantizar la pertinencia de tales inferencias. Ms que el test, lo que se validan son las inferencias (Muiz, 2001). Se reconocen tres grandes tipos de validez: de contenido, predictiva y de constructo. Sin embargo, no se consideran como categoras independientes ni exhaustivas. Ellas estn relacionadas y se influyen.
174
La validez de contenido es la representatividad o adecuacin muestral del contenido esto es, la materia o tema del instrumento de medicin. Consiste esencialmente en el juicio. Para asegurar su existencia deben estudiarse los temes de un test y ponderarlos de acuerdo con su representatividad supuesta del universo. Para ello se emplea el criterio de jueces, esto es, la opinin de diversos especialistas en el tema quer determinan en que grado el tem es representativo del universo respectivo. La validez predictiva de un test se refiere al grado de eficacia con el que se puede predecir o pronosticar una variable de inters (criterio) a partir de las puntuaciones de ese test. Se operacionaliza mediante el coeficiente de validez, que es la correlacin entre el test y el criterio (Muiz, 2001). La validez de constructo trata de responder preguntas como: Qu es lo que este test mide en realidad?, o Este instrumento mide en forma adecuada el concepto abstracto en estudio?. Este tipo de validez se relaciona ms con el atributo subyacente que con los puntajes que produce el instrumento. Segn Cronbach y Meehl (1955), citados por Muiz (2001), se refiere a la recogida de evidencia emprica que garantice la existencia de un constructo psicolgico en las condiciones exigibles a cualquier otro modelo o teora cientfica. Los procedimientos metodolgicos empleados con mayor frecuencia, en Psicologa, para obtener informacin acerca de la validez de constructos psicolgicos son el anlisis factorial y la matriz multirrasgo-multimtodo. Estos, se denominan, respectivamente, validez factorial y validez convergentediscriminante.
ANLISIS FACTORIAL, CARACTERSTICAS Y TIPOS El Anlisis Factorial es un procedimiento estadsticomatemtico mediante el cual podemos expresar un gran nmero
175
de variables mediante un nmero menor de dimensiones o constructos comunes a todas ellas (llamados factores), trabajando con sus intercorrelaciones. El modelo de anlisis factorial asume que el rendimiento de las personas en cualquier variable, como por ejemplo una aptitud, est en funcin de tres fuentes de variacin: varianza de factores comunes a los test; varianza de factores especficos de cada test y varianza error. Pese al inters que puedan tener los factores especficos, la labor cientfica se centra en los factores comunes existentes entre variables. La puntuacin que obtiene una persona al serle aplicado un test, refleja una combinacin lineal de su nivel en los distintos factores comunes (aptitudes comunes a todas la tareas), en el componente o factor especfico del test (aquella parte de la puntuacin que no es atribuible ni a los factores comunes ni al error de medida) y en el componente de error de medida. Es muy importante distinguir la puntuacin de una persona en un test, lo cual indica como se ha comportado dicha persona al ser evaluada con ese test, de la puntuacin en un factor, que nos indica el grado en que ese individuo posee un determinado atributo. Los factores comunes son los representantes estadsticos de las aptitudes comunes que se buscan. Hay dos tipos de anlisis factorial: el exploratorio y el confirmatorio. En el anlisis exploratorio no se conocen los factores a priori, si no que son el resultado del proceso. Se utiliza cuando se intentan explorar, por ejemplo, las aptitudes intelectuales y crear hiptesis nuevas. En el anlisis factorial confirmatorio se propone un modelo, segn el cual hay unos factores (cuyo nmeros es menor al de las variables), que representan a las variables originales. Se utilizar cuando se busca la comprobacin de hiptesis ya existentes.
176
PASOS EN EL DESARROLLO DEL ANLISIS FACTORIAL Primer Paso: Matriz de datos El anlisis factorial comienza por obtener una matriz (N x n) que representa las puntuaciones normalizadas obtenidas por los N sujetos en las n distintas variables (preguntas del test). A continuacin, se presenta la matriz de datos tpica: Preg.1 suj.1 suj.2 suj.3 suj.4 .......... suj.N Figura 7.3. Matriz de puntuaciones. Segundo Paso: Matriz de Correlaciones. En el segundo paso, se obtiene (mediante el empleo de un software como SPSS) la matriz de correlaciones entre las distintas variables (n x n) que representa los datos de referencia sobre los que situaremos los factores. Tambin, se obtienen las estadsticas descriptivas (medias y desviaciones estndar) de las variables. Un requisito importante para que tenga sentido el anlisis factorial es que las variables estn altamente correlacionadas. Para verificar esta condicin, SPSS ofrece un conjunto de procedimientos, a saber: valor del determinante, test de esfericidad de Bartlett, el ndice KMO, la correlacin anti-imagen y la medida de adecuacin muestral. Su empleo se presenta ms adelante. La relacin encontrada entre las variables en este paso no cambia nunca a lo largo del proceso. . . . . . Preg.2 . . . . . Preg.3 . . . . . Preg.4 .......... Preg.n . . . . . . . . . .
177
Preg.1 Preg.1 Preg.2 Preg.3 Preg.4 .......... 1,0000 0,2400 0,3000 0,1200 .
Preg.2 0,2400 1,0000 0,6900 0,8300 .
Preg.3
Preg.4
.......... . . . . .
0,3000 0,1200 0,6900 0.8300 1,0000 0,1500 0,1500 1,0000 . .
Figura 7.4. Matriz de correlaciones.
Se puede observar que la correlacin de una pregunta consigo misma es exactamente igual a 1,000 que es la mxima correlacin posible. Observar tambin que la tabla es simtrica diagonalmente por lo cual se suele representar slo la diagonal superior izquierda porque los datos se repiten debajo.
Tercer Paso: Aplicacin del Anlisis Factorial. Se construye una matriz factorial inicial sin rotar (n x k) de n variables por k factores. Un factor es un contructo operativamente definido por sus pesos factoriales. Cada factor es una combinacin lineal de las variables iniciales que lo componen. Cada una de estas variables contribuye en distinto grado a la formacin del factor. Lo ideal es que cada factor est formado por dos o tres variables. La existencia de un factor garantiza que ste es un constructo til que puede dar cuenta de las diferencias individuales que pueden observarse en las puntuaciones de los test. Para obtener los factores hay que tener en cuenta las intenciones del experimentador, pues si quiere comprobar una hiptesis utilizar un anlisis factorial confirmatorio (extrayendo el nmero de factores de acuerdo a lo planteado por la hiptesis).
178
Si el experimentador quiere explorar en el resumen de la informacin, utilizar un anlisis factorial exploratorio (experimentando con la extraccin de un nmero variable de factores). Existen bastantes mtodos de extraccin de factores, muchos de los cuales estn impementados en SPSS. Se distinguen dos grupos segn el principio empleado: los que intentan el mejor ajuste a la matriz de correlaciones iniciales (mxima verosimilitud, mnimos cuadrados), y los que intentan explicar la mayor proporcin de la variabilidad de los datos (componentes principales, factorizacin de ejes principales, factorizacin imagen, mtodo alfa, etc.). El mtodo de los componentes principales es uno de los procedimientos ms usados. Sin embargo, algunos autores consideran dicho mtodo como una tcnica diferente del anlisis factorial. Por ello, recomiendan utilizar el mtodo de mxima verosimilitud o el de mnimos cuadrados, mientras no se tenga una comprensin completa del mtodo que se vaya a utilizar. Un ejemplo de la estructura de la matriz factorial inicial es el siguiente: Variables Preg.1 Preg.2 Preg.3 Preg.4 FACTOR 1 0,71 0,22 0,59 0,03 Figura 7.5. Anlisis factorial. Cada factor est compuesto por una serie de saturaciones, o cargas, en cada variable. Estas saturaciones representan la correlacin entre cada factor y las distintas variables. Cuanto mayor sea la saturacin factorial de una variable en un factor ms FACTOR 2 -0,03 0,65 -0,16 0,53
179
cerca estaremos de medir realmente el factor. El valor mximo de las cargas factoriales es 1. En este caso, el factor explicara completamente la variabilidad de la variable. En la tabla puede verse que las variables que saturan en el factor I, son las preguntas 1 y la 3. En el factor II, las variables ms relacionadas con l son las preguntas 2 y 4. Una propiedad importante de las cargas o saturaciones factoriales es que si se eleva al cuadrado cada una de las cargas factoriales, dentro de un factor, y se suman dichos cuadrados, esta suma corresponde a la varianza explicada por dicho factor. En el ejemplo anterior, para el primer factor se tiene: (0,71)2 + (0,22)2 +(0,59) 2+(0,03) 2 =0,9015. Por lo tanto, el primer factor explica una varianza de 0,9015.
Cuarto Paso: Rotacin de la Matriz Factorial. La rotacin de la matriz factorial inicial es un proceso de multiplicacin de la matriz inicial por una matriz de transformacin. Grficamente consiste en girar los factores sobre los vectores (que representan las variables) hasta conseguir la mejor agrupacin de variables por factor. La rotacin puede llevarse a cabo bajo dos condiciones diferentes que decide el experimentador segn sus propsitos: Rotacin ortogonal: Se mantiene la independencia de los factores, es decir, no pueden estar relacionados y por tanto, no medirn alguna caracterstica global comn a ellos. Algunos tipos son: rotacin varimax (el ms empleado), quartimax, equamax etc. Rotacin oblicua: No se manteniene la independencia de los factores, los que pueden estar correlacionados. Algunos tipos son: rotacin oblimin directo (el ms conocido), oblimax, promax, quartimin, covarimin, etc.
180
Cuando realizamos una rotacin ortogonal, obtenemos una matriz rotada similar a la anterior sin rotar (n x k) de variables por factores. Los resultados son muy claros pero tienen un inconveniente: en la naturaleza hay muy pocas variables que no interacten entre s y sean exactamente independientes. Por esta razn, es preferible la rotacin oblicua ya que deja ms libertad a los datos. Esto es a partir de una rotacin oblicua puede obtenerse una estructura ortogonal; sin embargo, con una rotacin ortogonal es imposible obtener estructuras factoriales oblicuas. Cuando se realiza una rotacin oblicua nos encontramos como resultado dos matrices: la de estructura factorial y la de patrn factorial. La matriz de estructura factorial presenta los pesos factoriales, las correlaciones de cada variable con el factor, es decir cuanto de cerca est esa variable de ese factor. La matriz de patrn factorial presenta los pesos de las variables, que indican la importancia de cada variable para predecir un factor determinado.
ESTRUCTURAFACTORIAL FACTOR I FACTOR II
PATRN FACTORIAL FACTOR I FACTOR II
Preg.1 Preg.2 Preg.3 Preg.4
0,69 0,10 0,84 -0,11
0,37 0,89 0,05 0,81
0,71 0,17 0,81 0,18
0,50 0,82 0,23 0,78
Figura 7.6. Estructura y patrn factorial.
181
Se puede observar que, en este ejemplo, ambas matrices, la de estructura factorial y la de patrn factorial son muy similares y su interpretacin apenas diferir. El hecho de utilizar la rotacin oblicua permite encontrar una vez llegados a este punto, correlaciones entre los propios factores con las que se puede realizar un nuevo anlisis factorial. De este nuevo anlisis factorial se obtendran factores de segundo orden, esto es factores ms generales que comprenden otros factores. En el ejemplo de la tabla anterior, no es posible hacer un nuevo anlisis factorial dado el escaso nmero de variables y factores que se ha utilizado. Hay que recordar una vez ms que el anlisis factorial tiene como objetivo la descripcin de las relaciones de una serie de variables gracias a la formacin de un nmero menor de otras variables comunes a las primeras definibles matematicamente, los factores.
VALIDEZ FACTORIAL DE LA ESCALA DE AUTOESTIMA En la Escala de Autoestima que hemos venido comentando, el sujeto elije una graduacin de respuestas que miden la frecuencia de ciertas conductas, utilizando las expresiones totalmente de acuerdo, de acuerdo, en desacuerdo, y totalmente en desacuerdo. De los diez temes, cinco de ellos estn redactados de forma negativa, y aparecen destacados con dos asteriscos al final de los mismos. La escala fue aplicada a 439 sujetos. Nuestro objetivo de partida consiste en averiguar si estos diez temes se pueden resumir de alguna forma, si existe algo en comn entre ellos. Mediante el anlisis factorial (por el mtodo de los componentes principales), intentaremos agrupar estos reactivos en factores o componentes que puedan explicar la mayora de la varianza observada en las respuestas ofrecidas por los sujetos de la muestra. Dado que hay dos grupos de temes:
182
aquellos que conforman la escala de sentimiento positivo (temes 1, 2, 4, 6 y 7), y aquellos que conforman la escala de sentimiento negativo (temes 3, 5, 8, 9 y 10); se intentar un anlisis factorial confirmatorio, considerando dos factores para extraer. El primer paso es obtener los estadsticos descriptivos, esto es, la media, la desviacin tpica, el nmero de casos que se han utilizado en el anlisis y el nmero que se han perdido, es decir, los que no han respondido a tem concreto. En la tabla 8.1 se presenta estos resultados. En el caso del tem dos, la desviacin tpica es es 0,52, pero cmo sabemos si este valor es bajo o alto? Para responder a esta pregunta podemos calcular el coeficiente de variacin respectivo, que indica las veces en las que la media contiene a la desviacin tpica. Para ello, basta con hallar el cociente entre la desviacin tpica y la media, por lo que para el tem 2 obtenemos: 0,52/3,75= 0,138. Esto significa que, aproximadamente, la desviacin estndar es un 14% de la media. Aquellos temes que poseen menor coeficiente de variacin se dice que son ms homogneos con respecto a coeficientes de variacin mayores.
Estadsticos descriptivos D e sv ia c i n tpica .59 .52 .68 .74 .93 .79 1 .0 8 .83 1 .0 2 .97
SEST1 SEST2 SEST3 SEST4 SEST5 SEST6 SEST7 SEST8 SEST9 S E S T 10
M e d ia 3 .6 7 3 .7 5 3 .6 2 3 .4 1 3 .4 0 3 .2 8 2 .9 6 3 .1 7 2 .9 6 3 .2 9
N d el an lis is 4 36 4 36 4 36 4 36 4 36 4 36 4 36 4 36 4 36 4 36
Tabla 7.1. Estadsticos descriptivos.
183
Estos datos son interesantes puesto que nos dan cierta idea de la calidad de nuestros temes, sobre todo aqullos, cuyos valores de la media y la desviacin tpica son muy altos o muy bajos. El paso siguiente es calcular la matriz de correlaciones entre las variables y el determinante de dicha matriz. Si las relaciones entre los temes son pequeas, es poco probable que se encuentren factores comunes o dimensiones. En la tabla 2, se ha calculado la correlacin de cada tem consigo mismo y con el resto de los temes que forman parte de la escala. Si se estudia detenidamente esta matriz, se observa que los temes estn correlacionados a un nivel de significancia del 5%, aunque esta corrrelacin es, en general, baja. Por lo tanto, tendra sentido realizar el anlisis factorial.
M atriz de correlacionesa S E S T1 1 .00 0 .6 24 .3 68 .3 59 .2 46 .4 43 .3 08 .4 32 .2 71 .2 50 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 S E S T2 .6 24 1 .00 0 .4 57 .4 19 .2 75 .4 91 .3 26 .4 28 .2 61 .2 55 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 S E S T3 .3 68 .4 57 1 .00 0 .3 57 .4 77 .4 15 .3 81 .4 64 .3 97 .3 82 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 S E S T4 .3 59 .4 19 .3 57 1 .00 0 .2 48 .4 07 .3 03 .3 91 .2 89 .2 39 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 S E S T5 .2 46 .2 75 .4 77 .2 48 1 .00 0 .2 96 .2 76 .3 79 .3 25 .2 60 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 S E S T6 .4 43 .4 91 .4 15 .4 07 .2 96 1 .00 0 .5 87 .6 43 .4 90 .4 25 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 S E S T7 .3 08 .3 26 .3 81 .3 03 .2 76 .5 87 1 .00 0 .5 06 .4 71 .4 18 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 S E S T8 .4 32 .4 28 .4 64 .3 91 .3 79 .6 43 .5 06 1 .00 0 .4 24 .3 92 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 S E S T9 .2 71 .2 61 .3 97 .2 89 .3 25 .4 90 .4 71 .4 24 1 .00 0 .6 07 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 S E S T1 0 .2 50 .2 55 .3 82 .2 39 .2 60 .4 25 .4 18 .3 92 .6 07 1 .00 0 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 .0 00 C orrelac i n S E S T1 S E S T2 S E S T3 S E S T4 S E S T5 S E S T6 S E S T7 S E S T8 S E S T9 S E S T1 0 S E S T1 S E S T2 S E S T3 S E S T4 S E S T5 S E S T6 S E S T7 S E S T8 S E S T9 S E S T1 0
S ig . (U nilateral)
a . D eterm in an te = 2.25 7E-0 2
Tabla 7.2. Matriz de correlaciones. Con la matriz de correlaciones podramos hacernos una idea de la agrupacin de los temes en los factores, puesto que aquellos temes que presenten una correlacin alta entre ellos, es probable que aparezcan dentro de un mismo factor o componente. En este caso, los resultados no muestran una tendencia claramente definida. Un determinante de la matriz muy bajo supone la existencia de variables con correlaciones entre s muy elevadas. En la tabla anterior, el valor es 0,02257, es decir, muy bajo, aunque
184
sin llegar al valor cero, por tanto, es posible la realizacin del anlisis factorial. Para la aplicacin del anlisis factorial, son necesarios una serie de requisitos. Uno de ellos es que las correlaciones entre las variables han de ser altas. La prueba de esfericidad de Bartlett se emplea para probar la hiptesis nula de que la matriz de correlaciones es una matriz identidad (correlacin igual a cero entre los temes). En la tabla 2 se observa que el valor de probabilidad asociado (sig.) tiende a cero, por lo que se rechaza la hiptesis nula a un nivel de significacin del 5% y por lo tanto, tiene sentido realizar el anlisis factorial. Otro dato que nos indica si es posible el anlisis factorial es la medida de adecuacin muestral KMO, de Kaiser-Meyer-Olkin. Este es un ndice que permite comparar las magnitudes de los coeficientes de correlacin obtenidos con las magnitudes de correlacin parcial. Cuando este ndice toma un valor bajo, se desaconseja la aplicacin del anlisis factorial, puesto que las correlaciones entre pares de temes no pueden explicarse a partir de otros temes. La interpretacin se elabora a partir de los siguientes valores:
0,90< KMO 0,80< KMO 0,70< KMO 0,60< KMO 0,50< KMO KMO
1 0,90 0,80 0,70 0,60
Muy bueno Meritorio Mediano Mediocre Bajo Inaceptable
0,50
Segn la tabla 3, el valor de KMO es de 0,876, lo que supone que la matriz es adecuada para realizar el anlisis factorial.
185
KM O y prueba de Bartlett M ed ida de ade cu ac in m uestral de K ais er-M eye r-O lk in. P rueba d e e sfe ricida d de B artlett C hi-cu adrad o aprox im ado gl S ig. .876 1633 .3 61 45 .000
Tabla 7.3. KMO y prueba de Bartlett. Hasta este punto de anlisis cmo hemos obtenido estos resultados en SPSS?. La secuencia de pasos en SPSS es:
Analizar Reduccin de datos Anlisis factorial Descriptivos Descriptivos univariados Coeficientes KMO y prueba de esferecidad de Bartlett Extraccin Extraer Nmero de factores: 2
186
Figura 7.7. Anlisis factorial. Aparecer la siguiente ventana para definir los temes que se considern para el anlisis:
Figura 7.8. Seleccin de las variables.
187
Para obtener los descriptivos univariados, la matriz de correlaciones, los niveles de significacin, el determinante y la prueba KMO, se activa Descriptivos.
Figura 7.9. Estadsticos y correlaciones.
Otro dato es la correlacin anti-imagen, que es el negativo del coeficiente de correlacin parcial. Deber haber pocos coeficientes de correlacin anti-imagen altos para que sea razonable aplicar el Anlisis Factorial. Adems en la diagonal de la matriz de correlaciones anti-imagen, se muestra la Medida de Adecuacin de la Muestra (MSA) para cada tem, cuyo valor si es inferior a 0,5 indicar que el tem no se ajusta con la estructura de los dems temes, debiendo considerarse la posibilidad de eliminarlo del anlisis. En la pantalla anterior se selecciona Antiimagen, el resultado es:
188
Matrices anti-im agen SES T1 C ovarianza a nti-imagen SES T1 .569 SES T2 -.248 SES T3 -1.039E-02 SES T4 -4.205E-02 SES T5 -6.765E-03 SES T6 -2.989E-02 SES T7 -3.620E-04 SES T8 -6.388E-02 SES T9 -1.217E-02 SES T10 -4.188E-03 C orrelacin anti-im agen SES T1 .848 a SES T2 -.463 SES T3 -1.807E-02 SES T4 -6.497E-02 SES T5 -1.051E-02 SES T6 -6.056E-02 SES T7 -6.287E-04 SES T8 -.121 SES T9 -2.213E-02 SES T10 -7.240E-03 a. M edida de adecuacin m uestral SES T2 -.248 .504 -.112 -9.721E-02 -5.818E-03 -8.655E-02 5.849E-03 -3.609E-04 3.649E-02 8.085E-04 -.463 .824 a -.207 -.160 -9.596E-03 -.186 1.079E-02 -7.235E-04 7.050E-02 1.485E-03 SES T3 -1.039E-02 -.112 .581 -5.772E-02 -.202 1.188E-02 -3.970E-02 -6.437E-02 -4.141E-02 -6.761E-02 -1.807E-02 -.207 .892 a -8.823E-02 -.310 2.381E-02 -6.820E-02 -.120 -7.453E-02 -.116 SES T4 -4.205E-02 -9.721E-02 -5.772E-02 .736 -2.218E-02 -5.304E-02 -1.214E-02 -5.375E-02 -3.327E-02 1.011E-02 -6.497E-02 -.160 -8.823E-02 .947 a -3.027E-02 -9.446E-02 -1.853E-02 -8.918E-02 -5.320E-02 1.536E-02 SES T5 -6.765E-03 -5.818E-03 -.202 -2.218E-02 .729 1.867E-02 -8.448E-03 -8.370E-02 -6.539E-02 8.412E-03 -1.051E-02 -9.596E-03 -.310 -3.027E-02 .875 a 3.341E-02 -1.296E-02 -.140 -.105 1.285E-02 SES T6 -2.989E-02 -8.655E-02 1.188E-02 -5.304E-02 1.867E-02 .428 -.149 -.164 -7.375E-02 -2.595E-02 -6.056E-02 -.186 2.381E-02 -9.446E-02 3.341E-02 .875 a -.298 -.357 -.155 -5.171E-02 SES T7 -3.620E-04 5.849E-03 -3.970E-02 -1.214E-02 -8.448E-03 -.149 .583 -7.105E-02 -7.964E-02 -5.451E-02 -6.287E-04 1.079E-02 -6.820E-02 -1.853E-02 -1.296E-02 -.298 .915 a -.132 -.143 -9.309E-02 SES T8 -6.388E-02 -3.609E-04 -6.437E-02 -5.375E-02 -8.370E-02 -.164 -7.105E-02 .493 -7.861E-03 -3.009E-02 -.121 -7.235E-04 -.120 -8.918E-02 -.140 -.357 -.132 .902a -1.536E-02 -5.585E-02 SES T9 -1.217E-02 3.649E-02 -4.141E-02 -3.327E-02 -6.539E-02 -7.375E-02 -7.964E-02 -7.861E-03 .531 -.248 -2.213E-02 7.050E-02 -7.453E-02 -5.320E-02 -.105 -.155 -.143 -1.536E-02 .849 a -.444 SES T10 -4.188E-03 8.085E-04 -6.761E-02 1.011E-02 8.412E-03 -2.595E-02 -5.451E-02 -3.009E-02 -.248 .588 -7.240E-03 1.485E-03 -.116 1.536E-02 1.285E-02 -5.171E-02 -9.309E-02 -5.585E-02 -.444 .850 a
Tabla 7.4 Matrices anti-imagen.
En nuestro problema, pocos valores de la matriz de correlaciones anti-imagen son altos y ninguna medida de adecuacin de la muestra es inferior a 0,5. Por lo tanto, es razonable aplicar el anlisis factorial. Los datos despus de aplicar el test de Bartlett, el ndice KMO y los coeficientes recogidos en la matriz de correlaciones anti-imagen nos permiten comprobar que el anlisis es posible. Se espera poder resumir los diez temes de la escala en factores comunes o dimensiones. Se procede a la determinacin de las comunalidades, esto es a la proporcin de varianza explicada por los factores comunes. Cuando se emplea el mtodo de componentes principales para la extraccin de los factores, las comunalidades inciales son siempre iguales a uno. Los resultados aparecen en la tabla 7.5. As por ejemplo, la comunalidad del tem 1 vale 0,656; la del tem 2 es 0,727, etc. En general, podemos afirmar que los diez temes son explicados por los componentes, puesto que no hay valores bajos, prximos a cero, siendo el tem ms bajo el 5.
189
Com unalidades E x tra c cin .6 5 6 .7 2 7 .4 8 9 .4 3 1 .2 9 8 .6 2 8 .5 4 2 .5 9 0 .6 9 8 .6 4 7
SEST1 SEST2 SEST3 SEST4 SEST5 SEST6 SEST7 SEST8 SEST9 SEST10
M to do d e e xtra cc i n : A n lis is d e C o m po n en te s p rin c ip a le s.
Tabla 7.5 Comunalidades. La tabla 7.6 nos entrega los autovalores y el total de varianza explicada por las componentes cuyos autovalores son mayores que 1. Se observa que la primera componente explica el 45,4% aproximadamente de la varianza y la segunda componente el 11,7%, explicando ambas el 57,1% de la varianza, siendo este porcentaje considerado razonable.
Varianza total explicada S um as d e las sa tu rac ion es al cua drad o de la ex tra ccin % de la To ta l % ac um ula d o va ria nz a 4.53 7 45 .3 72 45 .3 72 1.16 8 11.6 84 57 .0 55
C om p o nen te 1 2 3 4 5 6 7 8 9 10
A uto valore s inic iale s % de la To ta l % ac um ula d o va ria nz a 4.53 7 45 .3 72 45 .3 72 1.16 8 11.6 84 57 .0 55 .8 96 8.95 7 66 .0 12 .6 97 6.96 9 72 .9 82 .6 75 6.75 1 79 .7 33 .5 01 5.00 7 84 .7 40 .4 66 4.66 1 89 .4 01 .3 84 3.84 2 93 .2 43 .3 76 3.76 3 97 .0 06 .2 99 2.99 4 10 0.000
M to do de ex tra ccin : A nlisis de C om p o ne nte s p rin cip ale s.
Tabla 7.6. Varianza total explicada.
190
La interpretacin de los factores es una de las etapas del anlisis factorial ms importante, y sta se realiza a travs de las cargas factoriales, las que corresponden a las correlaciones entre el tem y el factor o componente no rotado . Estas se muestran en la tabla 7.7. En nuestro caso, se usar el valor 0,35 para determinar si una carga factorial indica una asociacin del tem con la componente; sin embargo, este criterio est asociado al tamao muestral y mientras menor es el tamao muestral, mayor es la dificultad de que un tem se asocie a una componente o factor. En Opciones, del menu principal de Anlisis factorial, puede seleccionarse la opcin Suprimir valores absolutos menores que, y escribir 0,35 para que SPSS elimine de la matriz de componentes los valores menores a 0,35. De esta forma, se facilita la interpretacin.
M atriz de com ponentesa C o m p o ne n te 1 2 .6 9 8 4 .1 5 2 E -0 2 .5 8 6 .2 9 5 .5 4 3 -5 .28 E -0 2 .7 9 2 -2 .75 E -0 2 .6 9 1 -.2 55 .7 6 8 3 .0 7 5 E -0 3 .6 7 6 -.4 90 .6 2 7 -.5 03 .6 3 9 .4 9 8 .6 7 6 .5 1 9
SEST3 SEST4 SEST5 SEST6 SEST7 SEST8 SEST9 SE ST10 SEST1 SEST2
M to d o d e e x trac c i n : A n lis is d e c o m p on e n te s p rin cipa les . a . 2 c o m p o ne n te s e x tra d o s
Tabla 7.7. Matriz de componentes. En nuestro ejemplo la primera componente est representada por todos los temes (cargas factoriales positivas), la segunda componente por los temes SEST4, SEST1, SEST2 (cargas factoriales positivas) y SEST7, SEST9 SEST10 (cargas factoriales negativas).
191
Como se espera que cada factor posea una correlacin alta con un grupo de temes y baja con otros, se har una rotacin de los factores debindose adems, examinar las caractersticas de los temes para su interpretacin e intentar darles un nombre especfico. Se probar un rotacin varimax de los factores y para esto se debe ir a la ventana de anlisis factorial nuevamente y seleccionar Rotacin.
Figura 7.10. Anlisis factorial. Donde se muestra la siguiente ventana :
Figura 7.11. Rotacin
192
Al ejecutar la rotacin varimax, varan los porcentajes de varianza explicada por cada componente, pero el porcentaje de varianza explicado por las dos componentes sigue siendo de un 57,1%.
Varianza total explicada S um as de las saturacio ne s al cu adra do d e la extracci n % de la va ria nza To tal % acu m u lado 4 .53 7 4 5.3 72 4 5.3 72 1 .16 8 11.6 8 4 5 7.0 55 S um a de las saturacio ne s al cua dra do d e la rota cin % de la va ria nza To tal % acu m u lado 2 .93 7 2 9.3 67 2 9.3 67 2 .76 9 2 7.6 89 5 7.0 55
C om p on ente 1 2 3 4 5 6 7 8 9 10
A uto valore s in icia les % de la va ria nza To tal % acu m u lado 4 .53 7 4 5.3 72 4 5.3 72 1 .16 8 11.6 8 4 5 7.0 55 .896 8 .95 7 6 6.0 12 .697 6 .96 9 7 2.9 82 .675 .501 .466 .384 .376 .299 6 .75 1 5 .00 7 4 .66 1 3 .84 2 3 .76 3 2 .99 4 7 9.7 33 8 4.7 40 8 9.4 01 9 3.2 43 9 7.0 06 1 00 .00 0
M tod o d e extra ccin: A nlisis d e C om po ne ntes p rin cipa les.
Tabla 7.8. Componentes y varianza total explicada.
En la tabla 7.9, se observa que: la primera componente se asocia ahora con los temes SEST5, SEST6, SEST7, SEST8, SEST9 y SEST10, la segunda componente con los temes, SEST1 SEST2, SEST3 y SEST4; ntese que algunos temes (SES3, SES6, SES8) estn asociados a las dos componentes; estos se denominan temes complejos ya que saturan a ms de una componente y no son usadas para nombrar las componentes. As la primera componente deber ser interpretada con los temes SES5, SES7, SEST9 y SEST10; la segunda componente con los temes SEST1, SEST2 y SES4. Segn la definicin de los temes, el primer factor (o componente) se asocia con el sentimiento positivo mientras que el segundo factor, con el sentimiento negativo. Lo anterior, validara la construccin de la escala de autoestima.
193
M atriz de co mpon en tes rotadosa C o m po nen te 1 2 .4 7 7 .5 11 .2 2 2 .4 3 0 .5 9 3 .6 7 6 .5 5 4 .8 2 8 .8 0 1 .11 9 .1 3 2 .6 1 8 .3 3 6 .5 2 6 .2 9 1 .5 3 2 .111 6 .7 73E -0 2 .8 0 1 .8 4 2
S E ST3 S E ST4 S E ST5 S E ST6 S E ST7 S E ST8 S E ST9 S E ST1 0 S E ST1 S E ST2
M tod o d e extra cc i n: An lisis de c om p o ne ntes p rinc ipa le s. M tod o d e rotacin : N orm a liza ci n Varim ax co n K ais er. a . L a rotaci n h a co n verg id o en 3 ite rac ion es.
Tabla 7.9. Matriz de componentes rotados
Ejercicios 1. Un equipo de psiclogos disea una prueba para medir inteligencia espacial. Para ello seleccionan una muestra de siete personas y les aplican la prueba. Transcurridos dos meses, vuelve a aplicar el mismo test a los mismos sujetos. Las puntuaciones de las dos aplicaciones fueron las siguientes: SUJETO A B C D E F G 1 aplicacin 10 8 12 6 2 8 4 2 aplicacin 12 6 10 8 2 10 6
Obtenga un indicador de la fiabilidad del test e interprtelo (Use un coeficiente de correlacin).
194
2. A continuacin se presentan las puntuaciones obtenidas por 4 personas en un test compuesto por 4 elementos. SUJETO A B C D Varianzas tem1 2 1 4 1 2,00 tem2 3 3 1 3 1,00 tem3 4 5 3 2 1,67 tem4 1 4 0 0 3,58 Total 10 13 8 6 8,92
Obtenga un indicador de la fiabilidad del test (Use Alfa de Cronbach, empleando la frmula y empleando SPSS)
3. Un psiclogo de un centro de educacin especial ha medido la actitud hacia las matemticas con un test de 3 temes, valorados en una escala de 1 a 5, que ha pasado a 5 sujetos. Los resultados obtenidos han sido los siguientes: Sujeto A B C D E Item1 Item2 2 3 5 1 4 3 3 5 2 2 Item3 3 1 3 1 1 Total 8 7 13 4 7
A la vista de los resultados, el psiclogo le pide que le ayude a seleccionar los dos temes que ms contribuyen a la consistencia interna del test (Use Alfa de Cronbach, empleando la frmula y empleando SPSS)
195
4. Se lleva a cabo un anlisis factorial sobre las puntuaciones en un cuestionario. Haciendo esto, se est examinando ... a) Su fiabilidad como consistencia interna b) Su fiabilidad como estabilidad temporal c) Su validez referida a un criterio d) Su validez de constructo
5. Un psiclogo disea cuatro pruebas para medir Extroversin (E1, E2, E3 y E4), tres para medir Neuroticismo (N1, N2 y N3) y dos para medir Psicoticismo (P1 y P2). Aplica las pruebas a una muestra de 100 sujetos y realiza un anlisis factorial a partir de la matriz de correlaciones entre las distintas pruebas. A continuacin se ofrece la matriz factorial rotada: PRUEBA E1 E2 E3 E4 N1 N2 N3 P1 P2 a) b) FI 0,877 0,849 0,791 0,514 0,014 0,106 0,082 0,360 0,243 F II 0,068 0,055 0,003 0,061 0,853 0,765 0,643 0,028 0,066 F III 0,090 0,201 0,076 0,257 0,090 0,012 0,114 0,720 0,687
Podemos afirmar que las pruebas diseadas por el psiclogo poseen una adecuada validez factorial? Qu cantidad de varianza explica el primer factor?
196
197
ANEXO I
NOTAS SOBRE INFERENCIA
La Estadstica Inferencial es el rea de la Estadstica que se preocupa de la relacin entre muestras y la poblacin de la cual se han seleccionado, para emplear los resultados obtenidos en una muestra con el objeto de inferir o tener una idea acerca de los valores de las caractersticas de la poblacin. La Estadstica Inferencial pretende resolver dos problemas fundamentales: la estimacin de parmetros poblacionales a partir de estadsticas muestrales conocidas (Estimacin Puntual y Estimacin por Intervalos), y la toma de decisiones estadsticas acerca de hiptesis establecidas sobre la poblacin, tambin con base en el conocimiento y los resultados obtenidos de una muestra de dicha poblacin (Docimasia o Prueba de Hiptesis).
ESTIMACIN POR INTERVALOS DE PARMETROS POBLACIONALES La estimacin puntual de un parmetro poblacional desconocido consiste en emplear un estimador apropiado para realizar la estimacin. As por ejemplo, luego de tomar una muestra de 10 alumnos de la carrera de Pedagoga en Educacin General Bsica, se calcula la media aritmtica de las edades y se encuentra que es 20,7 aos. Basado en ese resultado, y considerando que la Teora Estadstica avala a la media aritmtica como un excelente estimador de la Media Poblacional, podra estimarse la edad media de todos los alumnos de esa carrera tambin en 20,7 aos.
198
Esta situacin puede mejorarse, ofreciendo un conjunto (o intervalo) de valores posibles para el parmetro poblacional. As por ejemplo, podra estimarse que la edad media de los alumnos de la carrera flucta entre 19,2 y 22,2 aos (esto es 20,7 1,5 aos). A la media aritmtica (20,7 aos) de la muestra se le ha agregado y restado la cantidad de 1,5 aos, denominado error de estimacin, para determinar el intervalo de posibles valores de la edad media de todos los alumnos de la carrera.
PRUEBA DE HIPTESIS SOBRE PARMETROS POBLACIONALES Se mencion que las dos grandes reas de la Inferencia son la estimacin de parmetros y el someter a prueba (docimar, contrastar) hiptesis estadsticas. El empleo de estos procedimientos puede depender del conocimiento existente sobre una poblacin. Si no hay informacin, posiblemente el inters se centre en estimar alguna caracterstica de la misma. Si existe alguna informacin referente a la poblacin de inters, el objetivo puede ser el aprovecharla para formular hiptesis.
Hiptesis de Investigacin Las hiptesis de investigacin son las hiptesis sustantivas que guan la investigacin, por estar fundamentadas tericamente. Deben estar siempre expresadas como posibles contestaciones a una o varias preguntas de investigacin. Adems, se formulan en trminos de las relaciones que existen entre las variables del estudio. Por ejemplo, en un estudio sobre las edades de los estudiantes de Educacin General Bsica (EGB), podramos preguntarnos (esta sera nuestra pregunta de investigacin): Cmo es el nivel de edades de los estudiantes de EGB respecto al resto de estudiantes de la universidad?
199
Una posible respuesta a esta pregunta de investigacin (la hiptesis) sera postular, luego de analizar los fundamentos tericos as como la informacin de otros estudios o de organismos relacionados con el tema, que la edad media (la variable de inters) de los estudiantes de EGB es menor que la edad media al resto de estudiantes de la universidad. Esta declaracin no es otra cosa que nuestra hiptesis de investigacin y constituye, en principio, nuestra respuesta tentativa a la pregunta de investigacin. Pero tambin, los estudios relacionados o la informacin disponible, nos podran llevar a postular que la edad media de los estudiantes de EGB es mayor que la edad media del resto de estudiantes de la universidad, o, si no hay seguridad en cuanto a la comparacin, que slo es diferente a la edad media de los otros estudiantes.
Hiptesis Estadsticas Las Hiptesis Estadsticas corresponden a la traduccin de la Hiptesis de Investigacin en trminos de aseveraciones o conjeturas acerca de la distribucin de una o ms variables. Especficamente, las hiptesis estadsticas pueden referirse a parmetros poblacionales (Medias, Proporciones, Varianzas etc.) o a la forma de la distribucin (Normal, Uniforme etc.). Operativamente se consideran la Hiptesis Nula (H0) y la Hiptesis Alternativa (H1). La primera, generalmente, establece lo conocido o lo conservador, mientras que la segunda, que es complementaria a la anterior, refleja lo novedoso o lo que usualmente interesa al investigador. Ambas hiptesis agotan las posibles alternativas, en cuanto a valores de parmetros o formas de distribucin. Siguiendo con el ejemplo, supongamos que se conoce la edad media de los estudiantes de la universidad, y es igual a 22,8 aos. Ese valor es una caracterstica de la poblacin lo que se denota como m=22,8 aos. Entonces, las hiptesis sobre la edad media de los estudiantes de EGB se formularn respecto a este valor.
200
Las distintas situaciones sealadas permiten traducir la Hiptesis de Investigacin en las siguientes Hiptesis Estadsticas, considerando que lo conocido debe formar parte de la Hiptesis Nula. a) H0: m = 22,8 b) H0 : m H1: m = 22,8 22,8 c) H0 : m 22,8
H1 : m > 22,8
H1 : m < 22,8
Las hiptesis anteriores se denominan (a) bilateral, bidireccional o de dos colas, (b) y (c) se denominan unilaterales, unidireccionales o de una cola. Conviene tener presente que ante una Hiptesis de Investigacin slo una de las alternativas se debe considerar.
Prueba de Hiptesis La Prueba de Hiptesis es el procedimiento o la regla de decisin que se emplea para decidir sobre la aceptacin o no de la Hiptesis Nula. Se denomina genricamente prueba en SPSS. La Prueba de Hiptesis consiste en suponer verdadera la Hiptesis Nula y derivar las consecuencias que ello implica. Finalmente, se contrastan las consecuencias mencionadas con la informacin que aporta la muestra de la poblacin, resumida en los estimadores respectivos que se denominan estadsticos de prueba. Si los resultados muestrales son coherentes con las consecuencias, ello se interpreta como que la Hiptesis Nula efectivamente es verdadera y se decidir aceptarla. Por el contrario, si los resultados muestrales no son coherentes con las consecuencias, ello se interpreta como que la Hiptesis Nula no es verdadera y se decidir no aceptarla (y se aceptar su complemento, la Hiptesis Alternativa). La decisin, en cualquier caso, involucra riesgos de equivocarse.
201
Continuando con el ejemplo, supongamos que las hiptesis de inters corresponden a : H0: m = 22,8 aos H1: m = 22,8 aos Como se emplea una muestra para decidir, y si se supone que en verdad la edad media de los estudiantes de la Carrera de EGB es 22,8 aos, las muestras de alumnos seleccionados pueden diferir de ese valor. El problema es determinar hasta que punto se pueden considerar diferencias, dado que la edad media realmente es 22,8. El monto del error admisible es denominado nivel de significacin y simbolizado por a. En todo caso, si en las muestras se obtuvieran valores demasiado bajos respecto a 22,8 o demasiado altos, ambos casos seran indicios de que la edad media de la carrera es diferente a 22,8. Por ello se denomina bilateral a la prueba respectiva. Si se supone que la Hiptesis Nula es verdadera (se puede slo suponer pues es imposible saberlo con certeza) y es rechazada por la prueba, se cometera el error tipo I cuya magnitud es a y es el nivel de significacin. Si se supone que la Hiptesis Nula no es verdadera y no es rechazada por la prueba, se cometera el error tipo II cuya magnitud es b (el valor 1-b se denomina potencia de la dcima). En las aplicaciones, generalmente se emplean niveles de significacin del 5% o del 1% para tomar decisiones. Sin embargo, SPSS entrega los denominados valores-p (p-value) usualmente como valores de significacin (Sign. Exacta, aproximada, asinttica etc.) los que facilitan mucho la decisin de aceptar o no la Hiptesis Nula, lo que en definitiva se realiza, comparando dicho valor con el nivel de significacin decidido por el investigador ( por ejemplo 5% o 1%).
202
Elementos de una Prueba de Hiptesis: A continuacin, se detallan los principales elementos involucrados en una Prueba de Hiptesis: a) Prueba: Es el procedimiento o la regla de decisin que se emplea para decidir sobre la aceptacin o no de la Hiptesis Nula. La seleccin de la prueba se realiza, considerando la Hiptesis de la Investigacin y la respectivas Hiptesis Estadsticas, considerando las caractersticas de la muestra y los supuestos necesarios para desarrollar la prueba (p.ej. normalidad, aleatoriedad de la muestra, independencia etc.)
b) Hiptesis Nula (H0): Es la hiptesis que seala lo tradicional y se supone que es verdadera para desarrollar el procedimiento de la prueba. c) Hiptesis Alternativa (H1): Es complementaria a H0, refleja lo novedoso o lo que usualmente interesa al investigador. Ambas hiptesis agotan las posibles alternativas, en cuanto a valores de parmetros o formas de distribucin.
d) Nivel de significacin (a ): Corresponde a la probabilidad de rechazar una hiptesis que puede ser verdadera (se denomina tanbin error tipo I). Valores usuales son 5% y 1% (a=0,05 o a=0,01). Es fijado por el investigador. e) Estadstica de Prueba: Es la estadstica muestral empleada en la prueba. Tiene una distribucin en el muestreo con caractersticas que se asocian con el parmetro que se estima. Este valor lo entrega SPSS. Regin Crtica (RC): Corresponde al conjunto de valores de la estadstica de prueba que llevan al rechazo de H0. Dependen del nivel de significacin fijado y de la Hiptesis alternativa. Puede corresponder a un rea en
f)
203
una cola de la distribucin de la estadstica de prueba (en dcimas unilaterales) o a dos reas en las colas de esa distribucin (en dcimas bilaterales). Cuando se conoce el valor-p (valor de significacin), no es necesario indicar la regin crtica como ocurre en las pruebas de SPSS. g) Regin de Aceptacin (RA): Es el complemento de la regin crtica. No es necesario indicarla pues toda la prueba se realiza en funcin de la Hiptesis Nula y su regin crtica.
204
205
ANEXO II
ESQUEMA DE ALGUNAS PRUEBAS ESTADSTICAS
Con el objeto de complementar la explicacin del texto as como para facilitar su aplicacin, se presentan en orden alfabtico los resmenes de algunas pruebas mencionadas en el texto. Se indica el propsito de la misma, la hiptesis nula general y la regla para decidir sobre la hiptesis nula basada en los valores p ( o de significacin) entregados por SPSS. Se complementa con un ejemplo de aplicacin, empleando los formatos de presentacin de resultados y nomenclatura de SPSS para facilitar su interpretacin. Los detalles tcnicos se pueden encontrar en los textos de Estadstica.
a 1. ALFA DE CRONBACH (a) Se pueden emplear los resultados entregados por SPSS para complementar el estudio de la confiabilidad mediante la aplicacin de pruebas o clculo de intervalos de confianza respectivos. Para esto se emplea el estadstico de prueba F=(1-a)/(1-a0) el cual tiene una Distribucin F con (N-1) y (N-1)(n-1) grados de libertad, siendo N el nmero de sujetos en la muestra, n el nmero de temes del test, a el valor poblacional postulado y a0 el valor obtenido en la muestra . (No confundir la notacin de este alfa de Cronbach con el empleado para el nivel de significacin).
206
Hip. Nula: a = 0 Se pueden plantear pruebas unilaterales o bilaterales Decisin: Si F observado es mayor al F de tabla con (N-1) y (N-1)(n-1) grados de libertad, se rechaza la Hiptesis Nula. Ejemplo: Para un test de inteligencia espacial, con 50 temes, se plantea la Hiptesis que el Coeficiente Alfa de Cronbach es mayor que cero. H0 : a 0 versus H1 : a > 0
Los resultados de la aplicacin a una muestra de 40 personas presentan un valor de Alfa de Cronbach a0 =0,75. Por lo tanto: F0=(1-0)/(1-0,75)=4 Si se emplea un nivel de significacin del 5%, se compara el valor antes calculado con el entregado por la tabla F con (40-1) y (10-1)(40-1) grados de libertad, esto es 39 y 351 grados de libertad. El valor ms cercano en la tabla F para F(0,95; 39; 351) es 1,39 (para 40 e infinitos grados de libertad). Luego, dado que el valor calculado para F0=4 es mayor que 1,39 se concluye que la Hiptesis Nula es rechazada y por lo tanto, se acepta que a>0 esto es, la confiabilidad de la escala es significativa. 2. ANLISIS DE VARIANZA DE UN FACTOR Esta prueba tiene como objetivo estudiar si las Medias de K poblaciones independientes (:m1, m2, ..., mk ) son iguales, o si al menos una, es diferente de las otras. Hip. Nula: m1 = m2 = ....= mk Supuestos: Las poblaciones tienen distribucin normal. Las
207
varianzas poblacionales son iguales. Las observaciones son independientes. Decisin: Si p observado es menor que nivel fijado (p.ej. 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se prueba si existe diferencias entre edades medias (mi) de estudiantes de 7carreras de la universidad H0 : m1 = m2 = ....= m7 En tabla ANOVA respectiva en la Lnea indicada como Entre Grupos: F=7,752 Sig.=0,000 Decisin: Se rechaza la Hiptesis Nula. Existen diferencias entre las edades medias de los estudiantes de las carreras (al menos un grupo es diferentes de los otros) Empleando Comparaciones mltiples (Scheff, Bonferroni, etc.) se pueden detectar diferencias significativas. Sern las que presenten valores de significacin (Sign.) menores al fijado (5% por ejemplo).
3.
ASIMETRIA Indica el grado de simetra o asimetra de la distribucin Interpretacin del Coeficiente (Estadstico): <1: Distribucin asimtrica negativa (cola ms larga hacia la izquierda) =0: Distribucin simtrica >1: Distribucin asimtrica positiva (cola ms larga hacia la derecha) Error Tipico: Indica la estimacin de la variabilidad del coeficiente
208
Coeficiente estandarizado= Coeficiente/Error Tpico (no lo entrega SPSS) Para n>150 se distribuye aprox. Como normal. Se puede emplear para probar si la muestra proviene de una poblacin simtrica (o asimtrica positiva o negativa). Hip. Nula: Distribucin es simtrica Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza Hip. Nula Ejemplo: Se analiza la simetra de una distribucin: Coeficiente= 0,462 Error Tpico= 0,179 Coeficiente Estandarizado = 0,462/0,179 = 2,58 Decisin: Como el coeficiente estandarizado es mayor que 1,96 (valor de distribucin normal asociado con una significacin del 5%) se rechaza Hip. Nula a ese nivel de significacin. Por lo tanto, la distribucin es asimtrica positiva.
4.
CHI-CUADRADO (Bondad de Ajuste) Esta prueba tiene como objetivo comparar las posibles diferencias entre las frecuencias observadas y las esperadas en una distribucin, de acuerdo a una determinada hiptesis (por ejemplo que distribucin es Normal etc.).
Hip. Nula: Distribucin emprica se ajusta a una distribucin supuesta (Normal, uniforme etc.) Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza la Hip. Nula Ejemplo: Se desea probar si la distribucin de frecuencias de una variable nominal, con 6 categoras, es uniforme (todas las
209
categoras tienen las mismas frecuencias). Hip. Nula: Distribucin emprica se ajusta a distribucin uniforme. Chi-Cuadrado= con 118 g.l=5 p=0,0000. Decisin: Se rechaza Hip. Nula. La distribucin emprica no tiene una distribucin uniforme (hay diferencias entre las frecuencias de las categoras).
5.
CHI CUADRADO (Independencia) En procedimiento Estadstica descriptiva/Tablas de Contingencia, esta prueba tiene como objetivo analizar la independencia (o falta de asociacin) de las variables que componen la tabla de contingencia.
Hip. Nula: Las variables son independientes. Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se desea probar si las clasificaciones por sexo (hombre y mujer) y capacitacin (capacitado, no capacitado) estn relacionadas. Chi-Cuadrado de Pearson= 0,141 g.l=1 p=0,707. Decisin: No se rechaza la Hip. Nula. No existe asociacin entre las variables.
6.
COEFICIENTE DE CORRELACIN DE PEARSON (r) r Esta prueba tiene como objetivo estudiar si la correlacin entre dos variables, que tienen una distribucin Normal bivariada, es diferente de 0. En caso de ser 0 indicara que las variables son independientes.
210
Hip. Nula: Las variables son independientes (r = 0). Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza la Hip. Nula (En SPSS se puede indicar el nivel y pedir que marque correlaciones significativas, esto es, aquellas cuyo valor p sea menor o igual al fijado). Ejemplo: Se analiza la correlacin entre dos pruebas Total Stress Percibido y Total de Afecto Negativo. Correlacin de Pearson= 0,674 p=0,000 (bilateral).
Decisin: Se rechaza Hip. Nula. Existe asociacin entre variables.
7.
CURTOSIS Indica el grado de apuntamiento de la distribucin en comparacin con la distribucin Normal (con su misma Media y Desv. Tpica) Interpretacin del Coeficiente (Estadstico): <1 : Distribucin ms aplastada que la Normal (platicrtica). =0 : Distribucin igualmente apuntada que la Normal (mesocrtica). >1 : Distribucin ms apuntada que la Normal (leptocrtica).
Error Tipico: Indica la estimacin de la variabilidad del coeficiente Coeficiente estandarizado= Coeficiente/Error Tpico (no lo entrega SPSS) Para n>150 se distribuye aproximadamente como normal.
211
Se puede emplear para determinar si efectivamente no hay apuntamiento (o si ste existe). Hip. Nula: Distribucin es igualmente apuntada que la Normal. Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza Hip. Nula. Ejemplo: Se analiza la curtosis de una distribucin: Coeficiente= -0,596 Error Tpico= 0,355. Coeficiente Estandarizado = -0,596/0,355 = -1,67. Decisin: Como coef. Estandarizado est entre 1,96 y 1,96 (valor de distribucin normal asociado con una significacin del 5%) no se rechaza Hip. Nula a ese nivel de significacin. Por lo tanto, se acepta que la distribucin tiene una apuntamiento semejante al de su Distribucin Normal asociada.
8. KAPPA Se emplea para medir acuerdo entre jueces que califican los mismos objetos o sujetos. Toma el valor 1 para el acuerdo perfecto y 0 para desacuerdo completo. Para valores intermedios se proponen los siguientes conceptos: Menos de 0,40 0,40 a 0,75 Acuerdo pobre. Buen nivel de acuerdo.
Mayor de 0,75Excelente nivel de acuerdo. Hip. Nula: k=0 Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza la Hip. Nula
212
Ejemplo: En la evaluacin de candidatos a un cargo realizadas por 2 jueces, se obtienen los siguientes resultados: Medida de acuerdo Kappa=0,4728 p=0,000. Decisin: Se rechaza Hip. Nula. Existe acuerdo (moderado) entre jueces.
9.
KOLMOGOROV-SMIRNOV Esta prueba se emplea para comparar distribuciones: - Como (K-S Lilliefors) en Procedimiento Explorar/Grficos se emplea para determinar si una distribucin emprica tiene una distribucin Normal. - Como (K-S Z) en Procedimiento Estadstica No Paramtrica se emplea para comparar una distribucin emprica con otras distribucines (Normal, Uniforme, Poisson) o para comparar si dos muestras tienen una misma distribucin.
Hip. Nula: Distribucin emprica se ajusta a distribucin Normal (con media y desv. estndar estimadas desde la muestra). Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza Hip. Nula. Ejemplo: Se prueba si una distribucin emprica se ajusta a la Normal: K-S (Lilliefors)=0,1343 con 118 g.l p=0,0000. Decisin: Se rechaza Hip. Nula, distribucin que se prueba no se ajusta a la Normal.
10. LEVENE Esta prueba tiene por objetivo analizar si las varianzas de
213
varias poblaciones son o no iguales. Hip. Nula: Varianzas de Poblaciones definidas por Factores son homogneas (iguales). Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza Hip. Nula. Ejemplo: Se comparan varianzas de cinco grupos: Levene=1,2205 con 4 y 110 g.l. p=0,3063 Decisin: No se rechaza Hip. Nula. Las varianzas de los distintos grupos son homogneas (iguales).
11. PRUEBA T PARA UNA MUESTRA Esta prueba tiene como objetivo estudiar si la media de una poblacin (m) tiene un valor conocido m0. Hip. Nula: m = m0 Se consideran pruebas unilaterales o bilaterales. Supuestos: La poblacin tiene distribucin normal. Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se prueba si puntaje medio poblacional en un test de Matemticas es 100 puntos. Se aplic el test a 50 alumnos. Puntaje medio en la muestra fue 108,4 puntos. H0 : m = 100 vs. H1 : m = 100 TEST MATEMAT t=5,482 g.l.= 49 Sig. (bilateral)=0,000 Decisin: Se rechaza Hip. Nula. Puntaje medio es diferente a 100 puntos.
214
12. PRUEBA T PARA DOS MUESTRAS INDEPENDIENTES Esta prueba tiene como objetivo estudiar si las medias de dos poblacines independientes (:m1 y m2 ) son iguales, o si una es mayor o menor que la otra. Hip. Nula: m1 = m2 Se consideran pruebas unilaterales o bilaterales. Supuestos: Las poblaciones tienen distribucin normal. Las varianzas poblacionales puede suponerse que sean iguales o no. Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se prueba si puntaje medio poblacional en un test de Matemticas es igual para hombres (m1) y para mujeres (m2 ). Se emplearon muestras de 12 hombres y 16 mujeres H0 : m1 = m2 vs TEST MATEMAT t=-0,501 H1 : m1 = m2 Se han asumido varianzas iguales
g.l.=26 Sig. (bilateral)=0,621.
No se han asumido varianzas iguales. t=-0,497 g.l.=23,2 Sig. (bilateral)=0,624.
Decisin: En ambos casos, no se rechaza Hip. Nula. Luego, se acepta que puntajes medios para hombres y mujeres son iguales.
13. PRUEBA T PARA DOS MUESTRAS RELACIONADAS Esta prueba tiene como objetivo estudiar si las medias de dos poblacines no necesariamente independientes(:m1 y m2 ) son
215
iguales, o si una es mayor o menor que la otra, considerando pares de valores muestrales (Xi, Yi) denominados datos apareados, de los cuales se emplean las diferencias. Hip. Nula: m1 = m2 ( m1-m2= 0 ). Se pueden plantear pruebas unilaterales o bilaterales. Supuestos: Las poblacin de diferencias tienen distribucin normal. Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se prueba si es efectivo un taller para reducir el strs. Se emple una muestra de 10 sujetos. Se midi con un test a cada uno antes (m1 ) y despus (m2 ) de realizar el taller. H0 : m1 = m2 vs t= 1, 399 H1 : m1 = m2 PAR ANTES-DESPUES: Media de la diferencia= 1. g.l.=9 Sig. (bilateral)=0,195
Decisin: No se rechaza Hip. Nula. Luego, se acepta que puntajes medios antes y despus son iguales, esto es que el taller no fue efectivo para reducir strs.
14. REGRESIN LINEAL : PRUEBA F TABLA ANOVA Esta prueba tiene por objetivo estudiar si el modelo de Regresin Lineal (recta Y= a+bX) permite explicar la relacin entre las variables X (dependiente) e Y (independiente), esto es, si la pendiente b es diferente de 0. Hip. Nula: El modelo de Regresin Lineal no explica la relacin entre las variables (b= 0).
216
Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza la Hip. Nula. Ejemplo: Se estudi la relacin entre las variables Resistencia al esfuerzo (var. Dependiente) y Edad (var. Independiente). En tabla ANOVA respectiva en Lnea indicada como Regresin: F=48,123 Sig.=0,000. Decisin: Se rechaza Hip. Nula. Existe relacin lineal entre las variables.
15. REGRESIN LINEAL : PRUEBA t PARA COEFICIENTES Esta prueba tiene por objetivo estudiar si parmetros a y b del modelo de Regresin Lineal (recta Y= a+bX) siendo variables X (dependiente) e Y (independiente) son o no iguales 0. En caso de ser slo a=0 indicara que la recta pasa por el origen. En caso de serb=0 indicara que no hay relacin entre las variables. En el caso de Regresin Lineal, esta prueba es equivalente a la Prueba F. Se puede verificar la siguiente relacin entre los estadsticos de prueba: t2 = F Hip. Nula 1: El intercepto del modelo de Regresin Lineal es cero (a=0) Hip. Nula 2: La pendiente del modelo de Regresin Lineal es cero (b=0) Decisin: Si p observado es menor que nivel fijado (p.ej 0,05 o 5%) se rechaza la Hip. Nula.
217
Ejemplo: Se estudi de la relacin entre Resistencia al esfuerzo (var. Dependiente) y Edad (var. Independiente). a) En tabla de COEFICIENTES respectiva en Lnea indicada como (Constante): t=5,683 Sig.=0,000. Decisin: Se rechaza Hip. Nula. El intercepto es diferente a 0. b) En la misma tabla de COEFICIENTES en Lnea indicada como Edad: t=6,937 Sig.=0,000. Decisin: Se rechaza Hip. Nula. La pendiente es diferente a 0. Observacin: Notar que t2 =6,9372 =48,123 =F.
16. REGRESIN MLTIPLE En el caso de Regresin Mltiple, la interpretacin de los resultados del ANOVA as como la tabla de COEFICIENTES respectivos es semejante a los que se indican en Regresin Lineal.
17. SHAPIRO-WILKS Es similar a Kolmogorov-Smirnov para probar normalidad.
218
I.S.B.N. 956-291-627-8 Registro de Propiedad Intelectual N 130.367
219

Análisis y Tratamiento de Datos en SPSS

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis y Tratamiento de Datos en SPSS

Uploaded by

Copyright:

Available Formats

1

CONCEPTOS BSICOS PARA EL PROCESAMIENTO Y ANLISIS DE DATOS

Clasificacin de la Estadstica Estadstica Descriptiva: Se encarga de recoger y resumir las

Tabla 1.1. Tipos de Diseos

Un libro de cdigos bsicos incluira lo siguiente: Casos = 30 (N=30) Variables = 5

EL PROCESO DE MEDICIN Y EL ANLISIS ESTADSTICO

An Account of the Principles of Measurement and Calculation, Londres, Longman.

Notas CEEB: la media equivale a 500 y la desviacin estndar equivalente a 100.

Tipos de variable Cualitativa Cuantitativa

Clasificacin Discreta Discreta Continua

Escala de Medicin Nominal Ordinal Intervalo Razn Intervalo Razn

Tabla No.2.1. Tipos de variables y escalas de medicin

Figura 2.1. Hoja de ingreso de las variables y sus respectivas especificaciones

Teora Clsica de los tests, Pirmide, Madrid

Psicologa de la personalidad. Paidos, Buenos Aires

Casi los cumple 2

Totalmente de Acuerdo=TA De Acuerdo=A Indeciso=I En Desacuerdo=D Totalmente en Desacuerdo =TD

Factor 1 Uso de Correo Electrnico No. Reactivo

Figura 2.2. Histograma

D e sv. tp. = 5.39 M edia = 33.5 N = 436.00

tot a l a uto e sti m a

Figura 2.4 Curva sesgada

Figura 2.5 Asimetra positiva y negativa

Tabla No. 3.1. Escala de autoestima de Rosenberg

Edad del encuestado

Totautoe Puntaje total Cuantitativa Escala obtenido en la escala de autoestima Tsatvid

Figura 3.1 Vista de Variables

Figura 3.2 Visin parcial de las variables de nuestro caso de estudio

Figura 3.2 Visin parcial de las variables de nuestro caso de estudio

Figura 3.3 rea de ingreso de los datos

Figura 3.4 Muestra de los datos de nuestro caso de estudio

Figura 3.6. Columna de deficin de las escalas de medicin

Tambin puede comparar el patrn de correlaciones en mujeres y hombres dividiendo el archivo.

ANLISIS DESCRIPTIVO UNIVARIANTE

Cuadro 4.1. Diagrama de Tallo y Hoja.

Figura 4.1. Diagrama de caja.

Grfico Q-Q normal de EDAD

Grfico 4.1. Grfico Q-Q.

Figura 4.2. Definicin de Tabla de Frecuencia.

Representacin grfica Grfico de barras o sectores Grfico de barras

(*) Si la distribucin es muy asimtrica, es aconsejable tratar la variable como ordinal.

Figura 4.5.8 Explorar: Grficos.

Media Intervalo de confianza para la media al 95%

Lmite inferior Lmite superior

.179 .355 .86

Tabla 4.5. Valores extremos.

Stem width: 10 Each leaf: 2 case(s) & denotes fractional leaves.

Grfico 4.3. Diagrama de Caja.

Grfico Q-Q normal de EDAD

Grfico Q-Q normal sin tendencias de EDAD

Grfico 4.4. Grfico Q-Q variable sexo (hombres).

Grfico Q-Q normal sin tendencias de EDA

.2 0.0 -.2 -.4 10 20 30 40 50 60 70 80 90

Anlisis Descriptivo de la Variable Estado Civil

Analizar Estadsticos descriptivos Frecuencias Estado civil [estciv]

El investigador debe definir la(s) variable(s) que desea procesar:

Figura 4.6. Definicin de Tabla de Frecuencia para Variable estciv.

Cuadro 4.8. Tabla de Frecuencia variable estciv.

viudo divorciado separado casado por segunda v casado por primera v

Figura 4.7. Men Chi-cuadrado.

Cuadro 4.9. Resultados variable Estciv y su correspondiente estadstico de contraste.

Figura 4.8. Tabla de Frecuencias y Estadsticos.

Los resultados son los siguientes: