Professional Documents
Culture Documents
INDICE Pag . Introduccin Captulo I: Aspectos preliminares Captulo II: Acceso e instalacin del software Captulo III: Elementos del programa Captulo IV: Creacin de archivos, acceso al programa e importacin de datos Captulo V: Anlisis descriptivo Medidas de Tendencia Central, de Variabilidad y de Dispersin Distribucin de frecuencias Exploracin de la normalidad Captulo VI: Anlisis comparativo Comparacin de dos medias independientes: t de Student Comparacin de dos grupos independientes: U de Mann-Whitney Comparacin de dos medias relacionadas: t de Student Comparacin de pares relacionados: Prueba de rangos asignados de Wilcoxon Comparacin de ms de dos medias independientes: Anlisis de Varianza de una va Comparacin de ms de dos medias independientes: Prueba de Kruskall-Wallis Captulo VIII: Correlacin y asociacin Correlacin producto-momento de Pearson Correlacin por rangos de Spearman Chi-cuadrado como prueba de independencia Captulo IX: Regresin lineal y mltiple Captulo X: Anlisis factorial Captulo XI: Anlisis discriminante Referencias 2 4 5 7 9 15 15 16 18 20 20 21 23 24 26 27 30 30 31 33 35 37 43 47
INTRODUCCIN
Actualmente la formacin profesional tiene como constante en sus planes de estudio asignaturas referidas a estadstica (descriptiva y/o inferencial), las cuales se aplican a diversas reas del conocimiento dentro de dichas disciplinas. Esto pone de manifiesto la importancia de la estadstica para todo profesional. Por ello es necesario facilitar el acceso a los procedimientos que pueden promover un aprendizaje significativo de dicha materia. Una de las dificultades en la enseanza de la estadstica es la realizacin de clculos manuales que se realizan a partir de expresiones matemticas, dificultad que lleva al estudiante a percibir la estadstica como la aplicacin de frmulas, sin incidir en la comprensin de los resultados de dichas operaciones. Esto ltimo, es decir, la comprensin de los resultados a partir de datos correspondientes a constructos propios de cada profesin, es lo fundamental de la estadstica. De otro lado, un aspecto positivo a considerar es la formacin previa que tienen los escolares que posteriormente ingresan a las universidades, cuya formacin tiene preponderancia en el uso de los recursos informticos (programas educativos) y al Internet, lo cual hace que estn ms familiarizados con herramientas que ya usan desde la etapa escolar. En este sentido, desde hace dcadas se desarrollan programas para diversas reas del conocimiento, y una de ellas es la estadstica. Adems de los programas comerciales ms conocidos (SPSS, STATA, MINITAB, etc.), tambin existen muchos programas de libre acceso de uso especfico (RANEIGEN, ARC, FACTOR, etc.) como de propsito mltiple (ViSta, OPENSTAT, R, etc.), los cuales no requieren dispositivos adicionales en los computadores, y son de fcil manejo. Uno de los principales problemas para que dichos programas puedan implementarse es la falta de conocimiento de la existencia de los programas de libre acceso, razn por la cual muchas veces en los centros de enseanza, ante la imposibilidad de contar con licencias que avalen el uso de software comercial debido al costo que ello implica, se opta por ensear la estadstica a travs de clculos manuales, dejando de lado el hecho que cuando el estudiante egrese no proceder de esa manera cuando se le encargue procesar los datos. Cabe resaltar que hoy en da es imposible pensar en una persona (sea docente o estudiante) haciendo clculos manuales en el proceso de una investigacin. Entonces, la presente propuesta tiene como objetivo principal brindar una herramienta informtica para la enseanza de la estadstica a partir del uso de programas de libre acceso: el OPENSTAT. Esta gua est estructurada por captulos, cada uno de los cuales tiene como objetivo mostrar de manera abreviada los procedimientos utilizados en el manejo del programa respecto a determinados anlisis. El captulo I trata sobre los aspectos preliminares, el origen del programa, las ventajas de ste y los objetivos de la gua. El captulo II nos muestra la
facilidad del acceso e instalacin del software. En el captulo III se detallan los elementos de la interfaz programa, delimitando las funciones de cada una de ellos. El captulo IV nos da las pautas para la creacin de archivos, el acceso al programa, as como la importacin de datos. Todos estos procedimientos servirn de base para los anlisis que se propondrn a partir del siguiente captulo. En el captulo V se dan las pautas de los procesos involucrados en el anlisis descriptivo (medidas de Tendencia Central, de Variabilidad y de Dispersin, Distribucin de Frecuencias y Exploracin de la Normalidad). En el captulo VI se dan los elementos para la realizacin de diversos anlisis comparativos (comparacin de grupos independientes y relacionados) tanto a nivel paramtrico como no paramtrico (t de Student, U de MannWhitney, Prueba de rangos asignados de Wilcoxon, Anlisis de Varianza de una va, Prueba de Kruskall-Wallis). En el captulo VIII, sobre medidas de correlacin y asociacin, se trabajaron los aspectos relacionados a la Correlacin producto-momento de Pearson, la Correlacin por rangos de Spearman, y Chi-cuadrado como prueba de independencia. El captulo IX, Regresin, brinda las pautas para el anlisis a nivel de regresin lineal y mltiple, brindando los estadsticos descriptivos y los indicadores correspondientes. Por ltimo, en los captulos X y XI, se dan los alcances para la realizacin de dos de las tcnicas de anlisis multivariante ms potentes: anlisis factorial y anlisis discriminante. En el Anexo se muestra el procedimiento de Seleccin de casos, muy usado en investigacin. Como ya se apunt con anterioridad, el presente trabajo pone a disposicin del estudiante, docente, usuario en general, un panorama amplio respecto al software OPENSTAT en el anlisis estadstico en psicologa y ciencias sociales en general, el cual espero sea de su agrado.
Los autores
Profesor Emrito del Departamento de Tecnologa Industrial en la Universidad Estatal de Iowa, Ames, Iowa. Con Master en Ciencias: Universidad Estatal de Iowa 1961, Doctorado en Filosofa, en la misma universidad, y con entrenamiento en Post Doctorado: IBM Training Institutes on Data Base Management 1975. AERA Bayesian Statistics Seminar 1968. American Educational Res. Assoc. Program Evaluation Seminar 1976. AERA Rasch Model Item Scaling Seminar 1977, entre otros estudios.
Despus de guardarlo en la PC se debe proceder con la instalacin. Previamente aparecer una Advertencia de Seguridad. Vale recalcar que en la mayora de los casos que se va a instalar un software ejecutable (.exe) aparece dicho mensaje, ya que en algunos casos se trata de programas que daan el computador, mas en este caso se trata de un software
desarrollado por profesionales, por lo cual lo podemos instalar sin inconvenientes. Entonces, se sigue con la secuencia que viene a continuacin: Figura N 2 Icono del Instalador del programa OPENSTAT
Men del Programa Files Este punto permite crear un nuevo archivo, abrir una extensin determinada de archivo (.Tex, .Tab, .S4U, OS4, entre otros), as como guardar, exportar, imprimir, y Previsualizar. Variables Se encuentra relacionado con la configuracin de las variables, a travs de este men se podr: definir, configurar, ordenar, transformar y guardar variables.
Edit Ayuda con la edicin a travs del cual se pueden agregar o eliminar tanto casos como variables. Adems se pueden copiar y pegar datos externos elaborados en OpenStat para llevarlos a otra rejilla de datos u otro documento en el que se permita la edicin. Analyses A travs de esta opcin OpenStat nos permite hacer un anlisis descriptivo de las variables, compararlas, analizar varianzas, ver la correlacin, as como estudiar procesos no paramtricos. Simulation A travs de simulacin se puede obtener grficas de las distribuciones teniendo como datos los parmetros, se puede generar valores asociados a una distribucin, trazar zonas de las distribuciones (T, Z, X2) asociadas al error tipo I Encontrar el valor de percentiles. Utilities A travs de utilidades OpenStat incorpora un visor de imgenes que permite visualizar los grficos generados y guardados, adems incluye una calculadora cientfica y un procesador de textos. Options Help Permite realizar la configuracin de los valores dado que queramos cambiar los que hemos definido al inicio del programa (Seccin Configuracin inicial). El men Ayuda contiene un manual resumido que permite encontrar soluciones a problemas frecuentes en OpenStat y conocer acerca del autor del programa.
10
Despus de ello aparecern dos ventanas en las cuales una har referencia que slo se puede guardar en ese formato la hoja activa (donde estn los datos que hemos trabajado), y la otra es una advertencia sobre una posible falta de formato para ser guardado como archivo de texto. Al trmino, para comprobar la existencia del archivo, abrimos la carpeta y lo observamos ah. Figura N 6 Abrir archivo txt
Despus de ello, cerramos MS Excel para abrir el programa OPENSTAT. Ubicamos el botn de INICIO PROGRAMAS OPENSTAT. ACCESO AL PROGRAMA OPENSTAT E IMPORTACIN DE DATOS Figura N 7 Abrir OPENSTAT
11
Luego de hacer click en continue, aparecer el interfaz del programa que ya fue analizada en apartados anteriores. Una vez en el programa, configuramos los valores por defecto de las variables a trabajar mediante la siguiente ruta: OptionsOK. Figura N 9 Aspecto previo a la configuracin
Despus de dicha accin, aparecer una ventana, en la cual se darn los datos por defectos de las variables.
12
Entonces, procedemos a abrir los datos en formato .txt guardados previamente, para lo cual nos ubicamos en FilesImport Tab FileOpen (Archivo que se desee trabajar)2. Al momento de abrir saldr un aviso que nos preguntar si en la base de datos que estamos abriendo estn incluidas las etiquetas de las variables. Esto ocurre porque al estar en formato texto existe una equivalencia entre todas las filas (horizontales), pero al mencionar que estn las etiquetas, la primera fila del archivo de texto pasa automticamente a ser los nombres de las variables en el programa. La letra Y que aparece en la ventana Variables nos dice que s (Yes) hay etiquetas.
Se trabajar base de datos contenidas en la carpeta del curso a lo largo del desarrollo de la gua.
13
Una vez que tenemos la base de datos lista, tenemos que configurar las variables a fin de que el anlisis no tenga inconvenientes. En ese sentido, pasamos a nombrar las variables bajo algunos parmetros. La ruta para este efecto es de VariablesDefine. Una vez en la ventana Data Dictionary, se deja la configuracin (valores por defecto) en la que ya se encuentra (Type=0; Integers=8; Decimals=2; Missing=99999) haciendo click en Return. Adems de ello, para que la configuracin que hemos hecho se mantenga, debemos entrar a Edit y luego dar click en Format Grid Values. Slo es cuestin de esperar un momento luedo de realizado esto, y la matriz de datos cumple con los requerimientos para ser utilizada sin dificultades para el anlisis estadstico. Cabe resaltar que el proceder anterior es cuando las variables que vamos a transportar a la base de datos estn todas en escala de intervalo. Pero si tenemos variables es escala nominal (p.e. sexo, religin, etc.) u ordinal, en Type debemos colocar 1, que corresponde a nmeros enteros.
14
15
16
Terminada la eleccin se presiona en OK, y en breves segundos los resultados estn listos. En el ejemplo se pueden apreciar los resultados del anlisis descriptivo por separado segn la variable y el tipo de estadsticos que se haya solicitado. Figura N 15 Resultados del anlisis descriptivo
DISTRIBUCIN DE FRECUENCIAS Del mismo modo, si queremos conocer la distribucin de frecuencias de las variables de estudio, debemos seguir la siguiente ruta: Analyses Frequencies. En esta ventana se seleccionan las variables que se desean estudiar, as como el tipo de grfico en Plot Options. Una vez realizadas las acciones necesarias para el anlisis, hacemos Click en OK. Figura N 16
17
Distribucin de frecuencias
En primera instancia aparecern las tablas de frecuencias, y luego de seleccionar Return, aparecer el grfico que se halla seleccionado. En el caso del ejemplo, es un histograma de frecuencias.
18
19
EXPLORACIN DE LA NORMALIDAD3 Para explorar la normalidad de las puntuaciones de determinada variable, seguir la ruta: AnalysesDescriptiveNormality Tests. En la ventana debemos seleccionar la variable que queremos explorar colocndola debajo de Test Normality of, y acto seguido se selecciona Compute. Los resultados aparecern en la misma ventana, pero si los deseamos por separado, seleccionamos Print para que aparezca en otra ventana. Figura N 19 Exploracin de la Normalidad
Figura N 20
3
Describe la distribucin ms probable de las frecuencias de ciertos eventos al azar, as como de un conjunto de fenmenos, psicolgicos o no, cuando los dato provienen de una muestra grande y no seleccionada (al azar).
20
Como se observa, a partir de la ventana inicial aparecen los resultados en formato texto (txt). Aparecen los resultados esperados, y al final la conclusin que permitir al usuario decir sobre su hiptesis de normalidad. En el ejemplo aparece Sufficient evidence against normality (suficiente evidencia en contra de la normalidad).
21
La prueba t es una prueba paramtrica que se usa es para estimar los parmetros de la poblacin en relacin al cumplimiento o no de determinadas Hiptesis. As, para que la muestra que se va a extraer de la poblacin para lograr las inferencias respecto a la misma debe ser de carcter aleatorio, con el fin de poder generalizar ms adelante. Tambin es necesaria la independencia, es decir, una muestra aleatoria de personas recibe un tratamiento especial y una segunda muestra aleatoria no lo recibe.
22
Los resultados dan cuenta de los estadsticos descriptivos de cada uno de los grupos respecto a la variable. Asimismo, aparece tambin la t de Student cuando se asumen varianzas iguales y cuando no. Cada uno de dichos indicadores con su respectivo nivel de significacin y el intervalo de confianza. Tambin aparece la prueba F para igualdad de varianzas5. COMPARACIN DE DOS GRUPOS INDEPENDIENTES: U DE MANNWHITNEY6 Si lo datos no cumplen con los requisitos para realizar un contraste paramtrico de dos medias independientes, se utiliza la U de Mann-Whitney, y luego de ello se debe seguir la siguiente ruta: AnalysesNonparametricMann-Whitney U Test. En la ventana resultante se debe seleccionar entre las variables disponibles aquella que se va a analizar. Luego de ello, se coloca la variable que servir para definir los grupos. Para obtener los resultados, finalizamos en OK.
Si la cantidad de sujetos en ambos grupos es la misma se puede omitir esa condicin, o sea, las varianzas pueden ser diferentes.
6
La U de Mann-Whitney parte del supuesto inicial que dos grupos independientes fueron extrados de la misma poblacin tomando en consideracin la mediana del grupo (Siegel y Castellan, 1995), lo cual refleja en el planteamiento de la hiptesis nula y alternativa. La hiptesis nula nos dice que la mediana del grupo de los varones es similar a la mediana del grupo de las mujeres; y la hiptesis alterna, que la mediana del grupo de los varones es diferente a la mediana del grupo de las mujeres.
23
24
Los resultados de la U de Mann-Whitney nos indican la suma de rangos del grupo, los empates, el estadstico U y el nivel de significacin. COMPARACIN DE DOS MEDIAS RELACIONADAS: T DE STUDENT Si lo datos cumplen con los requisitos para realizar un contraste paramtrico de dos medias relacionadas, se debe seguir la siguiente ruta: AnalysesComparisonsTests of two means. En la ventana resultante debemos colocar el punto en Correlated Scores. Aqu tenemos dos opciones: colocamos los datos de manera directa (Values entered of this form) o con los datos que estn en el archivo que se viene trabajando (Values in the data grid). Al elegir la segunda opcin, se debe seleccionar entre las variables disponibles aquellas que representan al antes y despus que sern analizados. Para obtener los resultados, finalizamos en Continue. Figura N 25 Comparacin de dos medias relacionadas usando la t de student
25
Los resultados dan cuenta de los estadsticos descriptivos de cada uno de los grupos respecto a la variable. Asimismo, aparece tambin la t de Student cuando se asumen muestras relacionadas, as como la correlacin entre puntuaciones. Todo ello con su respectivo nivel de significacin y el intervalo de confianza, as como la prueba F para igualdad de varianzas.
COMPARACIN DE PARES RELACIONADOS: PRUEBA DE RANGOS ASIGNADOS DE WILCOXON7 Si lo datos no cumplen con los requisitos para realizar un contraste paramtrico de dos medias relacionadas, se debe utilizar la T de Wilcoxon. Hacer la siguiente ruta: AnalysesNonparametricWilcoxon Matched Pairs. En la ventana resultante se debe seleccionar entre las variables disponibles aquellas que se va a analizar. Para obtener los resultados, finalizamos en OK.
Se trata de una prueba no paramtrica que compara una respuesta en dos condiciones diferentes (antes y despus), adjudicando mayor peso a aquellos pares que presentan mayores diferencias.
26
Los resultados dan cuenta de la suma de rangos ms pequea, la aproximacin a las puntuaciones Z, as como el nivel de significacin de la comparacin.
27
COMPARACIN DE MS DE DOS MEDIAS INDEPENDIENTES: ANLISIS DE VARIANZA DE UNA VA8 Si lo datos cumplen con los requisitos para realizar un contraste paramtrico de ms de dos medias independientes, se debe seguir la siguiente ruta: Analyses Analyses of VarianceOne, Two or Three Way ANOVA. Entonces se debe seleccionar entre las variables disponibles aquellas que ser analizada (Dependent Variable), y luego de ello aquella variable que representa el grupo (Factor 1 Variable). Si deseamos realizar alguna comparacin post hoc, la debemos seleccionar en el rea de Comparisons. Para obtener los resultados, finalizamos en Continue. Figura N 29 Anlisis de varianza de una va-ANOVA
Se refiere a la comparacin de ms de dos grupos (variable independiente) respecto a una variable especfica que produce los puntajes que se analizan (comparan). Cabe resaltar que un sujeto slo puede pertenecer a un grupo.
28
ANLISIS DE VARIANZA UNIFACTORIAL POR RANGOS DE KRUSKALLWALLIS9 Si lo datos no cumplen con los requisitos para realizar un contraste paramtrico de ms de dos medias independientes, se debe utilizar la prueba de Kruskal-Wallis, siguiendo la ruta: Analyses NonparametricKruskal-Wallis Test. Entonces se debe seleccionar entre las variables disponibles aquellas que ser analizada, y luego de ello aquella variable que representa el grupo. Para obtener los resultados, finalizamos en OK. Figura N 31 Prueba de Kruskall-Wallis
El anlisis de varianza unifactorial por rangos de Kruskall-Wallis, la cual es til para decidir si K muestras independientes provienen de diferentes poblaciones, cuestionando si las diferencias que aparecen significan diferencias genuinas en las poblaciones o si slo representan la clase de variacin que puede esperarse en muestras que se obtienen al azar (Siegel y Castellan, 1995).
29
Los resultados dan cuenta de la suma de rangos por grupo, el estadstico H, as como el nivel de significacin de la comparacin.
30
10
Surge a partir de la interrogante que nos hacemos respecto a que si una variable estn relacionadas entre s, y si estn relacionadas, que tan intensa es esa relacin. Dos variables, X e Y, estn relacionadas si tienden a ir juntas. Al margen de que se pueda decir cun asociadas estn, sea fuerte, bajo, modelado, positivo o negativo, hace falta una manera de cuantificar dicha asociacin entre dos variables para maximizar su precisin y objetividad. La direccin puede ser positiva o negativa. La magnitud est entre dos valores: +1 y -1. Una correlacin de +1 indica una relacin directa (positiva) perfecta y una de -1, inversa (negativa) perfecta. Cuando valores bajos de X tienden a asociarse con valores bajos de Y, y valores altos de X con valores altos de Y, la correlacin entre X y Y es positiva. Si valores altos de X se asocian con valores bajos de Y y viceversa, entonces la correlacin es negativa.
31
CORRELACIN POR RANGOS DE SPEARMAN11 Si las condiciones de los datos no son las suficientes para aplicar el producto-momento de Pearson se opta por la correlacin por rangos de Spearman. La ruta es la siguiente: Analyses Nonparametric Spearman Rank Correlation. Una vez dentro, al igual que en el procedimientos anteriores, se seleccionan aquellas variables que se desea relacionar y luego se presiona en Ok. Una vez que se realizar esa accin, aparecer la ventana de resultados con la matriz de correlaciones, adems del nivel de significacin de la correlacin.
Figura N 35
11
Estadstico que determina la correlacin entre dos variables. En cuanto a la significacin de r, podemos probar la hiptesis nula de que dos variables no estn asociadas (son independientes) y que el valor observado difiere de cero slo por efectos del azar.
32
33
CHI-CUADRADO COMO PRUEBA DE INDEPENDENCIA (DE CONTINGENCIA)12 Con la finalidad de hallar el coeficiente de contingencia, y otras medidas de asociacin, se establece la siguiente ruta para el estadstico chi-cuadrado: Analyses Nonparametric Chi-Square Test. Dentro de la ventana de nombre Contingency Chi-Squared Test, se colocan las variables que sern objeto de exploracin tanto a nivel de Filas (Row Variable) como de Columnas (Column Variable). Al lado derecho de ello, existen opciones (options) que el investigador tendr en cuenta, las cuales se refieren a si desea obtener las frecuencias observadas (Show Observed Frequencies) y/ o las esperadas (Show Expected Frequencies), as como las proporciones en las filas y columnas (Show Row and Column Proportions). Tambin si desea ver los valores de cada una de las celdas (Show Cell Chisquare values), o si desea utilizar la correccin de Yates en sus datos (Use Yates correction to 2x2 table). Figura N 37 Prueba de Contingencia Chi-cuadrado
Figura N 38
12
La prueba Chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias entre dos variables aleatorias, X e Y. Se contrasta una hiptesis nula que plantea que X e Y son independientes frente a una hiptesis alternativa que dice que X e Y no son independientes (No importa cul sea la relacin que mantengan ni el grado de esta).
34
35
Figura N 40
13
Cabe resaltar que la ruta para lograr el ingreso de variables para el anlisis de regresin es el mismo tanto en la regresin lineal como en la regresin mltiple.
36
37
14
Al lector interesado en este tema se le recomienda el programa FACTOR, dedicado exclusivamente al anlisis factorial. Referencia: Lorenzo-Seva, U. & Ferrando, P.J. (2006). FACTOR: A computer program to fit the exploratory factor analysis model. Behavioral Research Methods, Instruments and Computers, 38, 1, 88-91. Lo puede solicitar va e-mail al autor de la gua.
38
39
40
41
42
Como se pudo apreciar en las distintas imgenes presentadas anteriormente, OPENSTAT presenta varios aspectos referidos al anlisis factorial exploratorio, los cuales deben ser estudiados a profundidad para as optimizar el uso de los datos.
43
Los resultados a partir del anlisis se van a mostrar segn aquellos comandos que el investigador haya seleccionado. En este punto se trabajaron productos cruzados y productos cruzados de desviacin para cada grupo as como el combinado entre y dentro de grupos y la estadstica descriptiva (media, varianza, desviaciones estndar). Se muestra slo de un grupo por cuestiones de espacio.
15
El anlisis mltiple de funcin de discriminante es utilizado para obtener un conjunto de funciones lineales, las cuales discriminen al mximo (distingan) entre sujetos pertenecientes a varios grupos diferentes o clasificaciones distintas.
44
Una raz fue obtenida, la que no es significativa. Los anlisis de una va de discrepancias completadas para cada variable continua no eran significativos al 0.05 que demuestra que un
45
anlisis de multivariante puede identificar diferencias de grupo no tomadas en cuenta por el anlisis individual variable. Figura N 51 ANOVA de una va
Las funciones discriminantes pueden ser usadas para agrupar a los sujetos de los grupos en el espacio (ortogonal) de las funciones. Se deber examinar el agrupamiento para ver que los individuos en los grupos analizados son separados usando solamente la primera funcin de discriminante (el eje horizontal). Los coeficientes brutos y estandarizados para las funciones de discriminante deben ser tan buenos como la funciones de discriminante de Fisher para cada grupo. Este punto es usado para clasificar al sujeto y muestran las clasificaciones en una tabla que resume las clasificaciones.
47
REFERENCIAS
Miller, W. G. (2003) OpenStat 4 [programa informtico] [en lnea], recuperado en: Abril 9, 2006 disponible en http://www.statprograms4u.com/OpenStat_Features.htm Siegel, S. & Castellan, N. (1995). Estadstica no paramtrica, aplicada a las ciencias de la conducta. 4a. edicin. Mxico: Editorial Trillas
48
49