Crombach PDF

Avances en Medicin, 3, 9-28 2005
INTERPRETACIONES DEL COEFICIENTE ALPHA DE CRONBACH

Vctor H. Cervantes* Universidad Nacional de Colombia, Colombia Resumen
El coeficiente posee una larga historia dentro del desarrollo de la Teora Clsica en psicometra, y como tal, ha recibido la atencin de una amplia variedad de investigadores con el fin de comprender mejor su funcionamiento. Las diferentes interpretaciones que ha recibido dentro de la teora de la confiabilidad son discutidas; as como diversos estudios que pretenden dar cuenta de las condiciones necesarias para su buen uso. Este trabajo resalta las limitaciones que se encuentran en el empleo de este estadstico en tanto estimador de la confiabilidad de una prueba. Palabras clave: Alpha de Cronbach, Teora de la Confiabilidad, Teora Clsica de los Tests
Abstract
Within the history of Classical Test Theory, coefficient alpha has had a large role; thus, several researchers have investigated it in order to better understand its behaviour. The present article discusses different ways in which this coefficient has been interpreted in psychometrical reliability theory, as well as several studies which provide some guidelines on its proper use. The limitations encountered on using alpha as a reliability estimator under different actual test circumstances are highlighted. Key words: Cronbachs alpha, reliability theory, Classical Test Theory
Para todo psiclogo, tanto investigador como profesional, resulta de vital importancia contar con instrumentos vlidos y confiables. Por esta razn, cuando un investigador desarrolla una prueba psicolgica lleva a cabo una evaluacin rigurosa de las propiedades psicomtricas de dicho instrumento. En primer lugar, evala la presencia de un nivel apropiado de confiabilidad, condicin sine qua non puede obtenerse un instrumento vlido y til. As, en el proceso de construccin de una prueba psicolgica, la evaluacin de la confiabilidad de la misma es un paso imprescindible para que pueda ser utilizada en la medicin del atributo de inters. En este sentido, la estimacin de la confiabilidad ha recibido un amplio inters desde la Teora Clsica de los Tests (en adelante TCT). En la medida en que la confiabilidad de una prueba se halla definida como la precisin de los resultados obtenidos por medio de su aplicacin, es decir, el grado en que la prueba se ve o no afectada por los diferentes errores aleatorios de medicin, es necesario estimar el tamao de estos errores. Desde la TCT se han
*
Departamento de Psicologa. Universidad Nacional de Colombia. Bogot, Colombia. e-mail: vhcervantesb@unal.edu.co
10
Cervantes
trabajado varias fuentes de error de medicin. La estimacin del error asociado con alguna de ellas permite evaluar un aspecto diferente de la confiabilidad de una prueba. Entre las principales fuentes de error de medicin que se encuentran reseadas en los libros clsicos de psicometra (v.g. Anastasi, 1954,1990; Nunnally, 1970; Brown, 1980; Thorndike, 1989,1996) es posible encontrar las siguientes: (a) los sujetos, (b) los tems, (c) los evaluadores, (d) la situacin de aplicacin, (e) las interacciones entre estas fuentes, (f) el error aleatorio "puro". Las estimaciones tradicionales de la confiabilidad se hallan ligadas con los tres primeros tipos de fuentes de error, mientras se procura que los errores introducidos por la situacin de aplicacin sean minimizados mediante una estricta estandarizacin de la misma. Ligado con la estimacin del error producido por los evaluadores se encuentra el coeficiente de confiabilidad interevaluadores; con la estimacin del error originado por el conjunto de tems empleados, contrastado con otros conjuntos de tems posibles, se encuentra el coeficiente de equivalencia; y con el error debido a fluctuaciones de los individuos en el tiempo, se encuentra el coeficiente de estabilidad. El clculo de estos coeficientes requiere que la prueba sea aplicada dos o ms veces al mismo grupo de personas. As, la aplicacin de la prueba por dos o ms evaluadores permite obtener una estimacin de la confiabilidad interevaluadores (ntese que los observadores pueden, tambin, producir la evaluacin a partir de una sola aplicacin en la que califiquen de forma independiente a los sujetos, por ejemplo, empleando un video de las conductas que conforman los tems); la aplicacin de dos pruebas alternativas, compuestas por tems construidos a partir de la misma definicin de un atributo, permite la estimacin del coeficiente de equivalencia de ambas pruebas; y la aplicacin en dos momentos diferentes, de la misma prueba, permite estimar su estabilidad. Junto con estas formas de evaluar la confiabilidad se encuentra, tambin, la evaluacin por la consistencia interna de la prueba. Esta estimacin indica la intercorrelacin entre los distintos componentes de la prueba y, en este sentido, separa del conjunto la variacin que corresponde a factores comunes de los tems y la que corresponde a factores nicos de cada uno de ellos. As entendida, la confiabilidad por consistencia interna puede tomarse como una forma de estimacin de la equivalencia de los componentes entre s y su estimacin ser entonces un coeficiente de equivalencia calculado a partir de una sola aplicacin de la prueba (ver por ej. Gerbing & Anderson, 1988; Schmidt, Le & Ilies, 2003). En 1951, Cronbach propuso el coeficiente como un estimador de este ndice de equivalencia, con el cual generaliz un conjunto de diferentes mtodos que se empleaban en la poca para tal fin (Muiz, 1996). Desde entonces, el uso del se ha venido generalizando no slo en la Psicologa, sino tambin en gran cantidad de reas afines dentro de las ciencias sociales, de la salud y de la estadstica, como el estimador por excelencia de la confiabilidad de un compuesto de otras mediciones. Muestra de ello es que, tan slo el artculo de Cronbach (1951) fue citado un promedio de 60 veces anuales entre 1966 y 1990 (ver Cortina, 1993), ms la cantidad de estudios en los que se emplea sin llegar a citar la literatura para justificar su utilizacin, por tratarse de un estadstico de amplio uso (ver p. ej. Peterson, 1994). Junto con la generalizacin del empleo del se ha producido, asimismo, la propagacin de diversos usos de este estadstico (Cortina, 1993; Schmidt et al., 2003; Streiner, 2003). Ellos incluyen su utilizacin como estimador de la consistencia interna, estimador de la homogeneidad de un conjunto de variables, indicador de unidimensionalidad,
Coeficiente alpha de Cronbach
11
evidencia de la calidad de una prueba, ndice de validez de medidas psicolgicas, estimador de confiabilidad interobservadores, entre otros (Webster, 1957; Green, Lissitz & Mulaik, 1977; Cortina, 1993; Bernardi, 1994; Peterson, 1994; Iacobucci, 2001; Schmidt et al., 2003; Streiner, 2003). Podr verse que no todos estos usos del coeficiente son afortunados o pueden no resultar efectivos mediante su uso exclusivo. Actualmente se recomienda que la utilizacin del coeficiente sea llevada a cabo con precaucin, pues no es tan verstil como la variedad de los usos que se le han dado podra indicar. Se resalta su incapacidad para estimar el "error temporal" (transient error o error debido a fluctuaciones temporales en los individuos), la poca informacin que provee para determinar la existencia de unidimensionalidad, su dependencia de la cantidad de componentes que conforman la prueba, la alta variabilidad de su estimacin muestral, la poca robustez de los estimadores muestrales de la varianza a partir de los cuales se obtiene, el sesgo que lo afecta cuando hay desviaciones de alguno(s) de los supuestos en que se apoya, y as sucesivamente. Dadas estas dificultades, tanto el coeficiente como su estimador muestral ( ), se han estudiado bajo diferentes condiciones para evaluar su comportamiento y proveer guas de accin para su uso. As, el coeficiente y/o el han sido estudiados en lo que respecta al grado de homogeneidad de los componentes o tems que conforman la prueba (Green et al., 1977; Cortina, 1993; Zimmerman, Zumbo & Lalonde, 1993; Osburn, 2000), a la presencia de correlaciones entre los errores de los tems (Zimmerman et al., 1993; Komaroff, 1997; Raykov, 2001), a la cantidad de componentes (Niemi, Carmines & McIver, 1986; Cortina, 1993; Zimmerman et al., 1993), a la presencia de error temporal "no trivial" (Schmidt et al., 2003), a la distribucin de los componentes (Christmann & Van Aelst, 2002; Yuan & Bentler, 2002; Norris & Aroian, 2004), a la distribucin del atributo (Zimmerman et al., 1993); as como sus relaciones con otros estadsticos propuestos para la estimacin de la consistencia interna de una prueba (Osburn, 2000). Sin embargo, dos constantes son comnes a todas estas aproximaciones al funcionamiento del coeficiente : por una parte, la evaluacin de los efectos de los distintos factores slo llega a una descripcin de la tendencia encontrada, sin analizar el tamao del efecto asociado; y por otra, an ms importante y derivada de la primera, las conclusiones que se le ofrecen como resultado al usuario del estadstico no superan una recomendacin de caucin en su uso. Adicionalmente, algunas de estas investigaciones encuentran resultados opuestos, por ej. sobre la distribucin de los componentes; pero, al tener metodologas bastante dismiles entre s sus resultados tampoco resultan directamente comparables. Conceptos bsicos de la Teora Clsica de los Tests El objeto principal de la Psicometra se encuentra en el estudio de "los atributos de las personas, en las pruebas que intentan medir estos atributos y en los tems particulares que [. . . ] componen las pruebas" (Thorndike, 1989,1996, p. 16). De este modo, uno de los principales objetivos de la Psicometra es el desarrollo de modelos que describan el proceso de la medicin de estos atributos de forma eficiente. La TCT es el modelo ms antiguo y fructfero propuesto dentro de este campo. As, hoy en da su utilizacin se halla difundida entre
12
Cervantes
psiclogos, educadores y otros profesionales como la herramienta apropiada para el anlisis de las pruebas psicolgicas. Su empleo y evolucin a lo largo del s. XX han mostrado las fortalezas y debilidades que posee (Muiz, 1996; Herrera, Snchez & Jimnez-vila, 2000; Gmez Benito & Hidalgo Montesinos, 2003) La perspectiva clsica parte de la consideracin del resultado obtenido por un individuo en una ocasin especfica como el resultado de la adicin de dos componentes: la puntuacin verdadera del sujeto en la prueba y el error aleatorio de medida (Gulliksen, 1950; Lord & Novick, 1968; Muiz, 1996; Brennan, 2001; Arvalo, 2002). En psicologa y en otras ciencias sociales es normal no poder contar con un gran nmero de mediciones de un mismo sujeto; es comn, incluso, no poseer resultados para una persona mas que de una sola ocasin o de una sola prueba; y en algunos casos slo se poseen mediciones para cada individuo en una sola prueba de una nica aplicacin de la misma (Kane, 1996). De este modo, para la mayor parte de los casos el modelo puede expresarse como: X i = Ti + i , (1) donde:
X i es el puntaje obtenido por un sujeto i en una prueba en una ocasin. Ti es la puntuacin verdadera del sujeto en la prueba, este valor se considera constante en diferentes ocasiones para un sujeto i y una prueba fijos. i es el error aleatorio de medicin en la ocasin para un sujeto i en una prueba.
En esta relacin, el nico trmino directamente observable es X i , por lo cual la estimacin de Ti y de i se torna en el problema central del trabajo con este modelo. Ahora bien, ntese que en tanto que X i es conocido, basta con definir slo uno de los dos trminos restantes para describir completamente una medicin. La TCT opta por describir ms detalladamente el componente de error a partir de la inclusin de algunos supuestos sobre su comportamiento a lo largo de un conjunto de mediciones en una poblacin (Gulliksen, 1950; Lord & Novick, 1968; Nunnally, 1987; Thorndike, 1989,1996; Muiz, 1996; Martnez, 1996; Herrera et al., 2000). Estos son los siguientes: (a) el valor esperado del error aleatorio es igual a cero (Ecuacin 2), (b) el error se distribuye normalmente con media cero y varianza 2 (Ecuacin 3), (c) el error aleatorio de medicin en una prueba no se encuentra correlacionado con la puntuacin verdadera en la prueba, con el error de medicin en otra prueba ni con la puntuacin verdadera en otra prueba (Ecuacin 4), y (d) las varianzas de las puntuaciones observadas, las puntuaciones verdaderas y del error son finitas y mayores que cero (Ecuacin 5). Este ltimo es includo para evitar la trivialidad del modelo y de los dems supuestos. E( ) = 0 (2)
n( 0 , 2 ) T , = , =
1 2
(3)
1 ,T2
=0
(4) (5)
2 0 < h < para h = T , X ,
13
En Thorndike (1989,1996) podemos ver que estos desarrollos conforman la base para la teora de la confiabilidad de la TCT --aspecto que se disipa en otros textos y se confunde con la Teora Clsica en su conjunto. En este sentido, el modelo en el que sta se apoya es, principalmente, un modelo sobre cmo el error aleatorio afecta la medicin psicolgica; as, puede verse que, previa cualquier interpretacin del puntaje obtenido por una persona en una prueba, se requiere de una estimacin de dicho error para la prueba en cuestin. Ciertamente, sta es una caracterstica inherente a todo procedimiento de medicin [el hallarse afectado por errores aleatorios] y, dadas las caractersticas de los objetos de estudio de la psicologa, se modela de la forma hasta aqu presentada (Lord & Novick, 1968; Nunnally, 1987; Herrera et al., 2000). Ahora bien, dentro de la TCT se consideran dos tipos de errores que afectan la medicin: el error aleatorio y el error sistemtico. Lo que resta de este documento se concentra exclusivamente en la teora de la confiabilidad, la cual provee la definicin del primero de estos tipos de error, as como de sus fuentes. El segundo tipo de error es tratado por la TCT en sus desarrollos de la teora de la validez de las mediciones psicolgicas. De los supuestos del modelo se sigue que la variacin de los puntajes observados en una prueba fija para una poblacin es expresable como la suma de las varianzas en las puntuaciones verdaderas y el error aleatorio:
2 X = T2 + 2
(6)
2 De estos componentes, el que en la prctica nos interesa es el correspondiente a T , mas a 2 partir de la aplicacin de una prueba conocemos nicamente X . La TCT, con el concepto de 2 confiabilidad, pone en relacin estas dos cantidades para estimar T ; este concepto se define 2 por la correlacin cuadrtica entre el puntaje observado y la puntuacin verdadera ( X ,T ). Dados los supuestos, este coeficiente es igual a:
2 X ,T = 2 2 T = 1 2 2 X X
(7)
es decir, la confiabilidad de una prueba equivale a la razn entre la varianza de las puntuaciones verdaderas y la varianza de los puntajes observados, y en esta medida expresa la proporcin de la varianza observada en un grupo de puntajes que corresponde o puede ser atribuda a las variaciones entre las puntuaciones libres de error (Lord & Novick, 1968; Nunnally, 1987; Thorndike, 1989,1996; Muiz, 1996). Ahora bien, una cosa es indicar cmo todo proceso de medida se ve afectado por errores; algo distinto es cuantificar el error y especificar las condiciones de medida que contribuyen a l. Lograr estas dos ltimas requiere de la especificacin de las condiciones reales en las que se obtienen los puntajes observados y de qu es lo que constituye una medida "ideal" de un sujeto (Brennan, 2001). Para la TCT la variable de error se considera conformada por un compuesto de factores no controlados en el procedimiento de medicin o que no tienen que ver con el objetivo de la misma. De este modo, cuando algn factor se considerado irrelevante para una cierta medicin es tomado como parte del error, de forma anloga, si para una medicin u
14
Cervantes
objetivo diferente, dicho factor resulta relevante, se le tomar como parte de la puntuacin verdadera (Anastasi, 1954,1990; Thorndike, 1989,1996). As, tanto el error como la puntuacin verdadera son determinados por la situacin y objetivo especficos en los que se realiza la medicin (Lord & Novick, 1968). Conviene entonces, revisar cules son los factores que desde la TCT se han considerado como fuentes relevantes de error `aleatorio' de medida. Se considera que un procedimiento de medicin es confiable si para un individuo una medida puede ser replicada, bien sea en una ocasin diferente, o que la calificacin sea realizada por otra persona, o que para obtener la medida se emplee una prueba paralela o similar; o que resultados similares puedan ser obtenidos para diferentes personas con la misma cantidad o presencia del atributo que se busca medir (Anastasi, 1954,1990; Nunnally, 1970, 1987; Brown, 1980; Thorndike, 1989,1996; Streiner, 1993). Bajo esta concepcin es evidente que para la TCT las fuentes que pueden introducir error en el proceso de medicin y que merecen ser considerados como relevantes en la utilizacin del modelo que desde ella se propone (ver Ecuacin 1), son: (a) los sujetos, (b) los tems, (c) los evaluadores, y (d) la situacin de aplicacin (Cortina, 1993). Este modo de aproximarse a la confiabilidad implica tambin que para un cierto procedimiento de medicin (v.g. una prueba) habr un coeficiente de confiabilidad diferente para cada una de las fuentes de error relevantes para el mismo. Dentro de cada una de las fuentes de esta clasificacin es posible ubicar diversos factores o facetas que, cuando se tiene la oportunidad de estimar, conducen a diferentes aspectos de la confiabilidad. As, entre los errores cuya fuente est dada por los sujetos se encuentran: las variaciones momentneas en los evaluados (como variaciones de su atencin), aquellas fluctuaciones en el tiempo que no son debidas a la puntuacin verdadera del sujeto pero que afectan su ejecucin (como cambios en el estado de nimo, fatiga, sueo, etc.), caractersticas especficas del individuo (como su actitud hacia el empleo de pruebas psicolgicas). Dentro de los errores originados en los tems estn los efectos del muestreo de los mismos (i.e. errores que estn asociados con factores especficos de los tems seleccionados), caractersticas propias de cada tem que hacen que algunas personas reaccionen ante ellos de formas particulares (por ejemplo, que se haya empleado una cierta palabra en la redaccin y no otra de sentido similar). Entre los errores originados por los evaluadores se encuentran las diferencias en la comprensin que poseen del atributo, as como errores anlogos a los que tienen por fuente a los sujetos. Dentro de los errores cuya fuente es la situacin de aplicacin se encuentran las condiciones ambientales (como el clima, la iluminacin, el ruido del lugar de aplicacin), las diferencias en las diferentes sesiones de aplicacin (como variaciones en las instrucciones verbales, errores tipogrficos en las pruebas). Es importante anotar que no todas las fuentes ni tipos de error son relevantes para un uso especfico de una prueba y, por lo tanto, de acuerdo con el uso que dicho procedimiento de medida vaya a tener ser necesario evaluar slo alguno(s) de estos. En este sentido, los diferentes aspectos que pueden estimarse dependen del error que el investigador o el usuario de la prueba consideren relevante (Streiner, 2003). A partir de lo reseado hasta aqu podemos ver que un procedimiento de medicin tendr multiples coeficientes de confiabilidad asociados con los diferentes usos a los que se desee someter en una poblacin. Adicionalmente, el
15
procedimiento que se sigue para evaluar la confiabilidad incluye: "el razonamiento bsico [que lo sostiene], los procedimientos para recabar informacin y los procedimientos estadsticos para analizarla" (Thorndike, 1989,1996, p. 178). El razonamiento del cual se parte para la evaluacin de cada aspecto de la confiabilidad debe identificar los factores que se asocian con esa fuente de error que pueden ser controlados experimentalmente; los factores que no pueden ser controlados pero s pueden ser aislados por el experimento y los que se consideran parte de la puntuacin verdadera para el uso especfico de la prueba [ntese que aquellos factores que no logren ser identificados y asignados correctamente terminan subsumidos en esta ltima categora] A partir de este punto habrn de especificarse los procedimientos mediante los cuales se puede obtener informacin sobre los factores "aislables" y, finalmente, qu procedimientos estadsticos permiten estimar la confiabilidad en cada caso. Cuando se consideran los factores que dan origen a errores de medicin debidos a los sujetos, aquel que recibe mayor atencin, en tanto que no puede ser controlado y que no se considera parte de la puntuacin verdadera, es aquel que incluye las fluctuaciones de los sujetos en el tiempo; por su parte, los errores debidos a distracciones, se considera que pueden ser eliminados empricamente mediante la sumatoria de los puntajes de los tems (ver p. ej. Anastasi, 1954,1990; Schmidt et al., 2003). Para obtener informacin sobre estas variaciones temporales en los sujetos se necesita de la aplicacin de la prueba en [por lo menos] dos ocasiones. Los puntajes as obtenidos son correlacionados entre s, usualmente con el uso de la correlacin de Pearson, y su valor es tomado como el coeficiente de confiabilidad, tambin llamado coeficiente de estabilidad (Anastasi, 1954,1990; Nunnally, 1987; Brown, 1980; Thorndike, 1989,1996). En cuanto a los errores originados en los tems, aquellos cuya fuente tiene lugar en factores nicos de los mismos, tales como la redaccin, suelen verse como controlables empricamente mediante la utilizacin de una prueba nicamente con la poblacin para la cual fue diseada y su adaptacin [y anlisis respectivo] para otras poblaciones. El error debido al muestreo de los tems es de especial importancia en aquellas pruebas diseadas bajo el modelo de rasgo latente, en donde se considera que las conductas observadas por medio de los tems seleccionados son un efecto de un rasgo no ebservable directamente en las personas (Thorndike, 1989,1996; Bollen & Lennox, 1991). La estimacin de la confiabilidad asociada con este error requiere de la aplicacin de dos formas paralelas o similares de la misma simultneamente; la correlacin entre los puntajes observados en estas dos formas de la prueba constituye un estimador de la confiabilidad de ambas y se conoce como coeficiente de equivalencia (Lord & Novick, 1968; Anastasi, 1954,1990; Nunnally, 1987). Asociada con la estimacin del error producido por los evaluadores est la necesidad de separar la varianza aportada por los examinadores a la calificacin en aquellas situaciones donde existe evidencia de que sta resulta ostensible. Casos que precisan de la obtencin de este ndice abarcan instumentos de evaluacin clnica, pruebas de creatividad o pruebas proyectivas de personalidad, en las que el juicio del examinador interviene en gran medida en el momento de obtener la calificacin o puntuacin observada de una persona (Anastasi, 1954,1990). La estimacin de este coeficiente requiere de la calificacin de cada sujeto por dos
16
Cervantes
o ms examinadores y de la correlacin entre estos puntajes; para esta correlacin se recomienda el uso de un coeficiente de correlacin intraclase (Streiner, 1993; Brennan, 2001; Snchez Pedraza & Rosero Villota, 2003). Por su parte, se procura que los errores asociados con la situacin de aplicacin sean minimizados por medio de una estricta estandarizacin de la misma (Anastasi, 1954,1990; Lord & Novick, 1968). En la descripcin anterior de diferentes coeficientes de confiabilidad puede verse que el procedimiento estadstico por excelencia para estimar la confiabilidad de una prueba [considerada como una totalidad] es el de la correlacin. Anteriormente, se mostr que la confiabilidad de una prueba est dada por la relacin entre la varianza verdadera y la varianza observada de un prueba para una poblacin (cf. Ecuacin 7). En diversos textos puede encontrarse la identidad existente entre esta relacin y la correlacin entre dos conjuntos de puntuaciones obtenidos por la misma muestra de personas en una prueba ( X ,X ') (ver p. ej. Lord & Novick, 1968; Nunnally, 1970; Brown, 1980). Esta enumeracin no es exhaustiva de los posibles coeficientes de confiabilidad que pueden ser calculados para una prueba; del mismo modo, la correlacin producto-momento de Pearson no es el nico procedimiento estadstico para obtener la confiabilidad de una prueba. Ntese, adems, que los coeficientes hasta ahora mencionados pueden estimar la influencia de una sola fuente de error a la vez en el puntaje observado de la prueba total. La estimacin de la confiabilidad teniendo en cuenta ms de una fuente de error puede llevarse a cabo gracias a un anlisis de varianza de los puntajes totales observados a lo largo de los diferentes factores; a partir de este anlisis de varianza puede obtenerse un coeficiente de confiabilidad correspondiente a una correlacin intraclase (para una descripcin de estas estimaciones, ver Thorndike, 1989,1996; Brennan, 2001). En general, la TCT se aproxima al anlisis de una prueba desde esta perspectiva de prueba total (Lord & Novick, 1968; Nunnally, 1987; Arvalo, 2002); sin embargo, uno de los mtodos clsicos ms empleado parte de una ruptura con esta tendencia y busca estimar la confiabilidad a partir del anlisis de sus partes: esta es la confiabilidad por consistencia interna. Para la estimacin de la confiabilidad por consistencia interna existen una gran variedad de mtodos. En este escrito se desarrollan slo un par de ellos: la confiabilidad por mitades y el coeficiente de Cronbach. Todos los mtodos por consistencia interna tienen en comn que permiten la estimacin de la confiabilidad a partir de una sola aplicacin de una prueba, siendo esta su mayor ventaja prctica sobre los dems mtodos. Esta caracterstica llev a que estos mtodos se convirtieran en los ms empleados tanto por quienes aplican las pruebas como por quienes las desarrollan (Thorndike, 1989,1996). La forma en que se obtiene la informacin necesaria para los clculos de los estadsticos en estos mtodos consiste en separar la prueba en diferentes partes y calificar cada una de ellas; la cantidad de partes en que es dividida la prueba, as como los criterios especficos que guan este proceso dependen del mtodo escogido. Al realizar esta divisin del puntaje observado en partes estamos asumiendo que el modelo de medida adoptado se ajusta tambin a las partes resultantes; ahora bien, es fcilmente demostrable que si el modelo se ajusta para varias mediciones, tambin se ajusta para una medicin igual a la sumatoria de stas.
17
El mtodo por mitades consiste en la divisin de la prueba en dos partes paralelas de la misma longitud. Cada una de estas mitades es calificada y los puntajes observados as obtenidos son correlacionados entre s. Hasta este punto, el procedimiento de las dos mitades puede verse como un caso especial del procedimiento con el cual se obtiene un coeficiente de equivalencia, en el que cada una de las dos mitades es una forma de la prueba. Con esta correlacin lo que se obtiene es una estimacin de la confiabilidad de cada una de las dos mitades y no de la prueba completa; para obtener la confiabilidad de la prueba total se hace uso de la frmula de Spearman-Brown (Anastasi, 1954,1990; Lord & Novick, 1968; Brown, 1980; Thorndike, 1989,1996), la cual en el caso de dos partes, es igual a:
X ,X ' =
2 M ,M ' 1 + M ,M '
(8)
donde M ,M ' es la confiabilidad de ambas mitades. Esta frmula asume que las dos mitades en que ha sido dividida la prueba son paralelas. Asimismo, existe una forma general de la Ecuacin 8 que permite estimar la confiabilidad por consistencia interna de n partes en que se divida una prueba; en la siguiente seccin se retomar esta frmula. Coeficiente de Cronbach El coeficiente fue propuesto en 1951 por Cronbach como un estadstico para estimar la confiabilidad de una prueba, o de cualquier compuesto obtenido a partir de la suma de varias 2 mediciones. Este coeficiente estima el valor de X ,T (cf. Ecuacin 7) al evaluar la consistencia interna del conjunto de tems o partes del compuesto; en este sentido, se corresponde con un coeficiente de equivalencia (Lord, 1955) y, por lo tanto, estima la varianza que en los puntajes observados corresponde a factores comunes de los diferentes tems (Cronbach, 1951; Cotton, Campbell & Malone, 1957; Streiner, 1993; Schmidt et al., 2003). En su momento, el coeficiente entr al campo psicomtrico como un mtodo con el cul se generalizaron varias propuestas alternativas de estimar la consistencia interna (Muiz, 1996); el principal de estos predecesores es la frmula de Kuder y Richardson nmero 20 (propuesto en 1939, cf. Cronbach, 1951; Cotton et al., 1957; Thorndike, 1989,1996, entre otros), la cual puede verse como un coeficiente para el caso especial en que todos los tems que conforman la prueba se califican de modo dictomo (e.g. correcto / incorrecto). Otro mtodo con el que est relacionado es el propuesto por Hoyt en 1941, en el cual se estima la confiabilidad a travs del anlisis de varianza (Thorndike, 1989,1996; Bravo & Potvin, 1991; McGraw & Wong, 1996; Muiz, 1996; Brennan, 2001; Bonett, 2003). Una frmula con la cual se calcula el coeficiente es la siguiente (Cronbach, 1951, p. 305):
n n
n = n 1
k =1 h =1 2 X
k ,h
; h k
(9)
18
Cervantes
donde n es el nmero de partes, k y h son partes sobre las que se calcula el estadstico. Una frmula equivalente puede encontrarse en la derivacin del coeficiente de Lord y Novick (1968, p. 89):
n k n 1 k =1 2 = n 1 X
2
(10)
Para la aplicacin de esta frmula (sea en la forma dada en la Ecuacin 9 o en la Ecuacin 10) se asume que los supuestos generales del modelo propuesto por la TCT se cumplen para todas las partes del compuesto (y, por ende, tambin para la sumatoria o prueba total). Si esto es 2 cierto, el valor del es igual o menor que la confiabilidad real del compuesto ( X ,T ) (Cronbach, 1951; Lord & Novick, 1968). En estas condiciones, el tambin se relaciona con la varianza de los factores subyacentes al conjunto de partes de la prueba, siendo tal que la varianza del factor general es menor o igual al , y este es menor o igual a la varianza de los factores comnes del conjunto (Cronbach, 1951; Green et al., 1977). Adicionalmente, ocurre 2 que si el conjunto de las partes son paralelas, el es exactamente igual a X ,T , as como al valor esperado de todos los posibles coeficientes de confiabilidad por mitades obtenidos por la aplicacin de la frmula de Spearman-Brown (Cortina, 1993). Gracias a estas propiedades, a la gran facilidad para obtener los datos necesarios (una sola aplicacin) y a la sencillez de su clculo, el coeficiente gan rpidamente en aceptacin y aplicacin --tmese como ejemplo que, tan slo tres aos despus, en el texto introductorio a las pruebas psicolgicas escrito por Anastasi (1954,1990) ya se puede encontrar como uno de los principales mtodos para la estimacin de la confiabilidad de una prueba. Interpretaciones del coeficiente . La extensin del uso del fue seguida, sin embargo, de una multiplicidad de interpretaciones, muchas veces contradictorias entre s (Cortina, 1993). Esta situacin ha llevado a que este estadstico haya sido sobreutilizado a lo largo del tiempo, as como a que se hayan ignorado las condiciones para las que fue desarrollado. Para hacer un recorrido conjunto de las cualidades y limitaciones que estos esfuerzos han obtenido, se seguir en primer lugar el orden de las principales interpretaciones dadas al que se encuentra en Cortina (1993), posteriormente sern expuestos los aspectos que no hayan sido incluidos por este autor. Cortina (1993) ubica cinco interpretaciones aceptadas generalmente en la literarura. Estas son: (a) el coeficiente es la media de todos los coeficientes de confiabilidad por mitades, (b) es el lmite inferior de la confiabilidad de una prueba, (c) es una medida de la saturacin del primer factor, (d) es igual a la confiabilidad en condiciones de equivalencia y (e) es una versin general del coeficiente de equivalencia Kuder-Richardson (K-R 20). De estas cinco afirmaciones, la segunda y la cuarta se relacionan estrechamente.
19
El uso de la primera afirmacin implica que se ve al coeficiente como un estimador estable de la confiabilidad calculada por mitades. Una consecuencia de esto es que se puede considerar al como un estimador ms robusto que el obtenido por el mtodo de las dos mitades. Es importante notar que, la identidad entre el y el valor esperado de todas las posibles mitades se da slo cuando las partes son paralelas, es decir, cuando sus varianzas y covarianzas son todas iguales, y su valor esperado es el mismo (cf. Infra). Cuando las varianzas entre los tems no son iguales, el coeficiente es igual al valor esperado del calculado sobre las mitades de la prueba como partes, en lugar de los tems individuales (Cronbach, 1951; Lord & Novick, 1968; Cortina, 1993). La segunda y cuarta afirmaciones ponen de relieve que el es un estimador de la confiabilidad de una prueba (Cronbach, 1951; Lord & Novick, 1968; Bravo & Potvin, 1991). La demostracin de las dos afirmaciones puede encontrarse en Cronbach (1951), Novick y Lewis (1967) y Lord y Novick (1968). Cabe recordar que estos resultados son ciertos en la medida en que es un coeficiente de equivalencia, esto implica que no tiene en cuenta ciertas fuentes de error, como el error temporal (Gerbing & Anderson, 1988; Becker, 2000; Osburn, 2000; Schmidt et al., 2003), y por ello no puede tomarse como reemplazo de un coeficiente de estabilidad como estimador de la confiabilidad de una prueba. Para la presente discusin es conveniente incluir en este punto algunas de las definiciones introducidas por Novick y Lewis (1967) y Lord y Novick (1968). Estas definiciones se refieren a la relacin entre las puntuaciones verdaderas y los puntajes observados de diferentes pruebas, a partir de las cuales se definen ciertas parejas de mediciones. El caso ms estricto se da cuando para un par de mediciones: (a) sus puntuajes observados tienen igual valor esperado y varianza 2 2 ( E ( X 1 ) = E ( X 2 ) y X 1 = X 2 ), (b) la media de las puntuaciones verdaderas de ambas es la
2 2 misma, as como sus varianzas y covarianzas ( E (T1 ) = E (T2 ) y T1 = T2 = T1T2 ), y (c) el error
de ambas mediciones tiene la misma distribucin E ( 1 ) = E ( 2 ) y 21 = 22 ; a este par de
mediciones se les llama, entonces, paralelas. Este par mide, entonces, el mismo atributo, en las mismas unidades y con la misma precisin. Los otros casos se dan con la relajacin de algunas de estas restricciones. As, un par de mediciones son equivalentes cuando dejan de ser sostenibles las restricciones sobre los errores de las mediciones, pero se siguen tomando las que aplican sobre las puntuaciones verdaderas; este par mide el mismo atributo en las mismas unidades aunque con precisiones diferentes. Cuando se relaja la restriccin sobre la localizacin de las puntuaciones verdaderas (i.e. sobre sus valores esperados), las medidas son llamadas esencialmente equivalentes. En este caso, el par mide el mismo atributo en las mismas unidades aunque en ubicaciones diferentes de la escala, y lo hace con precisiones diferentes. Como los resultados que se obtienen respecto al son idnticos cuando las medidas son equivalentes o slo esencialmente equivalentes, no se les considera como casos diferentes cuando se estudia el coeficiente . El ltimo caso es el de los pares de medidas congenricas. En stas, las restricciones sobre la variabilidad de las puntuaciones verdaderas tambin son relajadas. En este caso, el par de medidas mide el mismo atributo en unidades diferentes y con precisiones diferentes. Estas precisiones resultan importantes en la medida que la demostracin
20
Cervantes
de la segunda y cuarta afirmaciones requiere que se asuma el cumplimiento de, por lo menos, las restricciones correspondientes a variables equivalentes entre las partes que componen la prueba (Novick & Lewis, 1967; Lord & Novick, 1968; Lucke, 2005) Con la tercera afirmacin se sugiere que el es una medida del grado en que un factor general subyace a un conjunto de tems; con esto se sugiere, adems, que el puede usarse como un ndice de homogeneidad. Este uso puede verse ilustrado en Cronbach (1951), Anastasi (1954,1990), Webster (1957), Nunnally (1970), Brown (1980), entre muchos otros. Sin embargo, se ha demostrado que dicha afirmacin es falsa y que dicho empleo del es inapropiado (ver p. ej. Cotton et al., 1957; Green et al., 1977; Zimmerman et al., 1993; Muiz, 1996; Lucke, 2005). Lo que s es cierto es que entre ms prximos estn los tems a una estructura unidimensional (i.e. homognea) mejor ser la estimacin de la confiabilidad por el , por lo que el uso recomendado es determinar primero la estructura factorial, y calcular el sobre los factores obtenidos en vez de sobre la totalidad de los tems (Cotton et al., 1957; Gerbing & Anderson, 1988; Thorndike, 1989,1996; Cortina, 1993; Osburn, 2000; Kamata, Turhan & Darandari, 2003). La quinta afirmacin se refiere al hecho de que el coeficiente K-R 20 es un caso especial del cuando los tems son calificados de forma dictoma, el cual es demostrado por Cronbach (1951). Es interesante anotar, sin embargo, algunas peculiaridades propias del cuando se obtiene de este modo (v.g. cuando se calcula el K-R 20): (a) por una parte, an en el caso de unidimensionalidad, nunca es igual al porcentaje de la varianza de los factores comnes (Cotton et al., 1957) y (b) es siempre inferior al que se obtendra si se calificara al tem en una escala continua (Feldt, 1993; Stber, Dette & Musch, 2002); esto es relevante si se asume que esta calificacin no es ms que una dicotomizacin artificial en un cierto nivel del atributo de inters. Ambas condiciones reflejan la prdida de precisin inherente al empleo de este nivel de medicin (v.g. dictomo vs. numrico-continuo). Factores que afectan al coeficiente . En los aspectos que esas cinco afirmaciones y sus consecuencias tienen respecto al sobresalen los aciertos y desaciertos que han tenido las diferentes interpretaciones de este estadstico con respecto a la varianza correspondiente a las puntuaciones verdaderas de las personas. De su desarrollo puede concluirse que el coeficiente requiere del supuesto de la equivalencia de sus partes. Los estudios considerados que muestran el sesgo presentado por el cuando este supuesto no se cumple son especialmente relevantes cuando se considera que en la prctica es bastante difcil obtener medidas a las que se ajuste tan bien dicho modelo (Feldt, 1993; Gmez Benito, 1996). Tambin es notoria la falta de consideracin por las implicaciones que tienen los trminos que definen el clculo del coeficiente, as como de los otros supuestos en que se basa y que pueden no verse cumplidos en la prctica. Estos son los que se presentan a continuacin.
21
Por una parte, los trminos que intervienen en las frmulas de clculo del son la longitud 2 de la prueba (n), la covarianza entre las partes ( k ,h ) y la varianza total de la prueba ( X ). Varios autores (Cronbach, 1951; Green et al., 1977; Niemi et al., 1986; Cortina, 1993) han precisado que el valor del coeficiente se incrementa a medida que n aumenta, siempre que se conserven constantes los dems trminos y se mantengan los supuestos del modelo. Esta caracterstica fue modelada por Cronbach (1951) relacionando el valor del con la correlacin promedio entre los tems y con la longitud de la prueba. Esta relacin puede expresarse de la siguiente forma (Niemi et al., 1986, p. 371):
n kh 1 + kh (n 1)
(11)
donde kh representa la intercorrelacin promedio entre los tems. De esta formulacin resulta evidente la relacin mencionada; adicionalmente, esta formulacin es equivalente a la frmula de Spearman-Brown generalizada a una prueba de longitud n. Esta relacin ha sido estudiada, adems, bajo situaciones en las que los supuestos del no se cumplen; Green et al. (1977) y Cortina (1993) mostraron que an en condiciones de multidimensionalidad (i.e. violacin del supuesto de -equivalencia) el valor del puede superar el nivel de 0.7. Por ejemplo, en el caso ms extremo estudiado por Cortina (1993), el valor del resulta igual a 0.64 cuando la prueba tiene 18 tems, con una estructura de tres factores independientes y una interrcorrelacin promedio de tan slo 0.06 (0.3 entre los tems del mismo factor); este es mayor que 0.7 cuando la intercorrelacin promedio llega a 0.1 y los dems trminos se mantienen constantes. Se ha encontrado que esta relacin entre el valor del y la longitud de la prueba es curvilnea y que empieza a estabilizarse en longitudes de prueba menores a 19 (Komorita & Graham, 1965; Cortina, 1993). Streiner (1993), por su parte, afirma que escalas de 20 tems o ms suelen obtener valores de alrededor de 0.9. Otro aspecto importante a considerar se encuentra en el hecho que actualmente la mayora de pruebas psicolgicas que se desarrollan tienen una longitud inferior a 20 tems (Cortina, 1993). La importancia observada en el valor obtenido en el tiene su motivo en las guas que al respecto han sido ofrecidas con el tiempo en las cuales la recomendacin de Nunnally (1987) (el valor del debera ser igual o superior a 0.7) ha resultado la que mayor aceptacin ha recibido en la comunidad (ver p. ej. Bernardi, 1994; Peterson, 1994). De estos resultados puede afirmarse que la influencia de la longitud de la prueba es relevante para muchos casos prcticos en que no es viable aplicar pruebas de una longitud de 20 o ms tems, para los cuales es posible ver una variabilidad considerable en el estadstico. En la Ecuacin 11 tambin se encuentra expresada la relacin entre el y la covarianza entre los tems. Sin embargo, es mucho ms notorio a partir de la Ecuacin 9 que entre mayor 2 sea la covarianza entre los tems ( k ,h ) comparada con la varianza total de la prueba ( X ), mayor ser el valor del . La relacin entre la covarianza media de los tems con el valor del ha sido estudiada por Green et al. (1977), Niemi et al. (1986), Cortina (1993), entre otros.
22
Cervantes
Niemi et al. (1986) mostraron que una reduccin considerable en la interrelacin media de los tems puede disminuir el valor del estadstico an cuando se aumenta la longitud de la prueba. En resmen, las tres condiciones de las cuales depende el valor del coeficiente que son discutidas por Cortina (1993) son: la dimensionalidad del conjunto de tems, el nivel de covariacin de los tems entre s y la cantidad de tems o partes que conforman la prueba o compuesto. De estas tres, la primera tiene que ver con el cumplimiento o no de alguno de los supuestos en los que se apoya el , especficamente con el supuesto de -equivalencia de las partes. La violacin de este supuesto ha recibido la mayor atencin de la literatura, al ser la condicin necesaria y suficiente (bajo los supuestos de la TCT) para que el coeficiente sea igual a la confiabilidad del compuesto; sin embargo, no es el nico supuesto que ha recibido atencin en diferentes estudios. Asimismo, variables diferentes al valor que adquiere el tambin han sido estudiadas. A continuacin se presentan diferentes estudios sobre estos otros aspectos. El abordaje del estudio de los supuestos sobre los que se apoya el coeficiente de Cronbach puede dividirse en tres grupos. Por una parte, se pueden abordar los supuestos especficos del ; pueden, por otra, abordarse los supuestos de la TCT en los cuales se inscribe; o, finalmente, pueden abordarse los supuestos de los procedimientos estadsticos que emplea. En la primera categora encontramos los estudios que han abordado el supuesto de la equivalencia, y que fueron revisados previamente en este documento. Dentro del segundo grupo, aquel supuesto que mayor atencin ha recibido es el de la independencia de los errores de diferentes mediciones entre s (cf. Ecuacin 5); ms adelante se mostrarn algunos de estos estudios. En cuanto al tercer conjunto, ha sido estudiado el comportamiento del con respecto a la violacin de los supuestos sobre la distribucin normal de las variables (en este caso del atributo medido) en la poblacin sobre la cual descansa la precisin de la varianza y la covarianza. A continuacin se presenta una serie de dichos estudios. El inters por el efecto de la violacin del supuesto de independencia de los errores de medida en el de Cronbach es ms bien reciente; sin embargo, es de considerable importancia, pues es claro que diferentes medidas aplicadas en la misma ocasin, como los tems presentados en una sola prueba e incluso de diferentes pruebas aplicadas en una misma sesin, pueden ser influidas por fuentes de error comunes (Zimmerman et al., 1993; Raykov, 2001). Este problema ha sido abordado por medio de estudios de simulacin (Zimmerman et al., 1993; Komaroff, 1997; Shevlin, Miles, Davies & Walker, 2000), as como por un anlisis matemtico (Raykov, 2001). El anlisis de Raykov (2001) demuestra que cuando existe correlacin entre los errores de los distintos tems el coeficiente pierde precisin y puede bien subestimar o sobreestimar la confiabilidad real del compuesto. Para ese autor la variable de inters fue el sesgo que se produce en el cuando las partes son cuando menos congenricas y se presenta esta interrelacin entre los errores. La recomendacin que ofrece ese autor es la verificacin previa de los supuestos con el uso de modelos de estructuras de covarianza para evaluar cun grande puede ser el sesgo en la estimacin de la confiabilidad. Los estudios de Zimmerman et al. (1993) y Komaroff (1997) se preocupan especialmente del efecto que la correlacin entre los errores tiene en el valor calculado del . Zimmerman et al. (1993) tambin estudiaron el sesgo
23
del para estimar la confiabilidad real; en este estudio encontraron que la presencia de correlacin entre los errores conllevaba a una sobreestimacin de la confiabilidad. La presencia y tamao de esta sobreestimacin fue evaluada de forma descriptiva (o "al ojo"), del mismo modo que las posibles interacciones con los otros factores que estudiaron: (a) la violacin del supuesto de equivalencia y (b) la falta de normalidad en la distribucin poblacional del atributo. Komaroff (1997) por su parte se centra en la obtencin de una correcin de la frmula del que tenga en cuenta la relacin entre los errores; la principal limitacin de este estudio es que slo fue considerado el valor obtenido del y no su relacin con la confiabilidad del compuesto, parmetro de inters al emplear este coeficiente. El estudio de Shevlin et al. (2000) examina la relacin entre la correlacin de los errores, el tamao de muestra y el tamao de la carga factorial de los tems, asumiendo unidimensionalidad en los mismos, con el valor del y con la diferencia entre la estimacin muestral ( ) y el poblacional; tambin examina la distribucin muestral emprica. Los resultados de este estudio son acordes con los de Zimmerman et al. (1993) y Komaroff (1997), e indican un aumento en el valor del cuando se presentan errores entre las partes; una ventaja que ofrece este estudio es que el efecto de estos factores no fue analizado nicamente de forma descriptiva, por lo que pudieron dar cuenta de las interacciones entre estos tres factores. Shevlin et al. (2000) encontraron que el error tiene un efecto significativo sobre el valor del , y que adems interacta tanto con el tamao de la muestra como con el peso factorial de las partes; el grado de correlacin entre los errores present un efecto ms grande entre menor fuese la muestra, as como entre menor fuese el peso factorial de los tems. Este estudio tampoco relaciona el con la confiabilidad del compuesto. En cuanto a los estudios relacionados con el tercer grupo de supuestos, los desarrollos ms importantes se encuentran en el estudio de la distribucin muestral del teniendo en cuenta la distribucin de los puntajes de las partes sobre las que se calcula; tambin dentro de este grupo podemos encontrar estudios sobre el valor y la precisin del coeficiente bajo diferentes distribuciones del atributo en la poblacin. A lo largo de la dcada de los 60, Kristof (Kristof, 1970; van Zyl, Neudecker, & Nel, 2000) y Feldt (1965) derivaron de forma independiente la teora referente a la distribucin muestral del bajo los supuestos de la TCT, de equivalencia de las partes y de distribucin normal multivariada de las partes. Ms recientemente han aparecido desarrollos para emplear esta distribucin en pruebas de hiptesis sobre el estimador del (Feldt, 1990), en obtencin de intervalos de confianza del (Feldt, 1990; Bravo & Potvin, 1991; McGraw & Wong, 1996) y para hacer pruebas de hiptesis sobre diferencias de dos coeficientes (e.g. Feldt & Ankenmann, 1999; Silver, 2001); adicionalmente, van Zyl et al. (2000) derivaron la distribucin asinttica del sin restricciones sobre la existencia de -equivalencia entre las partes. La derivacin de van Zyl et al. (2000) fue tambin estudiada por Yuan y Bentler (2002), quienes encontraron que dicha distribucin asinttica parece ser robusta, adems, ante violaciones del supuesto de normalidad multivariada de las partes. Bajo estos hallazgos, Duhachek y Iacobucci (2004) derivaron un mtodo para obtener intervlos de confianza bajo esta distribucin muestral del . Podemos encontrar estudios de simulacin sobre la distribucin muestral del en Zimmerman et al. (1993), Shevlin et al. (2000) y Duhachek y Iacobucci (2004). En los primeros dos estudios la
24
Cervantes
distribucin muestral es analizada de forma descriptiva, y en general encuentran que la variabilidad del es menor cuando se tiene un mayor tamao de muestra; Zimmerman et al. (1993) observan en sus datos una alta variabilidad del en la mayor parte de sus tratamientos, Shevlin et al. (2000) encuentra que dicha variabilidad, expresada respecto a su desviacin estndar: (a) no lo hace ininterpretable, y (b) parece verse afectada tanto por la longitud de la prueba como por el peso factorial de los tems. El estudio de Duhachek y Iacobucci (2004) analiza el efecto de la longitud de la prueba, del tamao de la muestra, de la intercorrelacin entre los tems y de la falta de unidimensionalidad, en el error tipo I (contra el valor del ) y en la amplitud del intervlo de confianza derivado; asimismo, compararon estos efectos entre diferentes propuestas de obtencin de intervlos de confianza. Con estos resultados, derivaron un intervlo de confianza para la diferencia de dos coeficientes . Tabla 1 Cuadro comparativo de estudios sobre el de Cronbach
Estudio Cronbach (1951) Cotton et al. (1957) Green et al. (1977) Niemi et al. (1986) Reuterberg y Gustafsson (1992) Cortina (1993) Feldt (1993) Zimmerman et al. (1993) Komaroff (1997) Osburn (2000) Shevlin et al. (2000) Raykov (2001) Christmann y Van Aelst (2002) Yuan y Bentler (2002) Kamata et al. (2003) Duhachek y Iacobucci (2004) Respuestaa
Factoresb n, N, kh , , Dimensionalidad n, kh , , Dimensionalidad n, kh Dimensionalidad n, kh , dimensionalidad Dificultad de los tems, kh n, N, kh , Dimensionalidad
2 X ,T
, , S.B.
2 X ,T
kh , Dimensionalidad
Dimensionalidad N, , kh , Interacciones
,
2 X ,T
kh
Distribucin de los tems Distribucin de los tems N, , Dimensionalidad n, N, kh , Dimensionalidad, Interacciones Distribucin de los tems Dimensionalidad
2 , X ,T
2 X ,T
Norris y Aroian (2004) Lucke (2005) , 2 Notas: a : Diferencia entre y el valor poblacional especificado en las condiciones de l estudio, X ,T : diferencia
entre el y el valor real de la confiabilidad especificada en el estudio, S.B: Frmula de Spearman-Brown (Ecuacin 8), X ,T : estimacin de la confiabilidad a partir de un anlisis factorial confirmatorio. 2 b n: Nmero de partes-tems sobre los que se calcula el coeficiente, N: Tamao de la muestra, : cargas factoriales de los tems en el(los) factor(es) subyacentes
25
Sobre la violacin de los supuestos de normalidad multivariada de las partes Zimmerman et al. (1993) y Christmann y Van Aelst (2002) realizaron dos estudios de simulacin. En ambos estudios se tiene en cuenta el sesgo de la estimacin de la confiabilidad por parte del ; Zimmerman et al. (1993) analizan el efecto de la falta de normalidad en las partes de un modo descriptivo; en su estudio la forma de la distribucin vara entre condiciones diferentes y es comn a todas las partes de la misma condicin. En el reporte de Christmann y Van Aelst (2002), la forma de la distribucin tambin fue variada entre condiciones, pero emplearon distribuciones no normales diferentes; los anlisis del sesgo del fueron asimismo realizados de forma descriptiva. Mientras que Zimmerman et al. (1993) encuentran que el parece ser robusto a las violaciones de normalidad en las partes que conforman la prueba, Christmann y Van Aelst (2002), por su parte, encuentran resultados opuestos. En la tabla 1 puede verse resumido el conjunto de caractersticas de varios estudios realizados sobre el de Cronbach. Puede observarse que la mayora de los estudios se han concentrado nicamente en cmo se ve afectado el valor del o del poblacional, tambin es evidente que son pocos los estudios que han analizado el sesgo del respecto a la confiabilidad real de la prueba. El principal factor analizado es claramente el que tiene que ver con la dimensionalidad del conjunto o prueba; esto es lo relativo al supuesto de -equivalencia entre las partes. Slo en dos de los estudios que emplearon mtodos de Monte Carlo se llev a cabo un metamodelo; en ambos se trat de un modelo de ANOVA sobre el en el cual las interacciones de los factores considerados en el estudio fueron analizados; en el estudio de Shevlin et al. (2000) si bien se consider la diferencia entre el y el poblacional, esta relacin no fue modelada. En cuanto a los estudios de Monte Carlo el nmero de rplicas vari entre 1 (Green et al., 1977) y 2000 (Zimmerman et al., 1993) por condicin. Finalmente, ninguno de los estudios report el empleo de tcnicas de reduccin de varianza de los estimadores de Monte Carlo. Discusin Puede verse que el lugar que tiene actualmente el coeficiente de Cronbach para la exploracin de la confiabilidad de un compuesto de diferentes mediciones es realmente importante. El uso generalizado que ha tenido y la amplitud de las interpretaciones de las que ha sido objeto muestran, sin embargo, la falta de consenso en la comunidad sobre cmo y cundo es empleado correctamente; as tambin, puede encontrarse una amplia variedad de estudios en los cuales se busca encontrar guas para este objetivo. En este trabajo se han documentado los principales factores que en estos estudios han mostrado tener alguna influencia en la precisin del coeficiente como estimador de la confiabilidad. El autor encuentra que los factores considerados en diferentes estudios no han sido interpretados de forma consistente de uno a otro; por esta razn, los resultados de los mismos muestran dificultades para ser considerados en su conjunto por los diferentes usuarios de pruebas y de otras formas de medicin que obtienen informacin de mediciones compuestas. El principal factor analizado a lo largo de los diferentes estudios aqu considerados, y sobre el
26
Cervantes
cual existen las conclusiones ms solidas para los desarrolladores y usuarios de pruebas, es la dimensionalidad del compuesto; en este sentido, puede recomendarse el uso del coeficiente nicamente en aquellos casos en los cuales se haya comprobado la unidimensionalidad del conjunto, entendida como mnimo como una condicin de tems congenricos y preferiblemente entendida como -equivalencia, pues se ha demostrado que slo en esta situacin puede interpretarse el valor obtenido para el como un estimador de la confiabilidad del compuesto. Otros factores considerados demuestran afectar la precisin de la estimacin de la confiabilidad que puede llevarse a cabo. Los resultados, sin embargo, no son lo suficientemente claros para estos factores, con la excepcin de la presencia de correlacin entre los errores de medida de los tems o partes del conjunto. En el caso de la presencia de errores correlacionados es posible evaluar cunto afectan los mismos la estimacin; esta evaluacin requiere del ajuste de un modelo de estructuras de covarianza a los datos obtenidos, mtodo que puede resultar impracticable o altamente inestable con ciertos tamaos de muestra y especialmente bajo ciertas condiciones distribucionales de los tems. Cuando dicho modelamiento es factible, puede obtenerse una estimacin ms directa de la confiabilidad que la obtenida con el uso del de Cronbach. En esta medida, an no es claro en qu casos podr considerarse que el uso del coeficiente es apropiado, aunque s es posible establecer casos en los que su obtencin deja de ser imprescindible. En general, las propiedades del de Cronbach parecen no ser lo suficientemente deseables ante situaciones de aplicacin adversas; sin embargo, la evidencia al respecto no es tampoco concluyente ms que para un par de los posibles casos que es posible encontrar en la prctica. Actualmente se encuentran alternativas al para la estimacin de la confiabilidad, especialmente desde modelos factoriales de anlisis de los datos, las cuales pueden en un futuro volverse mejores opciones; la popularidad que tiene el podra, entonces, ser desafiada y en esta medida un uso ms conciente y moderado de este estadstico sera factible. Para esto se necesita an de mayor investigacin sobre cun preciso resulta el , especialmente en las condiciones que poseen la mayor parte de las investigaciones que utilizan este estadstico, tales como pruebas cortas con tamaos de muestra reducidos. Referencias
Anastasi, A. (1990). Psychological testing (6th ed.). New York: MacMillan Publishing Company. (Trabajo original publicado en 1954) Arvalo, I. (2002). Estudio comparativo del ndice de dificultad en la teora clsica de los tests, la teora de respuesta al tem y el anlisis bayesiano. Tesis de pregrado no publicada, Universidad Nacional de Colombia. Becker, G. (2000). How important is transient error in estimating reliability? going beyond simulation studies. Psychological Methods, 5, 370-379. Bernardi, R. (1994). Validating research results when Cronbach's alpha is below .70: A methodological procedure. Educational and Psychological Measurement, 54, 766-775. Bollen, K., & Lennox, R. (1991). Conventional wisdom on measurement: A structural equation perspective. Psychological Bulletin, 110, 305-314. Bonett, D. G. (2003). Sample size requirements for comparing two alpha coefficients. Applied Psychological Measurement, 27, 72-74.
27
Bravo, G., & Potvin, L. (1991). Estimating the reliability of continuous measures with Cronbach's alpha or the intraclass correlation coefficient: Toward the integration of two traditions. Journal of Clinical Epidemiology, 44, 381-390. Brennan, R. L. (2001). Generalizability theory. New York: Springer-Verlag. Brown, F. G. (1980). Principios de la medicin en psicologa y educacin. Mxico D.F., Mxico: Manual Moderno. Christmann, A., & Van Aelst, S. (2002). Robust estimation of Cronbach' alph a (Tech. Rep. No. SFB475 s 42/02). Dortmund, Alemania: Universitt Dortmund. Cortina, J. M. (1993). What is coefficient alpha? an examination of theory and applications. Journal of Applied Psychology, 78, 98-104. Cotton, J. W., Campbell, D. T., & Malone, R. D. (1957). The relationship between factorial composition of test items and measures of test reliability. Psychometrika, 22, 347-357. Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 1-16. Duhachek, A., & Iacobucci, D. (2004). Alpha's standard error (ASE): An accurate and precise confidence interval estimate. Journal of Applied Psychology, 89, 792-808. Feldt, L. S. (1965). The approximate sampling distribution of Kuder-Richardson reliability coefficient twenty. Psychometrika, 30, 357-370. Feldt, L. S. (1990). The sampling theory for the intraclass reliability coefficient. Applied Measurement in Education, 3, 361-367. Feldt, L. S. (1993). The relationship between the distribution of item difficulties and test reliability. Applied Measurement in Education, 6, 37-48. Feldt, L. S., & Ankenmann, R. D. (1999). Determining sample size for a test of the equality of alpha coefficients when the number of part-tests is small. Psychological Methods, 4, 366-377. Gerbing, D. W., & Anderson, J. C. (1988). An updated paradigm for scale development incorporating unidimensionality and its assessment. Journal of Marketing Research, 25, 186-192. Gmez Benito, J. (1996). Aportaciones de los modelos de estructuras de covarianza al anlisis psicomtrico. En J. Muiz (Ed.), Psicometra (pp. 457-554). Madrid, Espaa: Universitas. Gmez Benito, J., & Hidalgo Montesinos, M. D. (2003). Desarrollos recientes en psicometra. Avances en Medicin, 1, 17-36. Green, S. B., Lissitz, R. W., & Mulaik, S. A. (1977). Limitations of coefficient alpha as an index of test unidimensionality. Educational and Psychological Measurement, 37, 827-838. Gulliksen, H. (1950). Theory of mental tests. New York: John Wiley & Sons, Inc. Herrera, A. N., Snchez, N. R., & Jimnez vila, H. (2000). De la teora clsica de los tests a la teora de respuesta al tem. Aula Psicolgica, 3, 293-332. Iacobucci, D. (Ed.). (2001). Methodological and statistical concerns of the experimental behavioral researcher [Nmero monogrfico]. Journal of Consumer Psychology, 10(1 & 2). Kamata, A., Turhan, A., & Darandari, E. (2003, April). Estimating reliability fo r multidimensional composite scale scores. Presentado en el encuentro anual de la American Educational Research Association, Chicago. Recuperado el 26 de Marzo de 2005, de http://garnet.acns.fsu.edu/~akamata/papers/ Kane, M. (1996). The precision the measurement. Applied Measurement in Education, 9, 355-379. Komaroff, E. (1997). Effect of simultaneous violations of essential tau-equivalence and uncorrelated errors on coefficient alpha. Applied Psychological Measurement, 21, 337-348. Komorita, S. S., & Graham, W. K. (1965). Number of scale points and the reliability of scales. Educational and Psychological Measurement, 25, 987-995. Kristof, W. (1970). On the sampling theory of reliability estimation. Journal of Mathematical Psychology, 7, 371-377. Lord, F. M. (1955). Sampling fluctuations resulting from the sampling of test items. Psychometrika, 20, 1-22. Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, Massachusstes: Addison-Wesley. Lucke, J. F. (2005). The and the of congeneric test theory: An extension of reliability and internal consistency to heterogeneous tests. Applied Psychological Measurement, 29, 65-81.
28
Cervantes
Martnez, R. (1996). Psicometra: teora de los tests psicolgicos y educativos. Madrid, Espaa: Sntesis. McGraw, K. O., & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1, 30-46. Muiz, J. (1996). Fiabilidad. En J. Muiz (Ed.), Psicometra (pp. 1-47). Madrid, Espaa: Universitas. Niemi, R. G., Carmines, E. G., & McIver, J. P. (1986). The impact of scale lenght on reliability and validity. Quality y Quantity, 20, 371-376. Norris, A. E., & Aroian, K. J. (2004). To transform or not transform skewed data for psychometric analysis. Nursing Research, 53, 67-71. Novick, M. R., & Lewis, C. (1967). Coefficient alpha and the reliability of composite measurements. Psychometrika, 32, 1-13. Nunnally, J. (1970). Introduccin a la medicin psicolgica. Buenos Aires, Argentina: Centro Regional de Ayuda Tcnica. Nunnally, J. (1987). Teora psicomtrica. Mxico D.F., Mxico: Trillas. Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psychological Methods, 5, 343-355. Peterson, R. A. (1994). A meta-analysis of Cronbach's coefficient alpha. Journal of Consumer Research, 21, 381-391. Raykov, T. (2001). Bias of coefficient for fixed congeneric measures with correlated errors. Applied Psychological Measurement, 25, 69-76. Reuterberg, S.-E., & Gustafsson, J.-E. (1992). Confirmatory factor analysis and reliability: Testing measurement model assumptions. Educational and Psychological Measurement, 52, 795-811. Snchez Pedraza, R., & Rosero Villota, N. E. (2003). Revisin crtica de las escalas de medicin de mana. Avances en Medicin, 1, 37-70. Schmidt, F. L., Le, H., & Ilies, R. (2003). Beyond alpha: An empirical examination of the effects of different sources of measurement error on reliability estimates for measures of individual differences constructs. Psychological Methods, 8, 206-224. Shevlin, M., Miles, J. N. V., Davies, M. N. O., & Walker, S. (2000). Coefficient alpha: a useful indicator of reliability? Personality and Individual Differences, 28, 229-237. Silver, N. C. (2001). DIFALPHA: A FORTRAN 77 program for testing the difference between independent coefficients with different test lengths. Applied Psychological Measurement, 25, 68. Stber, J., Dette, D. E., & Musch, J. (2002). Comparing continuous and dichotomous scoring of the balanced inventory of desirable responding. Journal of Personality Assessment, 78, 370-389. Streiner, D. L. (1993). A checklist for evaluating the usefulness of rating scales. Canadian Journal of Psychiatry, 38, 140-148. Streiner, D. L. (2003). Being inconsistent about consistency: When coefficient alpha does and doesn't matter. Journal of Personality Assessment, 80, 217-222. Thorndike, R. L. (1996). Psicometra aplicada. Mxico D.F., Mxico: Limusa. (Trabajo original publicado en 1989) van Zyl, J. M., Neudecker, H., & Nel, D. G. (2000). On the distribution of the maximum likelihood estimator of Cronbach's alpha. Psychometrika, 65, 271-280. Webster, H. (1957). Item selection methods for increasing test homogeneity. Psychometrika, 22, 395-403. Yuan, K.-H., & Bentler, P. M. (2002). On robustness of the normal-theory based aymptotic distributions of three reliability coefficient estimates. Psychometrika, 67, 251-259. Zimmerman, D. W., Zumbo, B. D., & Lalonde, C. (1993). Coefficient alpha as an estimate of test reliability under violation of two assumptions. Educational and Psychological Measurement, 53, 33-49. Manuscrito recibido en Marzo de 2005 Aprobado para publicacin en Abril de 2005

Crombach PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Crombach PDF

Uploaded by

Copyright:

Available Formats

Avances en Medicin, 3, 9-28 2005

INTERPRETACIONES DEL COEFICIENTE ALPHA DE CRONBACH

Departamento de Psicologa. Universidad Nacional de Colombia. Bogot, Colombia. e-mail: vhcervantesb@unal.edu.co

Coeficiente alpha de Cronbach

2 0 < h < para h = T , X ,

Coeficiente alpha de Cronbach

Coeficiente alpha de Cronbach

Coeficiente alpha de Cronbach

Coeficiente alpha de Cronbach

de ambas mediciones tiene la misma distribucin E ( 1 ) = E ( 2 ) y 21 = 22 ; a este par de

Coeficiente alpha de Cronbach

Coeficiente alpha de Cronbach

Factoresb n, N, kh , , Dimensionalidad n, kh , , Dimensionalidad n, kh Dimensionalidad n, kh , dimensionalidad Dificultad de los tems, kh n, N, kh , Dimensionalidad

Coeficiente alpha de Cronbach

Coeficiente alpha de Cronbach

You might also like