You are on page 1of 23

Teora Clsica de los Tests I: modelo y fiabilidad

TEMA 6. TEORA CLSICA DE LOS TESTS I:


MODELO Y FIABILIDAD
6.1. Formulacin
La primera teora de los tests surge con los primeros tests mentales, que
trataban de medir la habilidad de los sujetos mediante medidas por definicin
(e.g. asignando 1 al acierto y 0 al fallo). sta es la llamada la teora clsica de
los tests o modelo lineal de Spearman (1904, 1907, 1913).
En el tema anterior sealamos que despus de aplicar los tems a los
individuos hay que relacionar las respuestas que dan con el constructor que se
mide con dichos tems, es decir, hay que obtener la puntuacin en el rasgo. Y
esta relacin se establece por medio del modelo de medida. El modelo clsico
(TCT) pone el nfasis en la puntuacin total que se obtiene a partir del conjunto
de tems.
Desde la TCT se asume que cada persona i tiene una puntacin verdadera
en el rasgo o atributo medido que coincidira con la obtenida en el test j, de no
ser por la existencia del error de medida. A nivel formal, la puntuacin emprica
de un sujeto en un test (Xij), consta de dos componentes aditivos: la puntuacin
verdadera del sujeto en el rasgo que mide el test (Vij) y el error asociado al
proceso de la medicin (Eij).
Xij=Vij+Eij
Conceptos clave de la TCT
Puntuacin emprica u observada (X): Puntuacin obtenida mediante el test.
Es diferente de la puntuacin verdadera porque esta afectada por el error de
medida. Se considera una variable aleatoria.
Puntuacin verdadera en el rasgo (V): Puntuacin que realmente le
correspondera al sujeto en una determinada variable si no estuviese afectada
por el error. Es inobservable, y como X, se considera una variable aleatoria,
aunque se asume que para cada sujeto su valor es constante.
Error de medida (E): Es la diferencia entre la puntuacin observada y la
verdadera (E=X-V). Esta diferencia es atribuible tanto al proceso de medicin
indirecta del rasgo o atributo a travs de un conjunto de manifestaciones
observables, como al proceso de muestreo de las manifestaciones, y a otros
factores aleatorios.

- 1-

Teora de los Tests I: modelo y fiabilidad

A partir de este modelo, y manteniendo unos supuestos mnimos, la TCT


desarrolla todo un conjunto de deducciones encaminadas a estimar la cantidad
de error que afecta a las puntuaciones obtenidas mediante un test. Si los
supuestos asumidos son verdaderos, las conclusiones que se derivan del
modelo sern vlidas.
En lo que sigue de exposicin, puesto que los subndices (ij) son comunes
a todos los componentes del modelo, prescindiremos de ellos.

6.2. Supuestos y deducciones del modelo


Si aplicsemos infinitas veces un test al mismo sujeto, asumiendo que cada
aplicacin no afecta a las otras y que el sujeto no cambia en el curso de las
aplicaciones, no siempre se obtendra la misma puntuacin, debido al efecto
del error de medida, que se asume aleatorio. Por estadstica, sabemos que es
frecuente asumir que la distribucin de los errores aleatorios es normal con
media cero y desviacin tpica E. Por consiguiente, la mejor estimacin que se
puede hacer de la puntuacin verdadera del sujeto en el test es igual al valor
esperado de las puntuaciones empricas en las infinitas aplicaciones. Este es el
primero de los supuestos sobre los que se construye la TCT.
Supuesto 1. E(X)=V
Por otra parte, puesto que el error es aleatorio, no hay razn para pensar
que el tamao de los errores vaya sistemticamente asociado al tamao de las
puntuaciones verdaderas. No hay razn para pensar que, por ejemplo, los
sujetos ms extravertidos presenten ms error en sus puntuaciones empricas
obtenidas a travs de un test de extraversin.
Supuesto 2: (EV)= 0
En tercer lugar, los errores de medida de los sujetos en un test j no
correlacionan con sus errores de medida en otro test distinto k, ya que si los
errores son aleatorios para cada test, no hay razn para que covaren
sistemticamente unos con otros.
Supuesto 3: (EjEk) = 0

-2-

Teora Clsica de los Tests I: modelo y fiabilidad

Finalmente, no existe correlacin entre la puntuacin verdadera y error en


formas distintas de un mismo test o en tests diferentes
Supuesto 4: (VjEk) = 0
Algunas de las deducciones que se derivan de estos supuestos sern
presentadas conjuntamente con algunas de las cuestiones claves de la TCT al
presentar cuestiones sobre la fiabilidad. El total de las deducciones, pueden
consultarse en el manual recomendado de Martnez-Arias (1995)
Puesto que X=V+E, en trminos poblacionales, la varianza de las
puntuaciones en el test se descompondr del siguiente modo:

Sin embargo, puesto que los errores se asumen independientes de las


puntuaciones verdaderas, su covarianza ser cero (
), por lo que

Aproximacin intuitiva al error de medida y la fiabilidad


Si aplicsemos infinitas veces un test al mismo sujeto y no se produjera
error en las mediciones, cada vez que utilizramos el test para medir un
atributo, se obtendran los mismos resultados (E=X-V=0). Por ello sera
razonable cuantificar el error de medida a travs de la variabilidad observada
en las puntuaciones en torno a la puntuacin verdadera, ya que puesto que V
es constante para el sujeto, E= X. As por ejemplo, en la siguiente figura, el
error de medida de las puntuaciones obtenidas mediante el test A sera mayor
que el error de medida del test B, por lo que el test A sera menos fiable.

Asimismo, puesto que el error es aleatorio, en el primero de los supuestos

- 3-

Teora de los Tests I: modelo y fiabilidad

se seal que si aplicsemos infinitas veces un test al mismo sujeto, y ste no


cambiara a travs de las distintas aplicaciones, la esperanza matemtica de la
distribucin de puntuaciones observadas coincidira con la puntuacin
verdadera del sujeto en el rasgo. As pues, siguiendo esta lgica sera
tericamente posible obtener una estimacin tanto del error de medida como
de la puntuacin verdadera en el rasgo. Sin embargo, esta aproximacin no
resulta viable en la prctica. No es posible aplicar un infinito nmero de veces
el mismo test a cada sujeto que se quiere medir (ni siquiera un nmero elevado
de veces), como tampoco es razonable en muchos casos esperar que no se
den cambios (aptitudinales, actitudinales, de personalidad, etc ) en cada sujeto.
Por ello, partiendo de los mismos supuestos anteriores, se idean una serie
de procedimientos para cuantificar el error y valorar la fiabilidad de las medidas,
no a partir de mltiples mediciones realizadas sobre un nico sujeto, sino a
partir de una o varias mediciones realizadas sobre un grupo de sujetos, es
decir, a partir de la variabilidad observada en las puntuaciones empricas en una
muestra. Esto requerir acudir al concepto de tests paralelos.
Condiciones de paralelismo entre medidas: consecuencias.
Dos tests sern paralelos si se cumplen estas dos condiciones:
Ambos tienen la misma puntuacin verdadera:

Ambos tienen la misma varianza error:

Del cumplimiento de los supuestos anteriores se deducen las siguientes


consecuencias:
1) Si las puntuaciones verdaderas no cambian, se deduce que la media (o
esperanza matemtica) de dichas puntuaciones ser igual
E(X) = E(V + E) = E(V) + E(E) = E(V)E(X) = E(V + E) = E(V) + E(E) = E(V)

-4-

Teora Clsica de los Tests I: modelo y fiabilidad

De aqu se deduce que: E(X)= E(X)

1) Si las puntuaciones verdaderas no cambian, la distribucin de V para


ambas formas paralelas tendr la misma variabilidad.

Y sabiendo que , en las formas paralelas

, de aqu se deduce que

El proceso para determinar si dos tests son paralelos se realiza verificando


si se cumplen ms que los supuestos en s, las consecuencias que se derivan
del cumplimiento de dichos supuestos. Es decir, sobre una muestra aleatoria,
utilizando las correspondientes tcnicas de inferencia estadstica se pondr a
prueba si:
1)

2)

Se puede contrastar empricamente si las diferencias observadas entre las


varianzas se pueden atribuir al azar con un razonable nivel de probabilidad
(contraste de hiptesis de igualdad de varianzas (F) o prueba de Levene, ). Y lo
mismo con las diferencias observadas en las medias (en este caso, mediante
una prueba t)
Habamos comentado anteriormente que no es factible estimar la fiabilidad
o precisin de un test aplicando un mismo test infinitas veces a un sujeto, con
el fin de estimar su puntuacin verdadera, por lo que es necesario aplicar un
test a mltiples sujetos. Al trabajar con una muestra de sujetos, puesto que la
fiabilidad se refiere a la precisin con que se puede predecir o estimar la
puntuacin verdadera en el rasgo a partir de la puntuacin emprica obtenida

- 5-

Teora de los Tests I: modelo y fiabilidad

en el test, un indicador de fiabilidad es la correlacin entre las puntuaciones


observadas mediante el test y las puntuaciones verdaderas. Esta correlacin
constituye el llamado ndice de fiabilidad (XV). Cuanto mayor es ste, ms
fiables son las medidas. El desarrollo de la correlacin, teniendo en cuenta el
supuesto de independencia entre las puntuaciones verdaderas y los errores,
nos lleva a que el ndice de fiabilidad es un cociente entre la desviacin tpica
de las puntuaciones verdaderas y la de las puntuaciones observadas.

Por lo tanto, elevando al cuadrado el ndice de fiabilidad (


)
obtendremos informacin de la proporcin de varianza observada que es
atribuible a la varianza verdadera en el rasgo. Este es el llamado coeficiente de
fiabilidad, que como ahora veremos, puede estimarse a partir de la correlacin
entre dos formas paralelas de un test. Este es el llamado coeficiente de
fiabilidad del test, designado como XX.

Segn los supuestos de la TCT, VE=0


y

-6-

. Por lo tanto

Teora Clsica de los Tests I: modelo y fiabilidad

Asimismo, EjEk=0

Por lo tanto,

Consecuentemente:

Por lo tanto, la correlacin entre formas paralelas me da la proporcin


buscada (proporcin de varianza observada atribuible a la varianza verdadera,
o lo que es lo mismo 1 menos la proporcin de varianza de error)
Asimismo, tambin se deriva que la varianza verdadera es igual a la
covarianza de las puntuaciones observadas en las dos formas paralelas

SV2 = SXX '


Igualmente, despejando la varianza verdadera y la varianza de error en el
coeficiente de fiabilidad,

Finalmente, otras deducciones importantes son:

Asimismo, restndole a 1 el coeficiente de fiabilidad, se obtendr la

- 7-

Teora de los Tests I: modelo y fiabilidad

proporcin de varianza de error que contienen las medidas obtenidas mediante


el test:

El problema que presenta el clculo del coeficiente de fiabilidad tal y como


ha sido presentado, es que no puede obtenerse empricamente, ya que no se
conocen ni las puntuaciones verdaderas de los sujetos en el rasgo o atributo ni
el componente de error. La teora clsica de tests ofrecer una serie de
soluciones para resolver esta cuestin, acudiendo al concepto de tests
paralelos.

6.3. Alternativas al concepto de paralelismo


Los aspectos ms comprometidos del modelo que estamos tratando son:
1) a nivel teorico, los supuestos de paralelismo son difciles de cumplir.
Incluso en el caso ms favorable, que es el que aplica el procedimiento testretest, puede que las puntuaciones verdaderas de cada sujeto en cada pase
del test no sean las mismas, ya que el aprendizaje, la maduracin o la fatiga
pueden afectar a las puntuaciones del segundo pase.
2) a nivel emprico, los procedimientos de obtencin de medidas
paralelas tambin presentan dificultades: la dificultad para determinar el plazo
de tiempo que debe separar a los dos pases en el caso del procedimiento testretest, la dificultad en construir formas paralelas, y la dificultad en dividir en dos
mitades el test inicial. La definicin de nuevas formas de paralelismo surgi
como solucin a este tipo de problemas, ampliando las condiciones de
aplicacin del modelo clsico.
Estas nuevas formas de paralelismo son las siguientes:
1) Medidas tau-equivalentes (Lord y Novick, 1968): suponen la igualdad de
las puntuaciones verdaderas de los sujetos en las medidas paralelas
pero admiten que las varianzas de error de esas medidas puedan ser
diferentes;

-8-

Teora Clsica de los Tests I: modelo y fiabilidad

2) Medidas esencialmente tau-equivalentes (Lord y Novick, 1968): las


puntuaciones verdaderas de los sujetos en las medidas paralelas no han
de ser iguales, pero s han de mostrar una correlacin perfecta, dado que
lo nico que diferencia en este caso a V de V es que V= V+c, donde c es
una constante. Adems, las varianzas de error pueden ser diferentes.
Otro aspecto importante que se modifica tienen que ver con la aplicacin
de los supuestos originales de paralelismo. La aplicacin original hace
referencia a dos medidas (tal como es el caso en el procedimiento de testretest, formas paralelas o dos mitades). En cambio, estas nuevas formas de
paralelismo suelen referirse a ms de dos medidas. En concreto, suelen
referirse a cada una de las medidas que proporciona cada uno de los tems que
forma el test. En este sentido un test proporciona medidas tau-equivalentes si
los sujetos presentan la misma puntuacin verdadera en cada uno de los tems
del test, aunque la varianza de error asociada a cada tem pueda ser diferente,
es decir, aunque los tems difieran en la precisin con que reflejan esas
puntuaciones verdaderas. Y un test proporciona medidas esencialmente tauequivalentes si las puntuaciones verdaderas de los sujetos en los distintos
tems slo difieren por la adicin de una constante, pudiendo variar la varianza
de error de esos tems.
Desde esta nueva perspectiva, 1) es ms fcil satisfacer los supuestos
de paralelismo porque ya no son tan restrictivos; y 2) es ms fcil aplicar el
modelo porque no es necesario pasar dos veces el test o crear dos formas
paralelas de un test, ni tampoco es necesario dividir un test (lo que plantea el
problema de cmo dividirlo). Basta con una nica aplicacin. Esa aplicacin
proporciona un conjunto de medidas (una por item) sobre las que es posible
estimar el coeficiente de fiabilidad.

6.4. Concepto de fiabilidad


Es anlogo al utilizado en otras ciencias bajo la denominacin de precisin
de un instrumento.
Al utilizar instrumentos de medicin, siempre afecta un error aleatorio. Si
aplicsemos el mismo instrumento a los mismos individuos en distintas

- 9-

Teora de los Tests I: modelo y fiabilidad

ocasiones, el resultado no sera el mismo (por ejemplo, cuando se extrae


sangre). Pero las mediciones realizadas en distintas aplicaciones tambin
muestran consistencia. Esta tendencia a la consistencia de un conjunto de
medidas es lo que llamamos fiabilibidad.
En la medicin de rasgos psicolgicos el problema de la consistencia es
ms complejo que en la medicin de variables fsicas, porque las variaciones
pueden deberse tanto a la falta de precisin del instrumento como a otros
aspectos propios del individuo o del contexto. Son otro tipo de errores que no
son objeto del estudio de la teora de la fiabilidad (errores sistemticos).
Algunas variaciones se pueden explicar: por ejemplo, si ha habido maduracin
entre el primer y el segundo pase del test, o tambin si hay cambios en el
contecto de medida (el instrumento se aplica al inicio del da o al final, con la
posible influencia de la fatiga). Estas variaciones son sistemticas y
predecibles. Pero la fiabilidad de la medida se refiere a cambios en las
puntuaciones sin razones tericas y/o empricas que justifiquen el cambio, por
lo que las diferencias que se encuentren se deben a errores aleatorios
asociados al proceso de medicin.
Hay que ser cuidadosos con la interpretacin dada a la fiabilidad, pues a
veces se confunde con otros conceptos como el de adecuacin o validez. La
fiabilidad de un prueba o test se refiere exclusivamente a la precisin de esa
prueba utilizada como instrumento de medida y nunca a si ese instrumento es
idneo para la medida de la aptitud, destreza o cualquier otro tipo de rasgo que
se quiere evaluar a travs de esa prueba.
La fiabilidad de un test se define como la variacin relativa de la
puntuacin verdadera con respecto a la puntuacin observada, calculada a
travs de la razn entre las respectivas varianzas.
El porqu de esta definicin se puede extraer de la consideracin de que
en toda puntuacin obtenida en un test hay un margen de error. Este error se
comete por dos razones fundamentalmente:
1) Inexactitud de las medidas: la medida exacta ser V. En el test se
obtiene X. El error ser V-X.

- 10 -

Teora Clsica de los Tests I: modelo y fiabilidad

2) Estabilidad de las puntuaciones: al aplicar un test dos veces, no


siempre obtenemos las mismas puntuaciones. Si la diferencia entre las
dos puntuaciones (X2-X1) es cero, el test es exacto.
Cuando hablemos de V-X nos referiremos al ndice de fiabilidad. (rxv)
Cuando hablemos de X2-X1 nos referiremos al coeficiente de fiabilidad (rxx)
La razn de definir el coeficiente de fiabilidad como lo hizo Spearman
desde el modelo lineal fue porque representa una buena forma de establecer el
grado de aproximacin entre las puntuaciones verdaderas y las observadas.
El valor exigible a un coeficiente de fiabilidad para decir que un test es
fiable est en funcin del tipo de prueba y objetivo para el que se construy ese
test. Desde la TCT tal y como se propuso, sin embargo, siempre se deber
contar con dos formas paralelas de un test para poder estimar la fiabilidad.

6.5. Factores que afectan al coeficiente de fiabilidad:


longitud y variabilidad
Como hemos visto, la estimacin de la fiabilidad de un test,
operacionalizada a partir de su coeficiente de fiabilidad, se realiza a partir de la
varianza de las puntuaciones observadas. De forma mas precisa, a partir de la
covarianza entre dos series de puntuaciones observadas correspondientes a
los mismos sujetos y al mismo test (o a una forma paralela, o a una mitad del
test). Imaginad que aplicamos el test a una muestra de 10000 adultos y
estimamos su fiabilidad. Ahora imaginad que aplicamos ese test a una muestra
de slo 100 adultos. La fiabilidad ser la misma? Probablemente no, porque la
fiabilidad depende de la varianza de las puntuaciones observadas, y esa
varianza puede cambiar en funcin de muchos criterios: el tamao de la
muestra, la poblacin de que se extrae la muestra, la homogeneidad de la
muestra, etc. Evidentemente, uno de los problemas que presenta el coeficiente
de fiabilidad tal como lo hemos descrito es su dependencia respecto de las
caractersticas de la muestra o grupo de sujetos sobre el que se obtienen las
dos series de puntuaciones paralelas. Otro de los problemas que presenta es
su dependencia respecto de las caractersticas del propio test. Veamos en que

- 11-

Teora de los Tests I: modelo y fiabilidad

consiste esta dependencia.

6.5.1. Fiabilidad y longitud.


La magnitud del coeficiente de fiabilidad depende de la varianza de las
puntuaciones observadas, y la longitud del test es uno de los factores de que
depende esa varianza. Manteniendo el resto de factores constantes, si
incrementamos la longitud de un test incrementaremos la variabilidad de las
puntuaciones, y a la inversa, si reducimos su longitud, tambin reduciremos la
varianza de sus puntuaciones. Ahora bien, qu sucede con los componentes
en que se divide la varianza de las puntuaciones observadas en un test, la
varianza de las puntuaciones verdaderas y la del error? Ambas no crecen o
decrecen en igual proporcin. En general, cuando incrementamos la longitud
de un test ambas varianzas crecen, pero la varianza de las puntuaciones
verdaderas crece ms que la varianza de error. De qu nota os fiarais ms,
de la obtenida en un examen con dos preguntas o de la obtenida en un examen
con 10 preguntas? La longitud del examen de 10 preguntas multiplica por 5 la
longitud del examen inicial de 2 preguntas. Eso supone multiplicar por 52 la
varianza de las puntuaciones verdaderas del examen inicial, y slo multiplicar
por 5 la varianza del error del examen inicial. Ambas varianzas crecen, pero a
un ritmo claramente diferente. En general, la varianza de las puntuaciones
verdaderas se multiplica por el cuadrado del numero de veces que se
incrementa la longitud original del test, mientras que la varianza de error se
multiplica por el nmero de veces que se incrementa la longitud. Existe una
frmula que indica el incremento en la fiabilidad de un test que podramos
alcanzar por el procedimiento de incrementar su longitud k veces. Es la frmula
de Spearman-Brown. Ya la vimos en el caso de la estimacin de la fiabilidad
por el procedimiento de las dos mitades. Aqu veremos el caso general.
Ahora bien, hay que tener cuidado con esta frmula porque slo es til
en el caso en que la longitud del test se incremente aadiendo tems
adecuados. Slo incorpora el nmero veces en que se modifica la longitud del
test, es decir, la frmula no puede discernir si los tems que se aaden son
pertinentes o no:

R xx ' =

krxx '
1 + (k 1)rxx '

- 12 -

Teora Clsica de los Tests I: modelo y fiabilidad

En esta frmula Rxx es el coeficiente de fiabilidad final, k es el nmero de


veces en que se incrementa la longitud del test, y rxx es el coeficiente de
fiabilidad inicial.
Imaginad que estamos ante un test de aptitudes de 20 tems cuya
fiabilidad inicial es de 0.52, si duplicamos la longitud de ese test conseguiremos
una fiabilidad de 0.68, y si la triplicamos la fiabilidad final ser de 0.76, que ya
es una fiabilidad aceptable. Pero y si todos esos tems que aadimos resulta
que son tan fciles que todo el mundo los acierta? Entonces lo nico que
habremos hecho es incrementar la puntuacin total de cada sujeto en un valor
constante e igual al nmero de tems que hemos aadido. Pero al ser ese
incremento constante para todos los sujetos, en realidad no servir para
mejorar la fiabilidad del test. El incremento real de la fiabilidad sera nulo. Y el
incremento ofrecido por la frmula de Spearman-Brown sera un artefacto
matemtico que no tendra nada que ver con la realidad. Se puede incrementar
la fiabilidad de un test por el procedimiento de aadir tems, siempre que la
calidad de los tems sea la adecuada.
Otro uso de esta frmula es el clculo del nmero de veces (k) en que es
necesario incrementar la longitud de un test para conseguir una fiabilidad
prefijada:

k=

Rxx' (1 rxx' )
rxx' (1 Rxx' )

6.5.2. Fiabilidad
y homogeneidad de los grupos.
El segundo de los aspectos que pueden afectar la estimacin de la
fiabilidad de un test es la homogeneidad de la muestra sobre la que se calcula.
El coeficiente de fiabilidad depende de la proporcin de varianza de error que
hay en la varianza de las puntuaciones observadas. Por otra parte, la varianza
de las puntuaciones observadas depende de la muestra a la que aplicamos el
test. Si la muestra sobre la que calculamos esa varianza es muy homognea,
los sujetos presentarn puntuaciones muy parecidas, y la variabilidad de esas
puntuaciones ser pequea, o en cualquier caso, inferior a la que hubiramos

- 13-

Teora de los Tests I: modelo y fiabilidad

obtenido de haber dado con una muestra menos homognea de la misma


poblacin. En cambio, de acuerdo con los supuestos del modelo clsico, la
varianza de error de un test no depende de la muestra a la que se le aplica el
test. Es una caracterstica del test que permanece constante siempre que
apliquemos el test a muestras extradas de la misma poblacin. La conclusin
es clara: dado que la varianza de error es constante para un test dado a travs
de las muestras extradas de una poblacin, y la varianza de las puntuaciones
observadas no es constante a travs de esas muestras, la proporcin de
varianza de error que hay en las puntuaciones observadas en diferentes
muestras tampoco es constante: cuanto menor sea la varianza de las
puntuaciones observadas, mayor ser la proporcin de varianza de error que
hay en esas puntuaciones, y menor ser la estimacin de la fiabilidad
resultante.
Formalmente:
S e2A = S e2B ; S e2 = S x2 (1 rxx ' )
S x2A (1 rAA' ) = S x2B (1 rbb ' )

Y por tanto,

Sx2A
S

2
xB

1 rBB'
1 rAA'

De modo
que, rBB' = 1

Sx2A
Sx2B

(1 rAA' )

Cuanto mayor es la varianza de las puntuaciones en la muestra A


respecto de la de B, mayor es la diferencia a 1 de la fiabilidad del test en la

muestra B respecto de la de A.
En definitiva, la relacin anterior muestra que hemos de ser cautos con
las muestras que empleamos en la evaluacin de la fiabilidad de un test, y que
un test no tiene una nica fiabilidad, sino que esta vara en funcin del grupo en
que la calculemos.

- 14 -

Teora Clsica de los Tests I: modelo y fiabilidad

6.6. Procedimientos empricos para estimar la


fiabilidad: paralelismo, estabilidad y consistencia
interna
El clculo emprico de un coeficiente de fiabilidad necesita disponer de al
menos dos conjuntos de medidas paralelas de los mismos individuos para
poder calcular la correlacin entre las dos series de puntuaciones. La
operacionalizacin de estas medidas paralelas se puede hacer de distintas
formas, lo que nos lleva a procedimientos distintos para calcular el coeficiente
de fiabilidad. Hay tres mtodos para obtener estimadores empricos del
coeficiente de fiabilidad:
-

Mtodo de las formas paralelas (paralelismo)

Mtodo test-restest (estabilidad)

Mtodo basado en una sola aplicacin (consistencia interna)

Cada mtodo proporciona estimaciones distintas, aunque todas se


consideran estimaciones del coeficiente de fiabilidad.
La eleccin del procedimiento depende en parte del propsito del test.
En la mayora de los tests suelen utilizarse procedimientos de consistencia
interna. Pero hay un tipo de tests en los que esto est desaconsejado: los tests
de velocidad.

Paralelismo
Si es posible construir dos formas paralelas de un test j y k, que tengan
similar dificultad (media) y variabilidad, y aplicarlas a una muestran de sujetos,
la correlacin entre las puntuaciones de las dos formas paralelas (XjXk ) ser
un estimador del coeficiente de fiabilidad.
Este mtodo es el que se deriva genuinamente del modelo de la TCT.
Tiene la ventaja de que las formas paralelas pueden aplicarse en un nico
momento temporal, por lo que se controla la posibilidad de que se d un
cambio en la variable medida a travs del tiempo. Si se aplicara en dos
momentos diferentes permitira evaluar tambin la fiabilidad como estabilidad
temporal de las medida. En cuanto a los inconvenientes, hay que sealar que
es enormemente laborioso (se multiplica el proceso de construccin y seleccin

- 15-

Teora de los Tests I: modelo y fiabilidad

de tems) y resulta muy difcil crear formas realmente paralelas de un test (que
tengan misma media y variabilidad).
Con el mtodo de las dos mitades se construye un nico test y se divide en
dos partes que son tratadas como formas paralelas del test. Una primera
cuestin es cmo dividir el test, ya que se pueden seguir distintas estrategias.
Por ejemplo, se puede tomar la primera mitad de los items, por un lado, y la
segunda mitad, por otro. Esta opcin se desaconseja en los tests de velocidad2
o cuando la fatiga, la falta de motivacin o el efecto de la prctica puedan
provocar en la segunda mitad un sesgo en las respuestas respecto de la
primera mitad. Si el test es largo, otra posibilidad es formar las dos mitades
aleatoriamente. Otra posibilidad es formar las dos partes considerando los
items pares y los items impares. La cuestin es que si las formas obtenidas son
paralelas, se puede calcular la correlacin entre las puntuaciones de las dos
mitades, y corregir el resultado mediante frmula de Spearman-Brown para
obtener la fiabilidad total, ya que dicha correlacin est basada en la mitad de
los items y la longitud del test (como veremos en el prximo tema) afecta a la
fiabilidad.
La frmula de Spearman-Brown para el caso de las dos mitades es:

, donde rAB es la correlacin entre las 2 mitades (A yB)

Frente al mtodo test-retest, este mtodo slo requiere una aplicacin del
test y, frente al mtodo de las formas paralelas, resulta ms sencillo y menos
costoso de aplicar, ya que nicamente se emplea un test y no dos. Sin
embargo, un inconveniente es que las estimaciones del coeficiente de fiabilidad
puede variar en funcin de la divisin que se haga del test, plantendose la
cuestin de cul de las estimaciones es ms adecuada. Este problema queda
resuelto con el coeficiente alfa.

Estabilidad
Dada la dificultad de crear dos formas paralelas de un test, una posibilidad

- 16 -

Teora Clsica de los Tests I: modelo y fiabilidad

es aplicar el mismo test en distintas ocasiones a una muestra de sujetos, ya


que si el rasgo o caracterstica evaluada no vara con el tiempo, las dos
aplicaciones sern formas paralelas, por lo que este mtodo es perfectamente
congruente con el modelo de la TCT. En este caso, la correlacin entre las
puntuaciones obtenidas en las dos ocasiones constituir una estimacin del
coeficiente de fiabilidad. La aplicacin de este mtodo es muy sencilla y se
puede aplicar a cualquier tipo de test. Sin embargo, este mtodo tambin
presenta inconvenientes. Al necesitar dos aplicaciones distintas del test,
factores como el aprendizaje, la fatiga o falta de motivacin y la mortandad
experimental, pueden afectar a este procedimiento, lo que violara el supuesto
de independencia de las observaciones. Adems, los cambios que pudieran
producirse en la puntuacin verdadera a lo largo del tiempo, por ejemplo, por
efectos madurativos, cuestionaran la utilizacin de este mtodo ya que se
violara el supuesto de igualdad de puntuaciones verdaderas que requieren las
formas paralelas. Estas cuestiones hacen que sea muy importante seleccionar
adecuadamente el intervalo temporal que transcurrir entre las distintas
mediciones, de manera que no sea tan corto que se puedan dar efectos de
aprendizaje o que se recuerden las respuestas que se dieron en la primera
ocasin, pero tampoco que sea tan largo que sea probable que haya habido un
cambio real en los sujetos, ya que en este caso una baja correlacin no
indicara (al menos nicamente) una baja fiabilidad de las medidas.
Estos mtodos requieren el cumplimiento del supuesto de paralelismo.
De no ser as, las correlaciones entre dos tests (o de un test en dos ocasiones,
o de grupos de items de un test) nicamente indicaran su relacin, pero no
podran considerarse un indicador de la fiabilidad de las medidas. Sin embargo,
en la prctica es muy difcil que se cumpla el supuesto de paralelismo. Esta
problemtica ha llevado a la flexibilizacin del supuesto de paralelismo,
proponindose otros tipos de equivalencia menos restrictivos.

Consistencia interna
La frmula que expresa el caso general en que el coeficiente de
fiabilidad se estima a partir de las puntuaciones de los sujetos en los tems del
test es la del coeficiente alfa de Cronbach:

- 17-

Teora de los Tests I: modelo y fiabilidad

N j
xx' =
1
x2
N 1

x es la puntuacin de los sujetos en el test, obtenida como la suma (sin


de las puntuaciones en cada uno de sus elementos o tems.
promediar)
N es el numero de tems que se han sumado para obtener esa puntuacin
x en el test.
2
x es la varianza de esas puntuaciones en el test.
2yi es la varianza de las puntuaciones en el item i.
Haciendo una analoga con la definicin clsica del coeficiente de fiabilidad,
este coeficiente expresa la proporcin de varianza comn entre los tems que
hay en la varianza total. El coeficiente de fiabilidad clsico expresa la
proporcin de varianza comn entre dos medidas paralelas que hay en la
varianza total. Recordemos que la varianza comn entre dos medidas paralelas
es la mejor estimacin de la varianza de las puntuaciones verdaderas que hay
en esas dos medidas. El numerador que estamos analizando contiene tambin
la estimacin de la varianza de las puntuaciones verdaderas, slo que esa
varianza verdadera se estima a partir de la varianza comn entre todos los
tems del test, y no entre dos aplicaciones de ese test, como sucede en la
formulacin clsica del coeficiente de fiabilidad. Pero la lgica es la misma: se
sigue estimando la varianza verdadera a partir de la varianza comn, y se sigue
empleando la proporcin de varianza comn sobre la total para estimar la
fiabilidad del test.
Este coeficiente evala la consistencia interna del test y nos da una
nueva interpretacin de la fiabilidad del test: un test es fiable si todos sus
elementos ofrecen medidas consistentes de cada uno de los sujetos. De nuevo
intuitivamente la idea es clara: si todos los tems del test miden el mismo rasgo,
entonces un sujeto cualquiera que tenga una puntuacin baja en el rasgo
deber presentar consistentemente puntuaciones bajas en todos los tems del
test. En la medida en que esto sea as, los elementos del test o tems ofrecern
puntuaciones fiables, y la puntuacin total en el test tambin ser fiable. Pero si
encontramos que el mismo sujeto obtiene puntuaciones dispares en los
diferentes tems del test, entonces algo falla, seguramente algunos de esos
tems ofrecen puntuaciones inconsistentes porque estn mal formulados, o no
miden lo mismo que el resto de tems. Pero cualquiera que sea la explicacin,

- 18 -

Teora Clsica de los Tests I: modelo y fiabilidad

habr que eliminar esos tems inconsistentes si queremos aplicar el test.


El calculo del coeficiente alfa es la forma ms habitual de evaluar la
fiabilidad de un test porque no requiere aplicar varias veces un test ni dividirlo
en dos partes, y porque no requiere satisfacer los supuestos de paralelismo
originales. Si el test satisface los supuestos de paralelismo originales, entonces
el calculo del coeficiente de fiabilidad nos dar el mismo resultado si
empleamos la formula de alfa o si dividimos el test en dos mitades y
calculamos el coeficiente de fiabilidad mediante la formula de SpearmanBrown. Si el test no satisface los supuestos de paralelismo originales pero
satisface los supuestos de las medidas esencialmente tau-equivalentes
entonces tendremos que estimar su fiabilidad nicamente a partir del
coeficiente alfa. Y si el test no satisface los supuestos de las medidas
esencialmente tauequivalentes, entonces tendremos que aplicar tambin el
calculo de alfa, slo que en ese caso el coeficiente alfa no estimar el valor del
coeficiente de fiabilidad del test, sino su cota inferior. En este ltimo caso el
coeficiente alfa nos dar el valor mnimo que puede alcanzar el coeficiente de
fiabilidad.
Dos frmulas tambin muy conocidas son las formulas KR20 y KR21.
Estas frmulas son casos particulares del coeficiente alfa cuando los tems que
componen el test son dicotmicos. KR21 se aplica cuando adems, los tems
tienen la misma dificultad.

X2
p q
X

k
j j
k
k

KR20 =
1
=
1
KR

2
21
Sx
k 1
Sx2
k 1

6.7. Coeficiente de fiabilidad como acuerdo entre


jueces
A la hora de puntuar un test, compuesto por tems de construccin o por
tems de respuesta abierta, hay que recurrir a jueces, calificadores o
codificadores que transformen las respuestas de los sujetos en un nmero. La
puntuacin que obtenga un individuo depender de quin sea el juez
encargado de examinar sus respuestas a los tems. As pues, cuando
emitamos un juicio sobre la fiabilidad de una de estas prueba, hay que

- 19-

Teora de los Tests I: modelo y fiabilidad

determinar hasta qu punto influyen los jueces implicados en el proceso en la


precisin de las estimaciones de la caracterstica de inters.
La fiabilidad interjueces es precisamente la estimacin de la fiabilidad de
los jueces, la garanta de que todos los jueces califican o categorizar de la
misma forma.
Para garantizar esta fiabilidad, lo primero que hay que hacer es entrenar
adecuadamente a los jueces. Despus, comprobar la fiabilidad interjueces.
Para estimarla, habitualmente se obtiene una medida del acuerdo
existente entre las puntuaciones asignadas a las respuestas de los individuos
por los distintos jueces.
La proporcin o probabilidad de acuerdo ser igual al nmero de
acuerdos dividido por el nmero de resultados posibles, y la probabilidad de
acuerdos aleatorios entre los jueces como: Paa=C/J
Donde C es el nmero de categoras o puntuaciones posibles que se pueden
asignar a las respuestas de un tem y representara el nmero mximo posible
de acuerdos, y J es el nmero de jueces implicados en el proceso de
asignacin de puntuaciones.
La probabilidad de encontrar aciertos acuerdos aleatorios se reduce
notablemente segn aumenta el nmero de jueces y cuantos ms puntos tiene
la escala de puntuacin, de modo que con tres categoras y cuatro o cinco
jueces nos aproximamos a los niveles de confianza habituales del 95 y 99%.
Para finalizar, hay que decidir qu grado de acuerdo debe existir entre
los jueces. Si el nivel mnimo fijado es por ejemplo del 80%, se procede a
identificar a los jueces cuyo acuerdo con los dems no llegue a ese valor, en
cuyo caso se estrena ms a dicho juez o se sustituye por otro.
Hay distintos ndices para estimar esta fiabilidad, pero el ms utilizado el
el ndice Kappa de Cohen. Este coeficiente se define como:
k=

F0 < Fe
N Fe

donde F0 es el nmero de acuerdos observados entre los jueces y Fe es el


nmero o frecuencia esperada de acuerdos aleatorios entre los jueces.

- 20 -

Teora Clsica de los Tests I: modelo y fiabilidad

Kappa se puede interpretar como la proporcin de clasificaciones


consistentes ms all de las que podra esperarse por azar. 1 es el mximo,
fiabilidad perfecta. Valores cercanos a 0 indican consistencia entre jueces
atribuible al azar.
Se calcular el valor de k para todos los posibles pares de jueces y a la
vista de los valores que se obtengan se decidir quines son los mejores.

6.8. Fiabilidad en tests compuestos y puntuaciones


diferencia
Hemos abordado el clculo de alfa como la fiabilidad de un test estimada
a partir de los tems que lo componen. Pero el nmero y tipo de componentes
de un test puede atender a mltiples criterios. En general el coeficiente alfa
estima la fiabilidad de un test a partir de los componentes que lo integran. Y
esos componentes pueden ser los tems, como en el caso que hemos expuesto
anteriormente, o las mitades de un test, en el caso de que queramos aplicar
este procedimiento y nos demos cuenta de que no se satisfacen las
condiciones de paralelismo que requiere la formula de Spearman-Brown, o los
subtests que integren el test, en el caso de que los haya. Cualquiera que sea el
caso en que nos encontremos, la frmula se aplica e interpreta de igual
manera. Para aplicarla necesitamos crear una variable que sea la suma de
todos los componentes que hayamos definido y obtener su varianza. Y tambin
obtener la varianza de cada uno de los componentes. Para interpretarla hemos
de comprobar los supuestos de medidas esencialmente tau-equivalentes. Si el
test satisface estos supuestos sabremos que el coeficiente alfa nos da la
estimacin del coeficiente de fiabilidad del test. Si no se cumplen, sabremos
que alfa nos indicara la cota inferior de esa fiabilidad.

Fiabilidad de un test compuesto


En muchas ocasiones no aplicamos un solo test a un sujeto, sino
bateras de tests. Para determinar la fiabilidad de la batera, podemos hacerlo a
partir de las varianzas y fiabilidades de los subtests que la componen (p=
nmero de subtests).
Llamaremos a la fiabilidad de la batera:

- 21-

Teora de los Tests I: modelo y fiabilidad

Desarrollando el numerador:

Y el denominador:

De modo que la fiabilidad de la batera ser:

En la prctica, suele darse ms importancia a unos subtests que a otros,


y esa importancia se concede mediante ponderaciones. Esto suele ocurrir
cuando se tienen varios tests distintos y se pretende pronosticar de la mejor
manera posible un cierto criterio terico o prctico. La correlacin mltiple entre
los tests y el criterio indica los pesos que hay que dar a los distintos subtests
para que la suma ponderada de todos estos alcance la mxima correlacin
posible con el criterio. En estos casos, el test total se llama batera predictiva.
Cada test ir multiplicado por su peso, as que la varianza tambin se
multiplica por ese peso, pero al cuadrado, ya que si una variable se multiplica
por una constante, su varianza queda multiplicada por el cuadrado de la
constante:
p

a2j S 2j a2j rjj S 2j


rtt = 1

j=1

j=1
2
t

Fiabilidad de puntuaciones diferencia

A veces es importante evaluar la eficacia de programas o intervenciones


calculando la diferencia entre dos mediciones.
La Teora Clsica de los Tests proporciona ecuaciones para determinar
la fiabilidad de estas puntuaciones cambio o diferencia que obtenemos a partir

- 22 -

Teora Clsica de los Tests I: modelo y fiabilidad

de dos mediciones (habitualmente pre y postest) con el mismo test o con una
forma paralela:

rd =

rx1 x1 ' Sx21 + rx 2 x 2 ' Sx22 2rx1 x 2 Sx1 Sx 2


Sx21 + Sx22 2rx1 x 2 Sx1 Sx 2

- 23-

You might also like