You are on page 1of 39

TEMA 11

Anlisis de la calidad mtrica de


los tems
Licenciatura de Psicopedagoga:
Mtodos, Diseos y Tcnicas de
Investigacin Psicolgica
Salvador Chacn Moscoso
Susana Sanduvete Chaves
Dpto. de Psicologa Experimental.
Universidad de Sevilla.

Recordando..., la Psicometra es una disciplina implicada
directamente en la medicin psicolgica, con una doble
vertiente:
- terica: supone la fundamentacin terica de la
medida.
- aplicada: supone la
construccin,
evaluacin y
aplicacin
de instrumentos de medida para evaluar o
medir las caractersticas psicolgicas de
inters.
Dentro de los parmetros de los tems se suele estimar
la dificultad, discriminacin, pseudoadivinacin,
homogeneidad, informacin, fiabilidad y validez, si
bien segn sea el marco terico que se adopte teora
clsica de los tests, teora de respuesta al tem o
medicin referida al criterio- algunos de ellos sern
definidos e interpretados/valorados de distinto modo y
se estimar un determinado nmero de estos
parmetros, no todos. La mayor parte de los textos de
psicometra presentan algn captulo dedicado a estas
cuestiones (vase, por ejemplo, Crocker y Algina, 1986;
Martnez Arias, 1995; Muiz, 1992 o Santisteban,
1990).
Evaluacin del instrumento.

Anlisis de la calidad de los tems.
Estudio de la fiabilidad del instrumento
Estudio de la validez del instrumento.



FASE DE EVALUACIN DE UN INSTRUMENTO DE
MEDIDA

La fase de evaluacin del instrumento de medida es
absolutamente crucial ya que todas las medidas obtenidas al
aplicar una prueba contienen error y por tanto se hace
necesario la evaluacin de la calidad de los instrumentos de
medida, es decir, determinar si stos cumplen o no los criterios
mtricos de calidad que todo instrumento de medida debe de
satisfacer para poder ser utilizado con garanta como un
instrumento cientfico.
FASE DE EVALUACIN DE UN INSTRUMENTO DE
MEDIDA

La calidad de los tems, la fiabilidad y la validez son las
caractersticas fundamentales de un buen instrumento de
medida; son propiedades exigibles a un buen test y, por lo
tanto, criterios a tener en cuenta para evaluarlos con criterios
de calidad.

Esto supone que habr que proceder al anlisis de los tems del
mismo y estudiar la fiabilidad y validez del instrumento.

Anlisis de los tems
El examen de la calidad individual de cada uno de los
elementos, tems o indicadores que componen un instrumento
de medida implica la obtencin de informacin descriptiva y
estadstica.

Informacin descriptiva: hace e referencia a la calidad
tcnica de sus elementos y en general supone la obtencin de
evidencias de validez de los mismos, es decir, obtencin de
indicios sobre su relevancia, adecuacin, claridad, etc.

Informacin estadstica: supone la estimacin de una serie de
parmetros para cada tem, el anlisis de los distractores o
alternativas incorrectas de respuestas -en los tems de eleccin
mltiple- y el examen del posible funcionamiento diferencial de
los tems en grupos de inters.

Informacin descriptiva: Validez de los tems de un tests
(sistema de indicadores)

Objetivo:
Establecer juicios razonables sobre el grado en que las
evidencias aportadas permiten emprender acciones basadas en
el modelo de medida desarrollado, en este caso, a travs de los
tems o indicadores (Messick, 1989).


No cabe plantear si el sistema de tems o indicadores es vlido
en s mismo independientemente del objetivo de la
investigacin o del contexto, sino que su validez est en
relacin con los objetivos a medir.
- No hay un coeficiente nico que reporte datos sobre la validez
de los tems o sistema de indicadores, sino que los datos para
establecer juicios sobre su validez vienen dados por:
1. Los resultados de combinar distintas tcnicas.
2. Por evidencias empricas basadas en experiencias anteriores.
3. La utilidad que muestren para el modelo de medida propuesto
-De acuerdo con ello, es necesario dotar a los tems o indicadores
de distintas evidencias de validez, en concreto:


1. Validez de contenido: Garantizar que los indicadores
seleccionados constituyan una muestra representativa de
todos los posibles indicadores.

2. Validez de constructo: Garantizar la existencia del
constructo que conforma el conjunto de indicadores que
pretenden medirlo y por ende dota de sentido a las
puntuaciones que se obtienen con los indicadores.

3. Validez de criterio: Conjunto de evidencias que permiten
demostrar que las puntuaciones del sistema de indicadores
estn relacionadas con un criterio externo de inters (Suen,
1990).

-En general, los distintos tipos de validez, no son entidades
distintas, sino que son el resultado de distintas aproximaciones al
concepto de validez de los indicadores o tems en nuestro caso.
Los tems o el sistema de
indicadores es coherente
con investigaciones previas
Se corresponda con el
modelo terico
referente
Modelo de medida a partir del cual programar acciones en el campo
aplicado, en nuestro caso, de la psicologa.
til para nuestros
propsitos



2. Validez de constructo: Garantizar la existencia del
constructo que conforma el conjunto de indicadores que
pretenden medirlo y por ende dota de sentido a las
puntuaciones que se obtienen con los indicadores.

Para contrastar la calidad tcnica de los tems, en
cuanto a su validez de constructo suele recurrirse al
estudios del modelo de medida desde la tcnica del
Anlisis Factorial (Exploratorio y Confirmatorio)

En general, el Anlisis Factorial (AF) como modelo de
medida asume que los factores son causas efectivas
de los indicadores, que son vistos como efectos de
los mismos. Los indicadores o tems son efectos
(manifestaciones) de las variables latentes o
conceptos psicolgicos no observables.
A titulo de ejemplo, podemos establecer que el concepto de
Calidad Universitaria puede contemplarse desde un modelo de
medida en el que Enseanza, Investigacin y Gestin son
dimensiones (factores) ms especficas del mismo y se asume que
estos factores son causas efectivas de distintos indicadores o
tems, que son vistos como efectos de los mismos, es decir, los
indicadores son manifestaciones empricas que permiten medir
dichas variables latentes.
Un modo alternativo al planteamiento anterior, supone establecer
el concepto de Calidad Universitaria desde un modelo en el que
Enseanza, Investigacin y Gestin son dimensiones especficas
(factores) que afectan o modulan a dicho concepto general y se
asume que estos factores, a su vez, son modulados por distintos
indicadores o tems, que son considerados como causas efectivas
de los mismos, es decir, supone definir a los constructos como
funciones lineales de los indicadores ms una parte de error. Los
factores pueden ser asumidos como variables compuestas por
variables observadas, expresadas como combinaciones lineales de
stas (McCallum y Browne, 1993).
La calidad universitaria es funcin de indicadores observables
que conforman el concepto calidad. Decimos que la calidad
ser mejor o peor en funcin de los valores de los indicadores , y
no que es la calidad universitaria la que provoca cambios en los
indicadores.


3. Validez de criterio: Conjunto de evidencias que permiten
demostrar que las puntuaciones del sistema de indicadores
estn relacionadas con un criterio externo de inters (Suen,
1990).

Para contrastar la calidad tcnica de los tems desde la
perspectiva de validez de criterio, se suelen utilizar
procedimientos que implican evaluar el poder
predictivo del instrumento globalmente. En este
sentido nos remitimos al concepto de validez del
instrumento que analizaremos en apartados
subsiguientes.


Informacin estadstica: Estimacin de parmetros para cada
tem.

Dentro del marco de la TCT, los parmetros de los tems que se
suelen estimar son el ndice de dificultad, discriminacin y
validez, si bien segn sea el marco terico que se adopte TCT,
TRI o medicin referida al criterio (MRC)- se valoran otros
ndices (homogeneidad, informacin, pseudoadivinacin...).
Algunos de ellos sern definidos e interpretados/valorados de
distinto modo segn el marco terico.

La mayor parte de los textos de psicometra presentan algn
captulo dedicado a estas cuestiones (vase, por ejemplo,
Crocker y Algina, 1986; Martnez Arias, 1995; Muiz, 1992/98
o Santisteban, 1990).

ndice de dificultad (ID)

Proporcin de sujetos que responden correctamente al tem.
Es un ndice descriptivo de la distribucin de respuestas y/o
puntuaciones del tem:
donde:
A: Nmero de sujetos que aciertan el tem.
N: Nmero de sujetos que han intentado resolver el tem.

N
A
ID =
ndice de dificultad (con correccin del azar)

Proporcin de sujetos que responden correctamente al tem
corrigiendo las posibles aciertos por azar:
donde:
A: Nmero de sujetos que aciertan el tem.
E: Nmero de sujetos que han fallado el tem.
n: Nmero de alternativas de respuestas del tem.
N: Nmero de sujetos que han intentado resolver el tem.

N
n
E
A
ID
1

=
En general, un tem en mejor cuanto mayor sea su
varianza.

Los mejores tems son los que tienen un ndice de dificultad
de 0.5, porque optimizan la variabilidad del tem.


Por lo que respecta al test en su conjunto, para que
discrimine adecuadamente entre los niveles de habilidad de
todos los sujetos se han propuesto criterios para incluir
proporcionalmente tems, con diferentes valores en sus ID,
en el tests.

Osterlind recomienda, en tests de rendimiento, ndices de
dificultad que oscilen entre 0.4 y 0.8.
Yela (1980) recomienda la siguiente distribucin de tems en
el test:


Categoras Centl en el constructo % Aproximado ndices de Dificultad
Muy fciles 0 - 10 10% 0.75 a 0.95
Fciles 10 30 20% 0.55 a 0.74
Normales 30 - 70 40% 0.45 a 0.54
Difciles 70 - 90 20% 0.25 a 0.44
Muy difciles 90 100 10% 0.05 a 0.24


En este mismo sentido, Garret (1968) propone:


Categoras Centl en el constructo % Aproximado ndices de Dificultad.

Fciles 0 - 25 25% 0.75 a 0.95
Medios 25 - 75 50% 0.26 a 0.74
Difciles 75 100 25% 0.05 a 0.25


Centiles de cada
subgrupo
20 a 40
40 a 60
80 a 100
0 10 20 30 40 50 60 70 80 90 100
*
*
*
*
*
00 a 20
60 a 80
I. D
Comportamiento del ID de un tem por niveles de habilidad de los sujetos
ndice de discriminacin (r
ix
)

Es un ndice que relaciona el tem con el test y se define como
la correlacin entre las puntuaciones de los sujetos en el tem
y sus puntuaciones en el test (Muiz, 1998, p.219)


Su mayor utilidad es diferenciar a los sujetos con
puntuaciones altas en el test de aquellos que las tienen bajas.

En general, se obtiene aplicando los principios de la
correlacin de Pearson, adaptando el clculo a las
caractersticas o modos en que los tems vienen medidos.
En la literatura psicomtrica podemos encontrar diferentes
formas de calcular este ndice
ndice de discriminacin clsico (Croker y
Algina, 1986).
Pi Ps D
donde:
Ps es la proporcin de sujetos del grupo superior en el criterio que
responden correctamente al tem. y
Pi es la proporcin de sujetos del grupo inferior que responden
correctamente al tem.
ndice de discriminacin basado en el coeficiente de
correlacin de Pearson.

Coeficiente de Correlacin producto-momento de Pearson (r
xy
)
y x
xy
S S
Y X
N
XY
r


=

y x
xy
S S
Y X COV
r

=
) , (
y x
xy
S S
Y E X E Y X E
r


=
) ( ) ( ) , (
ndice de discriminacin
(casos particulares basados en el coeficiente de correlacin de Pearson.

Coeficiente de Correlacin biserial puntual (r
bp
)
q
p
x
x p
bp
o


=
donde:

p
: Media en el test de los sujetos que han acertado el tem

x
: Media del test
o
x
: Desviacin tpica del test
p: Proporcin de sujetos que aciertan el tem
q: 1-p

ndice de discriminacin
(casos particulares basados en el coeficiente de correlacin de Pearson.

Coeficiente de Correlacin biserial (r
b
)
donde:

p
: Media en el test de los sujetos que han acertado el tem

x
: Media del test
o
x
: Desviacin tpica del test
p: Proporcin de sujetos que aciertan el tem
y: Ordenada correspondiente al valor de la puntuacin tpica en la curva
normal que deja por debajo un rea igual a p (los valores se pueden
encontrar en la tabla estadstica correspondiente.

y
p
x
x p
b
*
ndice de discriminacin
(casos particulares basados en el coeficiente de correlacin de Pearson.

Coeficiente de Correlacin Phi ()
donde:
a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas
por el cruce de un tem dicotmico y un tests dicotmico.


d b d c c b b a
ad bc
+ + + +

= u
)( )( )( (
ndice de discriminacin
(casos particulares basados en el coeficiente de correlacin de Pearson.

Coeficiente de Correlacin Tetracrico (r
t
)
donde:
a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas
por el cruce de un tem y un test ambos dicotomizados. asumiendo
distribuciones normales

ad
bc
+
=
1
180
cos
t

ndice de Validez

El ndice de validez de un tems est referido a su correlacin
con un criterio externo al propio test.

Como ocurre con el ndice de discriminacin su calculo
depender de la naturaleza de las variables con las que se
correlacione el tem, es decir, las distintas frmulas de
correlacin reseadas en el ndice de discriminacin pueden
ser utilizadas para el clculo del ndice de validez. Su clculo
es idntico, si bien ahora no existe el problema adicional de
que el tem est incluido en el criterio como poda ocurrir en
el caso del ndice de discriminacin.

Informacin estadstica: anlisis de los distractores o
alternativas incorrectas de respuestas -en los tems de eleccin
mltiple-.

El anlisis de los distractores ha recibido un tratamiento
considerablemente breve en la literatura, a pesar de que el
distractor constituye una parte importante del tem o
elemento.

El anlisis de los distractores supone detectar qu alternativas
incorrectas funcionan en la direccin esperada y cules no, y
proceder subsiguientemente a su revisin, sustitucin o
supresin.
Haladyna (1994) propone tres vas para recoger informacin
acerca del funcionamiento de los distractores:
1. La tabla de frecuencias (Levine y Drasgow, 1982; Walner,
1989).
2. La curva caracterstica del distractor (Thissen, Steinberg y
Fitzpatrick, 1989).
3. ndices estadsticos (correlacin distractor-puntuacin total
en el test, media en el test de los sujetos que eligen un
distractor, _
2
).
1. La tabla de frecuencias (Levine y Drasgow, 1982; Walner,
1989). Anlisis de las alternativas incorrectas (Muiz, 1998).





Alternativas



A

B

C*

D

E



tem Superior

5

15

70

10

0

100

Inferior 15 65 20 0 0 100




20

80

90

10

0

200

2. La curva caracterstica del distractor (Thissen, Steinberg y
Fitzpatrick, 1989).
Este enfoque se lleva a cabo desde la TRI. Consiste en tratar la
alternativa incorrecta (distractor) como si fuese la opcin
correcta y analizar sus parmetros desde esta teora.
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0




P
(
u
)
u
CCI
3. ndices estadsticos (correlacin distractor-puntuacin total
en el test, media en el test de los sujetos que eligen un
distractor, _
2
).


Correlacin biserial de cada alternativa
con la puntuacin total de un test con
tems de 5 alternativas.

Alternativas

A
r
b


B
r
b


C*
r
b


D
r
b


E
r
b


tem n

-.30

-.15

.70

-.20

0


Informacin estadstica: examen del posible funcionamiento
diferencial de los tems en grupos de inters (DIF).


El Funcionamiento Diferencial del tem (FDI) es un trmino
acuado por Holland y Thayer (1988) y, de un modo muy
general, se puede caracterizar como un indicador de la
existencia en el proceso de medicin de error sistemtico
respecto a ciertos grupos de la poblacin que est siendo
evaluada (Baron, 1988).

En resumen, los principales
criterios de bondad de una prueba
y subsecuentemente de un tem son
dos: fiabilidad y validez.
Este procedimiento permite establecer la existencia
de asociacin entre dos variables cuando se
condiciona a una tercera variable.

El valor obtenido tiene un grado de libertad:
( gl = [columnas - 1] x [filas - 1])

Si el valor de Chi cuadrado calculado excede el valor
terico, se est en condiciones de poder rechazar la
hiptesis de nulidad H0 (falta de asociacin) en favor
de H1 (asociacin).
Procedimiento de Mantel-Haenszel

You might also like