Professional Documents
Culture Documents
net/publication/303687948
CITATIONS READS
0 960
1 author:
Luis Rojas
University of Costa Rica
20 PUBLICATIONS 22 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Luis Rojas on 31 May 2016.
Resumen
En este taller se presenta una introducción al software estadístico R y una ilustración de cómo este
paquete puede ser utilizado en el análisis psicométrico de Pruebas de Aula. Los análisis se basan en
la Teoría Clásica de los Test (TCT) y se aplican en ítems donde la respuesta se califica
dicotómicamente. Entre los conceptos de la TCT desarrollados en este taller se encuentran la
dificultad y la discriminación de los ítems, las diferencias entre grupos y la confiabilidad y la
validez de la Prueba, estos se presentan tanto teórica como operacionalmente.
Palabras Claves: Psicometría, Teoría Clásica de los Test, ítems, dificultad y discriminación.
Abstract
In this workshop it is presented an introduction to the statistical software R and an illustration of
how this package can be used in the Classroom Tests psychometric analysis. The analyses are based
on the Classical Theory of the Testes (TCT) and they are applied on items which the answer is
qualified dichotomously. Among the TCT concepts developed in this workshop they are include the
difficulty and discrimination of items, the differences between groups and the reliability and the
validity of the Test, these arise both theoretical and operationally.
Key Words: Psychometrics, Classical Theory of Test, items, difficulty and discrimination.
Introducción
Por ejemplo, en una prueba se quiere medir si un estudiante sabe factorizar, y se le asigna el
siguiente ejercicio:
El acierto de esta pregunta depende ampliamente del conocimiento de la divisibilidad por 11,
entonces, más que medir factorización, se está midiendo divisibilidad, por lo cual será poco válido
decir que el estudiante que falló esta pregunta no sabe factorizar.
Luego, si un grupo de estudiantes resuelven ciertos ítem correctamente una vez, pero luego se
vuelven a enfrentar a ellos y lo yerran, o viceversa, esto indica que el test es poco confiable, ya que
las personas no son consistentes en sus respuestas. Esto puede indicar que hay un efecto del azar o
que el conocimiento no está interiorizado.
Para medir la confiabilidad del test existen varios indicadores que se pueden observar directamente
de las respuestas de los examinados, sin embargo para determinar la validez se necesitan criterios
externos asociados a los resultados obtenidos.Con respecto a la validez de la prueba se debe
considerar al menos que a) la varianza de laprueba se deba únicamente a variaciones en los niveles
del constructo medido, b) que las variaciones de las puntuaciones del test no sean provocadas por
factores ajenos al constructo y c) quese midan todas las dimensiones del constructo (Messick,
1989).
El estadístico más utilizado para evaluar la confiabilidad del test es el alfa de Cronbach, mientras
que para evaluar la validez, el más utilizado es la correlación con un criterio externo. El alfa de
Cronbach refleja el grado en que covarían los ítems del test, la cual se desea que sea alta (mayor a
.7), debido a que si la covariación es poca, se sospecharía que miden constructos distintos. La
fórmula de este índice es
,
1
Además de evaluar el test en general, se deben analizar cada uno de los ítems incorporados en la
prueba, ya que algunos pueden estar dando información irrelevante o contraproducente a lo que se
desea medir. Entre los detalles a considerar están:
• Dificultad: Si un ítem es muy fácil o muy difícil, no tiene sentido incorporarlo en el test;
por otro lado, si una vez aplicado se observa altos niveles de dificultad puede ser señal de
que el ítem estaba confuso o que algún conocimiento previo necesario para resolverlo, no
era poseído por la población.
• Discriminación: Un ítem debe diferenciar entre los estudiantes que poseen el conocimiento
y los que no lo poseen (en el caso de que el constructo sea el conocimiento), de no ser así,
el ítem no está cumpliendo su función.
• Equidad: Si la proporción de acierto de un ítem en cierto grupo de la población es
significativamente mayor que en otro grupo, esto puede indicar que el ítem posee un
contexto que favorece a cierto grupo. Es común ver que ítems en contextos deportivos
tienen mayores porcentajes de acierto entre los hombres que entre las mujeres.
Entre los estadísticos más comunes de ítems están la dificultad del ítem, la desviación estándar del
ítem, la correlación ítem-total, la discriminación entre tercios, valor p asociado a la prueba t de
diferencia de medias entre grupos, el índice de confiabilidad del ítem, correlación con un criterio
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
externo y el índice de validez del ítem. El primero, obviamente, está asociado a dificultad, los
siguientes tres a discriminación, el siguiente a equidad y los últimos tres a confiabilidad y validez.
El detalle de estos en ítems dicotómicos (donde el acierto se recodifica con 1 y el error con 0) se
describe a continuación.
Es la proporción de aciertos obtenida en el ítem. Entre mayor sea la proporción más fácil es el ítem,
el rango de valores posibles es de 0 a 1.
Esta medida es un indicador de la discriminación del ítem, ya que proporciona una medida de la
variación de los aciertos entre los sujetos. Si se divide la desviación estándar del ítem por el
máximo posible de esta (en el caso de ítems dicotómicos es 0.5) y se multiplica por 100, se obtiene
el porcentaje de variación máxima posible que alcanza el ítem(Fernández y Orgaz, 2013).
=proporción de aciertos
=proporción de errores
=Media en la puntuación total del test de los sujetos que acertaron el ítem.
=Media en la puntuación total del test de todos los examinados.
=desviación estándar de la puntuación total del test en todos los examinados.
,
/3
Generalmente, entre cualesquiera dos grupos se observan diferencias entre los promedios obtenidos
en cierta prueba, pero esas diferencias pueden ser insignificantes. Para medir la significancia (que
realmente existan) de una diferencia de promedios entre dos grupos, se debe observar el valor p de
la prueba t de diferencia de medias, la cual indica significancia si su valor es menor a 0.05.
Este indicador combina dos índices de discriminación, la desviación estándar del ítem y la
correlación ítem-total. Su función es medir la contribución del ítem a la medida final del Test. Para
interpretarlos se dividen por la varianza máxima y se multiplican por 100 (Sánchez, 2013;
Fernández y Orgaz, 2013).
Como su nombre lo indica es la correlación del ítem con una variable conocida, la cual según la
teoría debe correlacionar con el ítem. Por ejemplo, los ítems de un examen de matemática deben
correlacionar altamente con un examen de matemática donde se evaluó un tema similar al del test
en cuestión.
Este indicador es similar al índice de fiabilidad del ítem, con la variación de la correlación con un
criterio externo en vez de la correlación ítem-total. Al igual que el se debe dividir por la
varianza máxima y multiplicarse por 100 (Sánchez, 2013; Fernández y Orgaz, 2013). Indica la
contribución del ítem en la asociación del test con el criterio externo.
En las siguientes líneas se mostrará cómo se calculan estos estadísticos mediante el uso del software
R, el cual es un software estadístico gratuito que ha tenido un gran auge en varias disciplinas y que
puede ser descargado desde la dirección http://cran.r-project.org/bin/windows/base/.
Primeramente se debe indicar donde se ubica el archivo de datos con el que se va a trabajar, para
esto se debe ir al menú File->Changedir… y seleccionar la carpeta buscada.
Para cargar la base de datos se debe conocer la extensión de este archivo, la cual puede ser .sav,
.csv, .dat, .xls, entre otros. En este documento se trabajará con archivos .csv (delimitado por comas)
debido a que la mayoría de software utilizados para elaborar hojas de datos presentan la opción para
crear archivos de este tipo.
La palabra BASE es el nombre del objeto de R donde queda guardada la base de datos y el
comando read.csv es la función que permite leer el archivo .csv. Todas las funciones de R siguen la
sintaxis: nombre de la función, paréntesis inicial, argumento, coma, opción 1, coma, opción 2,
coma,…, paréntesis final; esto es función(argumento, opción1, opción2,.., opción
n).
La función attachpermite hacer uso de las variables de una base de datos guardada en cierto
objeto,sin tener que estar indicando a que base pertenecen.
attach(BASE)
names(BASE)
[1] "SEXO" "CURSO" "ITEM1" "ITEM2"
[5] "ITEM3" "ITEM4" "ITEM5" "ITEM6"
[9] "ITEM7" "ITEM8" "ITEM9" "ITEM10"
[13] "ITEM11" "ITEM12" "ITEM13" "ITEM14"
[17] "ITEM15" "ITEM16" "ITEM17" "ITEM18"
[21] "ITEM19" "ITEM20" "ITEM21" "ITEM22"
[25] "ITEM23" "ITEM24" "ITEM25" "ITEM26"
[29] "ITEM27" "ITEM28" "ITEM29" "ITEM30"
[33] "ITEM31" "ITEM32" "ITEM33" "ITEM34"
[37] "ITEM35" "ITEM36" "ITEM37" "ITEM38"
[41] "ITEM39" "ITEM40" "TOTAL"
#Esta función muestra los nombres de las variables de la base.
mean(ITEM3)
0.4518
#La función mean() da la media de una variable.
#mean(ITEM3) es posible debido a que previamente se corrió el comando
attach(BASE).
Para conocer las estadísticas de los ítems basadas en la TCT, se debe crear una sub base de datos
que contenga únicamente a los ítems que van a ser evaluados, para esto se utiliza la función
data.frame(), cuyo argumento son las columnas con los ítems a evaluar.
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
La entrada (n,m) de una base de datos B puede ser observada mediante el comando B[n,m], la
columna m con B[,m] y las columnas m, m+1, m+2,…, m+k con B[,m:m+k]. Ahora, como los
ítems a examinar corresponden a las columnas 3 a la 42, estos se pueden llamar con el comando
BASE[,3:42].
ITEMS=data.frame(BASE[,3:42])
Los comandos necesarios para realizar el análisis TCT no vienen incorporados directamente en R,
sino en una librería (un complemento para el software) denominada psychometric que se instala de
la siguiente manera:
• Seleccionar espejo CRAN: Packages->Set cran mirror… (Se puede seleccionar cualquiera).
• Descargar librería: Packages->Installpackage(s)…
• Cargar librería: library(psychometric).
alpha(ITEMS)
0.8379809
Dado que el valor de este es mayor a .8 se puede decir que los ítems presentan un grado aceptable
de confiabilidad.
Para evaluar la validez del test se estima la correlación entre la puntuación total de la prueba con la
variable “tomar clases privadas de matemática” (CURSO), suponiendo que a los estudiantes de que
los llevan (2) les va mejor que los que no los llevan (1). La correlación da un valor positivo (a
mayores valores de la variable, valores más altos de la otra variable), por tanto refleja la asociación
supuesta. En caso de utilizar variables continuas como criterio externo se esperarían correlaciones
superiores a .5.
Ahora, se estiman las estadísticas de los ítems por medio de la función item.exam(), la cual
presenta dos opciones importantes: utilización de un criterio externo (y =) y cálculo de la
discriminación (discrim=T).
Discrimination Item.CriterionItem.Reliab
ITEM1 0.367 0.0578 0.153
ITEM2 0.532 0.1319 0.238
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
ITEM3 0.063 -0.0066 0.057
ITEM4 0.405 0.0697 0.196
ITEM5 0.405 0.1371 0.195
Item.Rel.woiItem.Validity
ITEM1 0.128 0.0255
ITEM2 0.209 0.0658
ITEM3 0.023 -0.0033
ITEM4 0.166 0.0345
ITEM5 0.166 0.0665
La columna Sample.SD indica la desviación estándar del ítem; Item.total muestra la correlación
ítem-total; Item.Tot.woi, la correlación del ítem con el total de la prueba excluyendo al ítem en
cuestión; Difficulty, la dificultad en TCT; Discrimination, la discriminación entre tercios;
Item.Criterion, la correlación del ítem con el criterio externo; Item.Reliab, la confiabilidad del ítem;
Item.Rel.woi, la confiabilidad del ítem, excluyendo al ítem en el total del Test utilizado en la
fórmula; y finalmente, Item.Validity, la validez del ítem.
Los primeros cinco ítems presentan dificultades medias, siendo el primer ítem el más difícil, ya que
solo el 26% de los examinados lo acertó.
En cuanto a la discriminación se obtiene que los cinco ítems prácticamente alcanzan la varianza
máxima, lo cual indica que tienen una variabilidad de respuestas adecuada. Luego, únicamente el
ítem 3 presenta una la correlación ítem-total menor a .20, tanto incluyéndolo en el total, como no
incorporándolo, por lo cual este no presenta medidas de discriminación aceptables, de hecho es
menor al otro tope posible (1.96* =.13). En cuanto a la discriminación por tercios, el ítem 3 es
el único que presenta una diferencia pequeña entre las proporciones de aciertos del grupo alto con el
bajo. Se concluye que el ítem 3 no discrimina entre los estudiantes buenos y los malos.
Finalmente, los índices de fiabilidad y validez muestran que el ítem 3 es el que menos colabora en
las puntuaciones obtenidas por el test (11.4%) y en la asociación con el criterio externo (-.6%); en
cambio el ítem 2, contribuye en un 47.6% en la explicación de la puntuación del test y en un 13.2%
en la asociación con el criterio externo.
Para tener una medición de la equidad de un ítem se estima la prueba t de diferencias de medias
entre grupos. La función asociada a esta prueba es t.test(), cuyo argumento es la variable a
evaluar, seguido por una virgulilla y luego la variable que define los grupos, esto esy~x.La salida de
la función brinda varios valores, entre ellos el valor p y las medias en cada uno de los grupos.
Para ilustrar el uso del t.test()se estima la diferencia de medias del ítem 1 ente sexos, se observa
que la media de los hombres (grupo 2) es mayor que la de las mujeres (grupo 1), pero esta no es
significativa, dado que el valor p (p-value) es mayor a 0.05.
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
t.test(ITEM1~SEXO)
Luego de hacer análisis con todos los ítems se concluye que los ítems más problemáticos son los
ítem 3 y 33, debido a esto se recalcula el índice alfa de Cronbach sin estos ítems, para verificar si su
eliminación contribuye a aumentar la confiabilidad de la Prueba y efectivamente el alfa de
Cronbach aumenta si se eliminan los dos ítems problemáticos.
Conclusiones
Los ítems de un test nunca deberían ser utilizados para medir un determinado constructo, si estos no
han sido previamente evaluados. Muchas veces se hacen inferencias sobre los examinados
totalmente equivocadas debido al uso de ítems inapropiados.
Lo ideal sería reservar una sección de cada prueba para nuevos ítems, los cuales no serán tomados
en cuenta para la calificación, sino que solo serán utilizados para conocer sus estadísticas; los ítems
tomados en cuenta para la calificación serían únicamente ítems anteriormente aplicados para los
cuales ya se conocen sus estadísticas.
Se motiva a los docentes a crear un banco de ítems psicométricamente aceptables, basados en las
indicadores mencionados en este taller y en las hojas de datos de cursos anteriores, ya que esto les
permitirá asegurar que la evaluación que están realizando es adecuada. Un buen criterio externo
para estudiar la validez, son las pruebas de bachillerato u otros exámenes de matemática.
Finalmente, se hace hincapié en que antes de elaborar un examen se debe tener claro que es lo que
se desea medir, ya que esto guiará la construcción del test. Uno de los supuestos básicos del análisis
de ítems es la unidimensionalidad, lo cual quiere decir que todos los ítems miden el mismo
constructo, por tanto, no conviene pretender dos objetivos sumamente distintos en una sola prueba;
mejor es crear varias secciones dentro del test, donde cada una tiene un constructo claro a medir,
esto implica que cada subsección se analiza estadísticamente aparte de las otras.
Referencias
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
Fernández, R. y Orgaz, M.B. (2013). Notas de Métodos, diseños y técnicas de investigación
psicológicos. Recuperado de http://ocw.usal.es/eduCommons/ciencias-sociales-1/metodos-
disenos-y-tecnicas-de-investigacion-psicologicos/contenidos/TEMA%2010.pdf el 4 de
setiembre de 2013.
Messick, S. (1989). Meaning and values in test validation: The science and ethics of assesment.
EducationalResearcher, 18 (2), 5-11.