You are on page 1of 10

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/303687948

Análisis psicométrico básico en R

Conference Paper · November 2014

CITATIONS READS

0 960

1 author:

Luis Rojas
University of Costa Rica
20 PUBLICATIONS   22 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Programa Permanente Prueba de Aptitud Académica View project

All content following this page was uploaded by Luis Rojas on 31 May 2016.

The user has requested enhancement of the downloaded file.


III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
 

Análisis psicométrico básico en R


Luis Rojas Torres1 

Resumen

En este taller se presenta una introducción al software estadístico R y una ilustración de cómo este
paquete puede ser utilizado en el análisis psicométrico de Pruebas de Aula. Los análisis se basan en
la Teoría Clásica de los Test (TCT) y se aplican en ítems donde la respuesta se califica
dicotómicamente. Entre los conceptos de la TCT desarrollados en este taller se encuentran la
dificultad y la discriminación de los ítems, las diferencias entre grupos y la confiabilidad y la
validez de la Prueba, estos se presentan tanto teórica como operacionalmente.

Palabras Claves: Psicometría, Teoría Clásica de los Test, ítems, dificultad y discriminación.

Abstract
In this workshop it is presented an introduction to the statistical software R and an illustration of
how this package can be used in the Classroom Tests psychometric analysis. The analyses are based
on the Classical Theory of the Testes (TCT) and they are applied on items which the answer is
qualified dichotomously. Among the TCT concepts developed in this workshop they are include the
difficulty and discrimination of items, the differences between groups and the reliability and the
validity of the Test, these arise both theoretical and operationally.

Key Words: Psychometrics, Classical Theory of Test, items, difficulty and discrimination.

Introducción

Entre las consideraciones más importantes en la elaboración de Test es un conocimiento mínimo de


psicometría, la cual es una rama del conocimiento poco conocida dentro del grupo más numeroso de
desarrolladores de Test: los profesores.

La psicometría es “el conjunto de métodos, técnicas y teorías implicadas en la medición de


variables psicológicas” (Muñiz, 1992, p.17), entre estas variables se puede mencionar la ansiedad,
la discriminación, la habilidad y el conocimiento. La medición de estos constructos muchas veces se
realiza con test o exámenes no acordes al objetivo, pero sus resultados aun así se interpretan como
certeros.

Dentro de la psicometría hay dos conceptos fundamentales: la validez y la confiabilidad. El primero


hace referencia “al grado de propiedad de las inferencias e interpretaciones derivadas de los
puntajes de los tests, incluyendo las consecuencias sociales que se derivan de la aplicación del
instrumento” (Montero, en prensa, p.8) y el segundo, se asocia al hecho de que la prueba, aplicada
repetidamente al mismo sujeto, arroje cada vez los mismos resultados (Babbie,2000).

Por ejemplo, en una prueba se quiere medir si un estudiante sabe factorizar, y se le asigna el
siguiente ejercicio:

Factorice110 143 154


                                                            
1
 Universidad de Costa Rica, luisrojasxtorres@gmail.com
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
 

El acierto de esta pregunta depende ampliamente del conocimiento de la divisibilidad por 11,
entonces, más que medir factorización, se está midiendo divisibilidad, por lo cual será poco válido
decir que el estudiante que falló esta pregunta no sabe factorizar.

Luego, si un grupo de estudiantes resuelven ciertos ítem correctamente una vez, pero luego se
vuelven a enfrentar a ellos y lo yerran, o viceversa, esto indica que el test es poco confiable, ya que
las personas no son consistentes en sus respuestas. Esto puede indicar que hay un efecto del azar o
que el conocimiento no está interiorizado.

Para medir la confiabilidad del test existen varios indicadores que se pueden observar directamente
de las respuestas de los examinados, sin embargo para determinar la validez se necesitan criterios
externos asociados a los resultados obtenidos.Con respecto a la validez de la prueba se debe
considerar al menos que a) la varianza de laprueba se deba únicamente a variaciones en los niveles
del constructo medido, b) que las variaciones de las puntuaciones del test no sean provocadas por
factores ajenos al constructo y c) quese midan todas las dimensiones del constructo (Messick,
1989).

El estadístico más utilizado para evaluar la confiabilidad del test es el alfa de Cronbach, mientras
que para evaluar la validez, el más utilizado es la correlación con un criterio externo. El alfa de
Cronbach refleja el grado en que covarían los ítems del test, la cual se desea que sea alta (mayor a
.7), debido a que si la covariación es poca, se sospecharía que miden constructos distintos. La
fórmula de este índice es

,
1

=cantidad de ítems en el test


=desviación estándar de la puntuación total del test en todos los examinados.
, =covarianza entre el ítem y .

Además de evaluar el test en general, se deben analizar cada uno de los ítems incorporados en la
prueba, ya que algunos pueden estar dando información irrelevante o contraproducente a lo que se
desea medir. Entre los detalles a considerar están:

• Dificultad: Si un ítem es muy fácil o muy difícil, no tiene sentido incorporarlo en el test;
por otro lado, si una vez aplicado se observa altos niveles de dificultad puede ser señal de
que el ítem estaba confuso o que algún conocimiento previo necesario para resolverlo, no
era poseído por la población.
• Discriminación: Un ítem debe diferenciar entre los estudiantes que poseen el conocimiento
y los que no lo poseen (en el caso de que el constructo sea el conocimiento), de no ser así,
el ítem no está cumpliendo su función.
• Equidad: Si la proporción de acierto de un ítem en cierto grupo de la población es
significativamente mayor que en otro grupo, esto puede indicar que el ítem posee un
contexto que favorece a cierto grupo. Es común ver que ítems en contextos deportivos
tienen mayores porcentajes de acierto entre los hombres que entre las mujeres.

Entre los estadísticos más comunes de ítems están la dificultad del ítem, la desviación estándar del
ítem, la correlación ítem-total, la discriminación entre tercios, valor p asociado a la prueba t de
diferencia de medias entre grupos, el índice de confiabilidad del ítem, correlación con un criterio
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
 
externo y el índice de validez del ítem. El primero, obviamente, está asociado a dificultad, los
siguientes tres a discriminación, el siguiente a equidad y los últimos tres a confiabilidad y validez.
El detalle de estos en ítems dicotómicos (donde el acierto se recodifica con 1 y el error con 0) se
describe a continuación.

Dificultad del ítem

Es la proporción de aciertos obtenida en el ítem. Entre mayor sea la proporción más fácil es el ítem,
el rango de valores posibles es de 0 a 1.

Desviación estándar del ítem

Esta medida es un indicador de la discriminación del ítem, ya que proporciona una medida de la
variación de los aciertos entre los sujetos. Si se divide la desviación estándar del ítem por el
máximo posible de esta (en el caso de ítems dicotómicos es 0.5) y se multiplica por 100, se obtiene
el porcentaje de variación máxima posible que alcanza el ítem(Fernández y Orgaz, 2013).

=proporción de aciertos
=proporción de errores

Correlación ítem-total (biserial-puntual)

Es el coeficiente de correlación de Pearson entre el ítem y el total del Test, se acostumbra a


descontar del total del test el ítem a analizar, dado que esto influencia la correlación, ya que se
correlaciona una variable con otra de la cual forma parte. Si el ítem presenta una correlación
aceptable con el Test (mayor a 1.96 , donde es la cantidad de examinados; generalmente
se utiliza el valor de .20 en vez de calcular esta fórmula), indica que ayuda a discriminar entre
sujetos con puntuaciones bajas y altas del mismo (Muñiz, 1992).

=Media en la puntuación total del test de los sujetos que acertaron el ítem.
=Media en la puntuación total del test de todos los examinados.
=desviación estándar de la puntuación total del test en todos los examinados.

Discriminación entre tercios

Es la diferencia en la proporción de aciertos de un ítem, entre el grupo compuesto con los


examinados con las mejores notas en el Test y los examinados con las notas más bajas. Cada grupo
está compuesto por una tercera parte de la población (Fletcher, 2013).

,
/3

=Proporción de aciertos del ítem del grupo superior.


III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
 
=Proporción de aciertos del ítem del grupo inferior.

Valor p asociado a la prueba t de diferencia de medias entre grupos

Generalmente, entre cualesquiera dos grupos se observan diferencias entre los promedios obtenidos
en cierta prueba, pero esas diferencias pueden ser insignificantes. Para medir la significancia (que
realmente existan) de una diferencia de promedios entre dos grupos, se debe observar el valor p de
la prueba t de diferencia de medias, la cual indica significancia si su valor es menor a 0.05.

Índice de confiabilidad del ítem

Este indicador combina dos índices de discriminación, la desviación estándar del ítem y la
correlación ítem-total. Su función es medir la contribución del ítem a la medida final del Test. Para
interpretarlos se dividen por la varianza máxima y se multiplican por 100 (Sánchez, 2013;
Fernández y Orgaz, 2013).

Correlación con un criterio externo ( )

Como su nombre lo indica es la correlación del ítem con una variable conocida, la cual según la
teoría debe correlacionar con el ítem. Por ejemplo, los ítems de un examen de matemática deben
correlacionar altamente con un examen de matemática donde se evaluó un tema similar al del test
en cuestión.

Índice de validez del ítem

Este indicador es similar al índice de fiabilidad del ítem, con la variación de la correlación con un
criterio externo en vez de la correlación ítem-total. Al igual que el se debe dividir por la
varianza máxima y multiplicarse por 100 (Sánchez, 2013; Fernández y Orgaz, 2013). Indica la
contribución del ítem en la asociación del test con el criterio externo.

En las siguientes líneas se mostrará cómo se calculan estos estadísticos mediante el uso del software
R, el cual es un software estadístico gratuito que ha tenido un gran auge en varias disciplinas y que
puede ser descargado desde la dirección http://cran.r-project.org/bin/windows/base/.

Introducción al uso del paquete

Primeramente se debe indicar donde se ubica el archivo de datos con el que se va a trabajar, para
esto se debe ir al menú File->Changedir… y seleccionar la carpeta buscada.

Para cargar la base de datos se debe conocer la extensión de este archivo, la cual puede ser .sav,
.csv, .dat, .xls, entre otros. En este documento se trabajará con archivos .csv (delimitado por comas)
debido a que la mayoría de software utilizados para elaborar hojas de datos presentan la opción para
crear archivos de este tipo.

El comando para cargar un archivo .csv es el siguiente


III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
 

BASE=read.csv("MATE.csv", header=T, sep=";",dec=",")


#El signo numeral permite introducir comentarios que R no lee como
funciones.
#La base de ejemplo es una base asociada a un examen de matemática de 40
ítems aplicados a 200 estudiantes.

La palabra BASE es el nombre del objeto de R donde queda guardada la base de datos y el
comando read.csv es la función que permite leer el archivo .csv. Todas las funciones de R siguen la
sintaxis: nombre de la función, paréntesis inicial, argumento, coma, opción 1, coma, opción 2,
coma,…, paréntesis final; esto es función(argumento, opción1, opción2,.., opción
n).

El argumento de la funciónread.csves el nombre de la base que se va a cargar, la cual debe ir entre


comillas.Entre las opciones más útiles de esta función están: poder indicar si la primer fila de la
hoja de datos corresponde a los nombres de las columnas (header=T), si la separación de los datos
en el archivo .csv fue hecha por punto y coma (sep=";") o si la separación decimal en el archivo
.csv es representada con una coma (dec=","). Para conocer más opciones de la función
read.csv()se puede utilizar el comando ?read.csv (un signo de pregunta antes de una función
de R abre una dirección electrónica con información sobre el comando).

La función attachpermite hacer uso de las variables de una base de datos guardada en cierto
objeto,sin tener que estar indicando a que base pertenecen.

attach(BASE)
names(BASE)
[1] "SEXO" "CURSO" "ITEM1" "ITEM2"
[5] "ITEM3" "ITEM4" "ITEM5" "ITEM6"
[9] "ITEM7" "ITEM8" "ITEM9" "ITEM10"
[13] "ITEM11" "ITEM12" "ITEM13" "ITEM14"
[17] "ITEM15" "ITEM16" "ITEM17" "ITEM18"
[21] "ITEM19" "ITEM20" "ITEM21" "ITEM22"
[25] "ITEM23" "ITEM24" "ITEM25" "ITEM26"
[29] "ITEM27" "ITEM28" "ITEM29" "ITEM30"
[33] "ITEM31" "ITEM32" "ITEM33" "ITEM34"
[37] "ITEM35" "ITEM36" "ITEM37" "ITEM38"
[41] "ITEM39" "ITEM40" "TOTAL"
#Esta función muestra los nombres de las variables de la base.
mean(ITEM3)
0.4518
#La función mean() da la media de una variable.
#mean(ITEM3) es posible debido a que previamente se corrió el comando
attach(BASE).

Análisis de los ítems

Para conocer las estadísticas de los ítems basadas en la TCT, se debe crear una sub base de datos
que contenga únicamente a los ítems que van a ser evaluados, para esto se utiliza la función
data.frame(), cuyo argumento son las columnas con los ítems a evaluar.
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
 
La entrada (n,m) de una base de datos B puede ser observada mediante el comando B[n,m], la
columna m con B[,m] y las columnas m, m+1, m+2,…, m+k con B[,m:m+k]. Ahora, como los
ítems a examinar corresponden a las columnas 3 a la 42, estos se pueden llamar con el comando
BASE[,3:42].

ITEMS=data.frame(BASE[,3:42])

Los comandos necesarios para realizar el análisis TCT no vienen incorporados directamente en R,
sino en una librería (un complemento para el software) denominada psychometric que se instala de
la siguiente manera:
• Seleccionar espejo CRAN: Packages->Set cran mirror… (Se puede seleccionar cualquiera).
• Descargar librería: Packages->Installpackage(s)…
• Cargar librería: library(psychometric).

Ya con la librería instalada se proceden a los análisis. Primeramente se calcula el coeficiente de


confiabilidad alfa de Cronbach.

alpha(ITEMS)
0.8379809

Dado que el valor de este es mayor a .8 se puede decir que los ítems presentan un grado aceptable
de confiabilidad.

Para evaluar la validez del test se estima la correlación entre la puntuación total de la prueba con la
variable “tomar clases privadas de matemática” (CURSO), suponiendo que a los estudiantes de que
los llevan (2) les va mejor que los que no los llevan (1). La correlación da un valor positivo (a
mayores valores de la variable, valores más altos de la otra variable), por tanto refleja la asociación
supuesta. En caso de utilizar variables continuas como criterio externo se esperarían correlaciones
superiores a .5.

cor(TOTAL, CURSO, use="complete.obs")


0.2219823
#use="complete.obs", le indica a la función que no use los valores
pérdidos.

Ahora, se estiman las estadísticas de los ítems por medio de la función item.exam(), la cual
presenta dos opciones importantes: utilización de un criterio externo (y =) y cálculo de la
discriminación (discrim=T).

item.exam(ITEMS, y = CURSO, discrim=T)

Sample.SD Item.totalItem.Tot.woi Difficulty


ITEM1 0.44 0.35 0.292 0.26
ITEM2 0.50 0.48 0.418 0.47
ITEM3 0.50 0.12 0.045 0.45
ITEM4 0.50 0.40 0.335 0.43
ITEM5 0.49 0.40 0.343 0.38

Discrimination Item.CriterionItem.Reliab
ITEM1 0.367 0.0578 0.153
ITEM2 0.532 0.1319 0.238
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
 
ITEM3 0.063 -0.0066 0.057
ITEM4 0.405 0.0697 0.196
ITEM5 0.405 0.1371 0.195

Item.Rel.woiItem.Validity
ITEM1 0.128 0.0255
ITEM2 0.209 0.0658
ITEM3 0.023 -0.0033
ITEM4 0.166 0.0345
ITEM5 0.166 0.0665

#Solo se presentan las estadísticas de los primeros 5 ítems

La columna Sample.SD indica la desviación estándar del ítem; Item.total muestra la correlación
ítem-total; Item.Tot.woi, la correlación del ítem con el total de la prueba excluyendo al ítem en
cuestión; Difficulty, la dificultad en TCT; Discrimination, la discriminación entre tercios;
Item.Criterion, la correlación del ítem con el criterio externo; Item.Reliab, la confiabilidad del ítem;
Item.Rel.woi, la confiabilidad del ítem, excluyendo al ítem en el total del Test utilizado en la
fórmula; y finalmente, Item.Validity, la validez del ítem.

Los primeros cinco ítems presentan dificultades medias, siendo el primer ítem el más difícil, ya que
solo el 26% de los examinados lo acertó.

En cuanto a la discriminación se obtiene que los cinco ítems prácticamente alcanzan la varianza
máxima, lo cual indica que tienen una variabilidad de respuestas adecuada. Luego, únicamente el
ítem 3 presenta una la correlación ítem-total menor a .20, tanto incluyéndolo en el total, como no
incorporándolo, por lo cual este no presenta medidas de discriminación aceptables, de hecho es
menor al otro tope posible (1.96* =.13). En cuanto a la discriminación por tercios, el ítem 3 es
el único que presenta una diferencia pequeña entre las proporciones de aciertos del grupo alto con el
bajo. Se concluye que el ítem 3 no discrimina entre los estudiantes buenos y los malos.

En cuanto a la correlación con el criterio externo, “tomar clases privadas de matemática”, se


observa que el ítem 3 es el único que va en la dirección opuesta a la relación supuesta, por tanto, se
tiene que su uso no es válido.

Finalmente, los índices de fiabilidad y validez muestran que el ítem 3 es el que menos colabora en
las puntuaciones obtenidas por el test (11.4%) y en la asociación con el criterio externo (-.6%); en
cambio el ítem 2, contribuye en un 47.6% en la explicación de la puntuación del test y en un 13.2%
en la asociación con el criterio externo.

Para tener una medición de la equidad de un ítem se estima la prueba t de diferencias de medias
entre grupos. La función asociada a esta prueba es t.test(), cuyo argumento es la variable a
evaluar, seguido por una virgulilla y luego la variable que define los grupos, esto esy~x.La salida de
la función brinda varios valores, entre ellos el valor p y las medias en cada uno de los grupos.

Para ilustrar el uso del t.test()se estima la diferencia de medias del ítem 1 ente sexos, se observa
que la media de los hombres (grupo 2) es mayor que la de las mujeres (grupo 1), pero esta no es
significativa, dado que el valor p (p-value) es mayor a 0.05.
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
 

t.test(ITEM1~SEXO)

Welch Two Sample t-test

data: ITEM1 by SEXO


t = -1.9536, df = 232.087, p-value = 0.05195
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.2229341641 0.0009453686
sample estimates:
mean in group 1 mean in group 2
0.2083333 0.3193277

Luego de hacer análisis con todos los ítems se concluye que los ítems más problemáticos son los
ítem 3 y 33, debido a esto se recalcula el índice alfa de Cronbach sin estos ítems, para verificar si su
eliminación contribuye a aumentar la confiabilidad de la Prueba y efectivamente el alfa de
Cronbach aumenta si se eliminan los dos ítems problemáticos.

ITEMS2=data.frame(ITEMS[,1:2], ITEMS[,3:32], ITEMS[,34:40])


alpha(ITEMS)
0.8379809
alpha(ITEMS2)
0.8414799

Conclusiones

Los ítems de un test nunca deberían ser utilizados para medir un determinado constructo, si estos no
han sido previamente evaluados. Muchas veces se hacen inferencias sobre los examinados
totalmente equivocadas debido al uso de ítems inapropiados.

Lo ideal sería reservar una sección de cada prueba para nuevos ítems, los cuales no serán tomados
en cuenta para la calificación, sino que solo serán utilizados para conocer sus estadísticas; los ítems
tomados en cuenta para la calificación serían únicamente ítems anteriormente aplicados para los
cuales ya se conocen sus estadísticas.

Se motiva a los docentes a crear un banco de ítems psicométricamente aceptables, basados en las
indicadores mencionados en este taller y en las hojas de datos de cursos anteriores, ya que esto les
permitirá asegurar que la evaluación que están realizando es adecuada. Un buen criterio externo
para estudiar la validez, son las pruebas de bachillerato u otros exámenes de matemática.

Finalmente, se hace hincapié en que antes de elaborar un examen se debe tener claro que es lo que
se desea medir, ya que esto guiará la construcción del test. Uno de los supuestos básicos del análisis
de ítems es la unidimensionalidad, lo cual quiere decir que todos los ítems miden el mismo
constructo, por tanto, no conviene pretender dos objetivos sumamente distintos en una sola prueba;
mejor es crear varias secciones dentro del test, donde cada una tiene un constructo claro a medir,
esto implica que cada subsección se analiza estadísticamente aparte de las otras.

Referencias
III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos
 
Fernández, R. y Orgaz, M.B. (2013). Notas de Métodos, diseños y técnicas de investigación
psicológicos. Recuperado de http://ocw.usal.es/eduCommons/ciencias-sociales-1/metodos-
disenos-y-tecnicas-de-investigacion-psicologicos/contenidos/TEMA%2010.pdf el 4 de
setiembre de 2013.

Fletcher, T. (2013).Package “psychometric”. Recuperado de http://cran.r-


project.org/web/packages/psychometric/psychometric.pdf el 4 de setiembre de 2013.

Babbie, E. (2000). Fundamentos de Investigación Social. México: Internacional Thompson


Editores.

Messick, S. (1989). Meaning and values in test validation: The science and ethics of assesment.
EducationalResearcher, 18 (2), 5-11.

Montero, E. (en prensa). Referentes conceptuales y metodológicos sobre la noción moderna de


validez de instrumentos de medición. Actualidades en Psicología.

Muñis, J. (1992). Teoría Clásica de los tests. España: Pirámide.

Sánchez, E. (2013). Estandarización y baremación del test. Recuperado de


http://personal.us.es/sangar/PSICOM52.pdf el 4 de setiembre de 2013.

View publication stats

You might also like