Análisis Psicométrico Básico en R: November 2014

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/303687948
Análisis psicométrico básico en R
Conference Paper · November 2014
CITATIONS READS
0 960
1 author:
Luis Rojas
University of Costa Rica
20 PUBLICATIONS 22 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Programa Permanente Prueba de Aptitud Académica View project
All content following this page was uploaded by Luis Rojas on 31 May 2016.
The user has requested enhancement of the downloaded file.

III Encuentro sobre Didáctica de la Estadística, la Probabilidad y el Análisis de Datos

Análisis psicométrico básico en R

Luis Rojas Torres1
Resumen
En este taller se presenta una introducción al software estadístico R y una ilustración de cómo este
paquete puede ser utilizado en el análisis psicométrico de Pruebas de Aula. Los análisis se basan en
la Teoría Clásica de los Test (TCT) y se aplican en ítems donde la respuesta se califica
dicotómicamente. Entre los conceptos de la TCT desarrollados en este taller se encuentran la
dificultad y la discriminación de los ítems, las diferencias entre grupos y la confiabilidad y la
validez de la Prueba, estos se presentan tanto teórica como operacionalmente.
Palabras Claves: Psicometría, Teoría Clásica de los Test, ítems, dificultad y discriminación.
Abstract
In this workshop it is presented an introduction to the statistical software R and an illustration of
how this package can be used in the Classroom Tests psychometric analysis. The analyses are based
on the Classical Theory of the Testes (TCT) and they are applied on items which the answer is
qualified dichotomously. Among the TCT concepts developed in this workshop they are include the
difficulty and discrimination of items, the differences between groups and the reliability and the
validity of the Test, these arise both theoretical and operationally.
Key Words: Psychometrics, Classical Theory of Test, items, difficulty and discrimination.
Introducción
Entre las consideraciones más importantes en la elaboración de Test es un conocimiento mínimo de

psicometría, la cual es una rama del conocimiento poco conocida dentro del grupo más numeroso de
desarrolladores de Test: los profesores.
La psicometría es “el conjunto de métodos, técnicas y teorías implicadas en la medición de

variables psicológicas” (Muñiz, 1992, p.17), entre estas variables se puede mencionar la ansiedad,
la discriminación, la habilidad y el conocimiento. La medición de estos constructos muchas veces se
realiza con test o exámenes no acordes al objetivo, pero sus resultados aun así se interpretan como
certeros.
Dentro de la psicometría hay dos conceptos fundamentales: la validez y la confiabilidad. El primero

hace referencia “al grado de propiedad de las inferencias e interpretaciones derivadas de los
puntajes de los tests, incluyendo las consecuencias sociales que se derivan de la aplicación del
instrumento” (Montero, en prensa, p.8) y el segundo, se asocia al hecho de que la prueba, aplicada
repetidamente al mismo sujeto, arroje cada vez los mismos resultados (Babbie,2000).
Por ejemplo, en una prueba se quiere medir si un estudiante sabe factorizar, y se le asigna el
siguiente ejercicio:
Factorice110 143 154

1
Universidad de Costa Rica, luisrojasxtorres@gmail.com

El acierto de esta pregunta depende ampliamente del conocimiento de la divisibilidad por 11,
entonces, más que medir factorización, se está midiendo divisibilidad, por lo cual será poco válido
decir que el estudiante que falló esta pregunta no sabe factorizar.
Luego, si un grupo de estudiantes resuelven ciertos ítem correctamente una vez, pero luego se
vuelven a enfrentar a ellos y lo yerran, o viceversa, esto indica que el test es poco confiable, ya que
las personas no son consistentes en sus respuestas. Esto puede indicar que hay un efecto del azar o
que el conocimiento no está interiorizado.
Para medir la confiabilidad del test existen varios indicadores que se pueden observar directamente
de las respuestas de los examinados, sin embargo para determinar la validez se necesitan criterios
externos asociados a los resultados obtenidos.Con respecto a la validez de la prueba se debe
considerar al menos que a) la varianza de laprueba se deba únicamente a variaciones en los niveles
del constructo medido, b) que las variaciones de las puntuaciones del test no sean provocadas por
factores ajenos al constructo y c) quese midan todas las dimensiones del constructo (Messick,
1989).
El estadístico más utilizado para evaluar la confiabilidad del test es el alfa de Cronbach, mientras
que para evaluar la validez, el más utilizado es la correlación con un criterio externo. El alfa de
Cronbach refleja el grado en que covarían los ítems del test, la cual se desea que sea alta (mayor a
.7), debido a que si la covariación es poca, se sospecharía que miden constructos distintos. La
fórmula de este índice es
,
1
=cantidad de ítems en el test

=desviación estándar de la puntuación total del test en todos los examinados.
, =covarianza entre el ítem y .
Además de evaluar el test en general, se deben analizar cada uno de los ítems incorporados en la
prueba, ya que algunos pueden estar dando información irrelevante o contraproducente a lo que se
desea medir. Entre los detalles a considerar están:
• Dificultad: Si un ítem es muy fácil o muy difícil, no tiene sentido incorporarlo en el test;
por otro lado, si una vez aplicado se observa altos niveles de dificultad puede ser señal de
que el ítem estaba confuso o que algún conocimiento previo necesario para resolverlo, no
era poseído por la población.
• Discriminación: Un ítem debe diferenciar entre los estudiantes que poseen el conocimiento
y los que no lo poseen (en el caso de que el constructo sea el conocimiento), de no ser así,
el ítem no está cumpliendo su función.
• Equidad: Si la proporción de acierto de un ítem en cierto grupo de la población es
significativamente mayor que en otro grupo, esto puede indicar que el ítem posee un
contexto que favorece a cierto grupo. Es común ver que ítems en contextos deportivos
tienen mayores porcentajes de acierto entre los hombres que entre las mujeres.
Entre los estadísticos más comunes de ítems están la dificultad del ítem, la desviación estándar del
ítem, la correlación ítem-total, la discriminación entre tercios, valor p asociado a la prueba t de
diferencia de medias entre grupos, el índice de confiabilidad del ítem, correlación con un criterio

externo y el índice de validez del ítem. El primero, obviamente, está asociado a dificultad, los
siguientes tres a discriminación, el siguiente a equidad y los últimos tres a confiabilidad y validez.
El detalle de estos en ítems dicotómicos (donde el acierto se recodifica con 1 y el error con 0) se
describe a continuación.
Dificultad del ítem
Es la proporción de aciertos obtenida en el ítem. Entre mayor sea la proporción más fácil es el ítem,
el rango de valores posibles es de 0 a 1.
Desviación estándar del ítem
Esta medida es un indicador de la discriminación del ítem, ya que proporciona una medida de la
variación de los aciertos entre los sujetos. Si se divide la desviación estándar del ítem por el
máximo posible de esta (en el caso de ítems dicotómicos es 0.5) y se multiplica por 100, se obtiene
el porcentaje de variación máxima posible que alcanza el ítem(Fernández y Orgaz, 2013).
=proporción de aciertos
=proporción de errores
Correlación ítem-total (biserial-puntual)
Es el coeficiente de correlación de Pearson entre el ítem y el total del Test, se acostumbra a

descontar del total del test el ítem a analizar, dado que esto influencia la correlación, ya que se
correlaciona una variable con otra de la cual forma parte. Si el ítem presenta una correlación
aceptable con el Test (mayor a 1.96 , donde es la cantidad de examinados; generalmente
se utiliza el valor de .20 en vez de calcular esta fórmula), indica que ayuda a discriminar entre
sujetos con puntuaciones bajas y altas del mismo (Muñiz, 1992).
=Media en la puntuación total del test de los sujetos que acertaron el ítem.
=Media en la puntuación total del test de todos los examinados.
=desviación estándar de la puntuación total del test en todos los examinados.
Discriminación entre tercios
Es la diferencia en la proporción de aciertos de un ítem, entre el grupo compuesto con los

examinados con las mejores notas en el Test y los examinados con las notas más bajas. Cada grupo
está compuesto por una tercera parte de la población (Fletcher, 2013).
,
/3
=Proporción de aciertos del ítem del grupo superior.


=Proporción de aciertos del ítem del grupo inferior.
Valor p asociado a la prueba t de diferencia de medias entre grupos
Generalmente, entre cualesquiera dos grupos se observan diferencias entre los promedios obtenidos
en cierta prueba, pero esas diferencias pueden ser insignificantes. Para medir la significancia (que
realmente existan) de una diferencia de promedios entre dos grupos, se debe observar el valor p de
la prueba t de diferencia de medias, la cual indica significancia si su valor es menor a 0.05.
Índice de confiabilidad del ítem
Este indicador combina dos índices de discriminación, la desviación estándar del ítem y la
correlación ítem-total. Su función es medir la contribución del ítem a la medida final del Test. Para
interpretarlos se dividen por la varianza máxima y se multiplican por 100 (Sánchez, 2013;
Fernández y Orgaz, 2013).
Correlación con un criterio externo ( )
Como su nombre lo indica es la correlación del ítem con una variable conocida, la cual según la
teoría debe correlacionar con el ítem. Por ejemplo, los ítems de un examen de matemática deben
correlacionar altamente con un examen de matemática donde se evaluó un tema similar al del test
en cuestión.
Índice de validez del ítem
Este indicador es similar al índice de fiabilidad del ítem, con la variación de la correlación con un
criterio externo en vez de la correlación ítem-total. Al igual que el se debe dividir por la
varianza máxima y multiplicarse por 100 (Sánchez, 2013; Fernández y Orgaz, 2013). Indica la
contribución del ítem en la asociación del test con el criterio externo.
En las siguientes líneas se mostrará cómo se calculan estos estadísticos mediante el uso del software
R, el cual es un software estadístico gratuito que ha tenido un gran auge en varias disciplinas y que
puede ser descargado desde la dirección http://cran.r-project.org/bin/windows/base/.
Introducción al uso del paquete
Primeramente se debe indicar donde se ubica el archivo de datos con el que se va a trabajar, para
esto se debe ir al menú File->Changedir… y seleccionar la carpeta buscada.
Para cargar la base de datos se debe conocer la extensión de este archivo, la cual puede ser .sav,
.csv, .dat, .xls, entre otros. En este documento se trabajará con archivos .csv (delimitado por comas)
debido a que la mayoría de software utilizados para elaborar hojas de datos presentan la opción para
crear archivos de este tipo.
El comando para cargar un archivo .csv es el siguiente


BASE=read.csv("MATE.csv", header=T, sep=";",dec=",")

#El signo numeral permite introducir comentarios que R no lee como
funciones.
#La base de ejemplo es una base asociada a un examen de matemática de 40
ítems aplicados a 200 estudiantes.
La palabra BASE es el nombre del objeto de R donde queda guardada la base de datos y el
comando read.csv es la función que permite leer el archivo .csv. Todas las funciones de R siguen la
sintaxis: nombre de la función, paréntesis inicial, argumento, coma, opción 1, coma, opción 2,
coma,…, paréntesis final; esto es función(argumento, opción1, opción2,.., opción
n).
El argumento de la funciónread.csves el nombre de la base que se va a cargar, la cual debe ir entre

comillas.Entre las opciones más útiles de esta función están: poder indicar si la primer fila de la
hoja de datos corresponde a los nombres de las columnas (header=T), si la separación de los datos
en el archivo .csv fue hecha por punto y coma (sep=";") o si la separación decimal en el archivo
.csv es representada con una coma (dec=","). Para conocer más opciones de la función
read.csv()se puede utilizar el comando ?read.csv (un signo de pregunta antes de una función
de R abre una dirección electrónica con información sobre el comando).
La función attachpermite hacer uso de las variables de una base de datos guardada en cierto
objeto,sin tener que estar indicando a que base pertenecen.
attach(BASE)
names(BASE)
[1] "SEXO" "CURSO" "ITEM1" "ITEM2"
[5] "ITEM3" "ITEM4" "ITEM5" "ITEM6"
[41] "ITEM39" "ITEM40" "TOTAL"
#Esta función muestra los nombres de las variables de la base.
mean(ITEM3)
0.4518
#La función mean() da la media de una variable.
#mean(ITEM3) es posible debido a que previamente se corrió el comando
attach(BASE).
Análisis de los ítems
Para conocer las estadísticas de los ítems basadas en la TCT, se debe crear una sub base de datos
que contenga únicamente a los ítems que van a ser evaluados, para esto se utiliza la función
data.frame(), cuyo argumento son las columnas con los ítems a evaluar.

La entrada (n,m) de una base de datos B puede ser observada mediante el comando B[n,m], la
columna m con B[,m] y las columnas m, m+1, m+2,…, m+k con B[,m:m+k]. Ahora, como los
ítems a examinar corresponden a las columnas 3 a la 42, estos se pueden llamar con el comando
BASE[,3:42].
ITEMS=data.frame(BASE[,3:42])
Los comandos necesarios para realizar el análisis TCT no vienen incorporados directamente en R,
sino en una librería (un complemento para el software) denominada psychometric que se instala de
la siguiente manera:
• Seleccionar espejo CRAN: Packages->Set cran mirror… (Se puede seleccionar cualquiera).
• Descargar librería: Packages->Installpackage(s)…
• Cargar librería: library(psychometric).
Ya con la librería instalada se proceden a los análisis. Primeramente se calcula el coeficiente de

confiabilidad alfa de Cronbach.
alpha(ITEMS)
0.8379809
Dado que el valor de este es mayor a .8 se puede decir que los ítems presentan un grado aceptable
de confiabilidad.
Para evaluar la validez del test se estima la correlación entre la puntuación total de la prueba con la
variable “tomar clases privadas de matemática” (CURSO), suponiendo que a los estudiantes de que
los llevan (2) les va mejor que los que no los llevan (1). La correlación da un valor positivo (a
mayores valores de la variable, valores más altos de la otra variable), por tanto refleja la asociación
supuesta. En caso de utilizar variables continuas como criterio externo se esperarían correlaciones
superiores a .5.
cor(TOTAL, CURSO, use="complete.obs")

0.2219823
#use="complete.obs", le indica a la función que no use los valores
pérdidos.
Ahora, se estiman las estadísticas de los ítems por medio de la función item.exam(), la cual
presenta dos opciones importantes: utilización de un criterio externo (y =) y cálculo de la
discriminación (discrim=T).
item.exam(ITEMS, y = CURSO, discrim=T)
Sample.SD Item.totalItem.Tot.woi Difficulty

ITEM1 0.44 0.35 0.292 0.26
ITEM2 0.50 0.48 0.418 0.47
ITEM3 0.50 0.12 0.045 0.45
ITEM4 0.50 0.40 0.335 0.43
ITEM5 0.49 0.40 0.343 0.38
Discrimination Item.CriterionItem.Reliab
ITEM1 0.367 0.0578 0.153
ITEM2 0.532 0.1319 0.238

ITEM3 0.063 -0.0066 0.057
ITEM4 0.405 0.0697 0.196
ITEM5 0.405 0.1371 0.195
Item.Rel.woiItem.Validity
ITEM1 0.128 0.0255
ITEM2 0.209 0.0658
ITEM3 0.023 -0.0033
ITEM4 0.166 0.0345
ITEM5 0.166 0.0665
#Solo se presentan las estadísticas de los primeros 5 ítems
La columna Sample.SD indica la desviación estándar del ítem; Item.total muestra la correlación
ítem-total; Item.Tot.woi, la correlación del ítem con el total de la prueba excluyendo al ítem en
cuestión; Difficulty, la dificultad en TCT; Discrimination, la discriminación entre tercios;
Item.Criterion, la correlación del ítem con el criterio externo; Item.Reliab, la confiabilidad del ítem;
Item.Rel.woi, la confiabilidad del ítem, excluyendo al ítem en el total del Test utilizado en la
fórmula; y finalmente, Item.Validity, la validez del ítem.
Los primeros cinco ítems presentan dificultades medias, siendo el primer ítem el más difícil, ya que
solo el 26% de los examinados lo acertó.
En cuanto a la discriminación se obtiene que los cinco ítems prácticamente alcanzan la varianza
máxima, lo cual indica que tienen una variabilidad de respuestas adecuada. Luego, únicamente el
ítem 3 presenta una la correlación ítem-total menor a .20, tanto incluyéndolo en el total, como no
incorporándolo, por lo cual este no presenta medidas de discriminación aceptables, de hecho es
menor al otro tope posible (1.96* =.13). En cuanto a la discriminación por tercios, el ítem 3 es
el único que presenta una diferencia pequeña entre las proporciones de aciertos del grupo alto con el
bajo. Se concluye que el ítem 3 no discrimina entre los estudiantes buenos y los malos.
En cuanto a la correlación con el criterio externo, “tomar clases privadas de matemática”, se

observa que el ítem 3 es el único que va en la dirección opuesta a la relación supuesta, por tanto, se
tiene que su uso no es válido.
Finalmente, los índices de fiabilidad y validez muestran que el ítem 3 es el que menos colabora en
las puntuaciones obtenidas por el test (11.4%) y en la asociación con el criterio externo (-.6%); en
cambio el ítem 2, contribuye en un 47.6% en la explicación de la puntuación del test y en un 13.2%
en la asociación con el criterio externo.
Para tener una medición de la equidad de un ítem se estima la prueba t de diferencias de medias
entre grupos. La función asociada a esta prueba es t.test(), cuyo argumento es la variable a
evaluar, seguido por una virgulilla y luego la variable que define los grupos, esto esy~x.La salida de
la función brinda varios valores, entre ellos el valor p y las medias en cada uno de los grupos.
Para ilustrar el uso del t.test()se estima la diferencia de medias del ítem 1 ente sexos, se observa
que la media de los hombres (grupo 2) es mayor que la de las mujeres (grupo 1), pero esta no es
significativa, dado que el valor p (p-value) es mayor a 0.05.

t.test(ITEM1~SEXO)
Welch Two Sample t-test
data: ITEM1 by SEXO

t = -1.9536, df = 232.087, p-value = 0.05195
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.2229341641 0.0009453686
sample estimates:
mean in group 1 mean in group 2
0.2083333 0.3193277
Luego de hacer análisis con todos los ítems se concluye que los ítems más problemáticos son los
ítem 3 y 33, debido a esto se recalcula el índice alfa de Cronbach sin estos ítems, para verificar si su
eliminación contribuye a aumentar la confiabilidad de la Prueba y efectivamente el alfa de
Cronbach aumenta si se eliminan los dos ítems problemáticos.
ITEMS2=data.frame(ITEMS[,1:2], ITEMS[,3:32], ITEMS[,34:40])

alpha(ITEMS)
0.8379809
alpha(ITEMS2)
0.8414799
Conclusiones
Los ítems de un test nunca deberían ser utilizados para medir un determinado constructo, si estos no
han sido previamente evaluados. Muchas veces se hacen inferencias sobre los examinados
totalmente equivocadas debido al uso de ítems inapropiados.
Lo ideal sería reservar una sección de cada prueba para nuevos ítems, los cuales no serán tomados
en cuenta para la calificación, sino que solo serán utilizados para conocer sus estadísticas; los ítems
tomados en cuenta para la calificación serían únicamente ítems anteriormente aplicados para los
cuales ya se conocen sus estadísticas.
Se motiva a los docentes a crear un banco de ítems psicométricamente aceptables, basados en las
indicadores mencionados en este taller y en las hojas de datos de cursos anteriores, ya que esto les
permitirá asegurar que la evaluación que están realizando es adecuada. Un buen criterio externo
para estudiar la validez, son las pruebas de bachillerato u otros exámenes de matemática.
Finalmente, se hace hincapié en que antes de elaborar un examen se debe tener claro que es lo que
se desea medir, ya que esto guiará la construcción del test. Uno de los supuestos básicos del análisis
de ítems es la unidimensionalidad, lo cual quiere decir que todos los ítems miden el mismo
constructo, por tanto, no conviene pretender dos objetivos sumamente distintos en una sola prueba;
mejor es crear varias secciones dentro del test, donde cada una tiene un constructo claro a medir,
esto implica que cada subsección se analiza estadísticamente aparte de las otras.
Referencias

Fernández, R. y Orgaz, M.B. (2013). Notas de Métodos, diseños y técnicas de investigación
psicológicos. Recuperado de http://ocw.usal.es/eduCommons/ciencias-sociales-1/metodos-
disenos-y-tecnicas-de-investigacion-psicologicos/contenidos/TEMA%2010.pdf el 4 de
setiembre de 2013.
Fletcher, T. (2013).Package “psychometric”. Recuperado de http://cran.r-

project.org/web/packages/psychometric/psychometric.pdf el 4 de setiembre de 2013.
Babbie, E. (2000). Fundamentos de Investigación Social. México: Internacional Thompson

Editores.
Messick, S. (1989). Meaning and values in test validation: The science and ethics of assesment.
EducationalResearcher, 18 (2), 5-11.
Montero, E. (en prensa). Referentes conceptuales y metodológicos sobre la noción moderna de

validez de instrumentos de medición. Actualidades en Psicología.
Muñis, J. (1992). Teoría Clásica de los tests. España: Pirámide.
Sánchez, E. (2013). Estandarización y baremación del test. Recuperado de

http://personal.us.es/sangar/PSICOM52.pdf el 4 de setiembre de 2013.
View publication stats

Análisis Psicométrico Básico en R: November 2014

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis Psicométrico Básico en R: November 2014

Uploaded by

Copyright:

Available Formats

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Análisis psicométrico básico en R

Conference Paper · November 2014

Programa Permanente Prueba de Aptitud Académica View project

The user has requested enhancement of the downloaded file.

Análisis psicométrico básico en R

Entre las consideraciones más importantes en la elaboración de Test es un conocimiento mínimo de

La psicometría es “el conjunto de métodos, técnicas y teorías implicadas en la medición de

Dentro de la psicometría hay dos conceptos fundamentales: la validez y la confiabilidad. El primero

Factorice110 143 154

=cantidad de ítems en el test

Dificultad del ítem

Desviación estándar del ítem

Correlación ítem-total (biserial-puntual)

Es el coeficiente de correlación de Pearson entre el ítem y el total del Test, se acostumbra a

Discriminación entre tercios

Es la diferencia en la proporción de aciertos de un ítem, entre el grupo compuesto con los

=Proporción de aciertos del ítem del grupo superior.

Valor p asociado a la prueba t de diferencia de medias entre grupos

Índice de confiabilidad del ítem

Correlación con un criterio externo ( )

Índice de validez del ítem

Introducción al uso del paquete

El comando para cargar un archivo .csv es el siguiente

BASE=read.csv("MATE.csv", header=T, sep=";",dec=",")

El argumento de la funciónread.csves el nombre de la base que se va a cargar, la cual debe ir entre

Análisis de los ítems

Ya con la librería instalada se proceden a los análisis. Primeramente se calcula el coeficiente de

cor(TOTAL, CURSO, use="complete.obs")

item.exam(ITEMS, y = CURSO, discrim=T)

Sample.SD Item.totalItem.Tot.woi Difficulty

#Solo se presentan las estadísticas de los primeros 5 ítems

En cuanto a la correlación con el criterio externo, “tomar clases privadas de matemática”, se

Welch Two Sample t-test

data: ITEM1 by SEXO

ITEMS2=data.frame(ITEMS[,1:2], ITEMS[,3:32], ITEMS[,34:40])

Fletcher, T. (2013).Package “psychometric”. Recuperado de http://cran.r-

Babbie, E. (2000). Fundamentos de Investigación Social. México: Internacional Thompson

Montero, E. (en prensa). Referentes conceptuales y metodológicos sobre la noción moderna de

Muñis, J. (1992). Teoría Clásica de los tests. España: Pirámide.

Sánchez, E. (2013). Estandarización y baremación del test. Recuperado de

View publication stats

You might also like