Professional Documents
Culture Documents
Psicometra (UNED)
La medicin Psicolgica
La medicin se trata de un problema inherente a la Psicometra y la Psicologa cientfica.
Las dificultades surgen cuando en lugar de medir atributos fsicos se intentan medir atributos
psicolgicos. La primera dificultad estriba en que la mayora de los atributos psicolgicos
(inteligencia o autoritarismo) son conceptos abstractos (constructos tericos o variables
latentes) que no se pueden medir directamente si no que deben ser inferidos de la medicin
de conductas representativas de dichos constructos. Este tipo de medicin se conoce como
medicin por indicadores: dado que las variables psicolgicas no se pueden medir
directamente, se seleccionan una serie de indicadores representativos del constructo o
variable psicolgica que s que se pueden medir directamente.
El otro problema son las unidades de medida que se van a utilizar al interpretar las
puntuaciones obtenidas por los sujetos. Hay dos formas principales de abordar el problema:
La referida a las normas, consiste en comparar los resultados obtenidos por un sujeto
con los obtenidos por un grupo de sujetos llamado grupo normativo (o de control) que
tienen caractersticas similares.
La referida al criterio, en la que los resultados obtenidos se comparan con un criterio
(punto crtico) previamente establecido.
Fiabilidad de las medidas: estimar los errores aleatorios que conlleva toda medicin.
Validez de las medidas: garantizar que la medida no es intil sino que sirve para
explicar y predecir los fenmenos de inters.
a. Los estudios de Psicofsica que dieron lugar a modelos que permiten asignar valores
numricos a los estmulos (escalamiento de los estmulos).
b. Los estudios acerca de las diferencias individuales que dieron lugar a los Tests y las
distintas Teoras de los Tests (modelos) los cuales permitieron la asignacin de valores
numricos a los sujetos (escalamiento de los sujetos).
Ejemplo: si se quiere medir la inteligencia, suponemos que ese atributo se puede representar a
lo largo de un continuo sobre el que se podrn situar los sujetos de forma ordenada en funcin
del grado de inteligencia que manifiesten.
Modelo de Fechner
A partir de Webber, Fechner desarroll unos mtodos psicofsicos indirectos que permitan
elaborar unas escalas denominadas escalas psicofsicas.
Ejemplo: se quieren escalar una serie de estmulos que varan (fsicamente) respecto al grado
de pesadez que producen en los sujetos. Los sujetos deben emitir un juicio sobre el grado de
pesadez percibido al sopesar cada estmulo que les es presentado. El peso es una caracterstica
fsica que vara en un continuo fsico y hay instrumentos adecuados para su medicin. Por el
contrario, la pesadez es una caracterstica psicolgica o subjetiva que vara en un continuo
psicolgico y los propios sujetos son los que actan como instrumento de medida, asignando
valores a cada uno de los estmulos en funcin del grado de pesadez percibido.
Para construir la escala psicofsica hay que ver la relacin funcional entre los dos continuos. La
Psicofsica por tanto trata de relacionar la magnitud de los estmulos con la percepcin que
los sujetos tienen de ellos (es decir, con la sensacin que producen).
Para Fechner, la siguiente funcin logartmica es la que mejor representa la relacin entre
ambos continuos: S = C ln E + A (S: valor en la escala de sensacin; E: valor del estmulo; C y A:
pendiente y ordenada en el origen de la funcin logartmica).
Para poder medir la relacin entre la magnitud de los estmulos y las sensaciones que
producen, Fechner introdujo los conceptos de:
Umbral absoluto: la magnitud fsica del estmulo necesaria para que produzca alguna
sensacin.
Umbral diferencial: incremento mnimo (en la magnitud fsica del estmulo) necesario
para que el sujeto perciba un cambio.
i. Se comienza por un estmulo de baja intensidad y se aumenta esta hasta que el sujeto
comienza a detectarlo.
ii. Se comienza por un estmulo de alta intensidad y se disminuye esta hasta que el
sujeto deje de percibirlo.
Para calcular los umbrales diferenciales el experimentador seleccionar un valor del estmulo
como estndar. Este estmulo se presenta al sujeto junto con un estmulo de comparacin,
cuya intensidad se manipula hasta que el sujeto considere que la intensidad del estmulo de
comparacin es igual que la del estmulo estndar.
Para averiguar el umbral absoluto cada estmulo se presenta a los sujetos muchas veces y en
orden aleatorio de manera que el sujeto debe indicar si lo ha percibido o no. El umbral
absoluto es la magnitud del estmulo que ha sido percibido por los sujetos el 50% de las
veces.
El umbral diferencial se calcula igual que en los anteriores, repitiendo varias veces los ensayos.
Los estmulos de muy alta o muy baja magnitud no se ajustan bien a ella.
No todos los sistemas sensoriales se ajustan muy bien a ella.
De todas formas, se considera que con Fechner comienza la Psicologa cuantitativa y sus
trabajos, junto con los de Wundt, marcaron el comienzo de la Psicologa experimental.
Modelo de Stevens
Stevens reformula la Psicofsica de Fechner y propone la Funcin potencial de Stevens: R = q
En (R: respuesta de los sujetos; E: valor del estmulo; q: constante que depende de las unidades
de medida; n: exponente que depende del atributo sensorial).
originan una escala de sensacin (S) a raz de las tareas de deteccin o discriminacin
que realizan los sujetos.
Stevens no basa sus mediciones en ninguna suposicin acerca de las dap, que Fechner
utiliza como unidad de medida de su escala de sensacin, ni en el concepto de umbral.
Estimacin de magnitudes
El sujeto asigna nmeros a la intensidad del estmulo. En primer lugar se presenta al sujeto un
estmulo que servir como estmulo de referencia a partir del cual deber estimar los valores
de los siguientes estmulos. Es posible que el experimentador asigne un valor (mdulo) a este
estmulo de referencia (p. ej.: se presenta una lnea al sujeto y se le dice que mide 10 cm. Si la
siguiente lnea le parece al sujeto que mide la mitad que el estndar, deber asignarle el valor
5 cm, y si le parece el doble, deber asignarle el valor 20 cm).
Produccin de magnitudes
En este mtodo la tarea del sujeto es la inversa que en el anterior. El experimentador presenta
al sujeto una serie de nmeros aleatorios y el sujeto debe modificar la magnitud de los
estmulos en base a los nmeros presentados. De esta manera el sujeto empareja los nmeros
a los niveles de magnitud del estmulo.
Estimacin de razones
Se presentan al sujeto todos los pares de estmulos y su tarea consiste en hacer estimaciones
de las razones (proporciones) que hay entre las magnitudes de cada par, asignando un nmero
a cada par que represente esa razn. Se trata de asignar razones numricas a las razones
entre las magnitudes de los estmulos (p. ej.: se presentan dos rectas de 10 y 5 cm
respectivamente. Si al sujeto le parece que la primera es el doble de larga que la segunda,
deber asignar ese par el valor 2).
Produccin de razones
Se presenta al usuario un estmulo estndar y una proporcin numrica. Su tarea consiste en
producir otro estmulo que guarde con el estndar la proporcin dada (p. ej.: se le da al
usuario un sonido de referencia y debe producir otro que tenga el doble, triple, etc.,
intensidad).
Estimacin de intervalos
Se presentan al sujeto una serie de estmulos entre s y se le pide que haga una estimacin de
las diferencias estimulares: el sujeto asigna nmeros que representen el tamao de las
diferencias estimulares presentadas.
Produccin de intervalos
Se presentan al sujeto dos estmulos (que forman un intervalo) y su tarea consiste en
encontrar:
A partir de estas ideas, desarroll la Ley del Juicio Comparativo y la Ley del Juicio Categrico. A
partir de estos trabajos, se desarrollaron nuevas formas de escalamiento psicolgico como
mtodo del escalograma desarrollado por Guttman.
La finalidad inicial de la escala era detectar a sujetos que presentaran algn retraso mental,
aunque posteriormente se utiliz para el estudio de las diferencias en otros niveles. Para poder
interpretar las puntuaciones obtenidas, se desarroll el concepto de Edad Mental, que
equivale a la edad cronolgica de los nios intelectualmente normales cuya media en la escala
es igual a la obtenida por el nio examinado (p. ej.: se aplica la escala a un nio de 12 aos y
obtiene una puntuacin que coincide con la puntuacin media obtenida por los nios de 9
aos. En este caso, diremos que su edad mental es de 9 aos y su edad cronolgica de 12).
A pesar del gran desarrollo de los tests, no se saba: Qu miden realmente los tests? Existen
realmente los rasgos que dicen medir los tests? Para responder a estas preguntas se
desarrollaron el coeficiente de correlacin de Pearson y el Anlisis Factorial (tcnicas
correlacinales), cuyos primeros esbozos se deben a Spearman.
Las tcnicas agrupadas bajo el trmino Anlisis Factorial tuvieron una gran importancia en el
desarrollo de los tests, ya que sin ellas, los test mentales hubieran tardado ms en perder su
carcter sensorial. Estas tcnicas tratan de representar un conjunto de variables observables
(escalas, tems, etc.) mediante un nmero ms pequeo de variables no observables sino
latentes, llamadas factores, de las que las primeras son indicadores.
De los primeros test objetivos de personalidad hay tres que han sobrevivido en la actualidad:
Durante la primera mitad del siglo XX se crearon los Tests Proyectivos, siendo el primero el
Test de las manchas de tinta, creado por Rorschach, a partir del cual se desarrollaron muchos
otros asociados con la Psicologa Clnica y el Psicoanlisis.
Sin embargo, hay varias razones que han contribuido a que disminuya la utilizacin de estas
tcnicas:
Los test referidos al criterio frente a los test referidos a las normas
Los tests desarrollados hasta los aos 70 del siglo XX evaluaban el nivel de los sujetos en un
determinado rasgo, interpretando los resultados en relacin a un grupo normativo. Por esta
razn eran Tests Referidos a las Normas (TRN). Sin embargo, apareci inters en la evaluacin
de cada sujeto de manera absoluta, por lo que se desarrollaron otro tipo los Tests Referidos al
Criterio (TRC). Estos tests proporcionaron las bases para interpretar las puntuaciones de los
sujetos en relacin a un dominio bien definido, ms que en relacin a un grupo normativo.
La finalidad de la evaluacin:
o TRN: el objetivo es poner de manifiesto las diferencias individuales en la
conducta o rasgo medido por el test.
Cuando se administran este tipo de tests, se utiliza el ordenador como medio para hacer la
seleccin te tems.
Como consecuencia del auge conseguido por los tests, surge la necesidad de algn
procedimiento que permita:
10
Para dar respuesta a estas preguntas y cubrir estas necesidades, se desarroll un marco
terico general: la Teora de los Tests. Este marco permite establecer una relacin funcional (a
travs de una funcin matemtica) entre las variables observables (puntuaciones en el test) y
las variables inobservables (puntuaciones verdaderas en el rasgo asociado).
Los modelos ms relevantes son la Teora Clsica de los Tests (TCT) y la Teora de Respuesta al
tem (TRI).
Las puntuaciones empricas u observadas (X): las obtenidas por los sujetos cuando se
les aplica el test.
Las puntuaciones verdaderas (V): las puntuaciones que realmente tienen los sujetos
en el rasgo medido. Coincidiran con las empricas en el caso hipottico de que no
existieran los errores de medida (E).
Las puntuaciones debidas al error (E): error inevitable asociado a la medicin.
Entre estas tres puntuaciones se establece una relacin funcional, el modelo lineal de
Spearman: X = V + E.
Se han realizado algunos intentos de sistematizar y clasificar el error en funcin de las posibles
fuentes. El intento ms ambicioso y global es la Teora de la Generalizabilidad (TG), que tiene
en cuenta todas las posibles fuentes de error (factores individuales, situacionales,
caractersticas del evaluador y variables instrumentales) e intenta diferenciarlas mediante la
aplicacin de los procedimientos clsicos de Anlisis de Varianza (ANOVA o AVAR).
Aunque la TG supuso un cierto avance, suele ser considerada ms una extensin de la TCT que
un modelo alternativo. La complicacin de sus diseos y la aparicin de los tests englobados
en la TRI fueron la causa de que la TCT quedara relegada a un segundo trmino.
Las puntuaciones de los sujetos variaban en funcin del conjunto de tems o tests
utilizados cuando, en realidad, su nivel en el rasgo en ese momento no tena por qu
variar.
11
La solucin ms adecuada fue la Teora de Respuesta al tem (TRI) que establece una relacin
funcional (Curva Caracterstica del tem) entre los valores de la variable que miden los tems
(nivel de habilidad de los sujetos en el rasgo medido) y la probabilidad de que los sujetos, en
funcin de su nivel de habilidad, acierten ese tem.
Aunque el desarrollo de estos modelos supuso un gran avance, la dificultad de utilizarlos sin la
ayuda de ordenadores fue la causa de que su gran desarrollo no llegase hasta finales del siglo
XX. Adems, la TCT sigue en auge ya que hay problemas que se pueden solucionar ms eficaz y
rpidamente dentro de su marco.
12
Una primera etapa que abarcara: (i) la elaboracin de una prueba piloto, (ii) su
aplicacin a una muestra de sujetos y (iii) la asignacin de puntuaciones a los mismos.
Una segunda etapa en la que se evaluara la calidad psicomtrica de cada uno de los
tems de la prueba piloto y el conjunto de la misma. Esta etapa finalizara con la
construccin definitiva del test.
Una tercera etapa en la que: (i) se aplicara el test a una muestra representativa de la
poblacin a la que va dirigido, (ii) se asignara puntuaciones a los sujetos y (iii) se
llevara a cabo el proceso de estandarizacin de las puntuaciones obtenidas y el
establecimiento de normas para su interpretacin. El proceso finalizara con la
elaboracin del manual del test que deber incluir toda la informacin necesaria para
que pueda ser utilizado por psiclogos especializados.
Cuando se quieren medir variables que no pertenecen al mbito cognitivo, sino al afectivo u
orctico (personalidad, actitudes, intereses, opiniones, etc.) se utilizan las Escalas, los
Cuestionarios y los Inventarios.
Las Escalas muestran el enunciado del elemento junto a una serie de alternativas de respuesta
categorizadas de forma ordenada (escalas de categoras o escalas de clasificacin). En las
escalas, el sujeto puede mostrar su posicin respecto a lo que se muestra en el enunciado y no
hay respuestas correctas o incorrectas.
Los Cuestionarios suelen estar formados por elementos cuyas alternativas de respuesta no
forman categoras ordenadas y son independientes de las dems. La tarea del sujeto consiste
en elegir la alternativa o alternativas que prefiere o que mejor reflejen aquello que se est
valorando. Se suelen utilizar para llevar a cabo una investigacin mediante encuestas.
Los Inventarios se suelen reducir a una serie de enunciados ante los que los sujetos han de
responder si s verdadero o falso, es decir, su acuerdo o no con los distintos enunciados. Este
trmino suele estar vinculado a los instrumentos para medir variables de personalidad.
La siguiente tabla recoge las distintas etapas desde que el investigador se plantea la tarea de
construir un test hasta el momento de aplicacin de la prueba piloto.
Ejemplo: os profesores de Psicometra quieren construir un test (examen) para evaluar los
puntos fuertes y dbiles de los alumnos respecto al programa de la asignatura, y poder incluir
en la pgina web algunas recomendaciones para superar las dificultades que puedan surgir
durante el estudio. Ya tendramos el objetivo del test:
Ejemplo: Si queremos construir un test para medir la habilidad verbal, lo primero que debemos
hacer es definir el constructo. La definicin de habilidad verbal propuesta por Thorndike es la
siguiente: Se trata de un constructo que se pone de manifiesto por el conocimiento de
significados de un gran nmero de palabras y eleccin de la palabra ms adecuada en un
determinado contexto.
Utilizacin prevista
Otro aspecto fundamental es tener en cuenta la utilizacin que se le va a dar al test: para qu
se va a utilizar y qu decisiones se van a tomar a partir de las puntuaciones de los sujetos.
La siguiente tabla muestra los usos ms frecuentes de los tests junto con las decisiones que se
suelen tomar a partir de las puntuaciones obtenidas por los sujetos.
Contenido
Una vez definido el constructo que se quiere medir, la especificacin del contenido comienza
determinando cul es su dominio de conductas (las conductas a travs de las que se manifiesta
el constructo). Una vez determinado el dominio de conductas se pueden tomar decisiones
acerca del contenido del test.
Si el constructo no est claramente definido y no se tiene una idea clara de las conductas
asociadas, es necesario seguir una serie de recomendaciones (hacer un anlisis del contenido
del constructo, revisar las investigaciones publicadas, llevar a cabo un anlisis de tareas,
utilizar el juicio de expertos, etc.).
Los contenidos de las filas variarn en funcin de lo que se quiera medir, pero se ha realizado
una categorizacin jerrquica de los distinto procesos implicados. Estos procesos son:
conocimiento, comprensin, aplicacin, anlisis, sntesis y evaluacin.
reas de contenido
Procesos A. de tems
Medicin (20%) Fiabilidad (35%) Validez (35%)
(10%)
Conocimiento 4 7 7 2
Comprensin 4 7 7 2
Aplicacin 4 7 7 2
Anlisis 4 7 7 2
Total 16 28 28 8
La especificacin de test de aptitudes suele ser menos especfica puesto que miden
caractersticas ms generales de la persona. A veces se especifica el tipo de tems que la van a
conformar.
Cuando se quiere construir un test (escala, cuestionario, inventario) para medir constructos no
cognitivos (intereses, actitudes, temperamento, etc.) las especificaciones pueden ser ms
esquemticas y, a veces, el contenido de los tems se deduce fcilmente de la especificacin
del constructo.
Los tems de seleccin son tems de respuesta cerrada, donde el sujeto debe elegir
una o varias alternativas de entre las propuestas.
Los tems de construccin, donde el sujeto debe elaborar su propia respuesta.
tems de eleccin
Los formatos ms comunes que se presentan son:
Dos alternativas.
Eleccin mltiple.
Emparejamiento.
Formato cloze o incompleto.
Escalas de clasificacin.
Listados.
Dos alternativas
Los sujetos han de elegir entre dos alternativas (p. ej.: Verdadero Falso, Si No, Correcto
Incorrecto). Se utiliza normalmente para medir variables cognitivas (habilidades, aptitudes) y
para la construccin de tests de conocimiento y rendimiento. Tiene la ventaja de que es fcil y
rpido de usar y el inconveniente de que respondiendo al azar los sujetos tienen el 50% de
probabilidades de acertar.
Ejemplo:
Eleccin mltiple
Este tipo de tems consta de:
El enunciado.
Las alternativas de respuesta, de las cuales:
o Una es la correcta (o la ms adecuada).
o Las otras son incorrectas y se llaman distractores.
Tienen la ventaja son fciles de administrar, corregir y puntuar (especialmente con lectoras
pticas y ordenadores) pero el inconveniente de que son ms difciles de construir que los de
dos alternativas (es difcil construir alternativas efectivas).
Ejemplo:
Los que tienen una respuesta correcta. Se utilizan cuando no hay ambigedad en la
respuesta.
En los que todas las alternativas son parcialmente correctas pero hay una que es la
ms completa y mejor. Se utilizan para evaluar procesos mentales complejos.
Emparejamiento
El sujeto debe emparejar los elementos de dos columnas de acuerdo a las instrucciones dadas
en el enunciado. Al igual que los anteriores, es adecuado para medir variables cognitivas y
conocimientos.
Ejemplo
Ejemplo:
En el ro haba gran cantidad de _____ que navegaban en ambas direcciones. No se poda estar
en la cubierta debido al fuerte _____, pero como el trayecto no era muy _____ no era
demasiado molesto para permanecer en el/la _____.
Este tipo de escalas se denominan escalas valorativas ya que los usuarios deben emitir juicios
de valor.
Ejemplo:
Se diferencia de los tems de eleccin mltiple en que las opciones de las escalas de
clasificacin son interdependientes (corresponden a categoras de respuesta ordenadas)
mientras que en los tems de eleccin mltiple las opciones son independientes entre s.
Tienen la ventaja de que los usuarios expresan su postura de manera ms precisa (que en
eleccin mltiple). Tienen dos inconvenientes: (i) el significado de las distintas opciones no es
el mismo para todos los sujetos y (ii) suelen aparecer sesgos en las respuestas (hay sujetos que
tienden a elegir opciones extremas o cuando las alternativas son impares, la central).
Listados (checklists)
Se trata de una escala valorativa en la que los sujetos han de mostrar su opinin respecto
algn hecho (idea, objeto, persona, etc.) presentado en el enunciado. No se utilizan para la
medida de variables de tipo cognitivo ya que tampoco hay opciones correctas o incorrectas. Se
diferencian de las escalas de clasificacin en que las opciones de los listados no estn
ordenadas sino que son independientes entre s.
Ejemplo:
De los adjetivos que aparecen a continuacin, seale con una cruz aquellos que mejor le
definan:
tems de construccin
Son tems de respuesta abierta, en los que el sujeto ha de elaborar su respuesta. Dentro de
esta categora se distinguen los de respuesta corta y los de respuesta extensa.
Ejemplo:
Ejemplo:
Este tipo de formato de los tems tienen la ventaja dan la oportunidad de que expresen con sus
propias palabras sus conocimientos, experiencias, opiniones, etc., de manera que el
investigador adems de conocer lo que saben, opinan o piensan, tambin podr ver como se
expresan, pudiendo analizar ms aspectos que con los tems de respuesta cerrada (como la
originalidad, la forma de redactar, etc.). Es decir, adems de evaluar el nivel de conocimientos
tambin se pueden evaluar habilidades cognitivas de orden superior.
Este tipo de formato de los tems se utiliza para medir todo tipo de variables (cognitivas o
afectivas u orcticas) pero tiene el inconveniente de que las respuestas de los sujetos son ms
difciles de analizar puesto que despus de aplicar el test, el investigador debe codificar las
respuestas en categoras de manera que estas agrupen a los sujetos que hayan emitido
respuestas similares.
Se recomienda que en la prueba piloto se incluyan ms tems que el que se van a utilizar en la
versin final puesto que a lo largo de los anlisis que se deben ir haciendo se irn eliminando
aquellos tems que no renan las caractersticas psicomtricas adecuadas.
Tests de velocidad. Los tems deben ser fciles de responder y la dificultad estriba en
que el tiempo para resolver el test es limitado. El factor discriminante entre sujetos es
la velocidad ya que si no existiera limitacin de tiempo, la mayora de los sujetos seran
capaces de responder correctamente.
Tests de ejecucin mxima (Tests de potencia). Utilizados para la evaluacin del
rendimiento acadmico y la media de aptitudes y destrezas. Los tems presentan
diferentes grados de dificultad, desde los muy fciles (que todos deben saber
responder y se deben situar al comienzo) hasta tems muy difciles (que se colocan al
final y que slo pueden acertar los ms aptos). El tiempo no es un factor que deba
influir por lo que deben tener tiempo suficiente para responder a todos los tems.
Tests de ejecucin tpica. Son tests de personalidad, actitudes, intereses, etc. Dado
que en ellos no hay respuestas correctas o incorrectas no tiene sentido hablar de la
dificultad de los tems.
ejemplo, si el constructo es multidimensional y los tems slo miden una dimensin (son muy
homogneos) dejarn sin medir otras dimensiones, por lo que las inferencias realizadas no
sern suficientemente vlidas.
Capacidad de discriminacin
La capacidad de discriminacin de los tems depender de la poblacin a la que va dirigido el
test:
Si va dirigido a la poblacin general ser necesario que los tems permitan discriminar
entre todos los niveles que presenten los sujetos, es decir, deben cubrir todos los
niveles de dificultad. Los tems que ms discriminan en este tipo de poblaciones son
los de dificultad media, por lo que deben ser los ms abundantes.
Si se quiere discriminar entre los ms brillantes, los tems debern ser difciles y muy
difciles. De esta manera, los sujetos que presentan un nivel medio o bajo no podrn
responder y slo lo harn los ms capacitados.
Si se quiere discriminar entre los menos capacitados, los tems debern ser fciles y
muy fciles, de manera que slo los fallaran los menos capacitados.
Recomendaciones generales
Conviene recordar las siguientes recomendaciones, aunque son de sentido comn:
10
o Asegurarse que tanto las premisas como las opciones a emparejar son
homogneas.
o Aclarar en el enunciado la tarea que debe realizar el sujeto y la forma en que
hay que llevar a cabo el emparejamiento.
Formato Cloze o incompleto
o Asegurarse de que haya tantos espacios en blanco como alternativas de
respuesta (o aclarar cualquier otra posibilidad en el enunciado).
Escalas de clasificacin
o Evitar expresiones coloquiales y utilizar enunciados que entiendan todos.
o Balancear el nmero de tems formulados positiva y negativamente.
o Asignar las etiquetas lingsticas. Especificar los extremos y el punto central.
Listados
o Son fciles de construir y su redaccin no supone ningn problema.
11
Una vez revisados los tems y eliminados los que no sean idneos, se puede construir la versin
preliminar del test o prueba piloto, utilizando los tems que han pasado este primer control de
calidad.
Instrucciones de administracin
En general, el constructor del test quiere que todas las personas entiendan perfectamente lo
que deben hacer y estn motivados para hacerlo.
Adems de las instrucciones determinadas para cada tipo de prueba, existen algunas
recomendaciones comunes (adaptadas de Torndike):
12
Pruebas cognitivas
En este tipo de pruebas hay respuestas correctas e incorrectas, conocidas de antemano, por lo
que la correccin del test se reduce a comprobar si las respuestas del sujeto coinciden con las
de la plantilla. La forma ms sencilla de obtener la puntuacin es sumar el nmero de
respuestas correctas:
=
=1
Esta forma de correccin tiene un grave inconveniente: la posibilidad de que un sujeto que
desconozca la pregunta por completo elija por azar la respuesta correcta. Para controlar esta
circunstancia se aplica una frmula de correccin, que se puede hacer de dos maneras:
penalizando los errores cometidos o bonificando las omisiones (tems no respondidos).
Uno de ellos no arriesga y responde 10, dejando las otras 10 en blanco. Su puntuacin
ser de 10 puntos.
El otro arriesga y responde a todas. Si las preguntas tienen dos alternativas (V-F) existe
un 50% de probabilidades de que acierte cada una de las 10 preguntas que no sabe por lo que
su puntuacin sera de 15 puntos.
Ambos sujetos deberan de haber obtenido la misma puntuacin porque conocen el mismo
nmero de preguntas.
13
Ejemplo: siguiendo con el ejemplo, el primer alumno tendra la misma nota ya que no ha
cometido errores mientras que el segundo obtendra ahora 10 puntos (Xc = 15 5 = 10).
Ejemplo: aplicando la frmula a las puntuaciones del ejemplo, el primer alumno obtendra
ahora un 15 (Xc = 10 + 10 /2 = 15) y el segundo mantendra el 15 inicial, ya que no ha dejado
ninguna sin responder.
Pruebas no cognitivas
En estas pruebas no hay respuestas correctas o incorrectas y los tems llevan asignado un valor
numrico distinto en cada alternativa de respuesta. La puntuacin se obtendr sumando los
valores numricos asignados a cada alternativa seleccionada.
En este tipo de pruebas es importante tener clara la direccin del continuo de la variable que
se est midiendo (p. ej.: si se mide una variable de actitud, hay que conocer qu extremos del
continuo marcan actitud favorable y desfavorable) y asignar a un extremo la puntuacin ms
alta (al otro la ms baja), siguiendo esa regla siempre de la misma manera para todos los
tems.
14
y extensas. La correccin de estas pruebas es laboriosa y subjetiva, aunque existen dos formas
de controlar y reducir esa subjetividad Mtodo de la puntuacin Analtica y Mtodo de la
puntuacin holstica.
15
Intereses: preferencias por actividades particulares (p. ej.: prefiero leer un libro que
reparar un coche).
Valores: preferencias sobre objetivos y formas de vida, ms que sobre actividades
concretas (p. ej.: considero ms importante servir a los dems que mi ambicin
personal).
Actitudes: hacen referencia a sentimientos acerca de un determinado objeto social
(objetos fsicos, tipos de personas, instituciones, etc.)(p. ej.: todas las guarderas
pblicas deberan ser gratuitas).
En las escalas de actitudes todos los tems deben hacer referencia a una misma variable
mientras que en las escalas de valores e intereses hacen referencia a varias actividades.
En el proceso de construccin de la escala mediante estas tcnicas hay que diferenciar dos
fases:
Las fases que hay que cubrir son las vistas en el tema anterior, con la aparicin de una nueva
fase: la prueba de jueces, en la que un grupo de sujetos debe asignar valores escalares
(puntuaciones) a cada uno de los tems (estmulos) que componen la prueba.
La variabilidad perceptual de los sujetos: las diferencias que hay entre sujetos a la
hora de percibir estmulos (o incluso en un mismo sujeto al recibir varias veces un
estmulo).
La limitacin que tienen los sujetos para percibir la diferencia de magnitud entre dos
estmulos (siempre hay dos estmulos cuya diferencia no ser percibida).
La muestra de sujetos utilizada para asignar valores escalares a los estmulos es la muestra de
jueces o expertos, por eso las escalas elaboradas mediante el modelo de Thurstone requieren
de la prueba de jueces.
Nota: tanto en la Ley del Juicio comparativo como en la Ley del Juicio Categrico, los sujetos
que evalan los tems han de emitir juicios de hecho (juicios objetivos) y no emitir juicios de
valor (es decir, mostrar su actitud o postura personal). Por este motivo se le denomina prueba
de jueces.
Los resultados de los juicios emitidos por cada juez ante cada par de estmulos se ordenan en
una serie de matrices: de frecuencias, de proporciones y de puntuaciones tpicas. La media de
las puntuaciones tpicas asignadas por cada juez es la mejor estimacin del valor escalar de un
estmulo.
Ejemplo: supongamos que se quiere llevar a cabo un estudio acerca de la actitud de los
espaoles ante la institucin del matrimonio. Para ello se va a elaborar una escala mediante la
Ley del Juicio Comparativo utilizando el procedimiento de las comparaciones binarias. Se
utilizan 6 tems (estmulos) con los que se puede formar 15 combinaciones binarias, los cuales
sern presentados a una muestra de 100 sujetos para que elijan el tem cuyo enunciado
muestre una actitud ms favorable hacia el matrimonio.
Los datos se recogen en una matriz de frecuencias, en la que cada celda representa el nmero
de jueces que han considerado que el estmulo de la columna muestra una actitud ms
favorable hacia el matrimonio que el estmulo de la fila. Los estmulos no se comparan consigo
mismos.
Tabla 1. Matriz de frecuencias observadas.
Estmulos/tems 1 2 3 4 5 6
1 - 70 65 45 40 80
2 30 - 60 70 30 70
3 35 40 - 60 30 60
4 55 30 40 - 55 75
5 60 70 70 45 - 65
6 20 30 40 25 35 -
= 200 240 275 245 190 350
Viendo los sumatorios, para los jueces es el tem 6 el que muestra una actitud ms favorable
mientras que el estmulo 5 es el que muestra una actitud ms desfavorable.
Con estos datos, se podra construir una escala ordinal de los estmulos pero no podemos
saber las diferencias que hay entre ellos, que es realmente el objetivo de este modelo. Este
modelo permite construir escalas de intervalos.
Una vez obtenida esta matriz, es conveniente ordenar las filas y las columnas segn el orden
establecido por los sujetos para obtener la matriz de frecuencias ordenadas.
Tabla 2. Matriz de frecuencias observadas ordenadas.
Estmulos/tems 6 3 4 2 1 5
6 - 40 25 30 20 35
3 60 - 60 40 35 30
4 75 40 - 30 55 55
2 70 60 70 - 30 30
1 80 65 45 70 - 40
5 65 70 45 70 60 -
= 350 275 245 240 200 190
Como hay 100 sujetos cada par de tems es presentado 100 veces, por lo que si dividimos su
frecuencia por el nmero de sujetos obtendremos la proporcin. Dividiendo cada elemento
por el nmero de sujetos obtenemos la matriz de proporciones.
Tabla 3. Matriz de proporciones.
Estmulos/tems 6 3 4 2 1 5
6 - 0,40 0,25 0,30 0,20 0,35
3 0,60 - 0,60 0,40 0,35 0,30
4 0,75 0,40 - 0,30 0,55 0,55
2 0,70 0,60 0,70 - 0,30 0,30
1 0,80 0,65 0,45 0,70 - 0,40
5 0,65 0,70 0,45 0,70 0,60 -
= 3,50 2,75 2,45 2,40 2,00 1,90
Estmulos/tems 6 3 4 2 1 5
6 - -0,25 -0,67 -0,52 -0,84 -0,39
3 0,25 - 0,25 -0,25 -0,39 -0,52
4 0,67 -0,25 - -0,52 0,13 0,13
2 0,52 0,25 0,52 - -0,52 -0,52
1 0,84 0,39 -0,13 0,52 - -0,25
5 0,39 0,52 -0,13 0,52 0,25 -
(a) = 2,67 0,66 -0,16 -0,25 -1,37 -1,55
=
(b) 0,45 0,11 -0,03 -0,04 -0,23 -0,26
5...1. 24..3.6
Sin embargo, esta escala tiene el inconveniente de los valores negativos. Para que empiecen
en 0, simplemente sumamos el valor necesario a la ms baja para que sea 0, y este mismo
valor al resto.
5...1. 24..3.6
Para la obtencin de los datos empricos (i. e. los datos para crear la escala) se utilizan tres
procedimientos:
Si a la primera categora se le asocia el valor 1, los lmites del intervalo correspondiente sern
[0,5 1,5] y as sucesivamente hasta la ltima, cuyos lmites sern [10,5 11,5].
La tarea de los jueces consistir en clasificar cada estmulo en una de las categoras. Dado que
se conocen los valores escalares de las categoras (del 1 al 11) y a sus lmites, slo es necesario
calcular los valores escalares de los estmulos. Para esto se crea una matriz (tabla) en donde:
Ejemplo: siguiendo con el ejemplo del estudio de la actitud hacia la institucin del matrimonio,
supongamos ahora que los dos tems a continuacin se evalan por 300 jueces en una escala
de 11 categoras, obteniendo los siguientes resultados:
Categoras
1 2 3 4 5 6 7 8 9 10 12
t. 5 50 100 60 40 25 15 10 0 0 0 0
t. 6 0 0 0 0 10 15 25 40 60 100 50
Fa(5) 50 150 210 250 275 290 300 300 300 300 300
Fa(6) 0 0 0 0 10 25 50 90 150 250 300
Para hallar la mediana se calculan las frecuencias acumuladas para cada tem, Fa(5) y Fa(6), y
despus se utiliza la frmula para el clculo de la mediana:
= + ( )
2
Donde:
Teniendo en cuenta que la categora 1 indica una actitud muy deformable y la categora 11 una
actitud muy favorable, los dos tems se sitan bastante cerca de cada extremo.
Para seleccionar los tems que han de formar parte de la escala se elegirn aquellos en los que
los jueces hayan mostrado un mayor acuerdo, una menor ambigedad o una pequea
desviacin tpica. Como medida del grado de acuerdo se puede utilizar el coeficiente de
ambigedad (C.A.), que es la distancia entre el tercer y el primer cuartil.
Donde las letras significan lo mismo, teniendo en cuenta que el percentil 25 (cuartil 1) es la
puntuacin que deja por debajo el 25% de los sujetos de la muestra (75 sujetos) y el percentil
75 la que deja por debajo el 75% de los jueces (225).
En este caso los tems 5 y 6 deberan ser eliminados, aunque al tener un valor muy cercano a 2
podran mantenerse.
La escala completa debe contener tems que cubran todo el contenido de actitud.
Conclusiones
Sea cual sea el mtodo utilizado, una vez asignados los valores escalares a los tems, la escala
ya est lista para ser utilizada y podr ser aplicada a una muestra piloto para su evaluacin y
construccin de la escala definitiva.
Para su presentacin, los tems pueden ordenarse aleatoriamente o en funcin de sus valores
escalares. Los sujetos debern leer el enunciado de cada tem y decir si estn de acuerdo o no
con ellos en funcin de su posicin personal, sus propios sentimientos, opiniones o actitud.
Por este motivo, en la prueba piloto se emiten juicios de valor.
La puntuacin en la escala para cada sujeto se obtiene calculando la media de los valores de
los tems con los cuales el sujeto estuvo de acuerdo.
Supongamos que un sujeto ha mostrado su acuerdo con cuatro tems de la escala para medir
la actitud hacia el matrimonio. Si los valores escalares de esos tems son 8,5; 9,3; 10 y 8,7; la
puntuacin del sujeto ser 9,12. Este valor indica que la actitud del sujeto es bastante
favorable hacia la institucin matrimonial.
Hoy en da, modelos sumativos (como el de Likert), son ms tiles para la medida de actitudes.
La tcnica de Likert
Las escalas de Thurstone eran muy laboriosas de construir (prueba de jueces, etc.) y Likert
trat de elaborar escalas ms sencillas pero igualmente fiables.
Fundamentos de la tcnica
Likert parte del supuesto de que las actitudes pueden medirse a travs de las manifestaciones
verbales de los sujetos, y su tcnica se basa en que:
En cuanto a la medicin, la tcnica de Likert asume un nivel de medida ordinal: ordena a los
sujetos en una escala en funcin de su posicin favorable/desfavorable respecto a la actitud
de medida.
Es una escala sumativa porque la puntuacin asignada al sujeto en la escala es funcin de las
puntuaciones obtenidas en cada uno de los tems. Esto supone que:
Qu significa que la suma de las curvas caractersticas de los tems es una funcin
monotnica? Ejemplo: esto significa que cuanto ms favorable sea la actitud de un sujeto hacia
aquello que se est midiendo, ms probable es que elija en cada tem la categora que indique
esa postura. No sera normal que sujetos que muestran una actitud muy favorable, elijan tems
que representen actitud desfavorable. Si esto ocurre, esos tems deberan de ser eliminados de
la escala o la escala debera ser revisada.
La redaccin y presentacin de los tems debe permitir a los sujetos emitir juicios de valor y no
juicios de hecho. Por este motivo, cada problema debe ser presentado de forma que cada
sujeto pueda tomar partido entre alternativas opuestas.
La puntuacin de los sujetos en la escala total ser la suma de los valores numricos asignados
a cada una de las categoras elegidas por los sujetos en el conjunto de tems.
Completamente de acuerdo 1 -2
En desacuerdo 2 -1
Indiferente 3 0
De acuerdo 4 1
Completamente de acuerdo 5 2
Los conceptos
El concepto es el estmulo u objeto que ha de evaluar el sujeto.
Osgood utiliz casi siempre sustantivos como estmulos, aunque tambin us adjetivos. Dado
que es imposible cubrir toda el rea a investigar a base de conceptos, es necesario hacer un
muestreo de todos los posibles para seleccionar los ms relevantes, representativos y que
mejor la definan.
Las escalas bipolares representan una reaccin de tipo afectivo hacia el objeto: Bueno Malo,
Sano Enfermo, etc., y estn ancladas en sus extremos por dos adjetivos antnimos que
describen el aspecto del continuo semntico: Fuerte Dbil, Grande Pequeo, etc., a lo largo
del cual se situar el concepto evaluado. Este continuo suele dividirse en siete categoras
(aunque se podra usar otro nmero) y la tarea del sujeto es la de evaluar el concepto y
clasificarlo en funcin de su relacin con los polos de la escala, situndolo en el punto que l
considera que debe estar.
Es una escala sumativa porque la puntuacin del sujeto se obtiene con los nmeros asignados
a cada una de las escalas. Cuando un sujeto clasifica un concepto en la categora media,
significa que considera que no hay asociacin ni relacin semntica entre el concepto y la
escala bipolar utilizada.
Mala 1 2 3 4 5 6 7 Buena
Intil 1 2 3 4 5 6 7 til
Injusta 1 2 3 4 5 6 7 Justa
Existen numerosas tcnicas para identificar y aislar las dimensiones subyacentes al significado
semntico de los conceptos a evaluar: anlisis factorial, anlisis de clster, etc.
Siguiendo el anlisis factorial, Osgood et al. encontraron que para todos los conceptos existen
escalas que definen tres factores o dimensiones muy claras:
El factor valorativo: las escalas de mayor saturacin estaban formadas por adjetivos
que implicaban una valoracin del concepto (Bueno-Malo, Bonito-Feo, Sincero-Falso,
etc.)
El factor de potencia: formado por escalas cuyos adjetivos daban una idea de fuerza
(Fuerte-Dbil, Duro-Blando, Masculino-Femenino, etc.).
El factor de actividad: agrupaba a escalas cuyos adjetivos denotaban un cierto sentido
del movimiento (Activo-Pasivo, Rpido-Lento, Dinmico-Esttico, etc.).
Se comprob que el factor evaluativo era el que explicaba el mayor porcentaje de varianza.
La composicin factorial del concepto, tratando que cada una de las dimensiones
(factores) est representada por 4-6 escalas bipolares (que tengan saturaciones altas
en el factor al que representan y bajas en los otros).
El grado de relevancia que tienen las distintas escalas para la evaluacin de un
concepto. Por ejemplo, en el factor de potencia la escala Bonita-Fea puede ser
relevante para juzgar una serie de fotografas, pero, Justo-Injusto, puede no tener
ninguna relevancia.
La estabilidad semntica de la escala respecto a los conceptos y a los sujetos. Por
ejemplo, la escala Grande-Pequeo tiene un uso denotativo para conceptos como
piedra o elefante mientras que tiene un uso connotativo para conceptos como dios o
patria.
Algunas de estas tcnicas son medidas descriptivas, dentro de las cuales destacan: las
puntuaciones escalares y las puntuaciones factoriales.
Puntuaciones escalares
Con las puntuaciones escalares se puede:
10
Puntuaciones factoriales
Se obtienen con el fin de averiguar la puntuacin que corresponde a cada una de las
dimensiones o factores, tanto a nivel individual como grupal. Se obtienen calculando la media
de las puntuaciones escalares que definen cada una de las dimensiones o factores.
Supongamos que a una muestra de 120 sujetos se le presentan tres escalas para evaluar el
concepto matrimonio, obteniendo los siguientes resultados:
Matrimonio
Pasivo 4 6 8 10 12 30 50 Activo
Escala 1 2 3 4 5 6 7
Lento 6 4 10 8 50 30 12 Rpido
Escala 1 2 3 4 5 6 7
Esttico 10 30 50 12 4 6 8 Dinmico
Escala 7 6 5 4 3 2 1
A partir de las medias de cada escala, calculamos la puntuacin factorial del grupo en la
dimensin Actividad-Pasividad para el concepto matrimonio:
5,58 + 4,92 + 4,83
= = 5,11
3
Teniendo en cuenta que la escala utilizada tiene el punto neutro en el 4, la puntuacin factorial
de 5,11 indica que la muestra considera el concepto matrimonio ligeramente activo. Lo mismo
se podra hacer para el resto de dimensiones.
11
La tcnica de Guttman
El Escalograma de Guttman se desarroll como alternativa a los modelos de Thurstone y Likert
para la medida de actitudes, aunque tambin se puede emplear para tests en los que haya
respuestas correctas o incorrectas.
El modelo se basa en la idea de que es posible ordenar los estmulos de manera que:
Los sujetos y los estmulos se representan, a lo largo de un continuo, formando una escala de
entrelazamiento en donde cada sujeto estar situado entre dos estmulos.
Ejemplo: la siguiente matriz de datos son las respuestas de cinco sujetos a cuatro elementos
dicotmicos (1: acuerdo o acierto; 0: desacuerdo o fallo). Con estos datos, tendramos una
escala de Guttman perfecta (matriz triangular).
Tabla 6. Matriz de datos.
Elementos
Puntuacin
Sujetos A B C D
sujeto
1 1 1 1 1 4
2 1 1 1 0 3
3 1 1 0 0 2
4 1 0 0 0 1
5 0 0 0 0 0
Puntos tem 4 3 2 1
5 A 4 B 3 C 2 D 1
En la prctica es muy difcil conseguir escalas perfectas como esta, por lo que el problema
consiste en determinar el grado de desviacin, respecto a la escala perfecta, que se debe
tolerar para aceptar que los datos obtenidos se ajustan al modelo de Guttman.
Nota: para elaborar una escala de conocimientos con respuestas correctas o incorrectas, los
tems se ordenaran en funcin de su grado de dificultad (de fcil a difcil).
12
Despus de este proceso, si la matriz se ajusta a una escala acumulativa perfecta deberamos
de obtener una matriz triangular. Si no, debemos realizar un recuento de los errores para
comprobar el grado de ajuste de los datos al modelo de Guttman.
Ejemplo: en una escala de actitudes, un grupo de 10 sujetos obtuvo los siguientes patrones de
respuesta ante 8 elementos-
Tabla 8. Matriz de respuestas.
Elementos
Puntuacin
Sujetos 1 2 3 4 5 6 7 8
Sujeto
A 1 1 1 1 1 1 1 1 8
B 0 0 0 0 0 0 0 0 0
C 1 1 1 0 1 1 0 0 5
D 1 0 0 0 1 0 0 0 2
E 1 1 1 1 1 1 1 1 8
13
F 1 1 1 0 0 0 0 0 3
G 1 1 1 1 1 0 1 0 6
H 0 0 0 1 0 0 0 0 1
I 1 0 0 0 0 0 0 0 1
J 1 1 1 1 0 0 1 1 6
Aciertos 8 6 6 5 5 3 4 3
Ahora hay que reordenar las columnas desde el elemento ms difcil al ms fcil (menos
acertado al ms acertado o, en una escala de actitud, del menos aceptado al ms aceptado).
Tabla 9. Matriz de respuestas con las columnas ordenadas.
Elementos
Puntuacin
Sujetos 6 8 7 4 5 2 3 1
Sujeto
A 1 1 1 1 1 1 1 1 8
B 0 0 0 0 0 0 0 0 0
C 1 0 0 0 1 1 1 1 5
D 0 0 0 0 1 0 0 1 2
E 1 1 1 1 1 1 1 1 8
F 0 0 0 0 0 1 1 1 3
G 0 0 1 1 1 1 1 1 6
H 0 0 0 1 0 0 0 0 1
I 0 0 0 0 0 0 0 1 1
J 0 1 1 1 0 1 1 1 6
Aciertos 3 3 4 5 5 6 6 8
Elementos
Nmero de
Sujetos 6 8 7 4 5 2 3 1 Puntuacin Sujeto
errores
B 0 0 0 0 0 0 0 0 0 0
H 0 0 0 1 0 0 0 0 1 2
I 0 0 0 0 0 0 0 1 1 0
D 0 0 0 0 1 0 0 1 2 2
F 0 0 0 0 0 1 1 1 3 0
C 1 0 0 0 1 1 1 1 5 2
G 0 0 1 1 1 1 1 1 6 0
J 0 1 1 1 0 1 1 1 6 2
E 1 1 1 1 1 1 1 1 8 0
A 1 1 1 1 1 1 1 1 8 0
Aciertos 3 3 4 5 5 6 6 8
En este momento hay que analizar si los tems que han recibido el mismo nmero de
aceptaciones (6 y 8; 4 y 5; 2 y 3) se podran reordenar para reducir los errores. En este caso, la
inversin de estas columnas no reduce el nmero de errores.
14
El sujeto J ha acertado 6 tems. Segn el modelo Guttman estos deberan de haber sido
los 6 ms fciles. Sin embargo, acert el tem 8 pero fall el 5, con lo cual tiene 2
errores.
El sujeto H ha acertado 1 tems. Segn el modelo Guttman debera de haber sido el
ms fcil. Sin embargo, acert el tem 4 pero fall el 8 (el ms fcil), con lo cual tiene 2
errores.
. . = 1 =1
Unos datos empricos se ajustan al modelo de Guttman si su coeficiente de reproductividad es
mayor o igual que 0,90.
En el ejemplo:
8
. . = 1 = 0,90
10 8
Por lo tanto, los datos son escalables segn el modelo de Guttman.
15
X = V + E
Supuestos del modelo:
Las puntuaciones verdaderas de los sujetos son iguales en ambos tests, por lo tanto:
o X=V+E
o X = V + E
La varianza de los errores de medida es la misma en ambos tests (2 =
2 ).
De esto se deduce que todos los estadsticos grupales (media, varianza, etc.) han de ser iguales
en ambas formas paralelas.
La correlacin entre las puntuaciones empricas obtenidas por una muestra de sujetos
en dos formas paralelas del test.
El cociente entre la varianza de las puntuaciones verdaderas y la varianza de las
puntuaciones empricas
2
= 2
El error tpico de medida es la desviacin tpica de todos los errores de medida (es una medida
grupal, porque se utilizan los errores de todos los sujetos).
El error de sustitucin es la diferencia entre las puntuaciones obtenidas por un sujeto en dos
tests paralelos (e = X1 X2). El error tpico de sustitucin es la desviacin tpica de los errores
de sustitucin.
La relacin entre la fiabilidad de un test y su longitud viene dada por la siguiente ecuacin:
1,5 0,78
= =
1 + ( 1) 1 + (1,5 1)0,78
Donde:
Ejemplo: supongamos que tras aplicar un test de 50 tems a una muestra de sujetos se obtiene
un coeficiente de fiabilidad de 0.6. Si se incrementa n = 2 veces la longitud del test tendramos
que el nuevo coeficiente de fiabilidad sera 0.75. Si n = 2, entonces el nmero de elementos del
test alargado sera 100 (EF = EI * n = 50 * 2 = 100).
Ejemplo 2: Cunto deberamos de aumentar la fiabilidad del test hasta obtener un valor de
0,93?
(1 ) 0,93(1 0,60)
= = = 8,85 9
(1 ) 0,60(1 0,93)
Con lo cual deberamos de hacer el test 9 veces ms largo que el original de 50 tems (es decir,
que tuviera 450 tems).
Variabilidad de la muestra
El coeficiente de fiabilidad vara en funcin de la variabilidad de la muestra a la que se aplica:
la fiabilidad es menor cuanto ms homogneo es el grupo (cuanto menor es la desviacin
tpica de las puntuaciones empricas).
La siguiente frmula nos permite relacionar los coeficientes de fiabilidad de dos grupos:
12
22 = 1 (1 11 )
22
Donde:
2 400
Y despus, aplicando la frmula: 22 = 1 12 (1 11 ) = 1 100 (1 0,84) = 0,36
2
Los dos siguientes mtodos basados en la estabilidad de las medidas permiten calcular el
coeficiente de fiabilidad:
Tiene la ventaja de que si ambos test se aplican en el mismo momento se tiene mayor control
de los sujetos y el inconveniente de la dificultad que supone construir dos tests paralelos.
Mtodo test-retest
Con este mtodo simplemente se aplica el mismo test en dos ocasiones diferentes a la misma
muestra. Se calcula el coeficiente de fiabilidad como el coeficiente de correlacin de Pearson
entre las puntuaciones de los sujetos en ambas aplicaciones.
La ventaja de este mtodo es que slo se requiere de un test. Entre sus inconvenientes
tenemos que:
Algunos sujetos podran memorizarse los tems del test, lo cual aumentara o
disminuira su puntuacin de manera irreal.
El intervalo de tiempo transcurrido entre ambas aplicaciones debe ser suficiente como
para evitar la memorizacin pero sin que el rasgo vare entre las dos aplicaciones.
La actitud del sujeto tambin puede cambiar entre ambas aplicaciones (p. ej.: el grado
de cooperacin del sujeto).
Asignar los primeros n/2 tems a una mitad y los n/2 ltimos a otra. Esta forma no sera
adecuada para tests con tems de dificultad creciente, puesto que las dos mitades no
seran comparables.
Asignar los tems pares a una mitad y los impares a otra. Esta es la manera ms
habitual: se ordenan los elementos por dificultad y se asignan los pares a una mitad y
los impares a la otra.
Asignar los tems al azar a una mitad o a la otra, lo cual no es muy recomendable.
Con el mtodo de las dos mitades la fiabilidad se puede estimar con las siguientes frmulas:
Spearman-Brown, Rulon y Guttman-Flanagan.
Spearman-Brown
Con este mtodo:
Rulon
Este test se puede aplicar para estimar la fiabilidad de un test aun cuando las mitades no son
estrictamente paralelas pero s tau-equivalentes (las puntuaciones verdaderas de los sujetos
son iguales en ambas formas pero las varianzas del error no tienen por qu) o esencialmente
tau-equivalentes (las puntuaciones verdaderas en un test es igual a la del otro ms una
constante).
En este caso:
Se calculan las puntuaciones totales y las obtenidas en los tems pares e impares.
Se calcula la diferencia entre las puntuaciones y su varianza.
2
Se aplica la frmula de Rulon: = 1 2 (donde 2 es la varianza de las diferencias
entre las puntuaciones pares e impares y 2 es la varianza de las puntuaciones
empricas de los sujetos)
Ejemplo: se aplica un test de fluidez verbal compuesto por 6 tems a 6 sujetos. En la tala se
recogen las puntuaciones empricas obtenidas por cada sujeto y las puntuaciones en los tems
pares e impares.
= 3,5; 2 = 2,92
2
= 0,17; = 1,14
2 1,14
= 1 2 = 1 2,92 = 0,61
Sujetos X P I D
A 4 3 1 2
B 1 1 0 1
C 6 3 3 0
D 2 1 1 0
E 3 1 2 -1
F 5 2 3 -1
Guttman-Flanagan
Guttnon y Flanagan llegaron a una frmula equivalente a la de Rulon y ms sencilla:
2 + 2
= 2(1 )
2
Ejemplo: aplicando un test de percepcin visual a una muestra de seis sujetos se obtienen las
siguientes respuestas para cinco tems. Se quiere calcular el valor del coeficiente de fiabilidad
del test.
C 4 2 2 3 3 14
D 2 1 1 2 1 7
E 1 1 1 2 1 6
F 0 0 1 1 1 3
1 = 2; 12 = 1,67
2 = 1,83; 22 = 1,82
3 = 1,67; 32 = 0,54
4 = 2,5; 42 = 0,92
5 = 2,33; 52 = 1,90
= 10,33; 2 = 27,29
Estimador insesgado de
Ejemplo: supongamos que a una muestra de 150 sujetos se les ha aplicado un test y se ha
obtenido un valor de = 0,75, cul es el valor del estimador insesgado?
(150 3) 0,75 + 2
=
= 0,75
150 1
El coeficiente como lmite inferior del coeficiente de fiabilidad
Si los tems del test son paralelos el coeficiente es igual al coeficiente de fiabilidad rXX. Si no,
el coeficiente se puede considerar como una estimacin del lmite inferior del coeficiente de
fiabilidad: rXX.
Inferencias sobre
El coeficiente nos proporciona una estimacin de la fiabilidad de un test basada en la
consistencia del mismo.
Se puede ver un ejemplo de esta inferencia en la pgina 203 del libro de Psicometra.
Se puede ver un ejemplo de esta inferencia en la pgina 206 del libro de Psicometra.
Se puede ver un ejemplo de esta inferencia en la pgina 208 del libro de Psicometra.
2
=1
+ 2
Donde:
Nota: en general y para los mismos datos, se cumple que . La igualdad se da cuando
los tems son paralelos.
Ejemplo: en la siguiente tabla aparecen los valores de la varianza explicada por los cinco factores
obtenidos en un anlisis factorial de 5 variables. La suma de las comunalidades es igual a 4,95 y
la suma de las correlaciones entre los tems es igual a 5,1.
2 5 4,95
=1 1 = 0,869
+ 2 5 + 2 5,1
1 5 1
= (1 ) = (1 ) = 0,996
1 1 51 3,286
Un test est compuesto por varios subtests con distinto nmero de tems.
Se desconocen las puntuaciones de los sujetos en los tems de los distintos subtests (si
se conocen es mejor aplicar el coeficiente ).
2 =1 2
= 2
2 (1 =1 ( ) )
Donde:
k es el nmero de subtests.
2 es la varianza del test.
2 es la varianza de cada subtest.
nj es el nmero de tems en cada subtest.
N es el nmero de tems en total.
Ejemplo: se ha aplicado un test de destreza manual compuesto por 4 subtests a una muestra
de 200 empleados de correos. Los subtests estn compuestos por 18 (A), 30 (B), 45 (C) y 55 (D)
tems respectivamente. La varianza total del test es 50 y las de cada subtest son 5 (A), 7 (B), 9
(C) y 11 (D). Calcular y .
2 =1 2 50 (5 + 7 + 9 + 11)
= 2 = = 0,50
50 [1 (0,015 + 0,041 + 0,092 + 0,138)]
2 (1 =1 ( ) )
10
4 5 + 7 + 9 + 11
= (1 ) = 0,48
41 50
= 1 = 71 0,73 = 3,64
1
1 = 0,95 = 4,5
2
{|65 | 3,64 4,5} 0,95
{16,38 65 16,38} 0,95
11
Para determinar el intervalo de confianza que contendr la puntuacin verdadera del sujeto
hay que:
1) Fijar el nivel de confianza y calcular el punto crtico (Zc) correspondiente. Por ejemplo,
para un N.C.=95% el valor de Zc ser 1,96.
2) Calcular el error tpico de medida :
a. = 1 para puntuaciones directas o diferenciales.
b. = 1 para puntuaciones tpicas.
3) Calcular el error de medida mximo (Emx) que estamos dispuestos a admitir:
=
4) Calcular el intervalo de confianza:
=
= 1 = 71 0,73 = 3,64
= 1 = 1 0,73 = 0,52
Puntuacin directa: = 65
Puntuacin diferencial: = 65 52 = 13
En todo caso: la correlacin es siempre positiva por lo que las puntuaciones empricas son
siempre sesgadas. Esto implica que para construir el intervalo de confianza es mejor emplear
12
la puntuacin verdadera estimada (V, v Zv) en lugar de las puntuaciones empricas, como
vimos en el apartado anterior.
Ejemplo: con los datos del ejemplo anterior, estimar la puntuacin verdadera de un sujeto que
obtuvo una puntuacin emprica de 65 puntos con un N.C.=95%.
= = 0,73 13 = 9,49
Con las puntuaciones tpicas:
Estos tres valores (V, v y Zv) son las puntuaciones verdaderas estimadas, las cuales se
emplearn ahora para calcular los intervalos de confianza de la puntuacin verdadera:
1) Fijar el nivel de confianza y calcular el valor zeta crtico (Zc) correspondiente. Por
ejemplo, para un N.C.=95% el valor de Zc ser 1,96.
2) Calcular el error tpico de estimacin :
a. = 1 para puntuaciones directas o diferenciales.
b. = 1 ppara puntuaciones tpicas.
3) Calcular el error de medida mximo (Emx) que estamos dispuestos a admitir:
a. = para puntuaciones directas o diferenciales.
b. = para puntuaciones tpicas.
4) Calcular el intervalo de confianza:
= V|v|
Ejemplo: en la pgina 222 del libro de texto contina el ejemplo con el clculo de los intervalos
de confianza.
2 2
= 1
2
Donde:
13
Los TRC no constituyen un nuevo marco terico en la Teora de los Tests si no un nuevo
enfoque que responde a preguntas y necesidades distintas de los tests referidos a las normas
(TRN):
En los TRN el objetivo es maximizar las diferencias individuales por lo que se escogen
tems de dificultad media y alto ndice de discriminacin.
En los TRC la seleccin se basa en los objetivos, propsito y finalidad del test.
Hay dos maneras de reducir el nmero de errores que se pueden cometer sin tener que
aumentar la longitud del test: la utilizacin de modelos bayesianos y la utilizacin de mtodos
basados en tests computerizados.
Modelo de Millman
El modelo binomial de Millman permite calcular la longitud de un test en funcin de la
proporcin esperada de tems que debe de contestar para ser considerado apto y del error
mximo que se est dispuesto a tolerar:
(1 )
=
2
Donde:
Ejemplo: para un determinado test se ha establecido que la proporcin de aciertos para ser
considerado apto es 0,85. Se desea saber la longitud del test si estamos dispuestos a admitir
un error mximo de 0,05 y uno de 0,02.
Los ndices para el clculo de la fiabilidad que veremos se pueden dividir en dos grupos:
Los que requieren dos aplicaciones del test: Hambleton y Novick, Kappa de Cohen y
Crocker y Algina.
Los que requieren una sola aplicacin del test: mtodo de Huyhn, mtodo de Subkoviak
y coeficiente de Livington.
Este procedimiento se entiende mejor con un ejemplo. Supongamos que los datos de la
siguiente tabla representan la puntuacin total de 20 sujetos en dos tests paralelos
compuestos por 12 tems y que se debe responder correctamente a 7 de ellos para ser
clasificado dentro del grupo de maestra.
Tabla 1. Puntuacin total.
Estas puntuaciones pueden agruparse tal y como aparece en la siguiente matriz, en funcin de
si superan o no la puntuacin de corte que permite clasificarlos en una categora u otra. Como
los sujetos 2 y 4 son los nicos que han sido clasificados en el grupo de maestra en ambos
tests, la celda [Maestra A Maestra B] tiene un 2.
Test B
Test A Maestra No-maestra Total (Nj)
Maestra 2 3 5
No Maestra 1 14 15
Total (Nj) 3 17 N = 20
Donde:
En el ejemplo:
2 14
= + = 0,80
20 20
El valor mximo del pc es 1 cuando los sujetos sean clasificados de la misma forma en ambos
tests y el valor mnimo es la proporcin de clasificaciones consistentes que podemos esperar
por azar (pa), valor que viene dado en funcin de las frecuencias marginales (Nj) de la tabla.
=
2
=1
En el ejemplo:
5 3 15 17
= + = 0,68
202 202
Esto significa que por azar cabra esperar obtener una fiabilidad de 0,68 mientras que
utilizando los tests hemos obtenido una fiabilidad mayor, de 0,80, lo que supone una mejora
importante.
Ejemplo: aplicando este coeficiente Kappa a los datos del ejemplo anterior obtendramos lo
siguiente:
0,80 0,68
= = = 0,38
1 1 0,68
1: fiabilidad perfecta y
0: la consistencia observada es atribuible al azar.
=
( )
Una vez calculado el error tpico de medida se construira un intervalo de confianza (donde Zx
es el valor crtico en la distribucin normal asociado al nivel de confianza):
Si K = 0 se encuentra dentro de los lmites del intervalo se puede establecer que el acuerdo
entre las clasificaciones no es estadsticamente significativo.
Ejemplo: aplicando la frmula a los datos del ejemplo, en primer lugar se calcula el error tpico
de medida:
13,50
= = = 0,32
( ) 20(20 13,50)
Dado que el valor K = 0 se encuentra dentro de los lmites del intervalo se puede establecer
que el acuerdo entre las clasificaciones no es estadsticamente significativo.
= 2 1
Este ndice vale 1 cuando las decisiones son totalmente consistentes y 0 cuando las decisiones
no son ms consistentes que las que resultaran de utilizar test estadsticamente
independientes (cuyas puntuaciones presentan la misma distribucin y un punto de corte igual
a la mediana de la distribucin comn).
Ejemplo: con los datos del ejemplo, dado que pc=0,80, tendramos lo siguiente:
= 2 1 = 2 0,80 1 = 0,60
b) Calcular la puntuacin tpica correspondiente al valor del punto de corte (Zx) con una
correccin de 0,5. Despus se acude a la tabla de la normal para buscar el valor de P
que deja por debajo la Z obtenida.
Ejemplo:
c) A partir de las tablas de Gupta se obtiene la probabilidad (Pzz) de que dos variables
distribuidas normalmente con una correlacin KR21 sean menores que el Z calculado.
Los tems del test deben tener la misma dificultad para poder utilizar el ndice KR21.
Ejemplo: se buscara la probabilidad de que dos variables distribuidas normalmente con una
correlacin KR21=0,37 sean menores que Z = 0,64:
= 0,58
= 1 + 2( )
2
=
2
2 0,58 0,742
= = = 0,16
2 0,74 0,742
Mtodo de Subkoviak
Este mtodo simula las puntuaciones en una segunda forma paralela del test.
Para explicar este mtodo utilizaremos los datos del ejemplo del mtodo de Hambleton y
Novick suponiendo que slo se puede aplicar el test A y que el coeficiente de fiabilidad es 0,62.
Tabla 3. Puntuacin total.
= ( ) + (1 ) ( )
Donde:
es el coeficiente alfa.
X es la puntuacin directa.
N es el nmero de tems del test.
es la media del test.
X fx px Px 1-2(Px - fx(1-2(Px - fx Px
Px2) Px2))
9 1 0,628 0,7362
8 2 0,576 0,5999
7 2 0,525 0,4562
6 4 0,473 0,3164
5 4 0,421 0,1978
4 2 0,370 0,1105
3 3 0,318 0,0522
2 1 0,266 0,0201
1 1 0,215 0,0059
20
En tercer lugar se calcula la probabilidad de que una persona con una puntuacin X y
una probabilidad px, responda correctamente siete o ms tems del test y sea
clasificado dentro del grupo de maestra. Para obtener estos valores podemos hacer
dos cosas:
o Aplicar a cada X y px la funcin de la probabilidad binomial.
o Buscar en las tablas de la distribucin binomial, teniendo en cuenta el nmero
de tems (n), el valor del punto de corte c (7 en nuestro caso) y la probabilidad
de acertar cada tem (px).
Una vez calculados los valores de la cuarta columna, se calcula:
o La probabilidad de que cada sujeto sea consistentemente clasificado en el
grupo de maestra para dos tests independientes: Px Px = Px2.
o La probabilidad de que cada sujeto sea consistentemente clasificado en el
grupo de no maestra en los dos tests: (1-Px) (1-Px) = (1-Px) 2
o Consiguientemente, la probabilidad de clasificacin consistente para cada
sujeto (quinta columna) es: 1-2(Px - Px2).
En la sexta columna se recoge la cantidad de sujetos que obteniendo una puntuacin X
sern consistentemente clasificados: fx[1-2(Px - Px2)].
Finalmente, la suma de los valores de la columna 7 (obtenidos multiplicando la
columna 4 por la 2), representa el nmero de sujetos que superarn el punto de corte
en ambos tests.
[1 2( 2 )]
= =
Con los datos del ejemplo:
[1 2( 2 )] 13,9172
= = = 0,695
20
Para calcular el coeficiente Kappa hay que calcular el valor de la probabilidad de clasificacin
consistente por azar (pa) a partir del nmero total estimado de sujetos clasificados en el grupo
de maestra (columna 7):
2
= 1 2 ( ( ) )
En el ejemplo:
2
5,3088 5,3088 2
= 1 2 ( ( ) ) = 1 2( ( ) ) = 0,61
20 20
Coeficiente de Livingston
En los mtodos presentados hasta ahora se consideran por igual tanto los errores cometidos
cuando clasificamos a un sujeto perteneciente al grupo de maestra en el grupo de no-maestra
como los inversos. El coeficiente de Livington (desarrollado en el marco de la TCT) s que tiene
en cuenta este tipo de errores, considerando ms importantes los errores de clasificacin de
los sujetos ms distanciados del punto de corte de aquellos que estn ms cerca del punto de
corte. Lgicamente, es ms fcil cometer errores cerca del punto de corte que lejos.
2
2 + ( )2
=
2 + ( )2
Donde:
es el coeficiente alfa.
2 es la varianza del test.
es la media del test.
c es el punto de corte.
Ejemplo: aplicando la frmula a los datos del ejemplo anterior, con = 0,62, = 5,15, 2 =
4,45 = 7:
2
2 + ( )2 0,62 4,45 + (5,15 7)2
= =
2 + ( )2 4,45 + (5,15 7)2
A medida que el punto de corte se distancia del valor de medida de la test, ms aumenta el
valor del coeficiente. Cuando la media del test coincide con el punto de corte, es igual al
coeficiente . Cuando el coeficiente de fiabilidad es igual a 1, el coeficiente de Livington
2
tambin lo es. Por lo tanto: .
importancia y est sujeta a un grado de subjetividad. Para establecerlos se suele contar con un
grupo de expertos.
Mtodos valorativos
Estos mtodos se basan en la evaluacin sobre los tems del test que un grupo de expertos
realiza.
Mtodo de Nedelsky
Es el primer procedimiento establecido para establecer puntos de corte en tests de
competencia mnima. Este mtodo se utiliza con tests compuestos de tems de eleccin
mltiple.
Para cada tem, los expertos deben de analizar las alternativas posibles e identificar las
que sern consideradas como errneas por un sujeto que tenga los conocimientos
mnimos para ser considerado competente. Se asume que elegir la respuesta correcta
entre las que quedan (p. ej.: si hay seis alternativas y considera cuatro como falsas,
elegir al azar entre las dos que quedan).
A continuacin se calcula el recproco dividiendo uno por las respuestas que quedan
(p. ej.: en el ejemplo anterior, 1/2=0,5). Esta puntuacin es la esperada para un sujeto
en un tem determinado.
Para calcular la puntuacin de un sujeto mnimamente cualificado se suman todos los
valores esperados para cada tem.
El promedio de las puntuaciones otorgadas por todos los jueces nos dar la
puntuacin de corte para el test.
a) El manillar.
b) El espejo retrovisor.
c) El motor de arranque.
d) La rueda de repuesto.
e) Los intermitentes.
f) Los faros.
Un juez considera que un sujeto con conocimientos mnimos descartara las opciones
a, b y d.
La puntuacin esperada para un sujeto mnimamente competente vendra dada por
1/3=0,33.
El valor esperado por ese juez para ese tipo de sujeto en el test sera la suma de todos
los valores esperados en cada tem.
10
Para corregir los posibles efectos del azar a la hora de determinar el punto de corte se puede
utilizar la siguiente expresin:
=
1
Donde:
Pc es la puntuacin corregida.
N es el nmero de tems.
A es la media de los valores esperados.
n es el nmero de alternativas de cada tem.
Mtodo de Angoff
Es una variacin del mtodo de Nedelksy aplicable a toda clase de tems (no slo a los de
eleccin mltiple).
En este caso los jueces no deben de juzgar cada alternativa del tem sino que deben evaluar el
tem globalmente y determinar la probabilidad de que un sujeto con conocimientos mnimos lo
responda correctamente.
La puntuacin total establecida por cada uno de los jueces para cada sujeto se considera como
la puntuacin estimada de un sujeto mnimamente competente. Para calcular el punto de
corte:
Se suman los valores de las probabilidades establecidas para cada tem por cada uno
de los jueces (puntuacin total para cada sujeto).
Se calcula la media de las puntuaciones totales de cada juez.
Opcionalmente, se puede aplicar la correccin del azar.
Ejemplo: supongamos que las puntuaciones totales de 4 jueces son 2,29; 1,62; 2,45 y 1,80. El
punto de corte sera:
(2,29 + 1,62 + 2,45 + 1.80)
= 4 = 2,04
Mtodo de Ebel
En este mtodo los jueces evalan cada tem globalmente desde dos puntos de vista:
11
De esta manera se crea una matriz con doce categoras (3: dificultad x 4: relevancia) en la que
aparecern clasificados todos los tems. Una vez hecha la tabla, los jueces proceden a
establecer un porcentaje (para cada casilla) que representa el nmero de tems que sern
contestados correctamente por un sujeto con una competencia mnima. Finalmente se calcula
el punto de corte con la siguiente ecuacin:
= ()
Donde:
Dificultad
Relevancia Fcil Medio Difcil
Esencial 20 20 10
Juez: 80% Juez: 60% Juez: 30%
Importante 30 18 7
Juez: 70% Juez: 55% Juez: 30%
Aceptable 25 15 10
Juez: 65% Juez: 50% Juez: 25%
Dudoso 14 6 5
Juez: 40% Juez: 45% Juez: 20%
Mtodo de Jaeger
Este mtodo se puede considerar como una variacin del mtodo de Angoff. En este caso se le
pregunta a cada juez si cada uno de los tems del test ser contestado correctamente por los
sujetos. El proceso para poder determinar el punto de corte percisa de tres sesiones:
12
3) En la tercera sesin se vuelve a presentar los datos de la sesin anterior a los jueces y
se les pide que valoren nuevamente los tems. Al igual que en la sesin anterior, los
jueces pueden ir modificando sus juicios en funcin de la informacin que se les
proporciona.
Finalmente, el punto de corte se calcula como la mediana ms baja de los diferentes grupos de
jueces.
Ejemplo: con los datos de los ejemplos tendramos que: Md1=3, Md2=4 y Md3=5. El punto de
corte sera 3.
Mtodos combinados
En los mtodos anteriores los jueces se suponan expertos en los contenidos a evaluar. En este
caso, los jueces adems tienen que conocer la competencia de los sujetos en la materia en que
se evala, puesto que se basan en juicios que los expertos llevan a cabo respecto a la
competencia de los sujetos.
13
Ilustracin 1. Ditribucin de las puntuaciones de los dos grupos. Fuente: B. Garca; M. Isable; V. Abad Enrique; H.
Tello (2010) Psicometra. Madrid: Sanz y Torres.
Mtodos de compromiso
En este tipo de mtodos los jueces incorporan informacin relativa a la posicin de un sujeto
con relacin a su grupo.
Mtodo de Beuk
Para la estimacin del punto de corte con este mtodo los jueces han de tener en cuenta:
14
Ilustracin 2. Punto de corte en el mtodo de Beuk. Fuente: B. Garca; M. Isable; V. Abad Enrique; H. Tello (2010)
Psicometra. Madrid: Sanz y Torres.
Mtodo de Hofstee
Este mtodo se basa en la informacin proporcionada por los jueces al dar respuesta a cuatro
puntos:
Pmx: el punto de corte que los jueces consideran adecuado (porcentaje de tems que
los sujetos debe superar).
Pmin: el punto de corte que los jueces consideran inadecuado.
Fmx: el porcentaje mximo admisible de sujetos que fallan en el test.
Fmin: el porcentaje mnimo admisible de sujetos que fallan en el test.
Con esta informacin y la distribucin de los valores obtenidos en el test, se establece el punto
de corte mediante la siguiente representacin grfica. El punto de corte est en la interseccin
entre la recta que va de A (interseccin Pmin - Fmx) a B (interseccin Pmx y Fmin) y la distribucin
de los resultados del test.
15
Ilustracin 3. Punto de corte en el mtodo de Hofstee. Fuente: B. Garca; M. Isable; V. Abad Enrique; H. Tello (2010)
Psicometra. Madrid: Sanz y Torres.
16
El concepto de validez hace referencia al grado de relacin entre el test y el constructo que se
quiere medir: cuanto ms estrecha sea esta relacin ms vlido ser el test. Es importante
aclarar que cuando se habla de la relacin entre el test y el constructo, en realidad se hace
referencia a la relacin entre las puntuaciones obtenidas por los sujetos en el test y la medida
obtenida en el indicador o indicadores del constructo.
Tras aos de estudios, se concluy que existen tres tipos de validez: de contenido, relativa al
criterio (que incluye a la predictiva y la concurrente) y de constructo. Se asume que los
distintos tipos de validez van unidos a los objetivos concretos en el uso de los tests, de ah la
importancia de definir cules van a ser estos objetivos:
Actualmente parece haber un acuerdo generalizado en que, desde el punto de vista cientfico,
la nica validez que se debe de considerar es la de constructo y que las otras dos quedaran
incluidas dentro de esta, siendo estrategias para comprender mejor lo que mide el test. Ya no
se habla de distintos tipos de validez y la validacin de los tests es un proceso continuo que
permite obtener distintos tipos de evidencia emprica. Un proceso de validacin ideal debe
incluir los tipos de evidencia incluidos en los tres tipos tradicionales de validez.
Validacin de contenido
El objetivo general en un estudio de validacin de contenido es analizar hasta qu punto los
elementos o tems que componen el test son una muestra representativa y relevante del
constructo sobre el que se van a realizar las inferencias:
Ejemplo: supongamos que un grupo de 100 expertos ha de juzgar la relevancia de 3 tems para
medir la calidad de la enseanza (constructo de inters). En la tabla se muestran las
valoraciones de los expertos a cada tem, donde la categora 1 indica un mal ajuste entre el
tem y el constructo y la categora 5 un muy buen ajuste.
Calculando las medianas para los tres tems, obtenemos que: MedA=4, MedB=2,25 y
MedC=2,90.
Ante estos resultados se puede decir que el tem A tiene un muy buen ajuste y, por tanto, se le
puede considerar relevante para la medida de la calidad de la enseanza. Los otros dos no
deberan incluirse puesto que el ajuste no es muy bueno.
Escala
tems
1 2 3 4 5
A 0 10 10 60 20
B 20 40 30 120 0
C 10 20 50 10 10
Validacin de constructo
Este tipo de validacin da significado a las puntuaciones de los tests: permite obtener
evidencia de que las conductas observables que se han elegido como indicadores del
constructo realmente lo son.
Si se confirman las relaciones postuladas en las hiptesis planteadas, se puede considerar que
tanto el constructo como el test son tiles.
Los estudios de validacin del constructo se centran en analizar la estructura interna y externa
del test:
Interna: estudiar las interrelaciones entre las puntuaciones obtenidas por los sujetos
en los distintos tems del test.
Externa: estudiar las relaciones entre las puntuaciones obtenidas en el test y otras
medidas del mismo constructo obtenidas en variables relevantes externas al mismo.
Entre los mtodos para validar el constructo destacan el mtodo de la matriz multimtodo-
multirrasgo y el anlisis factorial.
La matriz multimtodomultirrasgo
Este mtodo permite el anlisis de la estructura externa de uno o varios tests. La lgica es la
siguiente:
Ejemplo: supongamos que se quieren medir tres constructos: razonamiento numrico (RN),
factor espacial (FE) y razonamiento abstracto (RA), para lo cual se han elaborado tres
procedimientos con distinto formato: Verdadero-Falso (V-F), Eleccin mltiple (E-M) y Frases
incompletas (F-I).
Para analizar la validez convergente y discriminante, se aplican todas las pruebas a una muestra
de sujetos, obteniendo unos resultados a partir de los cuales se calculan todas las
intercorrelaciones posibles, recogidas en la matriz que se presenta a continuacin:
Los valores de las diagonales (entre corchetes) son los distintos coeficientes de
fiabilidad. Se corresponden a la correlacin entre las puntuaciones obtenidas al medir el mismo
constructo utilizando el mismo procedimiento (p. ej.: test paralelos).
Los valores en negrita corresponden a las correlaciones obtenidas al medir distintos
constructos con los mismos procedimientos.
Los valores subrayados y en cursiva son las correlaciones obtenidas al medir el mismo
constructo con distintos procedimientos. Son los indicadores de la validez convergente.
Uno de los problemas de este procedimiento es que no existe un criterio estadstico para tomar
decisiones acerca de si el test tiene realmente validez convergente y discriminante, tan slo se
puede decir que parece haber evidencia de su existencia o ausencia. Para obtener mayor
informacin se est utilizando el anlisis factorial confirmatorio.
El Anlisis Factorial
El anlisis factorial (AF) incluye una serie de tcnicas que tratan de representar y explicar un
conjunto de variables observables (tems, conjunto de test, escalas, etc.) mediante un nmero
ms reducido de variables inobservables (o latentes) llamadas factores.
Ejemplo: supongamos que a la matriz del ejemplo anterior se le aplica alguna tcnica de AF y
que la estructura factorial encontrada es la que se presenta en la siguiente tabla.
Se puede observar que se han obtenido 2 factores: el primero agrupa las medidas
correspondientes a las variables utilizadas como indicadores del constructo razonamiento
numrico (RN) junto a dos correspondientes al constructo razonamiento abstracto (RA). El
segundo factor est definido por todas las medidas correspondientes a las variables utilizadas
como indicadores del constructo razonamiento espacial (RE) junto a otras dos
Se suelen utilizar dos tipos de ndices o medidas para describir la capacidad de un test o
conjunto de tests para predecir un criterio: medidas correlacinales (coeficiente de validez,
determinacin, valor predictivo, etc.) y las medidas de error en prediccin (errores de
estimacin).
Este tipo de estudios se realizan desde dos perspectivas diferentes en funcin del uso del test y
del tipo de inferencias que se quieran realizar:
Si los tests se van a utilizar para la seleccin, clasificacin o colocacin de personas (en
programas o puestos de trabajo), lo interesante es analizar la validez predictiva del
test. La validez predictiva es la capacidad para pronosticar el rendimiento posterior de
los su jetos a partir de las puntuaciones del test.
Si se trata de hacer un diagnstico, es ms adecuado llevar a cabo un estudio de
validez concurrente.
Para disear un estudio de validacin referida al criterio es necesario seguir una serie de
pasos:
6) Determinar el grado de relacin entre las puntuaciones obtenidas por los sujetos en el
test y la medida del criterio.
Thorndike y Hagen consideran que lo sindicadores deben cumplir una serie de requisitos:
El coeficiente de validez
Se define como la correlacin entre las puntuaciones obtenidas por los sujetos en el test
predictor y las obtenidas en el criterio. El tipo de correlacin utilizada para el clculo del
coeficiente de validez depender del tipo de las variables implicadas.
Tabla 3. Tipos de correlaciones en funcin del tipo de variables incluidas.
Indicador Test
criterio Continua Dicotomizada Dicotmica
Continua Pearson Biserial Biserial puntual
Dicotomizada Biserial Tetracrica biserial
Dicotmica Biserial puntual biserial
= +
Donde:
2
= 1 (en puntuaciones directas y diferenciales)
2
= 1 (en puntuaciones tpicas)
Intervalos de confianza
Debido a los errores de estimacin que se cometen al hacer los pronsticos, ms que
estimaciones puntuales conviene hacerlas por intervalos. Los pasos a seguir son:
Coeficiente de determinacin
Equivale al coeficiente de validez al cuadrado y representa la proporcin o porcentaje de la
varianza de las puntuaciones de los sujetos en el criterio (variable dependiente) que se puede
pronosticar a partir del test (variable independiente o predictora). Es la varianza comn entre
el test y el criterio.
2
. . =
Coeficiente de alineacin
Indica la proporcin que representa el error tpico de estimacin respecto a la desviacin tpica
de las puntuaciones en el criterio. En la medida en que el error tpico sea ms pequeo que la
desviacin tpica, este ndice K ser menor. K vara entre 0 y 1: ser mximo cuando el
coeficiente de validez sea 0 y mnimo cuando el coeficiente de validez sea 1.
2
. . = = = 1
2
. . . = 1 = 1 1
Ejemplo
Supongamos que se quiere llevar a cabo un estudio de validacin relativa al criterio de un test
de aptitud mecnica (X), para lo cual ser aplica a una muestra de sujetos representativa de la
poblacin en la que se va a utilizar el test. Estos sujetos son evaluados posteriormente pos sus
Dado que ambas variables son cuantitativas, para calcular el coeficiente de validez se utiliza el
coeficiente de correlacin de Pearson:
6 473 43 61
= = 0,73
[6 711 612 ][6 335 432 ]
Dado que el valor mximo del coeficiente de validez es 1, se puede deducir que el test tiene
buena capacidad predictiva. Una vez calculado este coeficiente, se calculan las ecuaciones de
regresin en puntuaciones directas, diferenciales y tpicas.
2 ( )2
= = 2,12
2
= = 1,46
Para hacer la estimacin en puntuaciones tpica shay que tener en cuenta que el error tpico de
2
estimacin es diferente y hay que calcularlo: = 1 = 0,69. El error mximo por
tanto ser: = = 1,35.
Aplicacin de las ecuaciones de regresin al valor X=13 para obtener las puntuaciones
pronosticadas:
o Puntuaciones directas: = 3,15 + 0,395 (13) = 8,28.
o Puntuaciones diferenciales: = 0,395 (13 10,17) = 1,18.
o Puntuaciones tpicas: = 0,73 = 0,53.
= 8,26 2,86
= 1,18 2,86
= 0,53 1,35
10
Nota: en esta asignatura se ver una introduccin al tema utilizando slo dos variables
predictoras puesto que con ms, el procedimiento y los clculos se complican.
Correlacin parcial
Permite interpretar el grado de correlacin entre la variable criterio (Y) y una de las variables
predictoras, eliminando de antemano el efecto que sobre dicha correlacin puedan ejercer el
resto de las variables.
1 2 1 2 2 1 1 2
1 2 = 2 1 =
2
(1 2
) (1 21 2 ) 2
(1 1
) (1 21 2 )
Correlacin semiparcial
La correlacin semiparcial permite conocer el grado de correlacin entre la variable criterio (Y)
y una de las variables predictoras, eliminando el efecto que esta variable predictora pueda
estar ejerciendo sobre el resto de las variables.
1 2 1 2 2 1 1 2
(1 2 ) = (2 1 ) =
(1 21 2 ) (1 21 2 )
La primera frmula presenta la correlacin entre la variable criterio (Y) y la variable predictora
X1, cuando de esta variable se elimina la influencia que pueda estar ejerciendo la variable
predictora X2.
2 2
+ 21 2 1 2
1 2 = 1 2
1 21 2
1 2 = 1 1 + 2 2
= + 1 1 + 2 2 + +
Donde Y es la puntuacin pronosticada en el criterio; a es la ordenada en el origen; los bi son
los coeficientes de regresin; y las Xi son las variables predictoras.
Ecuaciones de regresin
Puntuaciones tpicas
La ecuacin de regresin es:
= 1 1 + 2 2
Siendo:
1 2 1 2 2 1 1 2
1 = 2 2 =
1 1 2 1 21 2
Puntuaciones diferenciales
La ecuacin de regresin es:
= 1 1 + 2 2
Siendo:
1 = 1 2 = 2
1 2
Puntuaciones directas
La ecuacin de regresin es (los coeficientes b son igual que en el caso de las puntuaciones
diferenciales):
= + 1 1 + 2 2
=
+ 1 1 2
2
Consideraciones
Es importante remarcar que:
2
( )2
1 2
=
Donde:
( )2
2
1 2 = 1 2
=
Intervalos de confianza
En lugar de hacer estimaciones puntuales es ms conveniente hacerlas por intervalos debido a
los errores de estimacin que se cometen al hacer los pronsticos. Para ello, asumiendo que la
distribucin de los errores se ajusta a una normal cuya desviacin tpica viene dada por el error
tpico de estimacin mltiple, se establece un intervalo confidencial en torno a una puntuacin
determinada. Los pasos a seguir son los siguientes:
Tambin se define como la varianza comn entre el criterio y las variables predictoras.
2
. . = 1 2
2
. . . = 1 = 1 1 1 2
Ejemplo
Entre las pginas 354 y 361 del libro de Psicometra se puede encontrar un ejemplo completo
de regresin lineal mltiple e interpretacin de los resultados obtenidos.
Mtodo Forward
Dentro de estos mtodos el stepwise (paso a paso) es el ms utilizado. Se procede de la
siguiente manera:
Mtodo Backward
Este mtodo es inverso al anterior y menos utilizado. Al utilizar este mtodo se procede de la
siguiente manera:
Ejemplo
Entre las pginas 363 y 366 del libro de Psicometra se puede encontrar un ejemplo de
aplicacin de estas dos tcnicas.
Ejemplo: se quiere llevar a cabo la seleccin de los alumnos que se admitirn en un doctorado
y no se sabe si la prueba de admisin es vlida, por lo que se quiere llevar a cabo un estudio de
validez. Se aplica la prueba a todos los que han presentado la solicitud de admisin para este
ao y se fija un punto de corte (Xc) de manera que los sujetos que obtengan puntuaciones de
por encima de este punto sern considerados aptos (A) para hacer el doctorado y los que no lo
alcancen sern considerados no aptos (R). Como se puede ver, la prueba utilizada como
predictor para tomar decisiones sobre los aspirantes est dicotomizada. Se admite a todos los
Diremos que la prueba de admisin ser vlida para hacer la seleccin de los alumnos que
acceden al doctorado (y por tanto se podr utilizar el en curso siguiente) cuando las decisiones
tomadas a partir de las puntuaciones en el test se vean confirmadas con las decisiones
tomadas en base a los criterios marcados por el departamento.
Supongamos que los resultados del proceso de validacin son los que recoge la siguiente tabla.
En ella podemos distinguir varios valores importantes:
Aciertos = NAA + NRR: nmero de alumnos calificados del mismo modo en la prueba de
seleccin (test) y en el criterio.
Falsos negativos = NRA: alumnos que superaron el criterio de rendimiento y sin
embargo en la prueba de admisin no superaron el punto de corte. Habran sido rechazados
en el proceso de seleccin pero deberan haber sido admitidos.
Falsos positivos = NAR: alumnos que no superaron el criterio de rendimiento pero s
superaron la prueba de admisin. En un proceso de seleccin no deberan haber sido
seleccionados y, sin embargo, al superar el punto de corte en el predictor s que lo habran
sido.
NAC: nmero de alumnos considerados aptos en el criterio.
NRC: nmero de alumnos considerados no aptos en el criterio.
NAT: nmero de alumnos considerados aptos en el test.
NRT: nmero de alumnos considerados no aptos en el test.
Criterio
A R Marginales
A NAA=18 NAR=2 NAT=20
Test
R NRA=3 NRR=27 NRT==30
Marginales NAC=21 NRC=29 N=50
ndices de validez
Coeficiente Kappa
El coeficiente Kappa es uno de los ms utilizados como indicador de la validez de la prueba de
admisin para pronosticar el criterio. Este coeficiente evala la consistencia o acuerdo entre
las decisiones tomadas a partir de las puntuaciones obtenidas por los sujetos en el predictor
(p. ej.: prueba de admisin) y en el criterio (p. ej.: rendimiento en el doctorado).
Se calcula como:
=
Donde:
= +
= +
El valor mximo del coeficiente de Kappa es 1 (acuerdo total, mxima validez).
Nota: La sensibilidad nos indica la capacidad de nuestro estimador para dar como casos
positivos los casos realmente positivos: proporcin de positivos correctamente identificados.
Especificidad
La especificidad es la proporcin de aspirantes que fueron correctamente rechazados
mediante la prueba de admisin respecto al total de aspirantes que no alcanzaron un
rendimiento adecuado en el doctorado:
=
Nota: La especificidad nos indica la capacidad de nuestro estimador para dar como casos
negativos que realmente lo son: proporcin de fracasos correctamente identificados.
Razn de eficacia
Es la proporcin de aspirantes seleccionados mediante la prueba de admisin que rindieron
satisfactoriamente en el doctorado:
. . =
Ejemplo: en el ejemplo:
18
. . = = = 0,90
20
ndices de seleccin
Razn de idoneidad
La razn de idoneidad equivale a la proporcin de aspirantes que rindieron satisfactoriamente
en el criterio:
. . =
Ejemplo: en el ejemplo:
21
. . = = = 0,42
50
Razn de seleccin
En un proceso de seleccin, es la proporcin de aspirantes que han sido seleccionados
mediante el test:
. . =
Ejemplo: en el ejemplo:
20
. . = = = 0,40
50
Si el punto de corte del test se mueve hacia la derecha (criterio de seleccin ms estricto), se
reducira la costa de falsos positivos (habra menor nmero de aspirantes seleccionados por el
test que luego no alcanzan el rendimiento adecuado en el criterio) a costa de aumentar los
falsos negativos (sujetos que, teniendo un rendimiento adecuado, no seran seleccionados).
Del mismo modo, si el criterio se hace ms estricto, disminuir el nmero de falsos negativos a
costa de que aumenten los falsos positivos.
Dnde situar el punto de corte es, por tanto, una cuestin complicada. Se trata de buscar el
punto de corte que maximice la capacidad predictiva de la variable predictora (mnimos
errores de clasificacin). En todo caso siempre hay que analizar las consecuencias de las
decisiones tomadas puesto que no siempre tienen la misma importancia los dos tipos de
errores (falsos positivos o falsos negativos).
Ejemplo
Entre las pginas 373 y 376 del libro de Psicometra se puede encontrar un ejemplo completo
en el que se calculan estos ndices.
Modelos de seleccin
A la hora de tomar decisiones acerca de la competencia o no de una muestra de sujetos es
necesario obtener el mximo de informacin posible para evitar cometer errores. Esta
informacin se puede obtener del currculum vitae, de las puntuaciones obtenidas en ciertos
tests, de entrevistas, etc. La cuestin es cmo combinar toda esa informacin a la hora de
tomar una decisin, para lo cual hay tres modelos bsicos (ms dos de tipo mixto):
compensatorio, conjuntivo, disyuntivo, conjuntivo-compensatorio y disyuntivo-compensatorio.
Modelo compensatorio
Es un modelo aditivo en el que a cada sujeto se le asigna una nica puntuacin global. El
nombre alude a que los sujetos pueden compensar una baja puntuacin en una de las pruebas
con una puntuacin ms alta en otra, de manera que el resultado final es una nica
puntuacin (p. ej.: la selectividad). Este modelo no siempre tiene sentido ya que a veces la
ausencia de una competencia o destreza no se puede compensar con otras (p. ej.: si el ingls e
imprescindible para un puesto de trabajo, no se podr compensar con otras competencias).
Una forma adecuada de obtener la puntuacin global es mediante la regresin lineal mltiple,
asignando a cada sujeto una nica puntuacin a partir de la combinacin aditiva de los
resultados obtenidos en los diferentes predictores, que tendrn un peso determinado por su
coeficiente de regresin.
Modelo conjuntivo
En este modelo se fijan de antemano uno mnimos en cada una de las pruebas utilizadas para
la seleccin, de manera que slo se seleccionaran aquellas personas que hayan superado esos
mnimos en todas y cada una de las pruebas
Modelo disyuntivo
En este modelo slo se exige superar determinado nivel de competencia en al menos alguno
de los predictores o bloque de predictores.
Modelo conjuntivo-compensatorio
En primer lugar se aplica el modelo conjuntivo, seleccionando aquellos sujetos que superen los
mnimos establecidos. A continuacin, a los sujetos seleccionados se les aplica el modelo
compensatorio para ordenarlos en funcin de su puntuacin global. Una vez ordenados, se
puede elegir a un determinado nmero de entre los mejores o establecer un punto de corte de
manera que se seleccione a aquellos cuya puntuacin global supere el punto establecido.
Modelo disyuntivo-compensatorio
Se hace una primera seleccin aplicando el modelo disyuntivo y a los sujetos seleccionados se
les aplica el modelo compensatorio.
Ejemplo: supongamos que la ecuacin de regresin obtenida a partir de un test (X) para
predecir un criterio (U) ha sido Y = 0,5 + 2X, que la desviacin tpica del criterio es Sy=5, que
el coeficiente de validez es rxy=0,80 y que para considerar que se ha tenido xito en el criterio
es necesario obtener en el mismo una puntuacin superior o igual a 8 puntos.
10
Con estos datos, y suponiendo que no hay un nmero limitado de plazas, qu probabilidad de
xito tendrn los sujetos que en el test hayan obtenido una puntuacin de 6 puntos?
Y = 0,5 + 2 6 = 12,5
Esta puntuacin es la media de la distribucin de todas las puntuaciones que han podido
obtener en el criterio los sujetos que en el test obtuvieron 6 puntos y la desviacin tpica de
esta distribucin es el error tpico de estimacin:
2
= 1 = 5 1 0,64 = 3
Supongamos ahora que hay 100 aspirantes al puesto de trabajo y que hay 10 plazas a cubrir.
En este caso debe seleccionarse a los 10 aspirantes que hayan obtenido mejores puntuaciones
en el test. Cul sera la probabilidad de xito de estas personas?
En primer lugar hay que averiguar la puntuacin mnima que han obtenido las 10 personas
seleccionadas por el test. Como sabemos que esas personas son el 10% de todos los
aspirantes, debemos buscar la puntuacin que deja por debajo al 90% de los aspirantes. Si
asumimos que las puntuaciones en el test se distribuyen segn la curva normal, la puntuacin
tpica que deja por debajo el 90% de los casos es ZX=1,28 (se busca en la curva normal el Z que
tiene asociada un rea de 0,90).
Si la media del test fuera de 7 puntos y la desviacin tpica de 2 puntos, la puntuacin directa
mnima de las 10 personas seleccionadas sera:
7
1,28 = = = 1,28 2 + 7 = 9,56
2
Una vez obtenida esta puntuacin, se procede como en el ejemplo anterior, por lo que en
primer lugar se aplica la ecuacin de regresin para calcular la puntuacin que se les
pronosticara a estos sujetos en el criterio:
11
8 19,62
= = = 3,87
3
Por lo que la probabilidad de que los seleccionados tengan xito es prcticamente el 100%.
: coeficiente de validez terico que se obtendra si las puntuaciones del test y del
criterio estuvieran libres de errores de medida. En este caso la correlacin se calculara
entre las puntuaciones verdaderas del test y del criterio.
: coeficiente de validez emprico.
: coeficiente de fiabilidad emprico del test.
: coeficiente de fiabilidad emprico del criterio.
Ejemplo: Cul sera el coeficiente de validez estimado en el caso de que tanto las
puntuaciones del test como las del criterio estuvieran libres de errores de medida?
0,56
= = = 0,91
0,64 0,60
Esto significa que si se pudieran eliminar todos los errores de medida que afectan a las
puntuaciones del test y del criterio, habra un aumento considerable del coeficiente de validez
(de 0,56 a 0,91).
12
Estimacin del coeficiente de validez en el supuesto de que el test tuviera una fiabilidad
perfecta
A partir de la frmula anterior, si se supone que ahora slo el test tiene una fiabilidad perfecta,
la estimacin del coeficiente de validez se hara calculando la correlacin entre las
puntuaciones verdaderas del test y las empricas del criterio:
=
Ejemplo: Cul sera el coeficiente de validez estimado en el caso de que slo las puntuaciones
del test estuvieran libres de errores de medida?
0,56
= = = 0,70
0,80
El valor del coeficiente de validez aumenta con respecto al inicial, pero este aumento es ms
moderado ya que slo se han eliminado los errores de medida de una de las variables (el test)
pero no del criterio, cuyas puntuaciones an siguen afectadas por errores.
13
Validez y longitud
Una forma de aumentar el coeficiente de fiabilidad del test era aumentar la longitud del test
aadindole elementos paralelos a los que ya tena. Esta mejora en el coeficiente de fiabilidad
repercute directamente en una mejora del coeficiente de validez. La relacin entre el
coeficiente de validez con la fiabilidad y la longitud del test viene dada por la siguiente
expresin:
14
=
1 + ( 1)
Donde:
En ocasiones lo que se pretende es averiguar el nmero de veces que hay que aumentar o
disminuir la longitud del test para conseguir un determinado coeficiente de validez.
Despejando n de la frmula tenemos que:
2
(1 )
= 2
2
0,702 (1 0,64)
= = 3,80
0,602 0,702 0,64
Eso significa que hay que aumentar la longitud del test 3,8 veces. Para saber cuntos tems
habra que aadir hay que aplicar la siguiente frmula:
= = = 3,8 25 = 95
El test deber tener 95 tems para tener un coeficiente de validez de 0,70 por lo que habra
que aadir 70 tems (95 = 25+70).
15
Como hemos visto hasta ahora, los tems pueden tener distintos formatos y evaluar variables
cognitivas (aptitudes, rendimiento, etc.) donde hay respuestas correctas e incorrectas as
como variables no cognitivas (actitudes, intereses, valores, etc.) donde no hay respuestas
correctas. Los estadsticos que se vern en este tema se utilizan, fundamentalmente, con tems
altitudinales o de rendimiento en los que existe una alternativa correcta y una o varias
incorrectas.
Para analizar los tems es necesario disponer de la matriz de datos con las respuestas y se
puede:
Otro aspecto importante a evaluar dentro del anlisis de los tems es el funcionamiento
diferencial de los tems (FDI): si de manera sistemtica sujetos de distintos grupos de
pertenencia pero con el mismo nivel en el rasgo medido tienen distintas probabilidades de
xito en el tem en cuestin.
El ID oscila entre 0 y 1:
Debera llamarse ndice de facilidad puesto que cuanto ms prximo sea a 1, ms fcil resulta
el tem. En general, se recomienda que los tems con valores extremos para la poblacin a la
que van dirigidos sean eliminados del test final ya que no contribuyen a diferenciar entre
sujetos con distinto nivel en el rasgo medido (todos lo aciertan o lo fallan).
Cuanto mayor sea el nmero de distractores menos probable es que los sujetos acierten el
tem por azar (hay ms alternativas para elegir). El nmero de aciertos puede ser mayor de lo
esperado en funcin del nivel real de aptitud de los sujetos, por lo que se aconseja corregir el
ID:
1
= =
1
Donde:
E: errores.
p: proporcin de aciertos.
q: proporcin de errores.
k: nmero de alternativas del tem.
N: nmero de personas que intentan responder al tem.
Sujeto: A B C D E F G H I J
Respuesta: 1 1 1 1 0 1 0 1 1 0
Es decir: de los 10 sujetos que han intentado responder al tem, 7 lo han acertado mientras
que 3 lo han fallado. El ID es por tanto de 0,7.
1 7 33 1
= = = 0,55
10 10
0,3
= = 0,7 = 0,55
1 31
Los tems ms difciles son los que sufren mayor correccin. Se supone que habr mayor
nmero de aciertos por azar en los tems ms complicados dado que los sujetos tienden a
desconocer la respuesta correcta. Por el contrario, los tems ms fciles los sujetos los
respondern con conocimiento de su respuesta, por lo que la correccin por azar es ms leve.
Cuando se seleccionan tems con poder discriminativo es porque se pretende diferenciar a los
sujetos en funcin de su nivel en el rasgo medido.
El ndice de discriminacin D
El ndice de discriminacin D se basa en las proporciones de aciertos entre grupos extremos
de aptitud. Para formar estos grupos, se aconseja tomar el 27% (Percentil 73) superior y el 27
por ciento inferior (Percentil 27). Una vez formados estos grupos, el ndice D se calculara
como:
=
Donde:
El valor ideal 1 lo toma cuando todas las personas hayan acertado el tem y todas las
del grupo inferior lo hayan fallado.
Si fuese igual a 0, estara indicando que el tem es acertado indistintamente en ambos
grupos, por lo que estar en un grupo u otro es indistinto de cara a acertar el tem. En
este caso no tiene poder discriminativo.
Tomar valores negativos cuando los sujetos pertenecientes al grupo inferior acierten
el tem en mayor proporcin que los ms competentes, lo cual no sera razonable
porque esto indicara que el tem confunde a los ms hbiles.
La figura 8.1 muestra un tem con un ndice D alto. Este tem permite diferenciar a los
sujetos en funcin de su nivel de aptitud: a mayor nivel de habilidad mayor
probabilidad de acertar el tem.
La figura 8.2 muestra un tem con una discriminacin moderada: a pesar de que
permite separar entre sujetos con distinto nivel de aptitud, no lo hace con toda
rotundidad como el tem de la figura 8.1 ya que hay un porcentaje de sujetos con baja
aptitud que tienden a acertar el tem.
La figura 8.3 representa un tem sin poder discriminativo: la proporcin de aciertos en
el tem no es funcin del nivel de aptitud de los sujetos, con lo cual no sirve para
discriminar entre ellos.
La figura 8.4 muestra un ejemplo de un tem que discrimina en sentido contrario al que
cabra esperar: los sujetos con menor competencia tienden a acertarlo en mayor
proporcin que los ms hbiles, a los que probablemente se les est confundiendo por
alguna razn que habra que investigar y corregir.
Valores Interpretacin
0,40 El tem discrimina muy bien
0,30 0,39 El tem discrimina bien
0,20 0,29 El tem discrimina poco
0,10 0,19 El tem necesita revisin
< 0,10 El tem carece de utilidad
Ejemplo: en la siguiente tabla aparecen las respuestas dadas por 370 sujetos a las 3
alternativas (A, B y C) de un tem, donde la opcin B es la correcta. Por filas aparece la cantidad
de sujetos que han seleccionado cada alternativa en los grupos superior (27% superior),
intermedio (46% central) e inferior (27%).
Para calcular el ndice de dificultad corrigiendo el efecto del azar necesitamos los porcentajes
de respuestas correctas y de errores. El porcentaje de respuestas correctas (pc) y respuestas
incorrectas (q) sera:
53 + 70 + 19
= = 0,38 = 1 = 1 0,38 = 0,62
370
Para calcular el ndice de dificultad corrigiendo el efecto del azar aplicamos la frmula:
0,62
= = 0,38 = 0,07
1 31
El ndice de discriminacin D:
53 19
= = = 0,34
19 + 53 + 28 65 + 19 + 16
El tem resulta difcil pero discrimina razonablemente bien.
A B* C
27% superior 19 53 28
46% intermedio 52 70 48
27% inferior 65 19 16
Se puede definir la discriminacin como la correlacin entre las puntuaciones de los sujetos
en el tem y sus puntuaciones en el test. La puntuacin total del test debe calcularse sin
utilizar el tem que se est estudiando, de lo contrario estaramos aumentando artificialmente
el ndice de discriminacin al estar correlacionando una variable (tem) con otra (puntuacin
total) que contiene a la primera.
La relacin entre la probabilidad de acertar un tem con el nivel de aptitud o rasgo medido se
conoce como Curva Caracterstica del tem (CCI) y es importante porque es posible modelar
dicha relacin a partir de la dificultad, discriminacin y acierto por azar.
El ndice de correlacin ha de ser coherente con el tipo de puntuaciones del tem y del test
(Nota: en el tema 6 sobre Validez se vieron los tipos de correlacin adecuados para cada tipo
de variable): veremos la correlacin Phi (), la biserial-puntual y la biserial.
Para calcular este coeficiente se colocan los datos en una tabla de contingencia 2x2 tal y como
muestra la tabla a continuacin, donde 1 indica que se acierta el tem o se supera el criterio y 0
que se falla el tem o no se supera el criterio.
Tabla 3. Tabla para el clculo de
tem (X)
1 0
1 a/N=pxy b (a+b)/N=py
Criterio (Y)
0 c d (c+d) /N=qy
(a+c)/N=px (b+d)/N=qx N
En esta tabla:
a: son los sujetos que han acertado el tem y aprobado el examen de Psicometra.
a+b: es el nmero de sujetos que han aprobado el examen de Psicometra.
c+d: es el nmero de sujetos que no han superado el examen de Psicometra.
a+c: es el nmero de sujetos que han acertado el tem.
b+d: es el nmero de sujetos que han fallado el tem.
Los valores divididos por N son las proporciones.
Una vez ordenados los datos, se aplica la frmula del coeficiente de correlacin Phi:
=
Se puede concluir que existe una correlacin alta entre el tem y el criterio: aquellos sujetos
que aciertan el tem suelen aprobar el examen de Psicometra.
tem (X)
1 0
1 30/50=0,6=pxy 5 35/50=0,7=py
Criterio (Y)
0 5 10 15/50=0,3=qy
35/50=0,7=px 15/50=0,7=qx N=50
Coeficiente de correlacin biserial-puntual
Cuando el tem es una variable dicotmica y la puntuacin en el test es continua, se el ndice
de correlacin ms apropiado es el biserial-puntual:
Donde:
Nota: para calcular la correlacin habra que eliminar de las puntuaciones del test las del tem
en cuestin, en caso contrario se incrementara artificialmente la correlacin biserial-puntual.
Esta correlacin es ms necesaria cuando el nmero de tems es menor de 25.
tems Total
Sujetos 1 2 3 4 X X-i
A 0 1 0 1 2 1
B 1 1 0 1 3 2
C 1 1 1 1 4 3
D 0 0 0 1 1 1
E 1 1 1 0 3 2
Los sujetos que han acertado el tem 2 son el A, B, C y E, luego su media es:
1+2+3+2
= =2
4
1+2+3+1+2
= = 1,8
5
1 2 + 2 2 + 3 2 + 1 2 + 22
2 = 1,82 = 0,56 = 0,56 = 0,75
5
4 1
= = 0,8; = = 0,2
5 5
2 1,8 0,8
= = = 0,54
0,75 0,2
=
Donde y es la altura en la curva normal correspondiente a la puntuacin tpica que deja por
debajo un valor de probabilidad igual a p (este valor debe buscarse en la tabla 7 del
formulario). El resto de valores representan lo mismo que en el caso de la correlacin biserial-
puntual.
Hay que sealar que rb es una estimacin de la correlacin de Pearson y que es posible allar
valore smayores que 1, especialmente si alguna variable no es normal. La relacin entre r bp y rb
viene dada por:
()
= =
[ 2 ( )2 ] [ 2 ()2 ]
Donde:
Si las puntuaciones del tem estn contando a la hora de calcular la puntuacin total del test es
necesario:
= ( + 2 . )
( 1)2 + ( 1)
2
1 1
[ + ]
+ 2
Donde:
La hiptesis nula es que la media del grupo inferior es mayor o igual que la del grupo superior
(contraste unilateral) de manera que si obtenemos un T emprico superior al T terico (valor
crtico obtenido a partir del nivel de confianza) se rechazara esta hiptesis nula y
aceptaramos la hiptesis alternativa de que la media del grupo superior es mayor que la del
inferior.
Ejemplo: en las pginas 430-433 del libro de Psicometra se puede ver un ejemplo completo de
clculo del poder discriminativo de un tem y aplicacin del test estadstico.
Relacin de los parmetros del tem con los parmetros del test
Variabilidad
La variabilidad en las respuestas de los sujetos a los tems es importante. Si la varianza de un
tem es 0, todos los sujetos han respondido lo mismo: en un test de conocimientos todos
habran acertado o fallado, en un test de actitudes, intereses, personalidad, etc. todos habran
elegido la misma alternativa. Un tem con varianza 0 no presenta ningn poder discriminativo
(y su correlacin con las puntuaciones del test es 0).
La relacin entre la variabilidad del test y la discriminacin de los tems se puede formular
algebraicamente:
=
=1
Donde:
Si el test estuviera compuesto por tems dicotmicos la varianza del tem se puede expresar en
funcin de la proporcin de aciertos y fallos:
2
=
=1
Para maximizar la capacidad discriminativa de un test habr que considerar tanto la dificultad
(pj) como la discriminacin (rjx) de sus tems: esto se consigue con dificultad media (pj=0,5) y
discriminacin mxima (rjx=1).
10
=1 2 =1 2
= (1 ) = (1 2)
1 2 1 [ ] =1
Valores pequeos en la discriminacin de los tems suelen estar asociados con tests poco
fiables.
Conclusiones
Finalmente cabe destacar que aunque tcnicamente sea factible obtener muy buenos tems
desde el punto de vista psicomtrica mediante la combinacin ptima de estos factores, el
examen definitivo para un tem implica que los sujetos ms competentes elijan la alternativa
correcta en mayor proporcin que los sujetos menos competentes en el dominio de inters.
Donde:
11
Cuando se utiliza algn coeficiente de correlacin para calcular la discriminacin de los tems
(IDi):
La suma de los IF de los tems al cuadrado coincide con la varianza de las puntuaciones de los
sujetos en el test total. Adems, la fiabilidad de los tems se relaciona directamente con la del
test: cuanto mayor IF tengan los tems, mayor ser su sumatorio y por tanto mejor la fiabilidad
del test.
ndice de validez
El ndice de validez de un tem determina hasta qu punto contribuye cada tem a realizar con
xito predicciones sobre un criterio externo:
En el caso de que el criterio sea una variable continua y el tem una dicotmica, la correlacin a
utilizar sera la biserial-puntual, sin embargo, ahora no es necesario descontar de la
puntuacin total del criterio externo la del tem ya que no est incluida ah:
La validez del test total puede expresarse en funcin de los IV de los tems: cuanto mayores
sean los IV de los tems, ms optimizarn la validez del test. La fiabilidad del test total puede
expresarse como:
=1 =1
= =
=1 =1
En esta ecuacin se puede ver como la validez del test total se estima a partir de la
discriminacin de cada tem (rjx), de su validez (rjy) y de su dificultad (Sj=pjqj).
Anlisis de distractores
El anlisis de distractores (alternativas incorrectas) implica indagar en la distribucin de los
sujetos a lo largo de los distractores. Esto permitir detectar posibles motivos de la baja
discriminacin de algn tem o comprobar que algunas alternativas no son seleccionadas por
nadie.
Comprobar que todas las opciones incorrectas sean elegidas por un nmero mnimo
de sujetos es decir, que sean equiprobables o igualmente atractivas para personas
que no conocen la respuesta correcta.
Que el rendimiento en el test de los sujetos que han seleccionado cada alternativa
incorrecta sean mejor al de los sujetos que han seleccionado la correcta.
o A medida que aumenta el nivel de aptitud se espera que disminuya el
porcentaje de ellos que seleccionen la alternativa incorrecta y viceversa.
12
Equiprobabilidad de distractores
Los distractores son equiprobables si son seleccionados por un mnimo de sujetos y son
igualmente atractivos para los que no conocen la respuesta correcta.
Este supuesto se puede comprobar mediante una prueba de independencia, por ejemplo, una
prueba 2 :
( )2
2 = ( 1 )
=1
Donde:
La hiptesis nula es que FT=FO, lo que significa que para los sujetos que no conocen la
respuesta correcta la eleccin de los distractores es igualmente atractiva.
Tabla 6. Sujetos por nivel de aptitud.
A B* C
27% superior 19 53 28
46% intermedio 52 70 48
27% inferior 65 19 16
Total 136 - 92
Ejemplo: con los datos de la tabla anterior, aplicaremos la frmula para determinar si las
alternativas son igualmente atractivas.
En este ejemplo FT=(136+92)/2=114. Esto significa que cada distractor ha de ser seleccionado
por 114 sujetos (la mitad de los que han respondido incorrectamente al tem).
A medida que aumenta la nota de los sujetos, la opcin correcta (a) es seleccionada
cada vez ms (correlacin positiva).
13
Ejemplo: en las pginas 442 y 443 del libro de texto se puede ver un ejemplo de clculo de la
discriminacin de un distractor. El proceso es similar al clculo de la discriminacin de la
alternativa correcta, por lo que no se ha incluido aqu este ejemplo.
En ocasiones, basta con una inspeccin visual de la distribucin de respuestas de los sujetos a
las distintas alternativas. En la siguiente tabla se muestra el nmero de sujetos de los grupos
extremos que han seleccionado cada una de las alternativas de un tem, donde la c es la
correcta. Para cada alternativa se muestra la proporcin de sujetos que la han seleccionado
(p), la media en el test de los sujetos y el ndice de discriminacin (rbp) de cada una.
Tabla 7. Anlisis de distractores.
A B C*
Nivel de Superior 20 25 55
aptitud Inferior 40 35 25
p 0,28 0,50 0,22
Estadsticos media 5 10 9
rbp -0,20 0,18 0,29
De acuerdo con los criterios anteriores, se observa que la alternativa correcta (C) es elegida
mayoritariamente por los sujetos competentes, lo que se refleja en un ndice de discriminacin
positiva.
La alternativa incorrecta A ha sido elegida por pocos sujetos (28%) y es seleccionada en mayor
proporcin por los sujetos menos competentes (la media de esos sujetos en el test es 5). Este
resultado es coherente con el ndice de discriminacin negativo.
14
Finalmente, el distractor B ha de ser revisado puesto que es el elegido como correcto por los
sujetos con mejores puntuaciones en el test. Adems, es la opcin ms seleccionada (50%), su
discriminacin es positiva y la media de los sujeto que la han seleccionado es superior a la de
los sujetos que han optado por la alternativa correcta.
En nuestro contexto, un tem estar sesgado si sujetos igualmente hbiles no tienen la misma
probabilidad e acertarlo por el hecho de pertenecer a subpoblaciones distintas. Este sesgo est
relacionado con la validez, ya que implica un error sistemtico (siempre en la misma
direccin): el rendimiento de alguna subpoblacin est afectado por alguna otra variable
extraa a la que se supone que mide el tem.
El FDI es la herramienta utilizada para detectar posibles tems sesgados. El FDI detecta que un
tem funciona de manera diferente en dos grupos con el mismo nivel de aptitud comparando
el rendimiento de grupos conformados por alguna variable externa (gnero, raza, nivel
econmico, etc.) pero no apunta las posibles causas.
El impacto se refiere a las diferencias reales entre grupos. Es lcito que el rendimiento de dos
grupos en un tem sea distinto y que ello se deba a diferencias en cuanto al nivel de
competencia de las subpoblaciones.
En el FDI las diferencias no son reales (se deben a motivos distintos al nivel de aptitud).
En el impacto las diferencias son reales, un grupo es ms hbil o apto que otro (p. ej.:
una clase de un colegio que ha recibido mejor instruccin que otra).
15
El procedimiento de Mantel-Haenszel
El mtodo de mantel-Haenszel es uno de los ms utilizados para calcular el FDI. Para aplicar
Mantel-Haenszel:
En primer lugar hay que identificar una variable que sea la posible causante del FDI.
Una vez seleccionada, hemos de conformar dos grupos: uno de referencia (GR) y uno
focal (GF). El GR suele coincidir con el grupo favorecido y el GF por los perjudicados.
Luego se establecen distintos niveles de aptitud tomando la puntuacin emprica
obtenida en el test y, finalmente, se cuenta el nmero de respuestas correctas e
incorrectas por cada grupo en el nivel de habilidad i.
Correctas Incorrectas
GR Ai Bi nRI
GF Ci Di NFI
n1j n0j Nj
Una vez confeccionadas las tablas anteriores (una para cada nivel de aptitud), se aplica el
estadstico de Mantel-Haenscel:
=1
=
=1
Los valores de este estadstico varan entre 0 e infinito: valores mayores que 1 indican que el
tem favorece al GR y menores al GF. Valores iguales o prximos a 1, indica que el tem no
presenta FDI.
Ejemplo: existen indicios de que un tem de las pruebas de acceso al PIR podra estar
perjudicando a los graduados por la UNED. Para investigar esta posibilidad se han conformado
5 grupos de aptitud a partir de las puntuaciones del examen de ingreso al PIR. Vamos a utilizar
el mtodo de Mantel-Haenszel para comprobar si dicho tem presenta FDI.
Tabla 9. Datos de ejemplo.
16
21-35 43 8 37 10
Los datos de esta tabla se organizan en 5 tablas de contingencia, una para cada nivel de
aptitud:
Tabla 10. Tabla de contingencia para el nivel de habilidad 0-4.
Aciertos Fallos
GR 1 7 nRI
GF 0 9 NFI
n1j n0j 18
Aciertos Fallos
GR 15 51 nRI
GF 18 51 NFI
n1j n0j 125
Aciertos Fallos
GR 25 48 nRI
GF 21 80 NFI
n1j n0j 174
Aciertos Fallos
GR 67 14 nRI
GF 50 35 NFI
n1j n0j 166
Aciertos Fallos
GR 43 8 nRI
GF 37 10 NFI
n1j n0j 98
Los datos de estas tablas se pueden sintetizar en la siguiente tabla para facilitar el clculo del
estadstico:
Nivel de aptitud
I (0-4) 1=(2x9)/18 0=(7x0)/18
II (5-10) 6,12 3,26
III (11-15) 11,49 5,79
IV (16-20) 14,13 4,22
V (21-35) 4,39 3,02
Total 37,13 16,29
17
=1 37,13
= = = 2,28
=1 16,29
A la vista de estos resultados se puede concluir que el tem presenta FDI: el tem perjudica
sistemticamente a los psiclogos graduados por la UNED, por lo que habra que revisarlo o
substituirlo para evitar esta discriminacin.
18
A partir de las puntuaciones directas de los sujetos que forman el grupo normativo se pueden
obtener otras escalas, mediante una serie de transformaciones, que permitan una mejor
interpretacin de las mismas. Estas transformaciones pueden ser de dos tipos:
Transformaciones lineales
Escalas tpicas
Las puntuaciones tpicas se obtienen a partir de la puntuacin emprica directa obtenida por
un sujeto en un test (X) restndole la media del grupo de referencia () y dividiendo por la
desviacin tpica del grupo de referencia ( ):
La puntuacin tpica nos indica el nmero de desviaciones tpicas a las que se encuentra la
puntuacin de un sujeto respecto de la media del grupo normativo (p. ej.: si la media obtenida
por una muestra de sujetos es 9 con desviacin tpica 4 y la puntuacin tpica de un sujeto es 2,
esto quiere decir que la puntuacin directa que ha obtenido el sujeto est a dos desviaciones
tpicas por encimad e la media del grupo. Teniendo en cuenta que la desviacin tpica es 4, la
puntuacin directa del sujeto estar a 8 puntos de la media: 9 + 8 = 17 puntos).
Ejemplo: se aplica un test de razonamiento a una muestra de 400 sujetos. Sabiendo que la
media es 18 y la deviacin tpica es 3, calcular la puntuacin tpica de dos sujetos cuyas
puntuaciones directas en el test son 16 y 21:
16 18
1 = = = 0,67
3
21 18
2 = = = 17
3
Esto quiere decir que el primer sujeto est a 0,67 desviaciones tpicas por debajo de la media y
el segundo sujeto est una desviacin tpica por encima de la media.
= +
Donde:
Escala D
Se trata de una escala en la que la media es 50 y la desviacin tpica es 20:
= 50 + 20
Escala T
Se trata de una escala en la que la media es 50 y la desviacin tpica es 10:
= 50 + 10
Transformaciones no lineales
Rango de percentiles
Se define el percentil como la puntuacin del test que deja por debajo de s un determinado
porcentaje de casos del grupo normativo (p. ej.: si decimos que la puntuacin 40 equivale al
percentil 90, queremos decir que esa puntuacin deja por debajo al 90% de sujetos de la
muestra, es decir, es superior a la del 90% de los sujetos). El percentil nos proporciona una
idea de la posicin de un determinado sujeto dentro del grupo normativo y constituyen una
escala ordinal.
100 100
= ( + ( )) =
Donde:
En primer lugar hay que ordenar las puntuaciones de menor a mayor y calcular la distribucin
de frecuencias acumuladas:
X 1 2 3 4 5 6 7 8 9 10
fd 1 3 2 3 4 4 3 2 2 1
fb 1 4 6 9 13 17 20 22 24 25
100 100 2
= ( + ( )) = (20 + (8 7,5)) = 84
25 1
100 100
= = 21 = 84
25
Cmo obtenemos fac? Hay que tener en cuenta que en el intervalo 7,5-8,5 en el que se
encuentra la puntuacin directa 8 hay 2 sujetos, de manera que el punto medio es 8, por
debajo del cual habr un sujeto. Si a ese sujeto le aadimos todos los que hay en intervalos
inferiores (20) obtenemos un fac=20+1=21.
Este resultado significa que un sujeto que ha obtenido una puntuacin de 8 puntos deja por
debajo al 84% de los sujetos de la muestra.
Si queremos saber la puntuacin que corresponde a un sujeto que supera al X% de los sujetos
de la muestra, despejamos Xc y obtenemos la siguiente frmula:
= + ( )
100
Ejemplo: con los datos del ejemplo anterior, queremos saber la puntuacin que corresponde al
sujeto que deja por debajo al 60% de la muestra:
25 60 1
= + ( ) = 5,5 + ( 13) = 6
100 100 4
Este resultado significa que un sujeto que obtiene una puntuacin de 6 puntos deja por debajo
al 60% de la muestra.
Es fcil de interpretar.
Podemos comprar las puntuaciones de un mismo sujeto en test distintos puesto que
su significado es el mismo independientemente del test aplicado y de la forma de la
distribucin de frecuencias.
Podemos comprar las puntuaciones de sujetos distintos en un mismo test.
sujeto en un test en una distribucin normal. Al emplear estas puntuaciones se asume que la
distribucin de las puntuaciones es normal por lo que si la distribucin se aleja mucho de una
distribucin normal se podran estar falseando los resultados.
Para obtener estas puntuaciones debemos partir de los percentiles y mediante la tabla de la
normal, buscar el valor de la puntuacin tpica Zn que le corresponde.
En la primera fila, las puntuaciones directas de los sujetos, que representan el punto
medio de una distribucin de puntuaciones en la que la amplitud del intervalo es 1 (p.
ej.: la puntuacin directa 9 equivale al punto medio de un intervalo que incluye todos
los valores entre 8,5 y 9,5).
La segunda y tercera filas corresponden a la distribucin de frecuencias y las
puntuaciones tpicas respectivas que se obtienen como se indica a continuacin.
En la cuarta columna se muestran las frecuencias acumuladas hasta el punto medio
del intervalo (asumiendo que los sujetos en un intervalo se distribuyen
homogneamente de manera que hay el mismo nmero de sujetos por encima que
por debajo del punto medio).
En la quinta columna se han obtenido los percentiles correspondientes a los puntos
medios de los intervalos.
En la sexta columna se muestran las puntuaciones tpicas normalizadas, que son las
que se obtienen buscando la puntuacin tpica en las tablas de la normal. Si la
distribucin de las puntuaciones de nuestro ejemplo se hubieran ajustado a una
distribucin normal, estas puntuaciones seran iguales a las puntuaciones tpicas de la
tercera columna. En este caso se puede observar que esto no ocurre.
Tabla 1. Tabla resumen de los datos de ejemplo.
Frecuencias
Puntuacin
acumuladas
X Fa Zx Percentil tpica
al punto
normalizada
medio
10 1 1,95 24,5 98 2,05
9 2 1,53 23 92 1,39
8 2 1,11 21 84 0,99
7 3 0,69 18,5 74 0,64
6 4 0,34 15 60 0,25
5 4 -0,15 11 44 -0,15
4 3 -0,57 7,5 30 -0,52
3 2 -0,99 5 20 -0,84
2 3 -1,41 2,5 10 -1,28
1 1 -1,83 0,5 2 -2,05
Ejemplo: veamos cmo se obtienen los valores para el caso de una puntuacin emprica directa
X = 10:
( ) (10 5,36)
= 5,36; = 2,38; 1 = = 2,38 = 1,95
100 100 2
= ( + ( )) = (24 + (10 9,5)) = 98
25 1
= 5 + 2
Ejemplo: calcular el estanino correspondiente a las puntuaciones a las siguientes puntuaciones
tpicas normalizadas:
Normas cronolgicas
Las normas cronolgicas con otro tipo de transformacin de las puntuaciones directas
obtenidas por un grupo de sujetos en un test. La interpretacin de la puntuacin obtenida por
un sujeto en un test se lleva a cabo con relacin a su edad y a la puntuacin media obtenida
por los sujetos de su edad.
Ejemplo: supongamos que en un test de razonamiento abstracto los nios de 9 aos obtienen
una puntuacin media de 25 puntos. Si aplicamos el test a un nio y este obtiene 25 puntos, se
le asignar la edad mental de 9 aos, independientemente de su edad cronolgica.
Debido a las razones expuestas, este tipo de escalas dan lugar a interpretaciones equvocas,
por lo que su utilizacin ha cado en desuso hoy en da.
Para la obtencin del cociente intelectual, se calcula la edad mental del sujeto y se divide por
su edad cronolgica, multiplicando por 100 el valor obtenido:
= 100
Donde CI es el cociente intelectual, EM es la edad mental y EC es la edad cronolgica.
El CI ser 100 para aquellos sujetos en los que su edad mental coincida con la
cronolgica.
El CI ser menor de 100 cuando exista un nivel de desarrollo intelectual ms bajo que
el promedio de su grupo.
El CI ser mayor de 100 cuando exista un nivel de desarrollo intelectual ms alto que el
promedio de su grupo.
Esta escala es poco recomendable debido a los inconvenientes que presenta: es poco
discriminativo para adultos debido a que la edad mental medida por los tests se estabiliza a
partir de una determinada edad cronolgica (con lo que se produce el efecto de techo). Otro
inconveniente es que las distribuciones de cocientes intelectuales para distintas edades no
presentan la misma desviacin tpica, lo que implica que el mismo cociente intelectual no
proporciona la misma posicin relativa en las distribuciones de distintas edades.
Equiparacin de puntuaciones
La equiparacin de las puntuaciones de dos o ms tests es el proceso mediante el cual se
establece una correspondencia entre las puntuaciones de dichos tests, de tal manera que sea
indistinto el empleo de uno u otro test, puesto que las puntuaciones de cualquiera de ellos se
podrn expresar en trminos de las del otro test.
Ejemplo: una empresa anuncia una convocatoria para cubrir una serie de puestos de trabajo y,
dado que el nmero de candidatos es muy elevado, decide realizar las pruebas en diferentes
das. Una vez hechas las pruebas vemos que Juan, que realiz la prueba el primer da, obtiene
una puntuacin superior a la de Pedro, que realiz la prueba el segundo da. Las diferencias
pueden deberse a que Juan tiene una preparacin superior a la de pedro pero tambin pueden
deberse a que la primera prueba es ms sencilla que la segunda, en cuyo caso Juan (y los
aspirantes del primer da) estara jugando con ventaja. El proceso de equiparacin puede
resolver estos problemas. Si este proceso se lleva a cabo correctamente podemos conocer si
las diferencias encontradas son atribuibles a una mayor sencillez de la prueba del primer da o
a una mayor preparacin de Juan.
Diseos de equiparacin
Cuando se lleva a cabo un estudio de equiparacin, es conveniente que el nmero de sujetos
que se vaya a utilizar sea representativo de la poblacin a la que va a ir destinado el test.
Presentamos a continuacin los tres diseos ms utilizados: de un solo grupo, de grupos
equivalentes y de grupos no equivalentes con tems comunes.
Otra forma posible para obtener muestras aleatorias y equivalentes puede ser alternar las
formas en cada grupo, de tal manera que el primer sujeto recibe la forma X, el segundo la Y, el
tercero la X, y as sucesivamente. Este diseo presenta la ventaja (al igual que el
contrabalanceo) de que se evitan los efectos de fatiga, aprendizaje u orden de aplicacin.
A cada una de las muestras de sujetos se les administra solamente una forma del test
(X o Y).
Las muestras no tienen por qu ser equivalentes entre s.
A cada muestra se le aplica adems, un test comn (Z) o test de anclaje, que permite
establecer las diferencias entre los tests a equiparar.
Es decir, cada sujeto contesta un test diferente (X Y) y un test comn, que se conoce como
test de anclaje.
En ambas modalidades los tems comunes deben ser lo ms parecidos posibles a los de las dos
formas, aunque no es una condicin imprescindible.
Tambin se debe de pensar el nmero de tems comunas a emplear: la experiencia dice que el
nmero de tems comunes debera ser al menos el 20% de la longitud de un test compuesto
por 40 tems; si el test est formado por un elevado nmero de tems, la utilizacin de 30 tems
comunes puede resultar suficiente. Tambin se debe tener en cuenta el mayor o menor grado
de heterogeneidad del test.
Las diferencias que se pueden presentar entre las puntuaciones obtenidas en ambas formas
pueden ser debidas a las diferencias entre ambos grupos de sujetos, o bien a las diferencias
entre ambas formas. En el siguiente ejemplo se puede ver la forma de comprobar si las
diferencias son debidas a una causa o a la otra.
Ejemplo: supongamos que aplicamos las formas X e Y de un test compuesto por 80 tems, de
los cuales 16 son comunes a ambas formas, a dos grupos de sujetos. En la tabla anterior
aparecen las medidas obtenidas por ambos grupos en la forma aplicada y en los tems
comunes.
Los valores de las medias obtenidos por ambos grupos en los tems comunes nos sugieren que
el nivel de conocimiento del grupo 2 es superior al del grupo 1: el grupo 2 contest
correctamente a un 20% ms de tems comunes que el grupo 1.
La segunda cuestin que nos planteamos es si las diferencias obtenidas entre ambos grupos de
sujetos son debidas a las diferencias entre ambas formas. Para responder a esta pregunta nos
podemos plantear cual hubiera sido la puntuacin media del grupo 2 si le hubisemos aplicado
la forma X. El grupo 2 contest correctamente a un 20% ms de tems comunes que el grupo 1,
de manera que podramos pensar que el grupo 2 contestar correctamente un 20% ms de
tems en la forma X (teniendo en cuenta que el test tiene 80 tems, el 20% seran 16) que el
grupo 1. En base a este razonamiento, su puntuacin sera 59 + 16 = 75. El grupo 2 tiene una
puntuacin media en la forma Y de 70 puntos y su puntuacin esperada en la forma X es de 75
puntos, luego, la forma X, aparentemente es ms fcil que la forma Y.
Mtodos de equiparacin
En este apartado se presentan los mtodos de equiparacin ms utilizados para la obtencin
de puntuaciones equivalentes a partir de test distintos que evalan el mismo rasgo psicolgico.
Mtodo de la media
En el mtodo de la media se asume que las puntuaciones de uno de los test difieren en una
cuanta constante de las puntuaciones del otro test. Este mtodo pretende hacer
corresponder las medias de los test a equiparar.
Sean X e Y dos test distintos cuyas puntuaciones queremos equiparar, para toda puntuacin X
podemos establecer que:
= = +
Donde:
10
= = + = 60 65 + 70 = 65
Mtodo lineal
Al contrario que el mtodo de la media, que asume que las diferencias entre las puntuaciones
obtenidas por los sujetos en ambos tests es constante, en el mtodo lineal se asume que las
diferencias entre las puntuaciones pueden variar (p. ej.: las puntuaciones bajas del test
pueden ser mayores que las encontradas entre las puntuaciones altas).
= = =
Despejando:
= = ( ) +
O bien:
= ( ) +
Donde:
Las dos muestras, extradas de la misma poblacin, son equivalentes. Deseamos saber qu
puntuacin en el test Y sera equivalente a una puntuacin de 40 puntos en el test X:
7
= = ( ) + = (40 38) + 46 = 48,8
5
En este ejemplo se ha aplicado a cada grupo de sujetos una forma distinta del test, es decir,
sera la situacin del diseo de grupos equivalentes.
11
2 2
1 + 2 1 + 2 1 + 2
== 2 2 ( )+
1 + 2 2 2
Ejemplo: supongamos que se selecciona de una poblacin una muestra aleatoria y, una vez
dividida en dos subgrupos equivalentes se aplica:
Al primer grupo:
Primero un test de razonamiento numrico X obteniendo una media de 38
puntos y una desviacin tpica de 5.
Despus un test de razonamiento numrico Y obteniendo una media de 46
puntos y una desviacin tpica de 7.
Al segundo grupo:
Primero un test de razonamiento numrico Y obteniendo una media de 44
puntos y una desviacin tpica de 6.
Despus un test de razonamiento numrico X obteniendo una media de 40
puntos y una desviacin tpica de 8.
Deseamos saber que puntuacin en el test Y sera equivalente a la puntuacin 37 obtenida por
un sujeto en el test X:
2 2
1 + 2 1 + 2 1 + 2 7 2 + 62 38 + 40 46 + 44
== 2 2 ( )+ = 2 (37 )+
1 + 2 2 2 5 + 82 2 2
= 43,04
Diseo de anclaje
En tercer lugar, si se hubiera utilizado un diseo de anclaje en el que se cuenta con dos grupos
de sujetos a cada uno de los cuales se les administran dos tests X e Y, adems de un test de
anclaje (Z) comn. Como hemos dicho, las diferencias obtenidas por los sujetos pueden ser
debido a que difieren en el rasgo medido o bien a que los tests utilizados tienen niveles de
dificultad diferentes.
2 2 2 2
2 + 2 ( 2 )
== [ (1 + 1 ( 1 ))] + [2 + 2 ( 2 )]
2 2 2 2
1 + 1 ( 1 )
[ ]
Donde:
12
2 1 : varianza de las puntuaciones del test Z (calculada sobre el conjunto de sujetos del
grupo 1).
2 2 : varianza de las puntuaciones del test Z (calculada sobre el conjunto de sujetos del
grupo 2).
2
2 : pendiente de la recta de regresin de Y sobre Z (en el grupo 2):
2
o 2 = 2
2
X: puntuacin directa del test X.
1 : media de las puntuaciones en el test X (aplicado al grupo 1).
: media de las puntuaciones en el test Z, calculada sobre los sujetos de los grupos 1 y
2.
1 : media de las puntuaciones en el test Z, calculada sobre los sujetos del grupo 1.
2 : media de las puntuaciones en el test Z, calculada sobre los sujetos del grupo 2.
2 : media de las puntuaciones en el test Y (aplicado al grupo 2).
Tabla 3. Datos de ejemplo.
2 2 2 2
2 + 2 ( 2 )
== [ (1 + 1 ( 1 ))] + [2 + 2 ( 2 )]
2 2 2 2
1 + 1 ( 1 )
[ ]
12,5 + 0,95 (9,52 112 )
2 2
Mtodo equipercentil
El mtodo equipercentil es el mtodo de comparacin ms habitual y consiste en equiparar
aquellas puntuaciones cuyos percentiles son iguales (p. ej.: supongamos que a un sujeto que
obtiene una puntuacin directa de 25 en un test X de fluidez verbal le corresponde un
percentil de 70, y a otro sujeto que obtiene una puntuacin directa de 29 en otro test Y de
fluidez verbal le corresponde tambin el percentil 70. En este caso podremos decir que una
puntuacin directa de 25 en el test X equivale a una puntuacin directa de 29 en el test Y).
Los pasos a seguir para llevar a cabo el proceso de equiparacin percentil son:
13
100 100
= ( + ( )) =
Donde:
14
El proceso sera el mismo para diseos de un solo grupo y diseo de grupos equivalentes. El
diseo de anclaje presenta una mayor complejidad y no se aborda aqu.
= ( )
2 2
= ( 2 + 2)
1 + 2
Donde:
=
2 : varianza de las puntuaciones en el test Y.
A medida que las puntuaciones equiparadas se alejan de la media, el error tpico es mayor.
Ejemplo: supongamos que a una muestra de 50 sujetos se aplica un test X de percepcin del
color, donde la media de las puntuaciones en el test es 20 y la desviacin tpica es 4. A una
segunda muestra de 50 sujetos se le aplica un test Y de percepcin del color, donde la media
es 25 y la desviacin tpica es 6. Las dos muestras han sido extradas de la misma poblacin y
son equivalentes.
15
2 2 2 36 40 20 2
= (2 + 2) = (( ) + 2) = 4,41
1 + 2 50 + 50 4
2 (1 ) [2 (1 + ) + 2]
=
Donde:
2 2
1 + 2 1 + 2 1 + 2 6 2 + 62 35 + 38 40 + 41
== 2 2 ( )+ = 2 2
(40 )+
1 + 2 2 2 5 +7 2 2
= 44
44 36,5 2
2 (1 ) [2 (1 + ) + 2] 36 (1 0,80) [( 6
) (1 + 0,80) + 2]
= =
50
= 0,83
Diseo de anclaje
El error tpico de medida se puede expresar como:
2 2 (1 2 ) [2 (1 + 2 ) + 2]
=
Donde:
16
1 2
= =
Ejemplo: utilizando los datos del ejemplo utilizado para el diseo de anclaje (N=100)
calculamos que la puntuacin equivalente en el test Y de un sujeto que en el test X obtuvo una
puntuacin de 85 es 93.
1 2
= = = 0,072
93 74
= = 1,27
11
2 2 (1 2 ) [2 (1 + 2 ) + 2]
=
Este manual, que debe de tener una finalidad prctica, debe contener todos los datos que
hacen de l un instrumento cientfico. Estos datos se pueden agrupar en cuatro categoras: la
especificacin, la descripcin, la justificacin y las referencias bibliogrficas.
17
La justificacin
Con la justificacin se incluyen los datos cuantitativos y experimentales que justifican el uso
del test y que permiten la valoracin de sus resultados. Dentro de esta justificacin se incluye
toda la informacin relativa a la duracin de la prueba, la fiabilidad, validez y tipificacin del
test.
Referencias bibliogrficas
Se incluirn todas las referencias bibliogrficas que contengan cualquier tipo de informacin
referida al test.
18