Temas 1 9 Psicometria

lOMoARcPSD|378992
Temas 1-9 Psicometra
Psicometra (UNED)
Su distribucin est prohibida | Descargado por Sidharta Galardi (descubriendoargentina.com@gmail.com)

lOMoARcPSD|378992
Psicometra | Tema 1: Introduccin a la Psicometra
Tema 1: Introduccin a la Psicometra

Concepto de Psicometra
El trmino Psicometra, Psykhe + Metrum, significa literalmente Medida de la Psykhe.
Definicin: La Psicometra es una disciplina metodolgica, dentro del rea de la Psicologa,

cuya tarea fundamental es la medicin o cuantificacin de las variables psicolgicas con todas
las implicaciones que ello supone, tanto tericas (posibilidades/criterios de medicin) como
prcticas (cmo y qu se mide).
La Psicometra deber ocuparse de:
La justificacin y legitimacin de la medicin psicolgica (Teora de la Medicin). Para

esto deber:
o Desarrollar modelos formales para representar lo que se quiere estudiar y
facilitar la transformacin de los hechos en datos.
o Validar los modelos desarrollados para determinar si representan bien a la
realidad.
o Establecer las condiciones que permitan llevar a cabo el proceso de medicin.
Las implicaciones prcticas y aplicadas que dicha medicin con lleva:
o Proporcionando los mtodos que indiquen como se debe llevar a cabo la
cuantificacin.
o Construyendo los instrumentos necesarios y adecuados para poder efectuarla.
La Psicometra no se cie a un campo especfico si no que abarca todos los campos de la

Psicologa (personalidad, procesos cognitivos, actitudes, etc.) y dado que la Psicologa es una
disciplina cientfica, utiliza el mtodo cientfico para la adquisicin del conocimiento.
La medicin Psicolgica
La medicin se trata de un problema inherente a la Psicometra y la Psicologa cientfica.
La medicin consiste en un conjunto de normas para asignar nmeros a objetos de manera

que estos nmeros representen cantidades de atributos de dichos objetos. Por ejemplo,
cuando medimos una mesa, realmente estamos obteniendo nmeros para ciertos atributos de
la mesa, como su longitud, altura o peso. En general la medicin es la asignacin de nmeros a
entidades, acontecimientos o sucesos.
Las dificultades surgen cuando en lugar de medir atributos fsicos se intentan medir atributos
psicolgicos. La primera dificultad estriba en que la mayora de los atributos psicolgicos
(inteligencia o autoritarismo) son conceptos abstractos (constructos tericos o variables
latentes) que no se pueden medir directamente si no que deben ser inferidos de la medicin
de conductas representativas de dichos constructos. Este tipo de medicin se conoce como
medicin por indicadores: dado que las variables psicolgicas no se pueden medir
directamente, se seleccionan una serie de indicadores representativos del constructo o
variable psicolgica que s que se pueden medir directamente.
El otro problema son las unidades de medida que se van a utilizar al interpretar las
puntuaciones obtenidas por los sujetos. Hay dos formas principales de abordar el problema:

lOMoARcPSD|378992
La referida a las normas, consiste en comparar los resultados obtenidos por un sujeto
con los obtenidos por un grupo de sujetos llamado grupo normativo (o de control) que
tienen caractersticas similares.
La referida al criterio, en la que los resultados obtenidos se comparan con un criterio
(punto crtico) previamente establecido.
La medicin Psicolgica tiene dos objetivos fundamentales:
Fiabilidad de las medidas: estimar los errores aleatorios que conlleva toda medicin.
Validez de las medidas: garantizar que la medida no es intil sino que sirve para
explicar y predecir los fenmenos de inters.
Orgenes y vas de desarrollo de la Psicometra

El origen de la Psicometra se sita hacia mitad del siglo XIX y se desarrolla fundamentalmente
a travs de dos vas:
a. Los estudios de Psicofsica que dieron lugar a modelos que permiten asignar valores
numricos a los estmulos (escalamiento de los estmulos).
b. Los estudios acerca de las diferencias individuales que dieron lugar a los Tests y las
distintas Teoras de los Tests (modelos) los cuales permitieron la asignacin de valores
numricos a los sujetos (escalamiento de los sujetos).
Los mtodos de escalamiento

El escalamiento es el campo fundamental de la Psicometra y su objetivo fundamental es la
construccin de escalas de medida.
Hay dos supuestos bsicos en todos los mtodos de escalamiento:
La existencia de un continuo latente o subyacente sobre el que se distribuyen todos

los objetos psicolgicos (estmulos, sujetos o respuestas) que se van a escalar y que no
se puede observar directamente.
Que los objetos psicolgicos pueden situarse de forma ordenada a lo largo de ese
continuo.
Ejemplo: si se quiere medir la inteligencia, suponemos que ese atributo se puede representar a
lo largo de un continuo sobre el que se podrn situar los sujetos de forma ordenada en funcin
del grado de inteligencia que manifiesten.
Es posible escalar estmulos, sujetos o respuestas en funcin de qu queramos estudiar.
Desarrollo de los mtodos de escalamiento de estmulos

Los mtodos de escalamiento de estmulos surgen cuando la Psicologa quiso cuantificar las
relaciones existentes entre las caractersticas fsicas de los estmulos y las sensaciones que
estos producen en los sujetos.
Mtodos de escalamiento Psicofsico

Ley de Webber
La ley de Webber dice que: El incremento de magnitud que debe experimentar un estmulo
(E) para que el sujeto perciba que ha producido un cambio, es una proporcin constante de su
magnitud inicial (E): K = E / E

lOMoARcPSD|378992
Este cambio mnimo en la sensacin es lo que se denomina diferencia apenas perceptible

(dap).
Modelo de Fechner
A partir de Webber, Fechner desarroll unos mtodos psicofsicos indirectos que permitan
elaborar unas escalas denominadas escalas psicofsicas.
En este escalamiento psicofsico se tienen dos continuos:
i. Un continuo fsico a lo largo del cual varan los estmulos.

ii. Un continuo psicolgico a lo largo del cual varan las sensaciones que dichos
estmulos producen en los sujetos.
Ejemplo: se quieren escalar una serie de estmulos que varan (fsicamente) respecto al grado
de pesadez que producen en los sujetos. Los sujetos deben emitir un juicio sobre el grado de
pesadez percibido al sopesar cada estmulo que les es presentado. El peso es una caracterstica
fsica que vara en un continuo fsico y hay instrumentos adecuados para su medicin. Por el
contrario, la pesadez es una caracterstica psicolgica o subjetiva que vara en un continuo
psicolgico y los propios sujetos son los que actan como instrumento de medida, asignando
valores a cada uno de los estmulos en funcin del grado de pesadez percibido.
Para construir la escala psicofsica hay que ver la relacin funcional entre los dos continuos. La
Psicofsica por tanto trata de relacionar la magnitud de los estmulos con la percepcin que
los sujetos tienen de ellos (es decir, con la sensacin que producen).
Para Fechner, la siguiente funcin logartmica es la que mejor representa la relacin entre
ambos continuos: S = C ln E + A (S: valor en la escala de sensacin; E: valor del estmulo; C y A:
pendiente y ordenada en el origen de la funcin logartmica).
Para poder medir la relacin entre la magnitud de los estmulos y las sensaciones que
producen, Fechner introdujo los conceptos de:
Umbral absoluto: la magnitud fsica del estmulo necesaria para que produzca alguna
sensacin.
Umbral diferencial: incremento mnimo (en la magnitud fsica del estmulo) necesario
para que el sujeto perciba un cambio.
La Ley de Fechner establece que:
Cuando la magnitud fsica del estmulo est en el umbral absoluto la sensacin es

nula. En ese punto se establece el origen en la escala de sensacin (0 de la escala de
sensacin).
Si la estimulacin aumenta geomtricamente (multiplicando: 1, 3, 9, 27) las
sensaciones aumentarn aritmticamente (sumando: 1, 2, 3, 4): cada vez se necesita
ms incremento en la estimulacin fsica para que se perciba un cambio en la
sensacin.
El problema fundamental est en la obtencin experimental de los umbrales absoluto y

diferencial que permitirn medir la capacidad de deteccin y de discriminacin de los sujetos.
Para abordar este problema, Fechner, desarroll diferentes procedimientos: el mtodo de los
lmites, el mtodo de ajuste y el mtodo de los estmulos constantes.

lOMoARcPSD|378992
El procedimiento general para escalar consiste en presentar a una muestra de sujetos el

conjunto de estmulos a escalar y, en funcin de las respuestas emitidas a lo largo de los
diferentes experimentos, se asignar un valor numrico a cada uno de los estmulos.
Mtodo de los lmites (o cambios mnimos)

El experimentador modifica la intensidad del estmulo.
Para calcular el umbral absoluto:
i. Se comienza por un estmulo de baja intensidad y se aumenta esta hasta que el sujeto
comienza a detectarlo.
ii. Se comienza por un estmulo de alta intensidad y se disminuye esta hasta que el
sujeto deje de percibirlo.
Para calcular los umbrales diferenciales el experimentador seleccionar un valor del estmulo
como estndar. Este estmulo se presenta al sujeto junto con un estmulo de comparacin,
cuya intensidad se manipula hasta que el sujeto considere que la intensidad del estmulo de
comparacin es igual que la del estmulo estndar.
Mtodo de ajuste (o de error promedio)

Se diferencia del anterior en que ahora es el propio sujeto quien manipula la intensidad de los
estmulos (aumentndola o disminuyndola hasta encontrar el valor de sus umbrales).
Mtodo de los estmulos constantes

Parte de un supuesto: cuando un estmulo se presenta a un sujeto varias veces no siempre es
percibido y aun cuando se percibe, no produce la misma sensacin.
Para averiguar el umbral absoluto cada estmulo se presenta a los sujetos muchas veces y en
orden aleatorio de manera que el sujeto debe indicar si lo ha percibido o no. El umbral
absoluto es la magnitud del estmulo que ha sido percibido por los sujetos el 50% de las
veces.
El umbral diferencial se calcula igual que en los anteriores, repitiendo varias veces los ensayos.
Este es el mtodo ms utilizado para el clculo de umbrales absoluto y diferencial.
Crticas a la ley de Fechner

La ley de Fechner recibe varias crticas ya que:
Los estmulos de muy alta o muy baja magnitud no se ajustan bien a ella.
No todos los sistemas sensoriales se ajustan muy bien a ella.
De todas formas, se considera que con Fechner comienza la Psicologa cuantitativa y sus
trabajos, junto con los de Wundt, marcaron el comienzo de la Psicologa experimental.
Modelo de Stevens
Stevens reformula la Psicofsica de Fechner y propone la Funcin potencial de Stevens: R = q
En (R: respuesta de los sujetos; E: valor del estmulo; q: constante que depende de las unidades
de medida; n: exponente que depende del atributo sensorial).
Diferencias con Fechner:
Stevens desarroll mtodos directos de escalamiento ya que estos originan una

escala de respuesta (R) cuyos valores son las estimaciones subjetivas que los sujetos
hacen directamente de los estmulos presentados. Los mtodos de Fechner en cambio,

lOMoARcPSD|378992
originan una escala de sensacin (S) a raz de las tareas de deteccin o discriminacin
que realizan los sujetos.
Stevens no basa sus mediciones en ninguna suposicin acerca de las dap, que Fechner
utiliza como unidad de medida de su escala de sensacin, ni en el concepto de umbral.
Los mtodos de escalamiento utilidades por Stevens ms destacables son:
Mtodos de emparejamiento por magnitudes:

o Modalidad cruzada.
o Estimacin de magnitudes.
o Produccin de magnitudes.
Mtodos de emparejamiento por razones:
o Estimacin de razones.
o Produccin de razones.
Mtodos de emparejamiento por intervalos:
o Estimacin de intervalos.
o Produccin de intervalos.
Escalas de categoras o de clasificacin (Rating scales).
Mtodos de emparejamiento por magnitudes

Modalidad cruzada
Se utilizan dos continuos fsicos diferentes y la tarea del sujeto consiste en emparejar uno con
el otro. El experimentador selecciona un estmulo fsico (p. ej.: un sonido) y la tarea de cada
sujeto consistir en ajustar otro estmulo (p. ej.: la separacin entre dos rectas paralelas).
Estimacin de magnitudes
El sujeto asigna nmeros a la intensidad del estmulo. En primer lugar se presenta al sujeto un
estmulo que servir como estmulo de referencia a partir del cual deber estimar los valores
de los siguientes estmulos. Es posible que el experimentador asigne un valor (mdulo) a este
estmulo de referencia (p. ej.: se presenta una lnea al sujeto y se le dice que mide 10 cm. Si la
siguiente lnea le parece al sujeto que mide la mitad que el estndar, deber asignarle el valor
5 cm, y si le parece el doble, deber asignarle el valor 20 cm).
Produccin de magnitudes
En este mtodo la tarea del sujeto es la inversa que en el anterior. El experimentador presenta
al sujeto una serie de nmeros aleatorios y el sujeto debe modificar la magnitud de los
estmulos en base a los nmeros presentados. De esta manera el sujeto empareja los nmeros
a los niveles de magnitud del estmulo.
Mtodos por emparejamiento de razones

Modalidad cruzada
Se presentan al sujeto dos estmulos que guardan una determinada proporcin entre ellos y el
sujeto debe ajustar otros dos (pertenecientes a otro continuo diferente) de manera que
guarden la misma proporcin (p. ej.: el experimentador presenta al sujeto dos rectas de la
misma longitud y le pide que produzca dos ruidos cuya intensidad mantenga la misma
proporcin, es decir, que sean de la misma intensidad).

lOMoARcPSD|378992
Estimacin de razones
Se presentan al sujeto todos los pares de estmulos y su tarea consiste en hacer estimaciones
de las razones (proporciones) que hay entre las magnitudes de cada par, asignando un nmero
a cada par que represente esa razn. Se trata de asignar razones numricas a las razones
entre las magnitudes de los estmulos (p. ej.: se presentan dos rectas de 10 y 5 cm
respectivamente. Si al sujeto le parece que la primera es el doble de larga que la segunda,
deber asignar ese par el valor 2).
Produccin de razones
Se presenta al usuario un estmulo estndar y una proporcin numrica. Su tarea consiste en
producir otro estmulo que guarde con el estndar la proporcin dada (p. ej.: se le da al
usuario un sonido de referencia y debe producir otro que tenga el doble, triple, etc.,
intensidad).
Mtodos por emparejamiento de intervalos

Modalidad cruzada
Dados una serie de estmulos que varan a lo largo de dos continuos divididos en intervalos, el
sujeto debe emparejar los intervalos existentes entre los estmulos del otro continuo (p. ej.:
ajustar los intervalos hechos mediante unas marcas, a lo largo de una lnea, con el aparente
distanciamiento tonal de unos sonidos).
Estimacin de intervalos
Se presentan al sujeto una serie de estmulos entre s y se le pide que haga una estimacin de
las diferencias estimulares: el sujeto asigna nmeros que representen el tamao de las
diferencias estimulares presentadas.
Produccin de intervalos
Se presentan al sujeto dos estmulos (que forman un intervalo) y su tarea consiste en
encontrar:
Un estmulo intermedio (biseccin).

Varios estmulos que dividan el intervalo en ms de dos intervalos iguales
(equiseccin).
Varios estmulos que dividan el intervalo en varios intervalos distintos (multiseccin).
Escalas de categoras o clasificacin

Es uno de los ms utilizados en Psicologa y Sociologa. Se asume que el continuo en el que se
han de situar los estmulos est dividido en categoras ordenadas cuyos lmites son fijos. La
ser estimar los valores de los lmites de las categoras y despus asignar los estmulos a cada
una de ellas, averiguando sus valores escalares (p. ej.: se proporciona al sujeto un conjunto de
categoras para la intensidad de un sonido: muy fuerte, fuerte, medio, dbil, muy dbil. El
sujeto debe asignar cada estmulo presentado una de las categoras).
Mtodos de escalamiento Psicolgico

Los mtodos de escalamiento Psicolgico surgen cuando se quiere escalar caractersticas que
varan a lo largo de un continuo psicolgico (en lugar de a lo largo de un continuo fsico) y
dieron lugar a las escalas psicolgicas o subjetivas (p. ej.: en lugar de presentar dos sonidos y
preguntar cual es ms intenso, lo cual se puede medir, se presentan dos cuadros y se pregunta
cual tiene ms realismo).
La figura ms representativa fue Thurstone, quien desarroll un modelo basado en:

lOMoARcPSD|378992
La variabilidad perceptual de los sujetos (e incluso de un mismo sujeto).

La limitacin que tienen los sujetos para percibir las diferencias de magnitud entre dos
estmulos cuando son muy pequeas.
A partir de estas ideas, desarroll la Ley del Juicio Comparativo y la Ley del Juicio Categrico. A
partir de estos trabajos, se desarrollaron nuevas formas de escalamiento psicolgico como
mtodo del escalograma desarrollado por Guttman.
Orgenes y desarrollo de los tests

La otra motivacin de la introduccin del proceso de medicin en Psicologa fue el intento de
apreciar las diferencias individuales, es decir, el escalamiento de los sujetos. Este intento
propici el desarrollo del Mtodo de los Tests y de las distintas Teoras de Tests.
Un test se puede definir de la siguiente manera: Un test es un instrumento de medicin

diseado para estudiar de un modo objetivo y sistemtico el nivel de los sujetos respecto a
algn atributo, caracterstica o dominio de conocimientos y, a partir de las puntuaciones que
obtengan los sujetos en el test, poder analizar las diferencias entre ellos.
Hay tres factores decisivos en el desarrollo de los tests:
Galton y su estudio antropomtrico.

El desarrollo de la correlacin de Pearson.
La interpretacin de Spearman de esta correlacin.
La importancia de los trabajos de Galton

Galton crea que la medicin de las caractersticas mentales estaba relacionada con las de las
caractersticas fsicas de manera que en su estudio antropomtrico construy y utiliz una
serie de instrumentos que puede ser considerados los primeros Tests psicomtricos,
caracterizados por un fuerte carcter antropomtrico, sensorial y motor. Finalmente, Galton
admiti que sus medidas no tenan valor como medidas de la inteligencia. A partir de aqu
comienza el gran desarrollo del mtodo de los tests.
Los primeros tests mentales

Cattell utiliz por primera vez el trmino Test Mental, aunque al igual que los de Galton, estos
test tenan fundamentalmente carcter sensorial y motor.
Desarrollo de los primeros test de inteligencia

Binet sera el primero en darse cuenta de que las sensaciones no jugaban un papel demasiado
importante en la Psicologa Diferencial y que era necesario centrarse en el estudio de los
procesos mentales superiores. Binet y Simon publicaron en 1905 la primera escala de
inteligencia que evaluaba la capacidad de comprensin y razonamiento de los nios. Ms
tarde, Terman adapt el test en la Universidad de Stanford.
La finalidad inicial de la escala era detectar a sujetos que presentaran algn retraso mental,
aunque posteriormente se utiliz para el estudio de las diferencias en otros niveles. Para poder
interpretar las puntuaciones obtenidas, se desarroll el concepto de Edad Mental, que
equivale a la edad cronolgica de los nios intelectualmente normales cuya media en la escala
es igual a la obtenida por el nio examinado (p. ej.: se aplica la escala a un nio de 12 aos y
obtiene una puntuacin que coincide con la puntuacin media obtenida por los nios de 9
aos. En este caso, diremos que su edad mental es de 9 aos y su edad cronolgica de 12).

lOMoARcPSD|378992
Terman utiliza como medida de la inteligencia el concepto de Cociente Intelectual (CI)

acuado por Stern, que es igual a la Edad Mental dividida por la Edad Cronolgica y
multiplicado por 100. El CI es la primera escala de puntuaciones referida a las aptitudes
mentales.
Los tests colectivos

Todos los tests desarrollados hasta el momento eran de aplicacin individual, con el
consiguiente gasto de tiempo. Cuando EEUU entr en la Primera Guerra mundial, se
desarrollaron los primeros tests colectivos para seleccionar y clasificar a las personas
disponibles para el ejrcito en funcin de sus capacidades. Estos test recibieron los nombres
de Test Alpha (para la poblacin general) y Test Beta (para reclutas analfabetos). Finalizada la
guerra, el uso de tests se extendi a la industria y otras instituciones y en 1922, Catell, fund la
primera empresa dedicada a la publicacin masiva de tests.
En 1938 apareci el Test de Wechsler-Bellevue para medir la inteligencia en adultos y en 1949

la versin para nios conocida como WISC.
A pesar del gran desarrollo de los tests, no se saba: Qu miden realmente los tests? Existen
realmente los rasgos que dicen medir los tests? Para responder a estas preguntas se
desarrollaron el coeficiente de correlacin de Pearson y el Anlisis Factorial (tcnicas
correlacinales), cuyos primeros esbozos se deben a Spearman.
Las tcnicas agrupadas bajo el trmino Anlisis Factorial tuvieron una gran importancia en el
desarrollo de los tests, ya que sin ellas, los test mentales hubieran tardado ms en perder su
carcter sensorial. Estas tcnicas tratan de representar un conjunto de variables observables
(escalas, tems, etc.) mediante un nmero ms pequeo de variables no observables sino
latentes, llamadas factores, de las que las primeras son indicadores.
La influencia del Anlisis Factorial a los test de inteligencia fue doble:
Dio fundamentacin terica a su utilizacin.

Los resultados del AF destacan la importancia de estudiar otras aptitudes ms
especficas en el campo de la inteligencia.
Las bateras de aptitud mltiple

Cuando las tcnicas de Anlisis Factorial comenzaban a dar sus frutos comenzaron a
desarrollarse las bateras de tests (Bateras de Aptitud Mltiple), cuya finalidad era medir la
posicin de cada sujeto en un cierto nmero de rasgos. En lugar de una nica puntuacin total
(o CI) se obtiene una puntuacin por separado para cada rasgo. Entre las primeras bateras
destaca la Batera de Aptitudes Mentales Primarias de Thurstone, que inclua pruebas para
medir los componentes fundamentales de la inteligencia (por aquel entonces): comprensin
verbal, fluidez verbal, aptitud numrica, memoria, etc.
Los tests de personalidad

Se puede considerar a Kraepelin como un precursor de los Tests de Personalidad, ya que en
1984 utiliz el Test de Asociacin Libre para estudiar los efectos de la fatiga, el hambre y las
drogas, concluyendo que todos esos agentes aumentan la frecuencia relativa de las
asociaciones superficiales.

lOMoARcPSD|378992
El prototipo de cuestionario de personalidad con carcter psicomtrico, es la Hoja de Datos

Personales de Woodworth y data de 1917 (usada en la Primera Guerra Mundial para detectar
sujetos con trastornos neurticos graves no aptos para el ejrcito).
De los primeros test objetivos de personalidad hay tres que han sobrevivido en la actualidad:
Las series de Guilford et al. Y Cattell et al.: utilizadas en poblaciones normales,

basadas en el anlisis factorial y orientadas hacia los rasgos.
El Inventario Multifsico de Personalidad de Minnesota (MMPI) de Hathaway y
McKinley: utilizado en poblaciones clnicas, no utilizaba escalas derivadas del anlisis
factorial y est orientado hacia una clasificacin psiquitrica.
Durante la primera mitad del siglo XX se crearon los Tests Proyectivos, siendo el primero el
Test de las manchas de tinta, creado por Rorschach, a partir del cual se desarrollaron muchos
otros asociados con la Psicologa Clnica y el Psicoanlisis.
Sin embargo, hay varias razones que han contribuido a que disminuya la utilizacin de estas
tcnicas:
El escepticismo hacia estos instrumentos debido a la sofisticacin cientfica.

El desarrollo de procedimientos alternativos (MMPI y otros tests objetivos), que
convenci a algunos psiclogos clnicos de que con estos podan obtener la misma
informacin de manera menos costosa.
Generalmente, las teoras proyectivas estaban asociadas con la teora psicoanaltica.
A pesar de estas razones, el test de Rorschach sigue siendo de utilidad.
La medicin de intereses y actitudes

En cuanto a la medicin de los intereses destacan el Cuestionario de Intereses Vocacionales
de Strong (SVIB), desarrollado por E. K. Strong en 927, y la Escala de Preferencias de Kuder,
introducida por Kuder en 1934.
En cuanto a la medida de las actitudes, creencias y opiniones, su desarroll empez en 1928

con los modelos de Thurstone: la Ley del Juicio Comparativo y la Ley del Juicio Categrico. Poco
despus, Likert elabor nuevas escalas que paliaban algunos de los inconvenientes de la de
Thurstone, eran ms fciles de elaborar y diagnosticaban mejor.
Con el fin de medir el significado connotativo (afectivo o subjetivo) de determinados

estmulos, Osgood elabor El Diferencial Semntico.
Los test referidos al criterio frente a los test referidos a las normas
Los tests desarrollados hasta los aos 70 del siglo XX evaluaban el nivel de los sujetos en un
determinado rasgo, interpretando los resultados en relacin a un grupo normativo. Por esta
razn eran Tests Referidos a las Normas (TRN). Sin embargo, apareci inters en la evaluacin
de cada sujeto de manera absoluta, por lo que se desarrollaron otro tipo los Tests Referidos al
Criterio (TRC). Estos tests proporcionaron las bases para interpretar las puntuaciones de los
sujetos en relacin a un dominio bien definido, ms que en relacin a un grupo normativo.
Las grandes diferencias entre los TRN y los TRC son:
La finalidad de la evaluacin:
o TRN: el objetivo es poner de manifiesto las diferencias individuales en la
conducta o rasgo medido por el test.

lOMoARcPSD|378992
o TRC: el objetivo es estimar el rendimiento o conducta del sujeto en los

objetivos que mide el test.
La construccin del test y la especificacin de los contenidos:
o TRN: se suele recurrir a teoras sobre el rasgo que se quiere medir, pero sin
una clara delimitacin del contenido a evaluar.
o TRC: lo primero que se debe de hacer es especificar claramente el dominio de
contenidos o conductas a evaluar (y el uso que se va a hacer del test).
La forma de seleccionar los tems:
o TRN: seleccin de tems de dificultad media y alto poder discriminativo,
capaces de obtener las diferencias individuales.
o TRC: seleccin de tems en funcin de los objetivos y el uso que se va a hacer
del test.
El significado de las puntuaciones:
o TRN: la puntuacin es un indicador de su puntuacin verdadera en un rasgo
latente.
o TRC: la puntuacin es un estimador de la conducta o rendimiento del sujeto.
La interpretacin de las puntuaciones:
o TRN: la puntuacin nicamente tiene significado con relacin a los resultados
del grupo normativo.
o TRC: la puntuacin tiene significado en trminos absolutos.
Los test adaptativos informatizados (TAIs)

Gracias a los avances y disminucin de costes de la informtica, cada vez son ms populares las
aplicaciones de administracin de tests a travs del ordenador. Un ejemplo de estas
aplicaciones es la de los Test Adaptativos Informatizados, caracterizados porque la seleccin
de tems se realiza durante la realizacin del test de manera que los tems se van adaptando al
nivel de cada sujeto (para que no resulten ni muy fciles ni muy difciles).
Cuando se administran este tipo de tests, se utiliza el ordenador como medio para hacer la
seleccin te tems.
Desarrollo de la teora de los tests

Cuando se aplica un test a una muestra de sujetos surgen preguntas como:
En qu medida esas puntuaciones reflejan el nivel del sujeto en la caracterstica o

rasgo medido?
Cmo estar seguros de que la puntuacin obtenida es la que realmente le
corresponde?
Qu error afecta a las puntuaciones obtenidas al aplicar el test?
Como consecuencia del auge conseguido por los tests, surge la necesidad de algn
procedimiento que permita:
Analizar la precisin o fiabilidad de las medidas obtenidas, es decir, saber hasta qu

punto las puntuaciones obtenidas equivalen a sus puntuaciones verdaderas y cul es el
error que se est cometiendo.
Analizar la validez de las puntuaciones, es decir, saber si las conclusiones que se
pueden extraer son vlidas.
10

lOMoARcPSD|378992
Para dar respuesta a estas preguntas y cubrir estas necesidades, se desarroll un marco
terico general: la Teora de los Tests. Este marco permite establecer una relacin funcional (a
travs de una funcin matemtica) entre las variables observables (puntuaciones en el test) y
las variables inobservables (puntuaciones verdaderas en el rasgo asociado).
Los modelos ms relevantes son la Teora Clsica de los Tests (TCT) y la Teora de Respuesta al
tem (TRI).
La Teora Clsica de los Tests (TCT)

La TCT se desarroll a partir de las aportaciones de Galton, Pearson y Spearman.
Gira en torno a tres conceptos bsicos:
Las puntuaciones empricas u observadas (X): las obtenidas por los sujetos cuando se
les aplica el test.
Las puntuaciones verdaderas (V): las puntuaciones que realmente tienen los sujetos
en el rasgo medido. Coincidiran con las empricas en el caso hipottico de que no
existieran los errores de medida (E).
Las puntuaciones debidas al error (E): error inevitable asociado a la medicin.
Entre estas tres puntuaciones se establece una relacin funcional, el modelo lineal de
Spearman: X = V + E.
Este es un modelo aditivo en el que la puntuacin de la variable observada (dependiente) de

un sujeto en un test (X) es el resultado de la suma de dos componentes: su puntuacin
verdadera (variable independiente) (V) y el error (E).
El objetivo de la TCT es estudiar el error de medida (presente en cualquier medicin realizada

en el campo psicolgico y educativo), para inferir (estimar) el nivel real de los sujetos en el
rasgo o constructo que mide el test y en base a los supuestos del modelo. Estos errores son
aleatorios y pueden provenir de numerosas fuentes (p. ej.: el propio estado emocional del
sujeto puede influir en el test; el formato del test; las condiciones ambientales; las
instrucciones dadas al sujeto para la realizacin del test; etc.)
Se han realizado algunos intentos de sistematizar y clasificar el error en funcin de las posibles
fuentes. El intento ms ambicioso y global es la Teora de la Generalizabilidad (TG), que tiene
en cuenta todas las posibles fuentes de error (factores individuales, situacionales,
caractersticas del evaluador y variables instrumentales) e intenta diferenciarlas mediante la
aplicacin de los procedimientos clsicos de Anlisis de Varianza (ANOVA o AVAR).
Aunque la TG supuso un cierto avance, suele ser considerada ms una extensin de la TCT que
un modelo alternativo. La complicacin de sus diseos y la aparicin de los tests englobados
en la TRI fueron la causa de que la TCT quedara relegada a un segundo trmino.
La Teora de Respuesta al tem (TRI)

Adems de la crtica a la TCT de la indiferenciacin del error (slo haba un componente de
error que englobaba a todos), esta teora presentaba otros dos problemas:
Las puntuaciones de los sujetos variaban en funcin del conjunto de tems o tests
utilizados cuando, en realidad, su nivel en el rasgo en ese momento no tena por qu
variar.
11

lOMoARcPSD|378992
Los estadsticos de los tems (dificultad y discriminacin) dependan de la muestra de

sujetos utilizada para su clculo.
Gulliksen y Lord se interesaron en el desarrollo de teoras y modelos que permitiesen describir

los niveles de habilidad de los sujetos con independencia de la muestra de tems o tests
utilizados, y tambin en el clculo de los estadsticos de los tems con independencia de la
muestra de sujetos.
La solucin ms adecuada fue la Teora de Respuesta al tem (TRI) que establece una relacin
funcional (Curva Caracterstica del tem) entre los valores de la variable que miden los tems
(nivel de habilidad de los sujetos en el rasgo medido) y la probabilidad de que los sujetos, en
funcin de su nivel de habilidad, acierten ese tem.
Aunque el desarrollo de estos modelos supuso un gran avance, la dificultad de utilizarlos sin la
ayuda de ordenadores fue la causa de que su gran desarrollo no llegase hasta finales del siglo
XX. Adems, la TCT sigue en auge ya que hay problemas que se pueden solucionar ms eficaz y
rpidamente dentro de su marco.
12

lOMoARcPSD|378992
Psicometra | Tema 2: Principios bsicos para la construccin de instrumentos de medicin psicolgica
Tema 2: Principios bsicos para la construccin

de instrumentos de medicin psicolgica
Introduccin
Para poder utilizar un test como instrumento cientfico de medicin es necesario cubrir una
serie de etapas:
Una primera etapa que abarcara: (i) la elaboracin de una prueba piloto, (ii) su
aplicacin a una muestra de sujetos y (iii) la asignacin de puntuaciones a los mismos.
Una segunda etapa en la que se evaluara la calidad psicomtrica de cada uno de los
tems de la prueba piloto y el conjunto de la misma. Esta etapa finalizara con la
construccin definitiva del test.
Una tercera etapa en la que: (i) se aplicara el test a una muestra representativa de la
poblacin a la que va dirigido, (ii) se asignara puntuaciones a los sujetos y (iii) se
llevara a cabo el proceso de estandarizacin de las puntuaciones obtenidas y el
establecimiento de normas para su interpretacin. El proceso finalizara con la
elaboracin del manual del test que deber incluir toda la informacin necesaria para
que pueda ser utilizado por psiclogos especializados.
En este tema se trata la primera etapa.
Los tests, escalas, cuestionarios e inventarios

En general, se ha utilizado el trmino Test para referirse a cualquier instrumento de medicin
psicolgica. No obstante, la palabra Test se reserva para denominar a los instrumentos para la
medicin de variables en el mbito cognitivo: aptitudes, conocimientos, rendimiento,
habilidades, etc.
Ejemplo de pregunta de un Test:
1. La capital de Espaa es: a) Pars b) Londres c) Madrid
Cuando se quieren medir variables que no pertenecen al mbito cognitivo, sino al afectivo u
orctico (personalidad, actitudes, intereses, opiniones, etc.) se utilizan las Escalas, los
Cuestionarios y los Inventarios.
Las Escalas muestran el enunciado del elemento junto a una serie de alternativas de respuesta
categorizadas de forma ordenada (escalas de categoras o escalas de clasificacin). En las
escalas, el sujeto puede mostrar su posicin respecto a lo que se muestra en el enunciado y no
hay respuestas correctas o incorrectas.
Ejemplo de pregunta de una Escala:
2. Debera estar prohibido fumar en todos los restaurantes: 1) Completamente de acuerdo

2) De acuerdo 3) Indiferente 4) En desacuerdo 5) Completamente en
desacuerdo
Los Cuestionarios suelen estar formados por elementos cuyas alternativas de respuesta no
forman categoras ordenadas y son independientes de las dems. La tarea del sujeto consiste

lOMoARcPSD|378992
en elegir la alternativa o alternativas que prefiere o que mejor reflejen aquello que se est
valorando. Se suelen utilizar para llevar a cabo una investigacin mediante encuestas.
Ejemplo de pregunta de un Cuestionario:
3. Qu parte de la asignatura de Psicometra le resulta ms fcil de estudiar? a) Fiabilidad

b) Validez c) Anlisis de elementos d) La construccin de tests
Los Inventarios se suelen reducir a una serie de enunciados ante los que los sujetos han de
responder si s verdadero o falso, es decir, su acuerdo o no con los distintos enunciados. Este
trmino suele estar vinculado a los instrumentos para medir variables de personalidad.
Ejemplo de pregunta de un Inventario:
4. A menudo siento como si los dems me ignoraran V F
El problema de mucha gente es que no toma las cosas en serio V F
Creo que me gustara trabajar en unos grandes almacenes V F
El proceso de construccin de un test

El proceso de construccin de un test es laborioso y antes de construirlo hay que tener muy
claro qu se quiere medir, a quin va a ir dirigido y para qu se va a utilizar.
La siguiente tabla recoge las distintas etapas desde que el investigador se plantea la tarea de
construir un test hasta el momento de aplicacin de la prueba piloto.
Etapas Decisiones a tomar a cerca de:

Qu se va a medir
Determinar la finalidad del test A quin se va a medir
Para qu se va a medir
Cul va a ser el contenido
Especificar las caractersticas del Qu tipo de tems se van a incluir
test Cuntos tems
Caractersticas psicomtricas
tems de eleccin
Redaccin de los tems
tems de construccin
Revisin crtica de los tems por
Qu tems van a seleccionarse
un grupo de expertos
Instrucciones de administracin
Confeccin de la prueba piloto Formato de presentacin
Formato de registro de respuestas
Individual colectiva
Papel y lpiz Informatizada
Aplicacin de la prueba piloto
Correo, mediante entrevista personal, por
telfono, etc.
Correccin de la prueba piloto y
En los tests formados por tems de eleccin
asignacin de puntuaciones a los
En los tests formados por tems de construccin
sujetos

lOMoARcPSD|378992
La finalidad del test

Como paso previo a la construccin de un test es necesario tener claro:
Qu se quiere medir? Hace referencia a la variable de estudio.

A quin se quiere medir? La poblacin a la que va dirigido.
Para qu se quiere medir? El uso o utilizad que se va a dar al test.
Ejemplo: os profesores de Psicometra quieren construir un test (examen) para evaluar los
puntos fuertes y dbiles de los alumnos respecto al programa de la asignatura, y poder incluir
en la pgina web algunas recomendaciones para superar las dificultades que puedan surgir
durante el estudio. Ya tendramos el objetivo del test:
Qu se quiere medir? Los conocimientos de Psicometra.

A quin se quiere medir? A los alumnos.
Para qu se quiere medir? Detectar puntos fuertes y dbiles respecto al programa
de la asignatura.
La variable objeto de estudio

La medicin de variables psicolgicas que son inobservables de forma directa (constructos)
debe hacerse midiendo conductas o manifestaciones que s que sean observables
directamente. Todas las cuestiones que hacen referencia a estas conductas son las que deben
ser reflejadas en los tems del test, por ello, es muy importante definir claramente el
constructo que se quiere medir. Si el constructo est bien definido ser ms fcil determinar
cules son las conductas representativas del mismo y, a partir de ellas, especificar el contenido
del test.
Ejemplo: Si queremos construir un test para medir la habilidad verbal, lo primero que debemos
hacer es definir el constructo. La definicin de habilidad verbal propuesta por Thorndike es la
siguiente: Se trata de un constructo que se pone de manifiesto por el conocimiento de
significados de un gran nmero de palabras y eleccin de la palabra ms adecuada en un
determinado contexto.
Poblacin a la que va dirigido

Es importante determinar la poblacin a la que va dirigido el test puesto que no es lo mismo
construir un test para evaluar algn rasgo o caracterstica en una poblacin infantil que en una
poblacin adulta. El contenido de los tems, su redaccin, su longitud o las instrucciones sern
diferentes segn el tipo de poblacin a la que vaya dirigido.
Utilizacin prevista
Otro aspecto fundamental es tener en cuenta la utilizacin que se le va a dar al test: para qu
se va a utilizar y qu decisiones se van a tomar a partir de las puntuaciones de los sujetos.
La siguiente tabla muestra los usos ms frecuentes de los tests junto con las decisiones que se
suelen tomar a partir de las puntuaciones obtenidas por los sujetos.
Funciones Decisiones a tomar a cerca de:

En el mbito educativo, saber si los alumnos han conseguido los
objetivos curriculares mnimos y calificarlos de Apto/No Apto (p.
Seleccin
ej.: examen de acceso a la universidad)

lOMoARcPSD|378992
En el mbito profesional, seleccin de aspirantes a un puesto de

trabajo.
En cualquier mbito. Por ejemplo, en el mbito educativo para
Clasificacin/Colocacin averiguar el nivel de los alumnos al principio de curso y asignarle
diferentes grupos en funcin de su nivel.
En cualquier mbito, se pueden utilizar para detectar problemas
Diagnstico (de comportamiento, aprendizaje, etc.) y, una vez detectados,
solucionarlos.
En el mbito profesional se pueden emplear para acreditar la
cualificacin o competencia de los trabajadores.
Certificacin
En el mbito acadmico se pueden utilizar para garantizar que
han alcanzado los conocimientos y habilidades necesarias para
obtener una titulacin.
Detectar las capacidades e intereses de las personas para
Orientacin/Consejo presentarles las mejores opciones o posibilidades que se les
puedan presentar a nivel educativo, profesional o personal.
Descubrir el rendimiento acadmico tanto a nivel individual
Descripcin/Informacin como colectivo. Obtener informacin acerca de la opinin
pblica sobre algn aspecto poltico, social, etc., de inters.
Especificacin de las caractersticas del test

Hay cuatro aspectos fundamentales que hay que tener en cuenta para elaborar las
especificaciones del test: contenido, formato de los tems, longitud y forma de aplicacin.
Contenido
Una vez definido el constructo que se quiere medir, la especificacin del contenido comienza
determinando cul es su dominio de conductas (las conductas a travs de las que se manifiesta
el constructo). Una vez determinado el dominio de conductas se pueden tomar decisiones
acerca del contenido del test.
La definicin un constructo y la determinacin de su dominio de conductas son dos tareas

fuertemente relacionadas.
Si el constructo no est claramente definido y no se tiene una idea clara de las conductas
asociadas, es necesario seguir una serie de recomendaciones (hacer un anlisis del contenido
del constructo, revisar las investigaciones publicadas, llevar a cabo un anlisis de tareas,
utilizar el juicio de expertos, etc.).
En los test de rendimiento y conocimientos (pruebas de evaluacin en educacin) y en los test

referidos al criterio (TRC), en lugar de un dominio de conductas se tendr un dominio de
contenidos a evaluar, y la especificacin del mismo cobrar una gran importancia.
En el mbito acadmico, cuando se quiere construir un test para evaluar el rendimiento

acadmico en una materia que analice lo que los alumnos deberan haber aprendido, se suele
construir una tabla de doble entrada en donde:
Las columnas representan las reas de contenido.

Las filas representan los distintos procesos implicados en la resolucin de las tareas
planteadas (en las filas tambin se puede poner el grado de dificultad de las preguntas
que se quiere incluir en la prueba: bajo, medio, alto).

lOMoARcPSD|378992
Los contenidos de las filas variarn en funcin de lo que se quiera medir, pero se ha realizado
una categorizacin jerrquica de los distinto procesos implicados. Estos procesos son:
conocimiento, comprensin, aplicacin, anlisis, sntesis y evaluacin.
Ejemplo: matriz de especificaciones del contenido para un test de la asignatura de Psicometra.

En este ejemplo se plantea que el test tenga 80 tems. Se asume que todos los procesos tienen
la misma importancia, por lo que a cada uno le corresponde el 25% de los tems. Adems, las
reas de fiabilidad y validez son las ms importantes y se les asigna el 25%, siendo medicin la
siguiente ms importante (20%) y anlisis de tems la ltima (10%).
reas de contenido
Procesos A. de tems
Medicin (20%) Fiabilidad (35%) Validez (35%)
(10%)
Conocimiento 4 7 7 2
Comprensin 4 7 7 2
Aplicacin 4 7 7 2
Anlisis 4 7 7 2
Total 16 28 28 8
La especificacin de test de aptitudes suele ser menos especfica puesto que miden
caractersticas ms generales de la persona. A veces se especifica el tipo de tems que la van a
conformar.
Cuando se quiere construir un test (escala, cuestionario, inventario) para medir constructos no
cognitivos (intereses, actitudes, temperamento, etc.) las especificaciones pueden ser ms
esquemticas y, a veces, el contenido de los tems se deduce fcilmente de la especificacin
del constructo.
Formato de los tems

En el paso anterior se ha especificado qu se va a medir y ahora es necesario saber cmo se va
a medir, por lo que lo primer el primer paso es seleccionar el tipo de tems que se van a
utilizar.
Existen dos grandes categoras de tems (Haladyna, 1994):
Los tems de seleccin son tems de respuesta cerrada, donde el sujeto debe elegir
una o varias alternativas de entre las propuestas.
Los tems de construccin, donde el sujeto debe elaborar su propia respuesta.
tems de eleccin
Los formatos ms comunes que se presentan son:
Dos alternativas.
Eleccin mltiple.
Emparejamiento.
Formato cloze o incompleto.
Escalas de clasificacin.
Listados.

lOMoARcPSD|378992
Dos alternativas
Los sujetos han de elegir entre dos alternativas (p. ej.: Verdadero Falso, Si No, Correcto
Incorrecto). Se utiliza normalmente para medir variables cognitivas (habilidades, aptitudes) y
para la construccin de tests de conocimiento y rendimiento. Tiene la ventaja de que es fcil y
rpido de usar y el inconveniente de que respondiendo al azar los sujetos tienen el 50% de
probabilidades de acertar.
No es adecuado para medir variables no cognitivas (personalidad, actitudes, intereses, etc.)

dado que en ellos no hay respuestas correctas ni incorrectas y la restriccin de dos alternativas
tampoco es adecuada.
Ejemplo:
- La capital de Espaa es Madrid SI No

- Los constructos son variables observables directamente V F
Eleccin mltiple
Este tipo de tems consta de:
El enunciado.
Las alternativas de respuesta, de las cuales:
o Una es la correcta (o la ms adecuada).
o Las otras son incorrectas y se llaman distractores.
Se suelen utilizar entre 3 y 5 alternativas para reducir la probabilidad de acertar respondiendo

al azar. Igual que el formato de dos alternativas, se utiliza para medir variables de tipo
cognitivo y en tests de conocimientos y rendimiento y no se utiliza para medir variables no
cognitivas (mbito afectivo u orctico).
Tienen la ventaja son fciles de administrar, corregir y puntuar (especialmente con lectoras
pticas y ordenadores) pero el inconveniente de que son ms difciles de construir que los de
dos alternativas (es difcil construir alternativas efectivas).
Ejemplo:
La capital de Espaa es: a) Madrid b) Barcelona c) Ourense d) Sevilla
El enunciado del tem puede presentarse en forma interrogativa (a ms adecuada),

enunciativa (equivalente a la interrogativa) o como una frase truncada o incompleta que
contina en alguna de las alternativas (suele utilizarse en textos educativos).
Segn la forma de redactar las alternativas hay dos tipos de tems:
Los que tienen una respuesta correcta. Se utilizan cuando no hay ambigedad en la
respuesta.
En los que todas las alternativas son parcialmente correctas pero hay una que es la
ms completa y mejor. Se utilizan para evaluar procesos mentales complejos.
Emparejamiento
El sujeto debe emparejar los elementos de dos columnas de acuerdo a las instrucciones dadas
en el enunciado. Al igual que los anteriores, es adecuado para medir variables cognitivas y
conocimientos.
Ejemplo

lOMoARcPSD|378992
1) Castilla y Len a) Santander

2) Cantabria b) Segovia
3) Galicia d) Cceres
4) Extremadura c) Ourense
Formato Cloze o incompleto

Se ofrece a los sujetos un prrafo o una frase en la que faltan algunas palabras y hay un
espacio en blanco en su lugar y se ofrece una lista que contiene las palabras que faltan. La
tarea del sujeto es la de seleccionar de la lista la que corresponda a cada espacio en blanco.
Ejemplo:
En el ro haba gran cantidad de _____ que navegaban en ambas direcciones. No se poda estar
en la cubierta debido al fuerte _____, pero como el trayecto no era muy _____ no era
demasiado molesto para permanecer en el/la _____.
a) Barcos b) Interior c) Viento d) Largo
Escalas de clasificacin (rating scales)

Los tems constan de un enunciado y distintas alternativas ordenadas gradualmente en una
serie de categoras a lo largo de un continuo. El sujeto debe elegir la alternativa que mejor
refleje su postura o actitud personal ante el enunciado.
Este tipo de escalas se denominan escalas valorativas ya que los usuarios deben emitir juicios
de valor.
Ejemplo:
El tabaco debera prohibirse en todos los sitios pblicos: a) Totalmente de acuerdo b) De

acuerdo c) Me es indiferente d) En desacuerdo e) Totalmente en desacuerdo
Se diferencia de los tems de eleccin mltiple en que las opciones de las escalas de
clasificacin son interdependientes (corresponden a categoras de respuesta ordenadas)
mientras que en los tems de eleccin mltiple las opciones son independientes entre s.
Este formato no se utiliza en el mbito cognitivo ya que no contiene respuestas correctas o

incorrectas. En cambio, se utiliza para medir variables no cognitivas: actitudes, intereses,
personalidad, etc.
Tienen la ventaja de que los usuarios expresan su postura de manera ms precisa (que en
eleccin mltiple). Tienen dos inconvenientes: (i) el significado de las distintas opciones no es
el mismo para todos los sujetos y (ii) suelen aparecer sesgos en las respuestas (hay sujetos que
tienden a elegir opciones extremas o cuando las alternativas son impares, la central).
No hay acuerdo respecto al nmero de opciones ms adecuado y generalmente, el formato

ms utilizado es el de 5 alternativas de respuesta propuesto por Likert.
Listados (checklists)
Se trata de una escala valorativa en la que los sujetos han de mostrar su opinin respecto
algn hecho (idea, objeto, persona, etc.) presentado en el enunciado. No se utilizan para la
medida de variables de tipo cognitivo ya que tampoco hay opciones correctas o incorrectas. Se
diferencian de las escalas de clasificacin en que las opciones de los listados no estn
ordenadas sino que son independientes entre s.

lOMoARcPSD|378992
El nmero de alternativas de respuesta suele ser bastante grande y no siempre es necesario

elegir una nica opcin. Es el formato tpico de los cuestionarios.
Ejemplo:
En su opinin, cul de las modalidades de baile que aparecen a continuacin es su preferida: a)

Bachata b) Salsa c) Merengue d) Kizomba
De los adjetivos que aparecen a continuacin, seale con una cruz aquellos que mejor le
definan:
a) Simptico b) Tmido c) Paciente d) Impulsivo
e) Sociable f) Estudioso g) Trabajador h) Perezoso
tems de construccin
Son tems de respuesta abierta, en los que el sujeto ha de elaborar su respuesta. Dentro de
esta categora se distinguen los de respuesta corta y los de respuesta extensa.
tems de respuesta corta

El sujeto ha de completar una frase con una palabra (aunque a diferencia de los tems de
eleccin mltiple ha de construirla en lugar de elegir entre una lista) o bien responder con una
frase.
Ejemplo:
- El nombre del presidente del Gobierno espaol es __________.
tems de respuesta larga (o ensayo)

En este tipo de tems se pide a los sujetos que desarrollen un tema.
Ejemplo:
Describa el origen y desarrollo de la Teora de los Tests.
Este tipo de formato de los tems tienen la ventaja dan la oportunidad de que expresen con sus
propias palabras sus conocimientos, experiencias, opiniones, etc., de manera que el
investigador adems de conocer lo que saben, opinan o piensan, tambin podr ver como se
expresan, pudiendo analizar ms aspectos que con los tems de respuesta cerrada (como la
originalidad, la forma de redactar, etc.). Es decir, adems de evaluar el nivel de conocimientos
tambin se pueden evaluar habilidades cognitivas de orden superior.
Este tipo de formato de los tems se utiliza para medir todo tipo de variables (cognitivas o
afectivas u orcticas) pero tiene el inconveniente de que las respuestas de los sujetos son ms
difciles de analizar puesto que despus de aplicar el test, el investigador debe codificar las
respuestas en categoras de manera que estas agrupen a los sujetos que hayan emitido
respuestas similares.
Longitud del test

A la hora de construir el test, hay varios factores a tener en cuenta a la hora de determinar el
nmero de tems que lo componen (su longitud):

lOMoARcPSD|378992
La poblacin a la que va dirigido: ya que por ejemplo, no es lo mismo realizar un test

para una poblacin infantil que para una poblacin adulta puesto que la atencin,
motivacin y capacidad de expresarse es diferente.
El tiempo del que se dispone: la longitud del test debe ser tal que todos tengan
tiempo suficiente para contestar a todos los tems (salvo que sea una prueba de
rapidez).
Los objetivos del test: si el test es para medir un rea de conocimiento muy concreto
(p. ej.: el examen de una asignatura) deber estar formado por tems especficos y
similares y no es necesario que sea largo. Sin embargo, si el test debe cubrir varias
reas de contenido (p. ej.: unas oposiciones) deber incluir mayor nmero de tems y
ms variados.
Se recomienda que en la prueba piloto se incluyan ms tems que el que se van a utilizar en la
versin final puesto que a lo largo de los anlisis que se deben ir haciendo se irn eliminando
aquellos tems que no renan las caractersticas psicomtricas adecuadas.
Caractersticas psicomtricas de los tems

Las caractersticas psicomtricas de los tems son:
Nivel de dificultad. En el marco de la TCT, un tem es fcil para una poblacin si la

probabilidad de que los sujetos los respondan correctamente es alta y es difcil si esta
probabilidad es baja.
Homogeneidad con el resto de tems. Un test tiene un alto grado de homogeneidad
con el resto de los tems cuando mida lo mismo que ellos.
Capacidad de discriminacin. Un tem tendr poder discriminativo en la medida en
que sirva para diferenciar entre sujetos que han obtenido puntuaciones extremas.
Es necesario tener en cuenta estas caractersticas a la hora de construir un test ya que en

funcin del uso que se le vaya a dar al test ser necesario que los tems seleccionados tengan
ciertas caractersticas.
Dificultad de los tems

En funcin de la dificultad de los tems, se pueden distinguir tres tipos de tests:
Tests de velocidad. Los tems deben ser fciles de responder y la dificultad estriba en
que el tiempo para resolver el test es limitado. El factor discriminante entre sujetos es
la velocidad ya que si no existiera limitacin de tiempo, la mayora de los sujetos seran
capaces de responder correctamente.
Tests de ejecucin mxima (Tests de potencia). Utilizados para la evaluacin del
rendimiento acadmico y la media de aptitudes y destrezas. Los tems presentan
diferentes grados de dificultad, desde los muy fciles (que todos deben saber
responder y se deben situar al comienzo) hasta tems muy difciles (que se colocan al
final y que slo pueden acertar los ms aptos). El tiempo no es un factor que deba
influir por lo que deben tener tiempo suficiente para responder a todos los tems.
Tests de ejecucin tpica. Son tests de personalidad, actitudes, intereses, etc. Dado
que en ellos no hay respuestas correctas o incorrectas no tiene sentido hablar de la
dificultad de los tems.
Grado de homogeneidad de los tems

El grado de homogeneidad de los tems depende del constructo a medir. Si el constructo es
unidimensional los tems han de ser ms homogneos que si es multidimensional. Por

lOMoARcPSD|378992
ejemplo, si el constructo es multidimensional y los tems slo miden una dimensin (son muy
homogneos) dejarn sin medir otras dimensiones, por lo que las inferencias realizadas no
sern suficientemente vlidas.
Capacidad de discriminacin
La capacidad de discriminacin de los tems depender de la poblacin a la que va dirigido el
test:
Si va dirigido a la poblacin general ser necesario que los tems permitan discriminar
entre todos los niveles que presenten los sujetos, es decir, deben cubrir todos los
niveles de dificultad. Los tems que ms discriminan en este tipo de poblaciones son
los de dificultad media, por lo que deben ser los ms abundantes.
Si se quiere discriminar entre los ms brillantes, los tems debern ser difciles y muy
difciles. De esta manera, los sujetos que presentan un nivel medio o bajo no podrn
responder y slo lo harn los ms capacitados.
Si se quiere discriminar entre los menos capacitados, los tems debern ser fciles y
muy fciles, de manera que slo los fallaran los menos capacitados.
Redaccin de los tems

Si se quiere construir un buen test hay que tener claro que la redaccin de los tems es muy
importante, puesto que si los tems son malos el test no podr ser bueno.
Recomendaciones generales
Conviene recordar las siguientes recomendaciones, aunque son de sentido comn:
Evitar la ambigedad de los enunciados, redactndolos de forma clara y precisa,

evitando cualquier palabra o frase que introduzca ambigedad.
Evitar enunciados que provoquen respuestas sesgadas.
Expresar una nica idea en el enunciado para evitar confusin en los sujetos.
Evitar las dobles negaciones en los enunciadosk
Recomendaciones para tems de eleccin

Adems de seguir las recomendaciones generales, hay una serie de normas especficas para
cada tipo de formato:
Dos alternativas (Verdadero Falso)

o Estar absolutamente convencido de que el tem es verdadero o falso.
o No utilizar frases que sean universalmente verdaderas o falsas.
o Evitar en el enunciado palabras que puedan sugerir la respuesta correcta, aun
cuando los sujetos no la conozcan.
o Evitar patrones de respuesta (p. ej.: VVF, VVF, VVF, VVF).
Eleccin mltiple
o Formular el enunciado del tem con claridad.
o Asegurarse de que los distractores (alternativas incorrectas) son plausibles
(admisibles).
o Evitar opciones como Ninguna de las anteriores, Todas las anteriores.
o Que slo haya una posible eleccin (salvo que se especifique claramente que
puede haber ms).
o Aleatorizar la posicin de la respuesta correcta.
Emparejamiento
10

lOMoARcPSD|378992
o Asegurarse que tanto las premisas como las opciones a emparejar son
homogneas.
o Aclarar en el enunciado la tarea que debe realizar el sujeto y la forma en que
hay que llevar a cabo el emparejamiento.
Formato Cloze o incompleto
o Asegurarse de que haya tantos espacios en blanco como alternativas de
respuesta (o aclarar cualquier otra posibilidad en el enunciado).
Escalas de clasificacin
o Evitar expresiones coloquiales y utilizar enunciados que entiendan todos.
o Balancear el nmero de tems formulados positiva y negativamente.
o Asignar las etiquetas lingsticas. Especificar los extremos y el punto central.
Listados
o Son fciles de construir y su redaccin no supone ningn problema.
Recomendaciones para tems de construccin

Adems de seguir las recomendaciones generales, tambin hay una serie de normas
especficas para cada tipo de formato:
tems de respuesta corta

o Asegurarse de que el enunciado puede ser contestado con una nica frase o
palabra y que hay una nica respuesta correcta.
o Evitar dar pistas acerca de la respuesta correcta.
o Especificar el grado de precisin exigido (p. ej.: si hay que hacer un clculo con
decimales, indicar el nmero de decimales que se deben utilizar).
tems de respuesta extensa (o ensayo)
o Asegurarse que el problema est ben enfocado: los sujetos deben saber
exactamente lo que se les est preguntando.
o No permitir a los sujetos que elijan entre varias respuestas puesto que para
comparar el rendimiento de sujetos la tarea debe ser comn.
o Decidir de antemano cmo se puntuarn las preguntas.
Los sesgos de respuesta

A la hora de redactar los tems hay que evitar la posibilidad de respuestas sesgadas. Los
principales sesgos de respuesta que hay que evitar son producidos por:
Aquiescencia: la tendencia sistemtica a responder que se est de acuerdo o

desacuerdo, independientemente del contenido del tem.
Deseabilidad social: la tendencia a responder al tem de manera socialmente
aceptable, y no en funcin de lo que uno sienta, piense u opine.
Indecisin: la tendencia a seleccionar la alternativa central o neutra.
Respuesta extrema: la tendencia a elegir como respuesta categoras de los extremos,
independientemente del contenido del tem.
Revisin crtica por un grupo de expertos

Una vez redactados los tems y antes de construir la prueba piloto, es conveniente que los
tems sean revisados por un grupo de expertos independiente (que no ha participado en su
redaccin), para revisar: (i) si se adaptan al contenido, (ii) la claridad de la redaccin, (iii) si se
cumplen las normas de cada formato, o (iv) la correccin de la respuesta correcta y la calidad
de los distractores, entre otros aspectos que contribuyen a la calidad del tem.
11

lOMoARcPSD|378992
Una vez revisados los tems y eliminados los que no sean idneos, se puede construir la versin
preliminar del test o prueba piloto, utilizando los tems que han pasado este primer control de
calidad.
Confeccin de la prueba piloto

A la hora de construir la prueba piloto, hay que tener en cuenta dos aspectos bsicos: las
instrucciones de administracin y el formato de presentacin y registro de las respuestas.
Instrucciones de administracin
En general, el constructor del test quiere que todas las personas entiendan perfectamente lo
que deben hacer y estn motivados para hacerlo.
Adems de las instrucciones determinadas para cada tipo de prueba, existen algunas
recomendaciones comunes (adaptadas de Torndike):
Evitar lenguaje amenazante al redactar las instrucciones.

Explicar que hay tems de dificultad variable, para disminuir la ansiedad de los sujetos
cuanto se enfrenten a los tems difciles.
En los tests de velocidad, advertir de que el tiempo est limitado.
Proporcionar tems de ejemplo (e incluso de prctica, si la poblacin no est
familiarizada con este tipo de pruebas). Explicar claramente como cumplimentar las
respuestas (sobre todo teniendo en cuenta que pueden ser corregidas por lectoras
pticas o aplicadas por ordenador).
Animar a los sujetos a responder todas las preguntas y dar indicaciones sobre cmo
distribuir el tiempo.
Formato de presentacin y de registro de las respuestas

Una vez elaboradas instrucciones, es necesario organizar y ordenar los tems y decidir el
formato de registro de las respuestas.
En cuanto a la forma de registrar las respuestas se puede optar porque:
Respondan en la misma hoja del test.

Respondan en una hoja aparte. Esta forma tiene varias ventajas: los tests sern
reutilizables y adems la hoja de respuestas puede ser procesada por una lectora
ptica, lo que facilitar la correccin.
Respondan a travs del ordenador (tests informatizados), siendo el ordenador el
encargado de registrar las respuestas.
En cuanto a la presentacin y organizacin de los tems, tambin hay algunas indicaciones

generales: utilizar un formato claro y legible; agrupar los tems del mismo formato si se utilizan
varios; agrupas los tems por temticas y ordenarlos de menor a mayor grado de dificultad;
etc.
Aplicacin de la prueba piloto

El objetivo de la aplicacin de la prueba piloto es realizar una evaluacin psicomtrica del
test: comprobar si cumple los requisitos necesarios para considerarlo un instrumento cientfico
de medicin.
Para poder aplicar la prueba piloto hay que:
12

lOMoARcPSD|378992
Decidir la forma de administracin de la prueba (Colectiva vs. Individual, Oral, Papel y

Lpiz, Mediante ordenador, A travs de correo).
Seleccionar una muestra de sujetos de la misma poblacin que para los que se ha
diseado el test.
Correccin de la prueba piloto y asignacin de puntuaciones a los

sujetos
Una vez que se ha aplicado la prueba piloto hay que valorar las respuestas para asignar una
puntuacin a cada sujeto. Es necesario que la puntuacin asignada refleje su nivel en la
caracterstica que se mide y no otra cosa (como por ejemplo, que dependa del profesor que
corrija el examen).
En los tests formados por tems de eleccin

En este tipo de tests de respuesta cerrada el investigador no debe realizar ninguna valoracin
por lo que no es posible introducir la subjetividad en la correccin (puntuacin asignada a cada
sujeto).
Pruebas cognitivas
En este tipo de pruebas hay respuestas correctas e incorrectas, conocidas de antemano, por lo
que la correccin del test se reduce a comprobar si las respuestas del sujeto coinciden con las
de la plantilla. La forma ms sencilla de obtener la puntuacin es sumar el nmero de
respuestas correctas:

=
=1
Esta forma de correccin tiene un grave inconveniente: la posibilidad de que un sujeto que
desconozca la pregunta por completo elija por azar la respuesta correcta. Para controlar esta
circunstancia se aplica una frmula de correccin, que se puede hacer de dos maneras:
penalizando los errores cometidos o bonificando las omisiones (tems no respondidos).
Ejemplo: en un examen de 20 preguntas dos alumnos conocen 10 preguntas:
Uno de ellos no arriesga y responde 10, dejando las otras 10 en blanco. Su puntuacin
ser de 10 puntos.
El otro arriesga y responde a todas. Si las preguntas tienen dos alternativas (V-F) existe
un 50% de probabilidades de que acierte cada una de las 10 preguntas que no sabe por lo que
su puntuacin sera de 15 puntos.
Ambos sujetos deberan de haber obtenido la misma puntuacin porque conocen el mismo
nmero de preguntas.
Correccin penalizando los errores

Para penalizar los errores la frmula de la puntuacin corregida sera:

= =
1
Donde:
Xc: puntuacin corregida.

A: nmero de aciertos.
13

lOMoARcPSD|378992
Aa: aciertos obtenidos al responder al azar.

E: nmero de errores.
K: nmero de alternativas de los tems.
Ejemplo: siguiendo con el ejemplo, el primer alumno tendra la misma nota ya que no ha
cometido errores mientras que el segundo obtendra ahora 10 puntos (Xc = 15 5 = 10).
Correccin bonificando las omisiones

En este caso se supone que el sujeto slo responde a lo que conoce y no ha respondido
ninguna pregunta al azar. A la puntuacin obtenida se le aade una bonificacin que
correspondera a los aciertos que tendra si respondiese al azar a los tems que ha dejado en
blanco. La frmula de correccin sera:

= + = +

Donde:
Xc: puntuacin corregida.

A: nmero de aciertos.
Aa: aciertos obtenidos al responder al azar.
O: nmero de tems sin responder.
K: nmero de alternativas de los tems.
Ejemplo: aplicando la frmula a las puntuaciones del ejemplo, el primer alumno obtendra
ahora un 15 (Xc = 10 + 10 /2 = 15) y el segundo mantendra el 15 inicial, ya que no ha dejado
ninguna sin responder.
En este caso se obtendrn puntuaciones sobrevaloradas que no se corresponden con el

verdadero nivel de los sujetos, por lo que es ms recomendable la primera correccin.
tems con distinto nmero de alternativas

Cuando el test est formado por tems con distinto nmero de alternativas es necesario aplicar
la correccin del azar por partes, agrupando los tems en funcin del nmero de alternativas y
calculando la puntuacin del sujeto en esos grupos. La puntuacin final ser la suma de las
puntuaciones parciales obtenidas.
Pruebas no cognitivas
En estas pruebas no hay respuestas correctas o incorrectas y los tems llevan asignado un valor
numrico distinto en cada alternativa de respuesta. La puntuacin se obtendr sumando los
valores numricos asignados a cada alternativa seleccionada.
En este tipo de pruebas es importante tener clara la direccin del continuo de la variable que
se est midiendo (p. ej.: si se mide una variable de actitud, hay que conocer qu extremos del
continuo marcan actitud favorable y desfavorable) y asignar a un extremo la puntuacin ms
alta (al otro la ms baja), siguiendo esa regla siempre de la misma manera para todos los
tems.
En los tests formados por tems de construccin

En este tipo de pruebas, las formadas por tems de respuesta corta no presentan demasiado
problema a la hora de asignar puntuacin a los sujetos, mientras que en las pruebas de
respuesta larga la correccin es ms complicada a medida que las respuestas son ms abiertas
14

lOMoARcPSD|378992
y extensas. La correccin de estas pruebas es laboriosa y subjetiva, aunque existen dos formas
de controlar y reducir esa subjetividad Mtodo de la puntuacin Analtica y Mtodo de la
puntuacin holstica.
Mtodo de la puntuacin analtica

Este mtodo requiere definir de manera inequvoca y aislar las dimensiones consideradas
importantes para la tarea a realizar. Una vez establecidas las dimensiones a considerar en la
correccin, hay que definir la manera de evaluarlas: definir claramente qu se considera una
respuesta adecuada o correcta en cada dimensin y establecer el nmero mnimo de
respuestas correctas para cada una de ellas. Si se definen claramente estos criterios las
pruebas podran ser corregidas por personas que no sean expertas. La puntuacin final se
suele expresar mediante dos nicos valores: correcta/incorrecta, apto/no apto,
aprobado/suspenso, etc., pero se obtiene informacin de cada una de las dimensiones.
Mtodo de la puntuacin holstica

Mediante este mtodo se evala de manera global (u holstica) la forma en que los sujeto san
realizado la prueba y la puntuacin expresar la calidad global de su respuesta. En este caso, la
correccin debe ser hecha por expertos en la materia.
15

lOMoARcPSD|378992
Psicometra | Tema 3: Tcnicas para la construccin de escalas de actitudes
Tema 3: Tcnicas para la construccin de

escalas de actitudes
Introduccin
Este tema se centra en la construccin de escalas para la medicin de las actitudes, aunque las
tcnicas expuestas se pueden adaptar para su utilizacin en la medicin de intereses y valores,
entre otras.
Nunnally hace la siguiente distincin entre intereses, valores y actitudes:
Intereses: preferencias por actividades particulares (p. ej.: prefiero leer un libro que
reparar un coche).
Valores: preferencias sobre objetivos y formas de vida, ms que sobre actividades
concretas (p. ej.: considero ms importante servir a los dems que mi ambicin
personal).
Actitudes: hacen referencia a sentimientos acerca de un determinado objeto social
(objetos fsicos, tipos de personas, instituciones, etc.)(p. ej.: todas las guarderas
pblicas deberan ser gratuitas).
En las escalas de actitudes todos los tems deben hacer referencia a una misma variable
mientras que en las escalas de valores e intereses hacen referencia a varias actividades.
El modelo escalar de Thurstone

Thurstone desarroll dos modelos necesarios para la elaboracin de escalas psicolgicas: la Ley
del Juicio Comparativo (mtodo de las comparaciones binarias) y la Ley del Juicio Categrico
(mtodo de los intervalos sucesivos, mtodo de los intervalos aparentemente iguales y el
mtodo de ordenacin por rangos).
En el proceso de construccin de la escala mediante estas tcnicas hay que diferenciar dos
fases:
La primera fase: el proceso de construccin de la escala, cuando se escalan los

estmulos (tems) a lo largo de un continuo psicolgico asignando un valor a cada uno
de ellos.
La segunda fase: aplicacin de una prueba piloto a una muestra de sujetos para
estudiar sus propiedades psicomtricas y as poder elaborar la escala definitiva.
Las fases que hay que cubrir son las vistas en el tema anterior, con la aparicin de una nueva
fase: la prueba de jueces, en la que un grupo de sujetos debe asignar valores escalares
(puntuaciones) a cada uno de los tems (estmulos) que componen la prueba.
Supuestos bsicos del modelo

El modelo se basa en:
La variabilidad perceptual de los sujetos: las diferencias que hay entre sujetos a la
hora de percibir estmulos (o incluso en un mismo sujeto al recibir varias veces un
estmulo).
La limitacin que tienen los sujetos para percibir la diferencia de magnitud entre dos
estmulos (siempre hay dos estmulos cuya diferencia no ser percibida).

lOMoARcPSD|378992
Los supuestos bsicos del modelo son:
Existe un continuo psicolgico (subjetivo) a lo largo del cual vara el atributo o

caracterstica que se est midiendo.
Cuando cada uno de los estmulos es presentado al sujeto para su evaluacin, origina
en l un proceso subjetivo llamado proceso discriminante, a travs del cual les
asignar un valor tambin subjetivo en el continuo psicolgico.
Un estmulo presentado varias veces al mismo sujeto no siempre origina el mismo
proceso discriminante (no se le asigna el mismo valor subjetivo).
Si los estmulos se presentan un nmero muy grande de veces, los valores subjetivos
asignados a cada uno de ellos se distribuyen normalmente: esta es la distribucin
discriminante.
o La media de esta distribucin es el valor escalar del estmulo (el valor del
estmulo en el continuo psicolgico).
o La desviacin tpica es la dispersin discriminante (si el estmulo no presenta
ambigedad, este valor sera 0; por el contrario, cuanto mayor es, ms
variacin hay en los valores que el sujeto asigna al estmulo).
Si se presentan varios estmulos, en repetidas ocasiones, a un mismo sujeto, cada
estmulo dar lugar a su propia distribucin discriminante (caracterizada por su media
y desviacin tpica).
El modelo se cumple tanto si los juicios los emite un solo sujeto o los emite una
muestra grande de sujetos (cada sujeto emite su juicio).
La muestra de sujetos utilizada para asignar valores escalares a los estmulos es la muestra de
jueces o expertos, por eso las escalas elaboradas mediante el modelo de Thurstone requieren
de la prueba de jueces.
Nota: tanto en la Ley del Juicio comparativo como en la Ley del Juicio Categrico, los sujetos
que evalan los tems han de emitir juicios de hecho (juicios objetivos) y no emitir juicios de
valor (es decir, mostrar su actitud o postura personal). Por este motivo se le denomina prueba
de jueces.
La Ley del Juicio Comparativo: Mtodo de las Comparaciones Binarias

En el mtodo de las comparaciones binarias lo sujetos deben comparar cada estmulo con
todos los dems e indicar, para cada par de estmulos, cual es el estmulo preferido o
dominante en la direccin del atributo que se est midiendo. Los estmulos pueden ser los
tems de una escala de actitudes, una serie de actividades, intereses, valores, etc., que se
quieren escapar.
Los resultados de los juicios emitidos por cada juez ante cada par de estmulos se ordenan en
una serie de matrices: de frecuencias, de proporciones y de puntuaciones tpicas. La media de
las puntuaciones tpicas asignadas por cada juez es la mejor estimacin del valor escalar de un
estmulo.
Ejemplo: supongamos que se quiere llevar a cabo un estudio acerca de la actitud de los
espaoles ante la institucin del matrimonio. Para ello se va a elaborar una escala mediante la
Ley del Juicio Comparativo utilizando el procedimiento de las comparaciones binarias. Se
utilizan 6 tems (estmulos) con los que se puede formar 15 combinaciones binarias, los cuales
sern presentados a una muestra de 100 sujetos para que elijan el tem cuyo enunciado
muestre una actitud ms favorable hacia el matrimonio.

lOMoARcPSD|378992
Los datos se recogen en una matriz de frecuencias, en la que cada celda representa el nmero
de jueces que han considerado que el estmulo de la columna muestra una actitud ms
favorable hacia el matrimonio que el estmulo de la fila. Los estmulos no se comparan consigo
mismos.
Tabla 1. Matriz de frecuencias observadas.
Estmulos/tems 1 2 3 4 5 6
1 - 70 65 45 40 80
2 30 - 60 70 30 70
3 35 40 - 60 30 60
4 55 30 40 - 55 75
5 60 70 70 45 - 65
6 20 30 40 25 35 -
= 200 240 275 245 190 350
Viendo los sumatorios, para los jueces es el tem 6 el que muestra una actitud ms favorable
mientras que el estmulo 5 es el que muestra una actitud ms desfavorable.
Con estos datos, se podra construir una escala ordinal de los estmulos pero no podemos
saber las diferencias que hay entre ellos, que es realmente el objetivo de este modelo. Este
modelo permite construir escalas de intervalos.
Una vez obtenida esta matriz, es conveniente ordenar las filas y las columnas segn el orden
establecido por los sujetos para obtener la matriz de frecuencias ordenadas.
Tabla 2. Matriz de frecuencias observadas ordenadas.
6 - 40 25 30 20 35
3 60 - 60 40 35 30
4 75 40 - 30 55 55
2 70 60 70 - 30 30
1 80 65 45 70 - 40
5 65 70 45 70 60 -
= 350 275 245 240 200 190
Como hay 100 sujetos cada par de tems es presentado 100 veces, por lo que si dividimos su
frecuencia por el nmero de sujetos obtendremos la proporcin. Dividiendo cada elemento
por el nmero de sujetos obtenemos la matriz de proporciones.
Tabla 3. Matriz de proporciones.
6 - 0,40 0,25 0,30 0,20 0,35
3 0,60 - 0,60 0,40 0,35 0,30
4 0,75 0,40 - 0,30 0,55 0,55
2 0,70 0,60 0,70 - 0,30 0,30
1 0,80 0,65 0,45 0,70 - 0,40
5 0,65 0,70 0,45 0,70 0,60 -
= 3,50 2,75 2,45 2,40 2,00 1,90

lOMoARcPSD|378992
A partir de esta matriz de proporciones se obtiene la matriz de puntuaciones tpicas: cada

celda se substituye por la puntuacin tpica correspondiente en la distribucin normal. Por
ejemplo, en la celda correspondiente a la fila del tem 6 y la columna del tem 3 hay el valor
0,40. En la tabla de la normal debemos buscar el z asociado a esta rea (0,40), que es -0,25.
Tabla 4. Matriz de puntuaciones tpicas.
6 - -0,25 -0,67 -0,52 -0,84 -0,39
3 0,25 - 0,25 -0,25 -0,39 -0,52
4 0,67 -0,25 - -0,52 0,13 0,13
2 0,52 0,25 0,52 - -0,52 -0,52
1 0,84 0,39 -0,13 0,52 - -0,25
5 0,39 0,52 -0,13 0,52 0,25 -
(a) = 2,67 0,66 -0,16 -0,25 -1,37 -1,55
=
(b) 0,45 0,11 -0,03 -0,04 -0,23 -0,26
En las filas de totales tenemos:
a) Las sumas de las puntuaciones tpicas de cada columna.

b) La estimacin de los valores escalares de los seis estmulos considerados, que es la
media de las puntuaciones tpicas. Los diferencias entre los valores escalares marcan la
distancia entre los tems.
Con las estimaciones escalares podemos construir la siguiente escala:
5...1. 24..3.6
(b) -0,26 -0,23 -0,04 -0,03 0,11 0,45
Sin embargo, esta escala tiene el inconveniente de los valores negativos. Para que empiecen
en 0, simplemente sumamos el valor necesario a la ms baja para que sea 0, y este mismo
valor al resto.
5...1. 24..3.6
(b) + 0,26 = 0 0,03 0,22 0,23 0,37 0,71
Esta escala es subjetiva, unidimensional y de intervalos.
En funcin de esta ordenacin podemos ver que:
El tem 5 es el que contiene un grado de actitud ms desfavorable (p. ej.: El

matrimonio coarta la libertad en pareja).
El tem 6 es el que contiene un grado de actitud ms favorable (p. ej.: El matrimonio
es la base de la familia).
Los tems 2 y 4 son bastante parecidos entre s en cuanto a su actitud hacia el
matrimonio.
Como se puede ver, el nmero de combinaciones aumentar considerablemente a medida que

aumenten el nmero de tems, complicando este proceso de asignacin de los valores
escalares. Por este motivo, este procedimiento no es el ms utilizado hoy da para la
construccin de escalas de actitudes aunque los programas de ordenador han facilitado mucho
el proceso.

lOMoARcPSD|378992
La Ley del Juicio Categrico

En el modelo de la Ley del Juicio Categrico tambin se asume que el continuo psicolgico a lo
largo del cual se van a situar los estmulos, se puede dividir en una serie de categoras
ordenadas. La tarea del sujeto consistir en asignar cada estmulo presentado a una de estas
categoras, en funcin del grado de atributo que considere que tiene.
Para la obtencin de los datos empricos (i. e. los datos para crear la escala) se utilizan tres
procedimientos:
El mtodo de ordenacin por rangos.

El mtodo de los intervalos sucesivos.
El mtodo de los intervalos aparentemente iguales (es el ms utilizado).
El mtodo de los intervalos aparentemente iguales

Dada una serie de tems que hagan referencia a alguna opinin de la variable de actitud que se
quiere medir, se instruye a los jueces para que se imaginen un espacio dividido en una serie de
categoras (una escala imaginaria dividida): por ejemplo, una escala de 11 categoras que van
desde un extremo que representa la actitud ms negativa (categora 1), hasta la categora del
otro extremo que representa la actitud ms positiva (categora 11), pasando por el punto
neutral (categora 6). Las categoras intermedias se supone que estn igualmente espaciadas,
de ah el nombre del mtodo.
Si a la primera categora se le asocia el valor 1, los lmites del intervalo correspondiente sern
[0,5 1,5] y as sucesivamente hasta la ltima, cuyos lmites sern [10,5 11,5].
La tarea de los jueces consistir en clasificar cada estmulo en una de las categoras. Dado que
se conocen los valores escalares de las categoras (del 1 al 11) y a sus lmites, slo es necesario
calcular los valores escalares de los estmulos. Para esto se crea una matriz (tabla) en donde:
Las columnas representan las categoras de la escala.

Las filas representan los tems evaluados por los jueces.
El contenido de cada celda indica el nmero de veces que el estmulo ha sido asignado
a cada categora.
Los valores escalares se calculan como la mediana de la distribucin de frecuencias de cada

estmulo (es decir, de cada fila).
Ejemplo: siguiendo con el ejemplo del estudio de la actitud hacia la institucin del matrimonio,
supongamos ahora que los dos tems a continuacin se evalan por 300 jueces en una escala
de 11 categoras, obteniendo los siguientes resultados:
El matrimonio coarta la libertad de la pareja (tem 5).

El matrimonio es la base de la familia (tem 6).
Tabla 5. Tabla de frecuencias.
Categoras
1 2 3 4 5 6 7 8 9 10 12
t. 5 50 100 60 40 25 15 10 0 0 0 0
t. 6 0 0 0 0 10 15 25 40 60 100 50
Fa(5) 50 150 210 250 275 290 300 300 300 300 300
Fa(6) 0 0 0 0 10 25 50 90 150 250 300

lOMoARcPSD|378992
Para hallar la mediana se calculan las frecuencias acumuladas para cada tem, Fa(5) y Fa(6), y
despus se utiliza la frmula para el clculo de la mediana:

= + ( )
2
Donde:
Li: lmite inferior del intervalo que contiene la mediana.

I: amplitud dl intervalo (en este procedimiento es 1).
fd: nmero de jueces que clasificaron el tem en la categora correspondiente a la
mediana.
N: nmero de jueces que participan en la evaluacin.
fb: nmero de sujetos de la muestra que clasificaron al elemento en categoras
inferiores a la mediana.
Aplicando la frmula a los tems:
tem 5: Mediana = 1,5 + [ 1 / 100 ( 150 50 )] = 2,5

tem 6: Mediana = 8,5 + [ 1 / 60 ( 150 90 )] = 9,5
Teniendo en cuenta que la categora 1 indica una actitud muy deformable y la categora 11 una
actitud muy favorable, los dos tems se sitan bastante cerca de cada extremo.
Para seleccionar los tems que han de formar parte de la escala se elegirn aquellos en los que
los jueces hayan mostrado un mayor acuerdo, una menor ambigedad o una pequea
desviacin tpica. Como medida del grado de acuerdo se puede utilizar el coeficiente de
ambigedad (C.A.), que es la distancia entre el tercer y el primer cuartil.
Para calcular los cuartiles se aplica la siguiente frmula:

3
1 = 25 = + ( ) ; 3 = 75 = + ( )
4 4
Donde las letras significan lo mismo, teniendo en cuenta que el percentil 25 (cuartil 1) es la
puntuacin que deja por debajo el 25% de los sujetos de la muestra (75 sujetos) y el percentil
75 la que deja por debajo el 75% de los jueces (225).
Para el tem 5 tendremos que:
Q3 = 3,5 + [1/40 (225 - 210)] = 3,88

Q1 = 1,5 + [1/100 (75 - 50)] = 1,75
C.A. = Q3 Q1 = 3,88 1,75 = 2,13
Para el tem 6 tendremos que:
Q3 = 9,5 + [1/100 (225 - 150)] = 10,25

Q1 = 7,5 + [1/40 (75 - 50)] = 8,13
C.A. = Q3 Q1 = 10,25 8,13 = 2,12
Si el C.A. es mayor que 2 el elemento se considera ambiguo y deber eliminarse de la escala

definitiva. En elementos neutrales (o en el punto central de la escala) el C.A. puede llegar a 3.

lOMoARcPSD|378992
En este caso los tems 5 y 6 deberan ser eliminados, aunque al tener un valor muy cercano a 2
podran mantenerse.
La escala completa debe contener tems que cubran todo el contenido de actitud.
Conclusiones
Sea cual sea el mtodo utilizado, una vez asignados los valores escalares a los tems, la escala
ya est lista para ser utilizada y podr ser aplicada a una muestra piloto para su evaluacin y
construccin de la escala definitiva.
Para su presentacin, los tems pueden ordenarse aleatoriamente o en funcin de sus valores
escalares. Los sujetos debern leer el enunciado de cada tem y decir si estn de acuerdo o no
con ellos en funcin de su posicin personal, sus propios sentimientos, opiniones o actitud.
Por este motivo, en la prueba piloto se emiten juicios de valor.
La puntuacin en la escala para cada sujeto se obtiene calculando la media de los valores de
los tems con los cuales el sujeto estuvo de acuerdo.
Supongamos que un sujeto ha mostrado su acuerdo con cuatro tems de la escala para medir
la actitud hacia el matrimonio. Si los valores escalares de esos tems son 8,5; 9,3; 10 y 8,7; la
puntuacin del sujeto ser 9,12. Este valor indica que la actitud del sujeto es bastante
favorable hacia la institucin matrimonial.
Las escalas de actitudes de Thurstone tienen la ventaja de que permiten la interpretacin

directa de la actitud de un sujeto, sin necesidad de hacer referencia a un grupo. Sin embargo,
en muchos estudios de Psicologa y Sociologa, los investigadores estn interesados en: (i)
correlacionar las diferencias individuales en actitud con otro tipo de diferencias individuales o
(ii) estudiar las diferencias de actitud entre diferentes grupos. Adems, puede suceder que los
valores asignados a los tems dependan en gran medida de los jueces que se utilicen.
Hoy en da, modelos sumativos (como el de Likert), son ms tiles para la medida de actitudes.
La tcnica de Likert
Las escalas de Thurstone eran muy laboriosas de construir (prueba de jueces, etc.) y Likert
trat de elaborar escalas ms sencillas pero igualmente fiables.
La tcnica de Likert es un mtodo de escalamiento basado en el sujeto que utiliza el modelo

sumativo para medir las diferencias individuales respecto a los rasgos psicolgicos. La
puntuacin total (del sujeto) se obtiene sumando las puntuaciones a cada uno de los tems.
Fundamentos de la tcnica
Likert parte del supuesto de que las actitudes pueden medirse a travs de las manifestaciones
verbales de los sujetos, y su tcnica se basa en que:
Es posible estudiar dimensiones de actitud a partir de un conjunto a partir de un

conjunto de enunciados que funcionen como reactivos (estmulos) para los sujetos.
Los individuos pueden situarse en la variable de actitud desde el punto ms favorable
al ms desfavorable y la variacin en las respuestas ser debido a las diferencias
individuales.

lOMoARcPSD|378992
En cuanto a la medicin, la tcnica de Likert asume un nivel de medida ordinal: ordena a los
sujetos en una escala en funcin de su posicin favorable/desfavorable respecto a la actitud
de medida.
Es una escala sumativa porque la puntuacin asignada al sujeto en la escala es funcin de las
puntuaciones obtenidas en cada uno de los tems. Esto supone que:
La suma de las curvas caractersticas de los tems es una funcin monotnica (y

aproximadamente lineal) respecto a la actitud de medida).
Que todos los elementos que componen la escala estn midiendo una nica
dimensin. Se tratara por tanto de una escala unidimensional.
Qu significa que la suma de las curvas caractersticas de los tems es una funcin
monotnica? Ejemplo: esto significa que cuanto ms favorable sea la actitud de un sujeto hacia
aquello que se est midiendo, ms probable es que elija en cada tem la categora que indique
esa postura. No sera normal que sujetos que muestran una actitud muy favorable, elijan tems
que representen actitud desfavorable. Si esto ocurre, esos tems deberan de ser eliminados de
la escala o la escala debera ser revisada.
La redaccin y presentacin de los tems debe permitir a los sujetos emitir juicios de valor y no
juicios de hecho. Por este motivo, cada problema debe ser presentado de forma que cada
sujeto pueda tomar partido entre alternativas opuestas.
Asignacin de valores numricos a los tems y puntuaciones a los sujetos

En las escalas de Likert se suelen utilizar cinco opciones de respuesta (aunque se pueden
utilizar otras). Una vez evaluados los tems, la asignacin de valores numricos se deja en
responsabilidad del investigador, aunque siempre debe ser hecha de manera que el valor ms
alto indique una actitud ms positiva y se mantenga la coherencia en el sentido de la actitud
medida.
La puntuacin de los sujetos en la escala total ser la suma de los valores numricos asignados
a cada una de las categoras elegidas por los sujetos en el conjunto de tems.
Ejemplo: ante el enunciado La familia debera permanecer ms tiempo reunida, utilizando

cinco categoras de respuesta se pueden asignar valores numricos de diferentes maneras:
Categoras de respuesta Asignacin 1 Asignacin 2
Completamente de acuerdo 1 -2
En desacuerdo 2 -1
Indiferente 3 0
De acuerdo 4 1
Completamente de acuerdo 5 2
El Diferencial Semntico de Osgood

Osgood et al. propusieron el modelo del Diferencial Semntico para medir el significado
connotativo (afectivo, subjetivo) que determinados estmulos tienen para los sujetos: estaban
interesados en las reacciones emocionales provocadas por las palabras o conceptos.

lOMoARcPSD|378992
Este modelo se basa en que la gran diversidad de significados es reducible a unas

determinadas variaciones en un nmero limitado de dimensiones.
El campo de aplicacin del Diferencial Semntico es muy amplio: la investigacin clnica, la

medida de actitudes, investigaciones transculturales e investigaciones sociales.
El formato de escala consiste en la presentacin a los sujetos de un concepto seguido de una

serie de escalas cuyos extremos estn marcados por adjetivos bipolares. Esto supone que hay
dos elementos fundamentales en el D.S.: los conceptos y las escalas bipolares.
Los conceptos
El concepto es el estmulo u objeto que ha de evaluar el sujeto.
Osgood utiliz casi siempre sustantivos como estmulos, aunque tambin us adjetivos. Dado
que es imposible cubrir toda el rea a investigar a base de conceptos, es necesario hacer un
muestreo de todos los posibles para seleccionar los ms relevantes, representativos y que
mejor la definan.
Osgood afirma que el investigador tiende a seleccionar conceptos que:
Discriminan bien entre sujetos Mayor informacin.

Tienen un significado claro y nico para el sujeto Sabe lo que est juzgando.
Sean familiares a todos los sujetos de la misma manera Evitar sesgos debido a la
falta de familiaridad, el cual produce una regresin hacia el punto medio de la escala.
Las escalas bipolares

El significado de los conceptos se evala por medio de escalas semnticas bipolares.
Las escalas bipolares representan una reaccin de tipo afectivo hacia el objeto: Bueno Malo,
Sano Enfermo, etc., y estn ancladas en sus extremos por dos adjetivos antnimos que
describen el aspecto del continuo semntico: Fuerte Dbil, Grande Pequeo, etc., a lo largo
del cual se situar el concepto evaluado. Este continuo suele dividirse en siete categoras
(aunque se podra usar otro nmero) y la tarea del sujeto es la de evaluar el concepto y
clasificarlo en funcin de su relacin con los polos de la escala, situndolo en el punto que l
considera que debe estar.
Es una escala sumativa porque la puntuacin del sujeto se obtiene con los nmeros asignados
a cada una de las escalas. Cuando un sujeto clasifica un concepto en la categora media,
significa que considera que no hay asociacin ni relacin semntica entre el concepto y la
escala bipolar utilizada.
Ejemplo: para el concepto Poltica se pueden presentar las siguientes escalas:
Mala 1 2 3 4 5 6 7 Buena
Intil 1 2 3 4 5 6 7 til
Injusta 1 2 3 4 5 6 7 Justa
El espacio semntico: criterios de seleccin de las escalas

El nmero de escalas bipolares que se puede utilizar para evaluar un concepto determinado es
prcticamente ilimitado, por lo que se deben escoger las escalas bipolares ms
representativas.

lOMoARcPSD|378992
Existen numerosas tcnicas para identificar y aislar las dimensiones subyacentes al significado
semntico de los conceptos a evaluar: anlisis factorial, anlisis de clster, etc.
Siguiendo el anlisis factorial, Osgood et al. encontraron que para todos los conceptos existen
escalas que definen tres factores o dimensiones muy claras:
El factor valorativo: las escalas de mayor saturacin estaban formadas por adjetivos
que implicaban una valoracin del concepto (Bueno-Malo, Bonito-Feo, Sincero-Falso,
etc.)
El factor de potencia: formado por escalas cuyos adjetivos daban una idea de fuerza
(Fuerte-Dbil, Duro-Blando, Masculino-Femenino, etc.).
El factor de actividad: agrupaba a escalas cuyos adjetivos denotaban un cierto sentido
del movimiento (Activo-Pasivo, Rpido-Lento, Dinmico-Esttico, etc.).
Se comprob que el factor evaluativo era el que explicaba el mayor porcentaje de varianza.
Se pueden identificar tres criterios para la seleccin de escalas:
La composicin factorial del concepto, tratando que cada una de las dimensiones
(factores) est representada por 4-6 escalas bipolares (que tengan saturaciones altas
en el factor al que representan y bajas en los otros).
El grado de relevancia que tienen las distintas escalas para la evaluacin de un
concepto. Por ejemplo, en el factor de potencia la escala Bonita-Fea puede ser
relevante para juzgar una serie de fotografas, pero, Justo-Injusto, puede no tener
ninguna relevancia.
La estabilidad semntica de la escala respecto a los conceptos y a los sujetos. Por
ejemplo, la escala Grande-Pequeo tiene un uso denotativo para conceptos como
piedra o elefante mientras que tiene un uso connotativo para conceptos como dios o
patria.
Elaboracin de la prueba piloto y aplicacin

Partiendo de una lista de conceptos a evaluar, se han identificado los adjetivos que mejor los
califican y se han elaborado las escalas bipolares para evaluarlos. Ahora es necesario organizar
conceptos y escalas para presentarlos a los sujetos y llevar a cabo la prueba piloto. Algunas
recomendaciones generales para hacerlo son:
Por norma general, presentar el Diferencial Semntico en forma de cuadernillo, con la

primera pgina dedicada a las instrucciones y el resto a los conceptos y las escalas.
El nmero de conceptos y escalas deben ser suficientes para cumplir con los objetivos
de la investigacin, sin que sean tantos como para aburrir o cansar a los sujetos.
En las escalas, el nmero ms pequeo debe representar la valoracin negativa del
concepto y el ms alto, una valoracin positiva.
La puntuacin de cada sujeto en cada escala es el valor numrico asignado a la categora

elegida. Estos datos bsicos se pueden analizar mediante diferentes procedimientos y tcnicas
estadsticas.
Algunas de estas tcnicas son medidas descriptivas, dentro de las cuales destacan: las
puntuaciones escalares y las puntuaciones factoriales.
Puntuaciones escalares
Con las puntuaciones escalares se puede:
10

lOMoARcPSD|378992
Averiguar la puntuacin de un sujeto o grupo de sujetos en cada una de las escalas.

Averiguar la puntuacin media de una muestra de sujetos en cada una de las escalas
bipolares de cada concepto.
Averiguar la puntuacin media de todas las escalas que evalan un concepto
determinado (a nivel individual y grupal).
La puntuacin media de todos los conceptos y sujetos, etc.
Puntuaciones factoriales
Se obtienen con el fin de averiguar la puntuacin que corresponde a cada una de las
dimensiones o factores, tanto a nivel individual como grupal. Se obtienen calculando la media
de las puntuaciones escalares que definen cada una de las dimensiones o factores.
Ejemplo: si queremos hallar la puntuacin factorial de una muestra de sujetos en la dimensin

Actividad-Pasividad para el concepto matrimonio, y contamos con tres escalas bipolares para
definir esta dimensin, debemos:
Calcular la media de cada escala bipolar.

Calcular la media de los valores anteriores, que ser la puntuacin factorial del grupo
en la dimensin estudiada.
Supongamos que a una muestra de 120 sujetos se le presentan tres escalas para evaluar el
concepto matrimonio, obteniendo los siguientes resultados:
Matrimonio
Pasivo 4 6 8 10 12 30 50 Activo
Escala 1 2 3 4 5 6 7
Lento 6 4 10 8 50 30 12 Rpido
Escala 1 2 3 4 5 6 7
Esttico 10 30 50 12 4 6 8 Dinmico
Escala 7 6 5 4 3 2 1
La media de cada escala sera:

4 1+6 2+8 3+10 4+125+306+507
Pasivo-Activo: = = 5,58
120
Lento-Rpido: = 4,92
Esttico-Dinmico: = 4,83
A partir de las medias de cada escala, calculamos la puntuacin factorial del grupo en la
dimensin Actividad-Pasividad para el concepto matrimonio:
5,58 + 4,92 + 4,83
= = 5,11
3
Teniendo en cuenta que la escala utilizada tiene el punto neutro en el 4, la puntuacin factorial
de 5,11 indica que la muestra considera el concepto matrimonio ligeramente activo. Lo mismo
se podra hacer para el resto de dimensiones.
11

lOMoARcPSD|378992
La tcnica de Guttman
El Escalograma de Guttman se desarroll como alternativa a los modelos de Thurstone y Likert
para la medida de actitudes, aunque tambin se puede emplear para tests en los que haya
respuestas correctas o incorrectas.
El modelo se basa en la idea de que es posible ordenar los estmulos de manera que:
Si un sujeto responde correctamente (o favorablemente) a uno concreto, tambin lo

har a todos los que estn situados por debajo de l en la escala establecida.
Si un sujeto no responde correctamente (o favorablemente) a uno concreto, tampoco
lo har a todos los que estn situados por encima de l en la escala establecida.
La tcnica est ms orientada a comprobar la unidimensionalidad de una escala que al proceso

de construccin de la misma.
Los sujetos y los estmulos se representan, a lo largo de un continuo, formando una escala de
entrelazamiento en donde cada sujeto estar situado entre dos estmulos.
Ejemplo: la siguiente matriz de datos son las respuestas de cinco sujetos a cuatro elementos
dicotmicos (1: acuerdo o acierto; 0: desacuerdo o fallo). Con estos datos, tendramos una
escala de Guttman perfecta (matriz triangular).
Tabla 6. Matriz de datos.
Elementos
Puntuacin
Sujetos A B C D
sujeto
1 1 1 1 1 4
2 1 1 1 0 3
3 1 1 0 0 2
4 1 0 0 0 1
5 0 0 0 0 0
Puntos tem 4 3 2 1
La representacin de la escala de entrelazamiento sera:
5 A 4 B 3 C 2 D 1
En la prctica es muy difcil conseguir escalas perfectas como esta, por lo que el problema
consiste en determinar el grado de desviacin, respecto a la escala perfecta, que se debe
tolerar para aceptar que los datos obtenidos se ajustan al modelo de Guttman.
Nota: para elaborar una escala de conocimientos con respuestas correctas o incorrectas, los
tems se ordenaran en funcin de su grado de dificultad (de fcil a difcil).
Para llevar a cabo el anlisis del escalograma es necesario:
Establecer la forma de evaluar el error o desviacin de los datos.

Ordenar los datos de manera que se ajusten lo ms posible a la escala perfecta.
Evaluar el grado de aproximacin de los datos a la escala perfecta.
Establecer reglas para fijar la posicin en el continuo de los su jetos con un patrn de
respuestas que se separa del ideal.
12

lOMoARcPSD|378992
Establecer reglas para comprobar si el conjunto de elementos elegido, es escalable

segn el modelo Guttman.
Evaluacin del error en el modelo

Hay varios procedimientos para averiguar el nmero de errores o desviaciones, pero nos
fijaremos en el basado en que recuenta el nmero de desviaciones encontradas en la escala
obtenida respecto a la escala ideal (Goodenough y Edwards).
Ejemplo: en la siguiente tabla se muestran las respuestas de 4 sujetos y el nmero de errores

cometido respecto al patrn ideal.
Tabla 7. Matriz de datos para el recuento de errores.
Sujetos Patrn respuestas Patrn ideal Errores

A ++++ ++++ 0
B -+++ +++- 2
C --++ ++-- 4
D -+-- +--- 2
Pasos a seguir para la elaboracin de la escala
Utilizaremos tems dicotmicos, es decir, que slo admiten dos opciones de respuesta:
favorable/acierto (1) desfavorable/fallo (0).
Si tenemos n tems dicotmicos, el nmero de patrones de respuesta posibles es 2n (con 3

elementos se pueden producir 8 patrones). Sin embargo, de esos 2n posibles patrones, tan slo
n+1 se ajustan al modelo de Guttman.
Los pasos a seguir para la elaboracin de la escala son:
1) Averiguar el nmero de respuestas favorables o correctas para cada sujeto

(puntuacin del sujeto).
2) Calcular la proporcin de sujetos que responden correctamente a cada tem.
3) En funcin de los resultados anteriores, intercambiar las columnas correspondientes a
los tems de manera que estos queden ordenados de mayor a menor proporcin de
respuestas favorables.
4) Reordenar las filas correspondientes a los sujetos de mayor puntuacin a menor.
Despus de este proceso, si la matriz se ajusta a una escala acumulativa perfecta deberamos
de obtener una matriz triangular. Si no, debemos realizar un recuento de los errores para
comprobar el grado de ajuste de los datos al modelo de Guttman.
Ejemplo: en una escala de actitudes, un grupo de 10 sujetos obtuvo los siguientes patrones de
respuesta ante 8 elementos-
Tabla 8. Matriz de respuestas.
Elementos
Puntuacin
Sujetos 1 2 3 4 5 6 7 8
Sujeto
A 1 1 1 1 1 1 1 1 8
B 0 0 0 0 0 0 0 0 0
C 1 1 1 0 1 1 0 0 5
D 1 0 0 0 1 0 0 0 2
E 1 1 1 1 1 1 1 1 8
13

lOMoARcPSD|378992
F 1 1 1 0 0 0 0 0 3
G 1 1 1 1 1 0 1 0 6
H 0 0 0 1 0 0 0 0 1
I 1 0 0 0 0 0 0 0 1
J 1 1 1 1 0 0 1 1 6
Aciertos 8 6 6 5 5 3 4 3
Ahora hay que reordenar las columnas desde el elemento ms difcil al ms fcil (menos
acertado al ms acertado o, en una escala de actitud, del menos aceptado al ms aceptado).
Tabla 9. Matriz de respuestas con las columnas ordenadas.
Elementos
Puntuacin
Sujetos 6 8 7 4 5 2 3 1
Sujeto
A 1 1 1 1 1 1 1 1 8
B 0 0 0 0 0 0 0 0 0
C 1 0 0 0 1 1 1 1 5
D 0 0 0 0 1 0 0 1 2
E 1 1 1 1 1 1 1 1 8
F 0 0 0 0 0 1 1 1 3
G 0 0 1 1 1 1 1 1 6
H 0 0 0 1 0 0 0 0 1
I 0 0 0 0 0 0 0 1 1
J 0 1 1 1 0 1 1 1 6
Aciertos 3 3 4 5 5 6 6 8
Finalmente, se reordenan tambin las filas y se realiza el recuento de errores.

Tabla 10. Matriz de respuestas totalmente ordenada.
Elementos
Nmero de
Sujetos 6 8 7 4 5 2 3 1 Puntuacin Sujeto
errores
B 0 0 0 0 0 0 0 0 0 0
H 0 0 0 1 0 0 0 0 1 2
I 0 0 0 0 0 0 0 1 1 0
D 0 0 0 0 1 0 0 1 2 2
F 0 0 0 0 0 1 1 1 3 0
C 1 0 0 0 1 1 1 1 5 2
G 0 0 1 1 1 1 1 1 6 0
J 0 1 1 1 0 1 1 1 6 2
E 1 1 1 1 1 1 1 1 8 0
A 1 1 1 1 1 1 1 1 8 0
Aciertos 3 3 4 5 5 6 6 8
En este momento hay que analizar si los tems que han recibido el mismo nmero de
aceptaciones (6 y 8; 4 y 5; 2 y 3) se podran reordenar para reducir los errores. En este caso, la
inversin de estas columnas no reduce el nmero de errores.
Cmo se calcula el nmero de errores? Algunos ejemplos
14

lOMoARcPSD|378992
El sujeto J ha acertado 6 tems. Segn el modelo Guttman estos deberan de haber sido
los 6 ms fciles. Sin embargo, acert el tem 8 pero fall el 5, con lo cual tiene 2
errores.
El sujeto H ha acertado 1 tems. Segn el modelo Guttman debera de haber sido el
ms fcil. Sin embargo, acert el tem 4 pero fall el 8 (el ms fcil), con lo cual tiene 2
errores.
Como criterio de bondad de ajuste al modelo de Guttman se utiliza el Coeficiente de

Reproductividad (C.R.):

. . = 1 =1

Unos datos empricos se ajustan al modelo de Guttman si su coeficiente de reproductividad es
mayor o igual que 0,90.
En el ejemplo:
8
. . = 1 = 0,90
10 8
Por lo tanto, los datos son escalables segn el modelo de Guttman.
15

lOMoARcPSD|378992
Psicometra | Tema 4: La fiabilidad de las puntuaciones
Tema 4: La fiabilidad de las puntuaciones

Nota: a partir de ahora se utilizar la palabra test para referirse a cualquier instrumento de
medida o evaluacin (tests, escalas, cuestionarios, etc.)
El problema del error de medida

El error de medida es la diferencia entre la puntuacin emprica obtenida por un sujeto en el
test y su puntuacin verdadera.
Los errores de medida pueden ser:
Sistemticos: afectan a todas las puntuaciones y son culpa del instrumento.

Aleatorios: no son debidos al instrumento si no a cambios en el propio sujeto
(condiciones fsicas, que responda al azar, etc.). De estos errores se ocupa la fiabilidad.
En el marco de la Teora Clsica de los Tests, se estudiar el Modelo Lineal de Spearman.
El modelo lineal de Spearman

El Modelo lineal de Spearman establece que la puntuacin emprica obtenida por un sujeto en
un test (X) es una combinacin lineal de su puntuacin verdadera (V) en el rasgo que mide el
test y el error de medida (E) que le afecta:
X = V + E
Supuestos del modelo:
1) La puntuacin verdadera (V) es la esperanza matemtica (media) de la puntuacin

emprica (X): si pasamos el test un nmero infinito de veces a un sujeto, la puntuacin
verdadera (V) sera la media de todas las puntuaciones observadas (X).
2) No hay correlacin entre las puntuaciones verdaderas de n sujetos en un test y los
errores de medida.
3) No hay correlacin entre los errores de medida que afectan a las puntuaciones de los
sujetos en dos tests diferentes.
A partir de estos supuestos se siguen las siguientes deducciones:
El error de medida es la diferencia entre la puntuacin emprica y la puntuacin

verdadera.
La media de los errores de medida es 0.
La media de las puntuaciones empricas y de las verdaderas es igual.
Tests paralelos. Condiciones de paralelismo

Si a una misma muestra de sujetos se aplican dos tests, X y X, se considera que son paralelos
si, adems de cumplir los supuestos anteriores, se cumple tambin que:
Las puntuaciones verdaderas de los sujetos son iguales en ambos tests, por lo tanto:
o X=V+E
o X = V + E
La varianza de los errores de medida es la misma en ambos tests (2 =
2 ).

lOMoARcPSD|378992
De esto se deduce que todos los estadsticos grupales (media, varianza, etc.) han de ser iguales
en ambas formas paralelas.
Interpretacin terica del coeficiente de fiabilidad

El coeficiente de fiabilidad de un test es:
La correlacin entre las puntuaciones empricas obtenidas por una muestra de sujetos
en dos formas paralelas del test.
El cociente entre la varianza de las puntuaciones verdaderas y la varianza de las
puntuaciones empricas
2
= 2

El coeficiente de fiabilidad se interpreta como la proporcin de varianza verdadera que hay

en la varianza emprica.
Si dicha proporcin aumenta, disminuye el error de medida. Toma valores entre 0 y 1:
Si rXX=1, el error de medida es 0: fiabilidad perfecta.

Si rXX=0, la varianza de los errores de medida sera igual a la de las puntuaciones
empricas, y la fiabilidad es nula.
El ndice de fiabilidad de un test es la raz cuadrada del coeficiente de fiabilidad:
Importante: no se debe confundir el coeficiente de fiabilidad con el ndice de fiabilidad, que es

la correlacin entre las puntuaciones verdaderas y las empricas, y se obtiene a partir de la
raz cuadrada del coeficiente.
Tipos de errores de medida

Los errores pueden ser: de medida, de estimacin, de sustitucin y de prediccin.
El error de medida es la diferencia entre la puntuacin emprica y la verdadera de un sujeto (E

= X V).
El error tpico de medida es la desviacin tpica de todos los errores de medida (es una medida
grupal, porque se utilizan los errores de todos los sujetos).
El error de estimacin de la puntuacin verdadera es la diferencia entre la puntuacin

verdadera y la verdadera pronosticada mediante el modelo de regresin (E = V V). El error
tpico de estimacin de la puntuacin verdadera es la desviacin tpica de todos los errores de
estimacin.
El error de sustitucin es la diferencia entre las puntuaciones obtenidas por un sujeto en dos
tests paralelos (e = X1 X2). El error tpico de sustitucin es la desviacin tpica de los errores
de sustitucin.
El error de predicciones la diferencia entre las puntuaciones obtenidas por un sujeto en un

test (X1) y las puntuaciones pronosticadas para ese mismo test (X1) hechas a partir de un test
paralelo X2 (e = X1 - X1). El error tpico de prediccin es la desviacin tpica de los errores de
prediccin.

lOMoARcPSD|378992
Factores que afectan a la fiabilidad

Longitud del test
La fiabilidad de un test depende de su longitud de manera que a mayor nmero de tems ms
fiable ser el test (se comete menor error). Por tanto, una forma de incrementar la fiabilidad
de un test es aumentar su longitud.
La relacin entre la fiabilidad de un test y su longitud viene dada por la siguiente ecuacin:
1,5 0,78
= =
1 + ( 1) 1 + (1,5 1)0,78
Donde:
RXX: es el coeficiente de fiabilidad del test alargado o acortado.

rXX: es el coeficiente de fiabilidad del test inicial.
n: nmero de veces que se alarga o se acorta el test.
n = EF / EI: n es el cociente entre el nmero de elementos finales y el inicial. Si n = 2,
significa que se alarga el test 2 veces, por lo que el nmero de elementos ser el
doble que en el inicial.
Ejemplo: supongamos que tras aplicar un test de 50 tems a una muestra de sujetos se obtiene
un coeficiente de fiabilidad de 0.6. Si se incrementa n = 2 veces la longitud del test tendramos
que el nuevo coeficiente de fiabilidad sera 0.75. Si n = 2, entonces el nmero de elementos del
test alargado sera 100 (EF = EI * n = 50 * 2 = 100).
Ejemplo 2: Cunto deberamos de aumentar la fiabilidad del test hasta obtener un valor de
0,93?
(1 ) 0,93(1 0,60)
= = = 8,85 9
(1 ) 0,60(1 0,93)
Con lo cual deberamos de hacer el test 9 veces ms largo que el original de 50 tems (es decir,
que tuviera 450 tems).
Variabilidad de la muestra
El coeficiente de fiabilidad vara en funcin de la variabilidad de la muestra a la que se aplica:
la fiabilidad es menor cuanto ms homogneo es el grupo (cuanto menor es la desviacin
tpica de las puntuaciones empricas).
La siguiente frmula nos permite relacionar los coeficientes de fiabilidad de dos grupos:
12
22 = 1 (1 11 )
22
Donde:
12 : es la varianza de las puntuaciones empricas en el grupo 1.

22 : es la varianza de las puntuaciones empricas en el grupo 2.
r11: es el coeficiente de fiabilidad en el grupo 1.
r22: es el coeficiente de fiabilidad en el grupo 2.

lOMoARcPSD|378992
Ejemplo: se aplica un test a una muestra y la 1 = 20 y la razn entre la desviacin tpica de

los errores y la de las puntuaciones empricas es 0,40. Aplicando el test a otra muestra se
obtiene que 2 = 10. Cul es la fiabilidad de este segundo test?
2
En primer lugar calculamos: 11 = 1 2 = 1 0,16 = 0,84

2 400
Y despus, aplicando la frmula: 22 = 1 12 (1 11 ) = 1 100 (1 0,84) = 0,36
2
Como se puede ver, al reducir la variabilidad de las puntuaciones se reduce tambin la

fiabilidad.
La fiabilidad como equivalencia y como estabilidad de las medidas

La estabilidad se refiere a que cuando se evala un rasgo con el mismo test en distintas
ocasiones y bajo condiciones similares, se debern obtener resultados similares (si el rasgo no
ha cambiado). Esta reproductividad de los resultados es la fiabilidad del test entendida como
estabilidad de las medidas.
Los dos siguientes mtodos basados en la estabilidad de las medidas permiten calcular el
coeficiente de fiabilidad:
Mtodo de las formas paralelas.

Mtodo de test-retest.
Mtodo de las formas paralelas

Segn este mtodo hay que:
1) Construir dos formas paralelas de un test: X yX.

2) Aplicar las dos formas del test a una muestra de sujetos representativa de la poblacin
a la que va dirigido.
3) Calcular el coeficiente de correlacin de Pearson entre las puntuaciones de los sujetos
en ambas formas.
Ya que ambas formas son equivalentes, el coeficiente de fiabilidad as obtenido recibe el

nombre de coeficiente de equivalencia.
Tiene la ventaja de que si ambos test se aplican en el mismo momento se tiene mayor control
de los sujetos y el inconveniente de la dificultad que supone construir dos tests paralelos.
Mtodo test-retest
Con este mtodo simplemente se aplica el mismo test en dos ocasiones diferentes a la misma
muestra. Se calcula el coeficiente de fiabilidad como el coeficiente de correlacin de Pearson
entre las puntuaciones de los sujetos en ambas aplicaciones.
El coeficiente de fiabilidad as obtenido recibe el nombre de coeficiente de estabilidad.
La ventaja de este mtodo es que slo se requiere de un test. Entre sus inconvenientes
tenemos que:
Algunos sujetos podran memorizarse los tems del test, lo cual aumentara o
disminuira su puntuacin de manera irreal.

lOMoARcPSD|378992
El intervalo de tiempo transcurrido entre ambas aplicaciones debe ser suficiente como
para evitar la memorizacin pero sin que el rasgo vare entre las dos aplicaciones.
La actitud del sujeto tambin puede cambiar entre ambas aplicaciones (p. ej.: el grado
de cooperacin del sujeto).
La fiabilidad como consistencia interna

Si solamente se puede aplicar el test una vez o si la estabilidad o la equivalencia de las medidas
no constituyen el objetivo principal, se pueden aplicar mtodos para estimar la fiabilidad que
aportan un ndice de la consistencia interna del test en una aplicacin.
Mtodos basados en la divisin del test en dos mitades

En este caso se considera se aplica el test a una muestra de sujetos y, una vez obtenidas las
puntuaciones, se divide el test en dos mitades para calcular la correlacin entre las
puntuaciones obtenidas en ambas parte y aplicar una frmula de correccin.
El test puede dividirse en dos mitades de diferentes maneras:
Asignar los primeros n/2 tems a una mitad y los n/2 ltimos a otra. Esta forma no sera
adecuada para tests con tems de dificultad creciente, puesto que las dos mitades no
seran comparables.
Asignar los tems pares a una mitad y los impares a otra. Esta es la manera ms
habitual: se ordenan los elementos por dificultad y se asignan los pares a una mitad y
los impares a la otra.
Asignar los tems al azar a una mitad o a la otra, lo cual no es muy recomendable.
Con el mtodo de las dos mitades la fiabilidad se puede estimar con las siguientes frmulas:
Spearman-Brown, Rulon y Guttman-Flanagan.
Spearman-Brown
Con este mtodo:
Comprobar que ambas mitades son paralelas (igualdad de medias e igualdad de

errores tpicos de la media)
Se calcula la correlacin entre las puntuaciones de ambas partes del test.
Se calcula la correlacin total aplicando la ecuacin de Spearman-Brown para el caso
2
de longitud doble: = (donde es el ndice de fiabilidad del test y es
1+
el ndice de fiabilidad de cada mitad)
Ejemplo: se aplica un test de aptitud numrica de 20 tems a 6 sujetos. Al calcular el coeficiente

de correlacin entre las dos mitades se obtiene que 1 2 = 0,35. Cul es la fiabilidad del test
21 2 20,35
total? Sera = 1+1 2
= 1,35
= 0,52
Rulon
Este test se puede aplicar para estimar la fiabilidad de un test aun cuando las mitades no son
estrictamente paralelas pero s tau-equivalentes (las puntuaciones verdaderas de los sujetos
son iguales en ambas formas pero las varianzas del error no tienen por qu) o esencialmente
tau-equivalentes (las puntuaciones verdaderas en un test es igual a la del otro ms una
constante).
En este caso:

lOMoARcPSD|378992
Se calculan las puntuaciones totales y las obtenidas en los tems pares e impares.
Se calcula la diferencia entre las puntuaciones y su varianza.
2
Se aplica la frmula de Rulon: = 1 2 (donde 2 es la varianza de las diferencias

entre las puntuaciones pares e impares y 2 es la varianza de las puntuaciones
empricas de los sujetos)
Ejemplo: se aplica un test de fluidez verbal compuesto por 6 tems a 6 sujetos. En la tala se
recogen las puntuaciones empricas obtenidas por cada sujeto y las puntuaciones en los tems
pares e impares.
= 3,5; 2 = 2,92

2
= 0,17; = 1,14
2 1,14
= 1 2 = 1 2,92 = 0,61

Sujetos X P I D
A 4 3 1 2
B 1 1 0 1
C 6 3 3 0
D 2 1 1 0
E 3 1 2 -1
F 5 2 3 -1
Guttman-Flanagan
Guttnon y Flanagan llegaron a una frmula equivalente a la de Rulon y ms sencilla:
2 + 2
= 2(1 )
2
Sonde 2 y 2 son las varianzas de las puntuaciones pares e impares respectivamente y 2 es

la varianza de las puntuaciones empricas de los sujetos.
Mtodos basados en la covariacin entre los tems

Al estudiar la fiabilidad como consistencia interna existen otros mtodos basados en un
anlisis de la varianza y covarianza de las respuestas de los sujetos. El coeficiente calculado con
estos mtodos proporciona una estimacin de la consistencia interna de los tems del test.
Coeficiente alfa () de Cronbach

Es un indicador de la consistencia interna del test que expresa la fiabilidad del test en funcin
del nmero de tems y de la proporcin de varianza total del test debida a la covariacin entre
tems. Cuando mayor sea esta covariacin, mayor ser la fiabilidad del test.
Ejemplo: aplicando un test de percepcin visual a una muestra de seis sujetos se obtienen las
siguientes respuestas para cinco tems. Se quiere calcular el valor del coeficiente de fiabilidad
del test.
Sujetos 1 2 3 4 5 Total (X)

A 3 4 3 3 4 17
B 2 3 2 4 4 16

lOMoARcPSD|378992
C 4 2 2 3 3 14
D 2 1 1 2 1 7
E 1 1 1 2 1 6
F 0 0 1 1 1 3

1 = 2; 12 = 1,67

2 = 1,83; 22 = 1,82

3 = 1,67; 32 = 0,54

4 = 2,5; 42 = 0,92

5 = 2,33; 52 = 1,90
= 10,33; 2 = 27,29
5 1,67 + 1,82 + 0,54 + 0,92 + 1,90

= (1 ) = 0,94
4 27,29
Estimador insesgado de
Ejemplo: supongamos que a una muestra de 150 sujetos se les ha aplicado un test y se ha
obtenido un valor de = 0,75, cul es el valor del estimador insesgado?
(150 3) 0,75 + 2
=
= 0,75
150 1
El coeficiente como lmite inferior del coeficiente de fiabilidad
Si los tems del test son paralelos el coeficiente es igual al coeficiente de fiabilidad rXX. Si no,
el coeficiente se puede considerar como una estimacin del lmite inferior del coeficiente de
fiabilidad: rXX.
Inferencias sobre
El coeficiente nos proporciona una estimacin de la fiabilidad de un test basada en la
consistencia del mismo.
En ocasiones se puede ir ms all y tratar de estudiar si:
Existe una diferencia significativa entre el obtenido en dos o ms muestras

independientes.
Si puede tomar un valor concreto en la poblacin.
Si la diferencia entre dos o ms valores de para una misma muestra es significativa o
no.
Inferencias para un solo valor de

Si queremos saber si puede tomar un valor determinado en la poblacin (o entre que valores
se encuentra en la poblacin), se puede usar el siguiente estadstico de contraste:
1
=
1

Donde:
F se distribuye con N-1 y (n-1)(N-1) grados de libertad.

lOMoARcPSD|378992
es el valor propuesto por hiptesis para la poblacin.

Es el valor obtenido en la muestra.

N es el nmero de sujetos.
N es el nmero de tems.
Ejemplo: se aplica un test de percepcin espacial con 35 tems a 60 alumnos de bachillerato,

obteniendo un = 0,83. Se desea saber: a) si dicho coeficiente es estadsticamente
significativo y b) entre que valores se encontrar el coeficiente en la poblacin con un nivel
de confianza del 95%.
a) La hiptesis nula sera H0: = 0 y la alternativa H1: 0.

1 10
= = = 5,88; = (59, 2006); 0,975 = 1,39; 0,025 = 0,67
1
1 0,83
Puesto que el valor de F no se encuentra dentro de la regin de aceptacin, se rechaza la
hiptesis nula y se concluye que el coeficiente es estadsticamente significativo.
b) En este caso debemos de buscar entre que valores se encontrar el coeficiente de la

poblacin:
1
1,39 1 1,39(1 0,83); 0,76
1 0,83
1
0,67 1 0,67(1 0,83); 0,89
1 0,83
Al 95% de confianza el valor de alfa en la poblacin estar entre 0,76 y 0,89.
Inferencias sobre para dos muestras independientes

Para dos muestras independientes se puede utilizar el estadstico W que permite comprobar la
H0: 1 = 2:
1
1
=
1
2
Donde:
W se distribuye como una F con N1-1 y N2-1 grados de libertad.

Los
son los coeficientes obtenidos en cada muestra.
N1-1 y N2-1 son el nmero de sujetos de cada muestra.
Ejemplo: se aplica un teste de razonamiento a 121 sujetos obteniendo un = 0,55. Se aplic el

mismo test a otra muestra de 61 sujetos obteniendo un = 0,62. Queremos saber si existen
diferencias estadsticamente significativas al 95% de confianza.
En este caso: H0: 1 = 2 y H1: 1 2.

1 0,55
= = 1,18; 0,975 = 1,58; 0,025 = 0,63
1 0,62
Por lo tanto, podemos afirmar al 95% que la diferencia entre ambos no es estadsticamente
significativa puesto que el valor del estadstico de contraste W cae dentro de la regin de
aceptacin.

lOMoARcPSD|378992
Inferencias sobre para K muestras independientes

El estadstico de contraste denominado UX1 permite comprobar hiptesis del tipo: H0: 1 = 2=
3 = = K para comparar los valores de obtenidos en varias muestras independientes.
Se puede ver un ejemplo de esta inferencia en la pgina 203 del libro de Psicometra.
Inferencias sobre para dos muestras dependientes

Feldt propuso el uso del estadstico de contraste t para dos valores de obtenidos a partir de
la misma muestra de sujetos. Se recomienda el uso de este estadstico cuando N n 1000 (N:
nmero de sujetos; n: nmero de tems).
Inferencias sobre para K muestras dependientes

El estadstico de contraste denominado UX1 permite comprobar hiptesis del tipo: H0: A = B=
C = = K para comparar los valores de obtenidos en varias muestras dependientes o
relacionadas.
Casos particulares del coeficiente

En este punto se hace referencia a la estimacin de la fiabilidad de un test en el caso de que
los tems que lo componen sean dicotmicos. La ecuacin de Kuder-Richardson es un caso
particular del coeficiente de Cronbach para el supuesto de que los tems sean dicotmicos.
Existen dos ecuaciones:
KR20: para el caso de tems dicotmicos de diferente dificultad.

KR21: para el caso de tems dicotmicos de la misma dificultad.
Coeficientes basados en el anlisis factorial de los tems: Theta () y Omega ().

Los coeficientes Theta () y Omega () son dos indicadores de la consistencia interna de los
tems de un test y una aproximacin al coeficiente . Se trata de dos coeficientes basados en el
anlisis factorial de los tems.
El coeficiente es tambin un indicador de la unidimensionalidad de los tems: cuanto mayor

sea la varianza que explica el primer factor, mayor ser el valor de y mayor ser la
correlacin de los tems, lo que explica que contribuyan en una sola dimensin. El coeficiente
puede expresarse como:
1
= (1 )
1 1
Donde:
n es el nmero de tems del test.

1 es el primer autovalor de la matriz factorial: la varianza explicada por el primer
factor antes de la rotacin.
El coeficiente se puede explicar con dos frmulas. Aqu se presenta la ms sencilla:
2
=1
+ 2
Donde:

lOMoARcPSD|378992
2 es la comunalidad estimada del tem j.

representa la correlacin entre los tems j y h.
Nota: en general y para los mismos datos, se cumple que . La igualdad se da cuando
los tems son paralelos.
Ejemplo: en la siguiente tabla aparecen los valores de la varianza explicada por los cinco factores
obtenidos en un anlisis factorial de 5 variables. La suma de las comunalidades es igual a 4,95 y
la suma de las correlaciones entre los tems es igual a 5,1.
2 5 4,95
=1 1 = 0,869
+ 2 5 + 2 5,1
1 5 1
= (1 ) = (1 ) = 0,996
1 1 51 3,286
Factor Varianza explicada

1 3,286
2 1,346
3 0,224
4 0,128
5 0,014
El coeficiente beta () de Raju
El coeficiente se utiliza cuando:
Un test est compuesto por varios subtests con distinto nmero de tems.
Se desconocen las puntuaciones de los sujetos en los tems de los distintos subtests (si
se conocen es mejor aplicar el coeficiente ).
El coeficiente se calcula como:
2 =1 2
= 2

2 (1 =1 ( ) )
Donde:
k es el nmero de subtests.
2 es la varianza del test.
2 es la varianza de cada subtest.
nj es el nmero de tems en cada subtest.
N es el nmero de tems en total.
Ejemplo: se ha aplicado un test de destreza manual compuesto por 4 subtests a una muestra
de 200 empleados de correos. Los subtests estn compuestos por 18 (A), 30 (B), 45 (C) y 55 (D)
tems respectivamente. La varianza total del test es 50 y las de cada subtest son 5 (A), 7 (B), 9
(C) y 11 (D). Calcular y .
2 =1 2 50 (5 + 7 + 9 + 11)
= 2 = = 0,50
50 [1 (0,015 + 0,041 + 0,092 + 0,138)]
2 (1 =1 ( ) )
10

lOMoARcPSD|378992
4 5 + 7 + 9 + 11
= (1 ) = 0,48
41 50
Estimacin de la puntuacin verdadera de los sujetos en el

atributo de inters
Una vez que se sabe calcular la fiabilidad de un test, podemos abordar el problema de cmo
hacer estimaciones acerca del valor de la puntuacin verdadera de un sujeto en un test y el
error que afecta a las puntuaciones empricas obtenidas.
Estimacin mediante la desigualdad de Chebychev

Si no se hace ningn supuesto sobre la distribucin de las puntuaciones empricas o de los
errores, se aplica la desigualdad de Chebychev:
1
{| | } 1
2
Donde:
1
1 2 es el nivel de confianza utilizado.
es el error tpico de la media.
Ejemplo: administrando a 200 sujetos un test de razonamiento numrico se obtiene que: =

52, = 7 = 0,73. Estimar la puntuacin verdadera de un sujeto que obtuvo en el test
una puntuacin emprica de 65 puntos con un N.C. = 95%.
= 1 = 71 0,73 = 3,64
1
1 = 0,95 = 4,5
2
{|65 | 3,64 4,5} 0,95
{16,38 65 16,38} 0,95
{16,38 65 65 65 16,38 65} 0,95

{81,38 48,62} 0,95
{48,62 81,38} 0,95
Lo que significa que la puntuacin verdadera se encuentra entre 48,62 y 81,38. El intervalo
puede ser demasiado amplio debido a la baja fiabilidad o a que el mtodo de Chebychev no
considera el tipo de distribucin.
Estimacin basada en la distribucin normal de los errores

Este mtodo asume que los errores de medida se distribuyen normalmente con media 0 y
varianza 2 y las puntuaciones empricas se distribuyen normalmente en funcin de un
determinado valor de V.
11

lOMoARcPSD|378992
Para determinar el intervalo de confianza que contendr la puntuacin verdadera del sujeto
hay que:
1) Fijar el nivel de confianza y calcular el punto crtico (Zc) correspondiente. Por ejemplo,
para un N.C.=95% el valor de Zc ser 1,96.
2) Calcular el error tpico de medida :
a. = 1 para puntuaciones directas o diferenciales.
b. = 1 para puntuaciones tpicas.
3) Calcular el error de medida mximo (Emx) que estamos dispuestos a admitir:
=
4) Calcular el intervalo de confianza:
=
Ejemplo: administrando a 200 sujetos un test de razonamiento numrico se obtiene que: =

52, = 7 = 0,73. Estimar la puntuacin verdadera (en puntuaciones directas,
diferenciales y tpicas) de un sujeto que obtuvo en el test una puntuacin emprica de 65
puntos con un N.C.=95%.
= 1 = 71 0,73 = 3,64
= 1 = 1 0,73 = 0,52
Puntuacin directa: = 65
Puntuacin diferencial: = 65 52 = 13
Puntuacin tpica: = 65 527 = 1,86
= = 1,96 3,64 = 7,13

Con las puntuaciones directas:
= = 65 7,13 57,85 72,13

Con las puntuaciones diferenciales:
= = 13 7,13 5,87 20,13

Con las puntuaciones tpicas:
= = 1,96 0,52 = 1,02
= = 1,82 1,02 0,84 2,88
Estimacin basada en el modelo de regresin

La correlacin entre las puntuaciones verdaderas y los errores de medida es igual a cero (r ve=0)
mientras que la correlacin entre las puntuaciones empricas y los errores de medida no,
puesto que las medidas estn afectadas por un cierto error.
Esta correlacin, expresada por = 1 toma valores entre 0 y 1. Si rxe=1, el error de

medida es 0: fiabilidad perfecta. Si rxe=0, la fiabilidad del test es nula y las puntuaciones
empricas coindicen con los errores.
En todo caso: la correlacin es siempre positiva por lo que las puntuaciones empricas son
siempre sesgadas. Esto implica que para construir el intervalo de confianza es mejor emplear
12

lOMoARcPSD|378992
la puntuacin verdadera estimada (V, v Zv) en lugar de las puntuaciones empricas, como
vimos en el apartado anterior.
Ejemplo: con los datos del ejemplo anterior, estimar la puntuacin verdadera de un sujeto que
obtuvo una puntuacin emprica de 65 puntos con un N.C.=95%.
Con las puntuaciones directas:
= + ( ) = 0,73 65 + (52 0,73 52) = 61,49

Con las puntuaciones diferenciales:
= = 0,73 13 = 9,49
Con las puntuaciones tpicas:
= = 0,73 1,86 = 1,58
Estos tres valores (V, v y Zv) son las puntuaciones verdaderas estimadas, las cuales se
emplearn ahora para calcular los intervalos de confianza de la puntuacin verdadera:
1) Fijar el nivel de confianza y calcular el valor zeta crtico (Zc) correspondiente. Por
ejemplo, para un N.C.=95% el valor de Zc ser 1,96.
2) Calcular el error tpico de estimacin :
a. = 1 para puntuaciones directas o diferenciales.
b. = 1 ppara puntuaciones tpicas.
3) Calcular el error de medida mximo (Emx) que estamos dispuestos a admitir:
a. = para puntuaciones directas o diferenciales.
b. = para puntuaciones tpicas.
4) Calcular el intervalo de confianza:
= V|v|
Ejemplo: en la pgina 222 del libro de texto contina el ejemplo con el clculo de los intervalos
de confianza.
La fiabilidad de una batera de tests

Se trata de calcular la fiabilidad de la batera en funcin de los coeficientes de fiabilidad,
varianzas y covarianzas de los subtests que lo van a conformar:
2 2
= 1
2
Donde:
2 es la varianza del subtest j.

es el coeficiente de fiabilidad del subtest j.
2 es la varianza de la batera total.
13

lOMoARcPSD|378992
Psicometra | Tema 5: La fiabilidad en los tests referidos al criterio
Tema 5: La fiabilidad en los tests referidos al

criterio
Introduccin
Los test construidos y evaluados con los procedimientos del tema anterior se denominan tests
referidos a la norma (TRN) ya que el rendimiento de los sujetos se evala en referencia a otros
sujetos que forman el grupo normativo. Este enfoque proporciona la posicin relativa de un
sujeto respecto a otros, no su nivel de habilidad real (qu tipo de problemas es capaz de
resolver, cul es el lmite de capacidad en la resolucin de problemas, etc.). Este tipo de
cuestiones se pueden abordar cuando la evaluacin del sujeto no se realiza en funcin de un
grupo normativo si no en funcin del nmero de objetivos logrados por el sujeto en un test, lo
que se evala con los tests referidos al criterio (TRC).
Definicin y objetivos de los tests referidos al criterio

Un test referido al criterio (TRC) se utiliza para evaluar el estatus absoluto del sujeto con
respecto a algn dominio de conductas bien definido.
Los TRC no constituyen un nuevo marco terico en la Teora de los Tests si no un nuevo
enfoque que responde a preguntas y necesidades distintas de los tests referidos a las normas
(TRN):
En los TRN la finalidad es describir al sujeto en el continuo de algn rasgo, haciendo

hincapi en las diferencias individuales y expresando su posicin relativa respecto al
grupo de sujetos normativo.
En los TRC el objetivo es construir y evaluar tests que permitan interpretar las
puntuaciones en sentido absoluto (sin referencia a ningn grupo).
Diferencias entre los tests referidos a la norma y los tests

referidos al criterio
En cuanto a la construccin del test:
En los TRC se delimita claramente el dominio de contenidos o conductas y el uso

pretendido del test.
En los TRN los tems suelen derivarse de alguna teora de rasgos y no se especifica tan
claramente el dominio de contenidos.
En cuanto a los criterios de seleccin de tems:
En los TRN el objetivo es maximizar las diferencias individuales por lo que se escogen
tems de dificultad media y alto ndice de discriminacin.
En los TRC la seleccin se basa en los objetivos, propsito y finalidad del test.
Los TRC se pueden utilizar para dos tipos de objetivos:
La estimacin de la puntuacin dominio de los sujetos. En este caso se denominan

tests referidos al dominio y describe lo que una persona puede hacer en un rea de
contenido especfico.

lOMoARcPSD|378992
El establecimiento de estndares mediante puntos de corte. En este caso se

denominan tests de maestra y es til para clasificar a los sujetos en una de las
posibles categoras de clasificacin excluyentes (apto-no apto, trastorno-no trastorno,
etc.)
En lo que respecta a la evaluacin de los sujetos:
En los TRN la puntuacin obtenida se considera un indicador de su puntuacin

verdadera en un rasgo latente y slo tiene significado en relacin a los resultados del
grupo normativo.
En los TRC la puntuacin representa un estimador del rendimiento del sujeto en el
dominio y tiene significado en trminos absolutos. En este enfoque, para estimar la
puntuacin en el dominio se podra usar la proporcin de respuestas correctas.
Longitud del test

Si el nmero de tems del test es pequeo, la interpretacin de las puntuaciones tendr un
valor limitado: la estimacin del dominio ser imprecisa y dar lugar a clasificaciones que no
indican el nivel verdadero de maestra de un sujeto o que sin inconsistentes a lo largo de varias
presentaciones (es decir, se obtendrn clasificaciones poco fiables).
Si el nmero de elementos es elevado, se pueden asegurar valores de probabilidad de

clasificacin incorrecta mnimos. Aunque si es excesivo, no ser adecuado debido a
limitaciones temporales, econmicas, etc.
Hay dos maneras de reducir el nmero de errores que se pueden cometer sin tener que
aumentar la longitud del test: la utilizacin de modelos bayesianos y la utilizacin de mtodos
basados en tests computerizados.
Modelo de Millman
El modelo binomial de Millman permite calcular la longitud de un test en funcin de la
proporcin esperada de tems que debe de contestar para ser considerado apto y del error
mximo que se est dispuesto a tolerar:
(1 )
=
2
Donde:
n es el nmero de tems del test.

pc es la proporcin de aciertos para ser considerado apto.
e es el error mximo admisible.
Ejemplo: para un determinado test se ha establecido que la proporcin de aciertos para ser
considerado apto es 0,85. Se desea saber la longitud del test si estamos dispuestos a admitir
un error mximo de 0,05 y uno de 0,02.
0,85(1 0,85) 0,85(1 0,85)

= 2
= 51; = = 319
0,05 0,022
En el primer caso necesitaramos 51 tems y admitiramos un margen de aciertos entre 0,80 y
0,90. En el primer caso necesitaramos 319 tems y admitiramos un margen de aciertos entre
0,85 y 0,87.

lOMoARcPSD|378992
Fiabilidad en las clasificaciones en los tests referidos al criterio

Los TRC se pueden usar para dos objetivos, siendo el de la construccin de tests de maestra el
enfoque ms utilizado. En este contexto estudiaremos la fiabilidad de los tests referidos al
criterio. Se considera que un test es fiable si tras su aplicacin a los mismos en distintas
ocasiones (o la aplicacin de dos formas paralelas), se clasifica a los sujetos siempre en la
misma categora.
Los ndices para el clculo de la fiabilidad que veremos se pueden dividir en dos grupos:
Los que requieren dos aplicaciones del test: Hambleton y Novick, Kappa de Cohen y
Crocker y Algina.
Los que requieren una sola aplicacin del test: mtodo de Huyhn, mtodo de Subkoviak
y coeficiente de Livington.
ndices de acuerdo que requieren dos aplicaciones del test.

ndice de Hambleton y Novick
Este coeficiente supone la utilizacin de la proporcin de sujetos que son consistentemente
clasificados dentro de cada grupo (maestra-no maestra) como un ndice de la fiabilidad del
test.
Este procedimiento se entiende mejor con un ejemplo. Supongamos que los datos de la
siguiente tabla representan la puntuacin total de 20 sujetos en dos tests paralelos
compuestos por 12 tems y que se debe responder correctamente a 7 de ellos para ser
clasificado dentro del grupo de maestra.
Tabla 1. Puntuacin total.
Sujeto Test A Test B Sujeto Test A Test B

1 7 6 11 5 3
2 9 8 12 5 5
3 8 6 13 4 4
4 8 7 14 3 3
5 7 5 15 4 3
6 6 7 16 3 4
7 6 6 17 2 2
8 6 6 18 5 2
9 6 6 19 3 1
10 5 4 20 1 1
Estas puntuaciones pueden agruparse tal y como aparece en la siguiente matriz, en funcin de
si superan o no la puntuacin de corte que permite clasificarlos en una categora u otra. Como
los sujetos 2 y 4 son los nicos que han sido clasificados en el grupo de maestra en ambos
tests, la celda [Maestra A Maestra B] tiene un 2.

lOMoARcPSD|378992
Tabla 2. Matriz de totales.
Test B
Test A Maestra No-maestra Total (Nj)
Maestra 2 3 5
No Maestra 1 14 15
Total (Nj) 3 17 N = 20
La proporcin de sujetos consistentemente clasificados en ambos tests se puede expresar

como:

11 22
= = + + +

=1
Donde:
pi es la proporcin de sujetos clasificados consistentemente en ambas formas.

N es el nmero total de sujetos.
n11, n22, , nnn es el nmero de sujetos en cada casilla en los que ambos test coinciden
al clasificarlos (la diagonal).
En el ejemplo:
2 14
= + = 0,80
20 20
El valor mximo del pc es 1 cuando los sujetos sean clasificados de la misma forma en ambos
tests y el valor mnimo es la proporcin de clasificaciones consistentes que podemos esperar
por azar (pa), valor que viene dado en funcin de las frecuencias marginales (Nj) de la tabla.

=
2
=1
En el ejemplo:
5 3 15 17
= + = 0,68
202 202
Esto significa que por azar cabra esperar obtener una fiabilidad de 0,68 mientras que
utilizando los tests hemos obtenido una fiabilidad mayor, de 0,80, lo que supone una mejora
importante.
Coeficiente Kappa de Cohen

Otros autores sugieren que en la estimacin del coeficiente de fiabilidad se elimine la
proporcin de clasificacin consistente esperada por azar del valor de la proporcin de sujetos
clasificados consistentemente, por lo que recomiendan la utilizacin del coeficiente Kappa de
Cohen:

=
1
Ejemplo: aplicando este coeficiente Kappa a los datos del ejemplo anterior obtendramos lo
siguiente:

lOMoARcPSD|378992
0,80 0,68
= = = 0,38
1 1 0,68
El valor Kappa proporciona una medida de la consistencia de clasificacin de sujetos

independientemente del valor esperado por azar.
El valor Kappa oscila entre:
1: fiabilidad perfecta y
0: la consistencia observada es atribuible al azar.
El valor Kappa tambin se puede calcular como:

=

Donde:
Fc es la frecuencia de observaciones de clasificaciones coincidentes.

Fa es la frecuencia de coincidentes esperadas por azar.
N es el nmero total de sujetos.
Ejemplo: siguiendo con el ejemplo anterior, tendramos lo siguiente:

3 5 17 15
= + = 13,50; = 2 + 14 = 16
20 20
16 13,50
= == = 0,38
20 13,50
Significacin estadstica del coeficiente Kappa

Para comprobar significacin estadstica del coeficiente Kappa, Cohen propuso la utilizacin
del error tpico de medida de K:

=
( )
Una vez calculado el error tpico de medida se construira un intervalo de confianza (donde Zx
es el valor crtico en la distribucin normal asociado al nivel de confianza):

Si K = 0 se encuentra dentro de los lmites del intervalo se puede establecer que el acuerdo
entre las clasificaciones no es estadsticamente significativo.
Ejemplo: aplicando la frmula a los datos del ejemplo, en primer lugar se calcula el error tpico
de medida:
13,50
= = = 0,32
( ) 20(20 13,50)
A continuacin construimos el intervalo de confianza utilizando un N.C.=95%:
0,38 1,96 0,32 0,247 1

lOMoARcPSD|378992
Dado que el valor K = 0 se encuentra dentro de los lmites del intervalo se puede establecer
que el acuerdo entre las clasificaciones no es estadsticamente significativo.
ndice de Croker y Algina

Estos autores proponen el ndice P* como alternativa al coeficiente Kappa de Cohen. Este
ndice se basa en que la probabilidad mnima de una decisin consistente es 0,50. El ndice se
calcula de la siguiente manera:
= 2 1
Este ndice vale 1 cuando las decisiones son totalmente consistentes y 0 cuando las decisiones
no son ms consistentes que las que resultaran de utilizar test estadsticamente
independientes (cuyas puntuaciones presentan la misma distribucin y un punto de corte igual
a la mediana de la distribucin comn).
Ejemplo: con los datos del ejemplo, dado que pc=0,80, tendramos lo siguiente:
= 2 1 = 2 0,80 1 = 0,60
ndices de acuerdo que requieren una sola aplicacin del test

Mtodo de Huyhn
El mtodo de Hyunh slo precisa de un test y una sola aplicacin. Este mtodo supone que la
distribucin de las puntuaciones es aproximadamente normal. Los pasos a seguir segn este
mtodo son:
a) Calcular la media (), varianza (2 ) y el coeficiente de correlacin de Kuder-Richardson

21 (KR21) y especificar el valor del punto de corte.
Ejemplo: supongamos que la media del test A es = 5,15, la varianza es 2 = 4,45, el

coeficiente KR21=0,37 y el punto de corte sobre las puntuaciones directas en X se establece en
c = 7.
b) Calcular la puntuacin tpica correspondiente al valor del punto de corte (Zx) con una
correccin de 0,5. Despus se acude a la tabla de la normal para buscar el valor de P
que deja por debajo la Z obtenida.
Ejemplo:
( 0,5 ) (7 0,5 5,15)

= = = 0,64 = 0,74
2,109
c) A partir de las tablas de Gupta se obtiene la probabilidad (Pzz) de que dos variables
distribuidas normalmente con una correlacin KR21 sean menores que el Z calculado.
Los tems del test deben tener la misma dificultad para poder utilizar el ndice KR21.
Ejemplo: se buscara la probabilidad de que dos variables distribuidas normalmente con una
correlacin KR21=0,37 sean menores que Z = 0,64:
= 0,58
d) Finalmente se calculan los valores de pc y k.
= 1 + 2( )

lOMoARcPSD|378992
2
=
2
Ejemplo: en este caso tendramos que:
= 1 + 2( ) = 1 + 2(0,58 0,74) = 0,68
2 0,58 0,742
= = = 0,16
2 0,74 0,742
Mtodo de Subkoviak
Este mtodo simula las puntuaciones en una segunda forma paralela del test.
Para explicar este mtodo utilizaremos los datos del ejemplo del mtodo de Hambleton y
Novick suponiendo que slo se puede aplicar el test A y que el coeficiente de fiabilidad es 0,62.
Tabla 3. Puntuacin total.
Sujeto Test A Sujeto Test A

1 7 11 5
2 9 12 5
3 8 13 4
4 8 14 3
5 7 15 4
6 6 16 3
7 6 17 2
8 6 18 5
9 6 19 3
10 5 20 1
Los pasos para confeccionar la tabla son los siguientes:
Las columnas 1, 2, 3 y 4 representan la distribucin de frecuencias de las puntuaciones

obtenidas por los 20 sujetos.
Una vez obtenida la distribucin de frecuencias , se calcula la media y el coeficiente
del test, que suponemos igual a 0,62:

= = 10320 = 5,15; = 0,62
A continuacin se estima la probabilidad de que una persona con una determinada

puntuacin X responda correctamente a cada tem, utilizando la siguiente frmula:

= ( ) + (1 ) ( )

Donde:
es el coeficiente alfa.
X es la puntuacin directa.
N es el nmero de tems del test.
es la media del test.
X fx px Px 1-2(Px - fx(1-2(Px - fx Px
Px2) Px2))

lOMoARcPSD|378992
9 1 0,628 0,7362
8 2 0,576 0,5999
7 2 0,525 0,4562
6 4 0,473 0,3164
5 4 0,421 0,1978
4 2 0,370 0,1105
3 3 0,318 0,0522
2 1 0,266 0,0201
1 1 0,215 0,0059
20
Interpretacin de la tabla: la puntuacin X = 9 fue obtenida por 1 persona, la puntuacin X=8

por 2 personas, etc.
Para X=9: px =0,62(9/12)+(1-0,62)(5,15/12)=0,628.
En tercer lugar se calcula la probabilidad de que una persona con una puntuacin X y
una probabilidad px, responda correctamente siete o ms tems del test y sea
clasificado dentro del grupo de maestra. Para obtener estos valores podemos hacer
dos cosas:
o Aplicar a cada X y px la funcin de la probabilidad binomial.
o Buscar en las tablas de la distribucin binomial, teniendo en cuenta el nmero
de tems (n), el valor del punto de corte c (7 en nuestro caso) y la probabilidad
de acertar cada tem (px).
Una vez calculados los valores de la cuarta columna, se calcula:
o La probabilidad de que cada sujeto sea consistentemente clasificado en el
grupo de maestra para dos tests independientes: Px Px = Px2.
o La probabilidad de que cada sujeto sea consistentemente clasificado en el
grupo de no maestra en los dos tests: (1-Px) (1-Px) = (1-Px) 2
o Consiguientemente, la probabilidad de clasificacin consistente para cada
sujeto (quinta columna) es: 1-2(Px - Px2).
En la sexta columna se recoge la cantidad de sujetos que obteniendo una puntuacin X
sern consistentemente clasificados: fx[1-2(Px - Px2)].
Finalmente, la suma de los valores de la columna 7 (obtenidos multiplicando la
columna 4 por la 2), representa el nmero de sujetos que superarn el punto de corte
en ambos tests.
Con todos estos datos ya se pueden obtener los coeficientes pc y Kappa.
El coeficiente pc se obtiene dividiendo el valor de la suma del nmero de sujetos

consistentemente clasificados para una determinada puntuacin (columna 6) por el nmero
total de sujetos:
[1 2( 2 )]
= =

Con los datos del ejemplo:
[1 2( 2 )] 13,9172
= = = 0,695
20

lOMoARcPSD|378992
Para calcular el coeficiente Kappa hay que calcular el valor de la probabilidad de clasificacin
consistente por azar (pa) a partir del nmero total estimado de sujetos clasificados en el grupo
de maestra (columna 7):
2

= 1 2 ( ( ) )

En el ejemplo:
2
5,3088 5,3088 2
= 1 2 ( ( ) ) = 1 2( ( ) ) = 0,61
20 20
A continuacin se calcula el coeficiente Kappa:

0,695 0,61
= = = 0,22
1 1 0,61
Coeficiente de Livingston
En los mtodos presentados hasta ahora se consideran por igual tanto los errores cometidos
cuando clasificamos a un sujeto perteneciente al grupo de maestra en el grupo de no-maestra
como los inversos. El coeficiente de Livington (desarrollado en el marco de la TCT) s que tiene
en cuenta este tipo de errores, considerando ms importantes los errores de clasificacin de
los sujetos ms distanciados del punto de corte de aquellos que estn ms cerca del punto de
corte. Lgicamente, es ms fcil cometer errores cerca del punto de corte que lejos.
El coeficiente viene determinado por:
2
2 + ( )2
=
2 + ( )2
Donde:
es el coeficiente alfa.
2 es la varianza del test.
es la media del test.
c es el punto de corte.
Ejemplo: aplicando la frmula a los datos del ejemplo anterior, con = 0,62, = 5,15, 2 =
4,45 = 7:
2
2 + ( )2 0,62 4,45 + (5,15 7)2
= =
2 + ( )2 4,45 + (5,15 7)2
A medida que el punto de corte se distancia del valor de medida de la test, ms aumenta el
valor del coeficiente. Cuando la media del test coincide con el punto de corte, es igual al
coeficiente . Cuando el coeficiente de fiabilidad es igual a 1, el coeficiente de Livington
2
tambin lo es. Por lo tanto: .
Mtodos para estimar el punto de corte en los TRC

El punto de corte es la puntuacin que permite clasificar a los sujetos en dos posibles
categoras: los que dominan el criterio evaluado y los que no. Su eleccin es de vital

lOMoARcPSD|378992
importancia y est sujeta a un grado de subjetividad. Para establecerlos se suele contar con un
grupo de expertos.
Se pueden considerar dos tipos de puntos de corte:
Relativos: cuando se establecen en funcin del grupo de sujetos evaluados.

Absolutos: cuando el punto de corte se establece en funcin del constructo o materia
objeto de estudio.
Mtodos valorativos
Estos mtodos se basan en la evaluacin sobre los tems del test que un grupo de expertos
realiza.
Mtodo de Nedelsky
Es el primer procedimiento establecido para establecer puntos de corte en tests de
competencia mnima. Este mtodo se utiliza con tests compuestos de tems de eleccin
mltiple.
El mtodo de Nedelsky se basa en lo siguiente:
Para cada tem, los expertos deben de analizar las alternativas posibles e identificar las
que sern consideradas como errneas por un sujeto que tenga los conocimientos
mnimos para ser considerado competente. Se asume que elegir la respuesta correcta
entre las que quedan (p. ej.: si hay seis alternativas y considera cuatro como falsas,
elegir al azar entre las dos que quedan).
A continuacin se calcula el recproco dividiendo uno por las respuestas que quedan
(p. ej.: en el ejemplo anterior, 1/2=0,5). Esta puntuacin es la esperada para un sujeto
en un tem determinado.
Para calcular la puntuacin de un sujeto mnimamente cualificado se suman todos los
valores esperados para cada tem.
El promedio de las puntuaciones otorgadas por todos los jueces nos dar la
puntuacin de corte para el test.
Ejemplo: en un test de mecnica se tiene la siguiente pregunta:
Una pieza esencial para que un vehculo pueda circular es:
a) El manillar.
b) El espejo retrovisor.
c) El motor de arranque.
d) La rueda de repuesto.
e) Los intermitentes.
f) Los faros.
Segn este mtodo:
Un juez considera que un sujeto con conocimientos mnimos descartara las opciones
a, b y d.
La puntuacin esperada para un sujeto mnimamente competente vendra dada por
1/3=0,33.
El valor esperado por ese juez para ese tipo de sujeto en el test sera la suma de todos
los valores esperados en cada tem.
10

lOMoARcPSD|378992
Para corregir los posibles efectos del azar a la hora de determinar el punto de corte se puede
utilizar la siguiente expresin:

=
1
Donde:
Pc es la puntuacin corregida.
N es el nmero de tems.
A es la media de los valores esperados.
n es el nmero de alternativas de cada tem.
Ejemplo: supongamos un test de percepcin del color compuesto por 40 tems de 4

alternativas. La media de los valores esperados determinados por los juece3s es 28, lo cual
implica que el Pc sin corregir es 28. Aplicando la frmula de correccin tendramos:
40 28
= 28 = 24
41
Este mtodo es cuestionable porque parte de la base de que los sujetos responden al azar
entre las alternativas que no son descartadas como errneas. Sin embargo, no existen
evidencias que apoyen este supuesto.
Mtodo de Angoff
Es una variacin del mtodo de Nedelksy aplicable a toda clase de tems (no slo a los de
eleccin mltiple).
En este caso los jueces no deben de juzgar cada alternativa del tem sino que deben evaluar el
tem globalmente y determinar la probabilidad de que un sujeto con conocimientos mnimos lo
responda correctamente.
La puntuacin total establecida por cada uno de los jueces para cada sujeto se considera como
la puntuacin estimada de un sujeto mnimamente competente. Para calcular el punto de
corte:
Se suman los valores de las probabilidades establecidas para cada tem por cada uno
de los jueces (puntuacin total para cada sujeto).
Se calcula la media de las puntuaciones totales de cada juez.
Opcionalmente, se puede aplicar la correccin del azar.
Ejemplo: supongamos que las puntuaciones totales de 4 jueces son 2,29; 1,62; 2,45 y 1,80. El
punto de corte sera:
(2,29 + 1,62 + 2,45 + 1.80)
= 4 = 2,04
Mtodo de Ebel
En este mtodo los jueces evalan cada tem globalmente desde dos puntos de vista:
Dificultad: fcil, medio o difcil.

Relevancia: esencial, importante, aceptable y dudoso.
11

lOMoARcPSD|378992
De esta manera se crea una matriz con doce categoras (3: dificultad x 4: relevancia) en la que
aparecern clasificados todos los tems. Una vez hecha la tabla, los jueces proceden a
establecer un porcentaje (para cada casilla) que representa el nmero de tems que sern
contestados correctamente por un sujeto con una competencia mnima. Finalmente se calcula
el punto de corte con la siguiente ecuacin:
= ()
Donde:
Xc es la puntuacin correspondiente al punto de corte.

p es la proporcin de tems en cada casilla que un sujeto mnimamente competente
debera contestar correctamente.
M es el nmero de tems en cada casilla.
Ejemplo: la siguiente tabla recoge la clasificacin de 165 tems de un test y el porcentaje de

tems de cada casilla que un juez considera que responder correctamente un sujeto
mnimamente competente. Calcular el punto de corte.
= () = 15(0,8) + 20(0,6) + 10(0,3) + 30(0,7) + 18(0,55) + 7(0,3) + 25(0,65)1

+ 15(0,5) + 10(0,25) + 14(0,4) + 6(0,45) + 5(0,2) = 95,55
Dificultad
Relevancia Fcil Medio Difcil
Esencial 20 20 10
Juez: 80% Juez: 60% Juez: 30%
Importante 30 18 7
Aceptable 25 15 10
Dudoso 14 6 5
Mtodo de Jaeger
Este mtodo se puede considerar como una variacin del mtodo de Angoff. En este caso se le
pregunta a cada juez si cada uno de los tems del test ser contestado correctamente por los
sujetos. El proceso para poder determinar el punto de corte percisa de tres sesiones:
1) Cada juez y para cada tem, responde S o No a la pregunta de si un sujeto

mnimamente competente ser capaz de contestar correctamente ese tem. Despus
se recuenta el nmero de tems a los que cada juez respondi con un S.
Juez 1 Juez 2 Juez 3 Juez 4 Juez 5

tem 1 SI SI NO SI SI
tem 2 SI NO SI SI SI
tem 3 NO NO NO SI SI
tem 4 SI NO NO SI SI
tem 5 NO NO SI NO SI
tem 6 NO NO NO NO NO
tem 7 NO NO NO NO NO
Total 3 1 2 4 5
12

lOMoARcPSD|378992
2) En la segunda sesin se repite el mismo proceso pero, al comienzo de la sesin, se

pone a disposicin de los jueces los datos obtenidos en la sesin anterior, las
opiniones o recomendaciones emitidas por los jueces, y una tabla con los porcentajes
de respuestas S a cada tem. De nuevo, se recogen los datos en una tabla.

Total 4 2 1 5 6
3) En la tercera sesin se vuelve a presentar los datos de la sesin anterior a los jueces y
se les pide que valoren nuevamente los tems. Al igual que en la sesin anterior, los
jueces pueden ir modificando sus juicios en funcin de la informacin que se les
proporciona.

Total 4 3 5 5 6
Finalmente, el punto de corte se calcula como la mediana ms baja de los diferentes grupos de
jueces.
Ejemplo: con los datos de los ejemplos tendramos que: Md1=3, Md2=4 y Md3=5. El punto de
corte sera 3.
Un problema de este mtodo es que slo permite la asignacin de probabilidades 0 o 1, pues

un sujeto acierta o falla el tem.
Mtodos combinados
En los mtodos anteriores los jueces se suponan expertos en los contenidos a evaluar. En este
caso, los jueces adems tienen que conocer la competencia de los sujetos en la materia en que
se evala, puesto que se basan en juicios que los expertos llevan a cabo respecto a la
competencia de los sujetos.
Mtodo del grupo lmite

Se pide a los jueces que definan de mutuo acuerdo tres niveles de competencia en el dominio
a evaluar: competente, lmite y no competente. Seguidamente los jueces deben identificar de
entre los sujetos a los que va dirigido el test, los que estaran, en su opinin, en el lmite de ser
competentes. Una vez identificados estos sujetos, se les aplica el test para determinar el punto
de corte. Para establecer el punto de corte se puede calcular la media o la mediana de las
puntuaciones que han obtenido en el test los sujetos lmite, siendo ms adecuada la mediana
puesto que es menos sensible a la variabilidad en las puntuaciones.
Mtodo de los grupos de contraste

Al igual que el anterior, se basa en el conocimiento que los jueces tienen del rendimiento de
los sujetos en el dominio que se pretende evaluar con el test para el que se quiere establecer
el punto de corte.
Con este mtodo:
Los jueces clasifican a los sujetos en competentes y no competentes.

Se administra el test a ambos grupos y se establecen las puntuaciones en base a su
rendimiento.
13

lOMoARcPSD|378992
Para calcular el punto de corte se representan grficamente las distribuciones de las

puntuaciones de ambos grupos. El punto de corte se corresponde con la interseccin
entre ambas distribuciones.
o Si se desplaza el punto de corte hacia la derecha se disminuyen los falsos
positivos (probabilidad de seleccionar como competente a un sujeto que no lo
es).
o Si se desplaza hacia la izquierda se disminuyen los falsos negativos
(probabilidad de seleccionar como no competente a sujetos que si lo son).
Ilustracin 1. Ditribucin de las puntuaciones de los dos grupos. Fuente: B. Garca; M. Isable; V. Abad Enrique; H.
Tello (2010) Psicometra. Madrid: Sanz y Torres.
Mtodos de compromiso
En este tipo de mtodos los jueces incorporan informacin relativa a la posicin de un sujeto
con relacin a su grupo.
Mtodo de Beuk
Para la estimacin del punto de corte con este mtodo los jueces han de tener en cuenta:
Las puntuaciones obtenidas por los sujetos en el test.

La informacin recogida de las respuestas de los jueces a dos preguntas:
o Porcentaje mnimo de tems que los distintos jueces creen que un sujeto
debera responder correctamente para superar el test (datos absolutos).
o El porcentaje de sujetos que estiman que obtendrn la puntuacin mnima
para superar el test.
14

lOMoARcPSD|378992
Ilustracin 2. Punto de corte en el mtodo de Beuk. Fuente: B. Garca; M. Isable; V. Abad Enrique; H. Tello (2010)
Psicometra. Madrid: Sanz y Torres.
Mtodo de Hofstee
Este mtodo se basa en la informacin proporcionada por los jueces al dar respuesta a cuatro
puntos:
Pmx: el punto de corte que los jueces consideran adecuado (porcentaje de tems que
los sujetos debe superar).
Pmin: el punto de corte que los jueces consideran inadecuado.
Fmx: el porcentaje mximo admisible de sujetos que fallan en el test.
Fmin: el porcentaje mnimo admisible de sujetos que fallan en el test.
Con esta informacin y la distribucin de los valores obtenidos en el test, se establece el punto
de corte mediante la siguiente representacin grfica. El punto de corte est en la interseccin
entre la recta que va de A (interseccin Pmin - Fmx) a B (interseccin Pmx y Fmin) y la distribucin
de los resultados del test.
15

lOMoARcPSD|378992
Ilustracin 3. Punto de corte en el mtodo de Hofstee. Fuente: B. Garca; M. Isable; V. Abad Enrique; H. Tello (2010)
Psicometra. Madrid: Sanz y Torres.
16

lOMoARcPSD|378992
Psicometra | Tema 6: La validez de las inferencias (I)
Tema 6: La validez de las inferencias (I)

Introduccin
Los instrumentos elaborados para medir las conductas de inters han de cumplir dos requisitos
fundamentales para poder ser utilizados con garantas de calidad:
La fiabilidad, lo cual se ha estudiado en el tema 4, que hace referencia al grado en que

las puntuaciones obtenidas reflejan su nivel real en el rasgo o caracterstica medida, es
decir, el grado en que esas puntuaciones estn libres de errores aleatorios.
La validez, que hace referencia al grado de relacin entre la evidencia emprica
obtenida y el concepto terico del constructo que se intenta medir.
Introduccin al concepto de validez y su evolucin histrica

La validez hace referencia al grado en que el test mide aquello que pretende medir. Por
ejemplo, un test ser vlido para medir razonamiento espacial si mide razonamiento espacial y
no otra cosa, pero, podemos preguntarnos: Mide realmente eso? En qu grado? Slo mide
eso y nada ms? Este tipo de preguntas forman parte de los estudios de validez.
El concepto de validez hace referencia al grado de relacin entre el test y el constructo que se
quiere medir: cuanto ms estrecha sea esta relacin ms vlido ser el test. Es importante
aclarar que cuando se habla de la relacin entre el test y el constructo, en realidad se hace
referencia a la relacin entre las puntuaciones obtenidas por los sujetos en el test y la medida
obtenida en el indicador o indicadores del constructo.
Tras aos de estudios, se concluy que existen tres tipos de validez: de contenido, relativa al
criterio (que incluye a la predictiva y la concurrente) y de constructo. Se asume que los
distintos tipos de validez van unidos a los objetivos concretos en el uso de los tests, de ah la
importancia de definir cules van a ser estos objetivos:
Determinar el rendimiento o actuacin de un sujeto en un universo de situaciones

(contenido).
Inferir el grado que un sujeto posee en algn rasgo o atributo (constructo) que se
supone que vendr reflejado por su actuacin en el test (que el test mida lo que tiene
que medir).
Predecir el rendimiento o comportamiento futuro (predictiva) o estimar su
rendimiento actual sobre alguna variable externa al test (concurrente).
Actualmente parece haber un acuerdo generalizado en que, desde el punto de vista cientfico,
la nica validez que se debe de considerar es la de constructo y que las otras dos quedaran
incluidas dentro de esta, siendo estrategias para comprender mejor lo que mide el test. Ya no
se habla de distintos tipos de validez y la validacin de los tests es un proceso continuo que
permite obtener distintos tipos de evidencia emprica. Un proceso de validacin ideal debe
incluir los tipos de evidencia incluidos en los tres tipos tradicionales de validez.
Finalmente, se puede definir la validacin como el proceso mediante el cual el constructor

(usuario de los tests) recoge la evidencia emprica necesaria para apoyar las inferencias que se
van a realizar. Se entiende por evidencia tanto los datos, observaciones y hechos como los
argumentos que permitan apoyar esos hechos.

lOMoARcPSD|378992
Validacin de contenido
El objetivo general en un estudio de validacin de contenido es analizar hasta qu punto los
elementos o tems que componen el test son una muestra representativa y relevante del
constructo sobre el que se van a realizar las inferencias:
La relevancia indica la necesidad de especificar claramente todas las posibles

conductas observables representativas del constructo a medir (especificacin del
dominio de conductas). Que todos los tems representen algn aspecto del dominio.
La representatividad hace referencia a la necesidad de que todas esas variables estn
representadas en el test (representatividad del dominio). Que todos los aspectos del
dominio estn representados.
En el mbito de la educacin (TRC y tests de rendimiento acadmico) las puntuaciones de los

tests se suelen utilizar para inferir el grado en que los sujetos dominan un campo de
conocimiento, no para hacer inferencias acerca de conductas externas o sobre el constructo
medido. En este tipo de tests, se pone de manifiesto el inters de los estudios de validacin e
contenido ya que es relativamente fcil llevar a cabo la especificacin del dominio (campo de
conocimiento sin hacer referencia al constructo.
La forma tpica de llevar a cabo un estudio de validacin de contenido es utilizando un grupo

de expertos que sern los encargados de analizar dos aspectos fundamentales:
Que el test no incluya aspectos irrelevantes del dominio de inters.

Que incluya todos los elementos importantes que definen el dominio.
Ejemplo: supongamos que un grupo de 100 expertos ha de juzgar la relevancia de 3 tems para
medir la calidad de la enseanza (constructo de inters). En la tabla se muestran las
valoraciones de los expertos a cada tem, donde la categora 1 indica un mal ajuste entre el
tem y el constructo y la categora 5 un muy buen ajuste.
Calculando las medianas para los tres tems, obtenemos que: MedA=4, MedB=2,25 y
MedC=2,90.
Ante estos resultados se puede decir que el tem A tiene un muy buen ajuste y, por tanto, se le
puede considerar relevante para la medida de la calidad de la enseanza. Los otros dos no
deberan incluirse puesto que el ajuste no es muy bueno.
Tabla 1. Puntuaciones de los expertos.
Escala
tems
1 2 3 4 5
A 0 10 10 60 20
B 20 40 30 120 0
C 10 20 50 10 10
Validacin de constructo
Este tipo de validacin da significado a las puntuaciones de los tests: permite obtener
evidencia de que las conductas observables que se han elegido como indicadores del
constructo realmente lo son.
Para llevar a cabo un estudio de validacin del constructo es necesario:

lOMoARcPSD|378992
1) Definir el constructo de inters a partir de las teoras existentes y postular hiptesis

acerca de la naturaleza y grado de relacin entre: (i) el constructo y una serie de
variables y (ii) el constructo de inters y otros constructos.
2) Disear el instrumento de medida adecuado que cuente con elementos relevantes y
representativos de las conductas asociadas al constructo.
3) Obtener datos empricos de las relaciones entre las puntuaciones obtenidas al aplicar
el test y las conductas observables.
Si se confirman las relaciones postuladas en las hiptesis planteadas, se puede considerar que
tanto el constructo como el test son tiles.
Los estudios de validacin del constructo se centran en analizar la estructura interna y externa
del test:
Interna: estudiar las interrelaciones entre las puntuaciones obtenidas por los sujetos
en los distintos tems del test.
Externa: estudiar las relaciones entre las puntuaciones obtenidas en el test y otras
medidas del mismo constructo obtenidas en variables relevantes externas al mismo.
Entre los mtodos para validar el constructo destacan el mtodo de la matriz multimtodo-
multirrasgo y el anlisis factorial.
La matriz multimtodomultirrasgo
Este mtodo permite el anlisis de la estructura externa de uno o varios tests. La lgica es la
siguiente:
Se intenta medir un mismo constructo mediante distintos procedimientos y distintos

constructos mediante el mismo procedimiento.
Una vez obtenidas todas las medidas, se calculan las intercorrelaciones entre ellas:
o Si las correlaciones entre las medidas del mismo constructo a travs de distintos
procedimientos son altos, el constructo quedar validado y se dir que existe
validez convergente.
o Si estas correlaciones son significativamente ms altas que las obtenidas al
correlacionar las medidas de distintos constructos con el mismo procedimiento,
se dir que existe validez discriminante.
Ejemplo: supongamos que se quieren medir tres constructos: razonamiento numrico (RN),
factor espacial (FE) y razonamiento abstracto (RA), para lo cual se han elaborado tres
procedimientos con distinto formato: Verdadero-Falso (V-F), Eleccin mltiple (E-M) y Frases
incompletas (F-I).
Para analizar la validez convergente y discriminante, se aplican todas las pruebas a una muestra
de sujetos, obteniendo unos resultados a partir de los cuales se calculan todas las
intercorrelaciones posibles, recogidas en la matriz que se presenta a continuacin:
Los valores de las diagonales (entre corchetes) son los distintos coeficientes de
fiabilidad. Se corresponden a la correlacin entre las puntuaciones obtenidas al medir el mismo
constructo utilizando el mismo procedimiento (p. ej.: test paralelos).
Los valores en negrita corresponden a las correlaciones obtenidas al medir distintos
constructos con los mismos procedimientos.
Los valores subrayados y en cursiva son las correlaciones obtenidas al medir el mismo
constructo con distintos procedimientos. Son los indicadores de la validez convergente.

lOMoARcPSD|378992
Para comprobar si existe validez discriminante se comparan los ndices de la validez

convergente con los que aparecen en negrita. Dado que los ndices de validez convergente
son ms altos que los segundos podemos decir que hay evidencia de validez discriminante.
Tabla 2. Matriz multimtodo-multirrasgo.
V-F E-M F-I

RN FE RA RN FE RA RN FE RA
V-F
RN [0,95]
FE 0,20 [0,90]
RA 0,30 0,28 [0,92]
E-M
RN 0,90 0,31 0,40 [0,93]
FE 0,26 0,87 0,33 0,37 [0,94]
RA 0,43 0,20 0,84 0,26 0,37 [0,88]
F-I
RN 0,79 0,27 0,31 0,77 0,15 0,23 [0,89]
FE 0,11 0,68 0,22 0,24 0,67 0,31 0,19 [0,93]
RA 0,19 0,18 0,50 0,19 0,33 0,72 0,41 0,30 [0,64]
Uno de los problemas de este procedimiento es que no existe un criterio estadstico para tomar
decisiones acerca de si el test tiene realmente validez convergente y discriminante, tan slo se
puede decir que parece haber evidencia de su existencia o ausencia. Para obtener mayor
informacin se est utilizando el anlisis factorial confirmatorio.
El Anlisis Factorial
El anlisis factorial (AF) incluye una serie de tcnicas que tratan de representar y explicar un
conjunto de variables observables (tems, conjunto de test, escalas, etc.) mediante un nmero
ms reducido de variables inobservables (o latentes) llamadas factores.
Es la tcnica ms utilizada y tiene dos vertientes:
La exploratoria: no se establecen hiptesis previas acerca del nmero de dimensiones

que subyacen al constructo, es la propia tcnica quien aporta esa informacin.
La confirmatoria: se establecen a priori hiptesis acerca de la estructura subyacente y
el nmero de hiptesis existentes y mediante las tcnicas oportunas se comprueba si
se pueden aceptar estas hiptesis.
Cuando en un factor se agrupan mltiples indicadores del constructo se obtiene evidencia de

validez convergente. Cuando en el anlisis se han obtenido medidas de otros constructos y
ests aparecen agrupadas en distintos factores, se obtiene evidencia de validez discriminante.
Ejemplo: supongamos que a la matriz del ejemplo anterior se le aplica alguna tcnica de AF y
que la estructura factorial encontrada es la que se presenta en la siguiente tabla.
Se puede observar que se han obtenido 2 factores: el primero agrupa las medidas
correspondientes a las variables utilizadas como indicadores del constructo razonamiento
numrico (RN) junto a dos correspondientes al constructo razonamiento abstracto (RA). El
segundo factor est definido por todas las medidas correspondientes a las variables utilizadas
como indicadores del constructo razonamiento espacial (RE) junto a otras dos

lOMoARcPSD|378992
correspondientes al razonamiento abstracto. Estos resultados parecen indicar que estamos

ante dos constructos bien definidos (RN, RE) mientras que para el tercer constructo sera
necesario hacer una nueva evaluacin del mismo (estudiar mejor su marco terico, revisar los
tests utilizados, etc.).
Variables Factor 1 Factor 2

RN (V-F) 0,86 -
RN (E-M) 0,75 -
RN (F-I) 0,92 -
RE (V-F) - 0,82
RE (E-M) - 0,74
RE (F-I) - 0,63
RA (V-F) 0,42 0,33
RA (E-M) 0,51 -
RA (F-I) - 0,54
Validacin referida al criterio

La validacin referida al criterio permite obtener evidencia acerca del grado en que las
puntuaciones obtenidas en el test pueden utilizarse eficazmente para hacer inferencias acerca
del comportamiento real de los sujetos en un criterio que no se puede medir directamente
(porque no est disponible en ese momento, porque medirlo sea caro y costoso, etc.).
Se suelen utilizar dos tipos de ndices o medidas para describir la capacidad de un test o
conjunto de tests para predecir un criterio: medidas correlacinales (coeficiente de validez,
determinacin, valor predictivo, etc.) y las medidas de error en prediccin (errores de
estimacin).
Este tipo de estudios se realizan desde dos perspectivas diferentes en funcin del uso del test y
del tipo de inferencias que se quieran realizar:
Si los tests se van a utilizar para la seleccin, clasificacin o colocacin de personas (en
programas o puestos de trabajo), lo interesante es analizar la validez predictiva del
test. La validez predictiva es la capacidad para pronosticar el rendimiento posterior de
los su jetos a partir de las puntuaciones del test.
Si se trata de hacer un diagnstico, es ms adecuado llevar a cabo un estudio de
validez concurrente.
Para disear un estudio de validacin referida al criterio es necesario seguir una serie de
pasos:
1) Definir claramente el criterio a medir.

2) Identificar los identificadores que se utilizarn para obtener la medida del criterio.
3) Seleccionar una muestra representativa de la poblacin en la que posteriormente se
utilizar el test.
4) Aplicar el test a la muestra de sujetos y obtener una puntuacin para cada uno de
ellos.
5) Obtener una medida de cada sujeto en el criterio:
a. En el mismo momento de la aplicacin del test (validacin concurrente).
b. Al cabo de un cierto tiempo (validacin predictiva).

lOMoARcPSD|378992
6) Determinar el grado de relacin entre las puntuaciones obtenidas por los sujetos en el
test y la medida del criterio.
El problema de la seleccin y medicin del criterio

Ejemplo: supongamos que se quiere llevar a cabo una seleccin de vendedores y, entre otras
tcnicas, se utilizar un test en el proceso de seleccin. Para que el test tenga validez
predictiva deber permitir diferenciar a los buenos de los malos vendedores. Para comprobar
esta validez predictiva es necesario por tanto, seleccionar uno o varios indicadores del xito o
de lo que representa un buen vendedor: por ejemplo, las ventas realizadas en una semana.
Una vez seleccionado este indicador, se aplicar el test a todos los aspirantes y se les pondr a
vender durante una semana, al cabo de la cual se les evaluar en funcin del nmero de
ventas realizadas y ese dato ser su medida en el criterio externo. Para comprobar si el test
tiene validez predictiva se calcular la correlacin entre las puntuaciones del test y las ventas:
si la correlacin es alta es que el test tiene validez predictiva (los que obtienen puntuaciones
altas son los que ms han vendido).
Una de las principales dificultades es analizar qu es aquello que constituye el xito. En el

ejemplo anterior se utiliza como indicador del criterio de xito el nmero de ventas realizadas
en una semana. Es un indicador prctico, fcil de obtener y probablemente, vlido de cara al
cliente.
Thorndike y Hagen consideran que lo sindicadores deben cumplir una serie de requisitos:
Relevantes: el indicador debe de estar relacionado con el criterio.

Libres de sesgos: las medidas del criterio deben representar la verdadera competencia
de los sujetos y no pueden estar determinadas por factores que acten de manera
diferencial en ciertos grupos (p. ej.: supongamos que se quiere evaluar la competencia
de las secretarias de una empresa y sus jefes directos deben evaluarlas: el juicio de los
jefes estar libre de sesgos si la evaluacin slo depende de la competencia de las
secretarias y no de otros factores).
Fiables: las medidas del criterio que proporcionen los indicadores han de ser estables.
Accesibles: hay que tratar de seleccionar los indicadores ms accesibles
(econmicamente, fciles de obtener, etc.) que cumplan con los otros requisitos.
Procedimientos estadsticos utilizados en la validacin referida al criterio

La tcnica empleada para evidenciar la validez de un test en relacin con un criterio depende
del diseo de recogida de datos y el nmero de variables implicadas:
Un nico test predictor y un solo indicador del criterio. Los procedimientos ms

utilizados son la correlacin y el modelo de regresin lineal simple.
Varios predictores y un solo indicador del criterio. Cuando se utiliza una batera de
tests para predecir un nico criterio suelen utilizarse la correlacin y la regresin lineal
mltiple. Si el criterio es cualitativo, se suele utilizar el anlisis discriminante y si se
utilizan criterios dicotmicos la regresin logstica.
Varios predictores cuantitativos y varios indicadores del criterio cuantitativos. Las
tcnicas ms adecuadas son la regresin lineal multivariante y la correlacin cannica.
Son poco utilizados debido a la dificultad para interpretar los resultados.
Procedimientos basados en la teora de decisin: validez y utilizad en las decisiones.
Los procedimientos se basan en diferentes mtodos para optimizar las decisiones

lOMoARcPSD|378992
realizadas con el test: tcnicas maximin y minimax y especialmente la Teora de la

Utilidad del multiatributo.
Validacin con un nico predictor y un solo indicador del criterio

Las tcnicas utilizadas en este caso son:
La correlacin, que permite conocer el grado de asociacin entre el test y el criterio.

El modelo de regresin, que permite pronosticar a partir de las puntuaciones
obtenidas en el predictor, las puntuaciones en el criterio.
El coeficiente de validez
Se define como la correlacin entre las puntuaciones obtenidas por los sujetos en el test
predictor y las obtenidas en el criterio. El tipo de correlacin utilizada para el clculo del
coeficiente de validez depender del tipo de las variables implicadas.
Tabla 3. Tipos de correlaciones en funcin del tipo de variables incluidas.
Indicador Test
criterio Continua Dicotomizada Dicotmica
Continua Pearson Biserial Biserial puntual
Dicotomizada Biserial Tetracrica biserial
Dicotmica Biserial puntual biserial
El modelo de regresin lineal

Una vez conocido el grado de asociacin entre el test y el criterio se puede utilizar el modelo
de regresin para hacer pronsticos. Mediante este modelo se intenta buscar la ecuacin
lineal que minimice los errores de pronstico:
= +
Donde:
a es la ordenada en el origen o trmino constante.

b es la pendiente de la recta de regresin.
La varianza residual o varianza error y el error tpico de estimacin

El coeficiente de validez indica la eficacia del test o variable predictora para estimar el criterio:
cuanto ms alto sea ms eficaz ser la estimacin y en el lmite, cuando sea igual a 1, el valor
estimado coincidira con la puntuacin real en el criterio. Dado que nunca se alcanzan
coeficientes de validez perfectos (1 en valor absoluto), la estimacin se ve afectada por el error
de estimacin.
El error de estimacin es la diferencia entre la puntuacin obtenida en el criterio y la que se le

pronostica mediante la actuacin de regresin (Y-Y). La varianza de todos los errores de
estimacin cometidos con cada sujeto de la muestra se denomina Varianza residual, Varianza
2 ( )2
error o Error cuadrtico medio ( = ; donde Y son las puntuaciones obtenidas
en el criterio, Y las puntuaciones pronosticadas y N el nmero de sujetos).
A la desviacin tpica de estos errores se le denomina Error tpico de estimacin ( ), el cual

tambin viene dado por:

lOMoARcPSD|378992
2
= 1 (en puntuaciones directas y diferenciales)
2
= 1 (en puntuaciones tpicas)
Intervalos de confianza
Debido a los errores de estimacin que se cometen al hacer los pronsticos, ms que
estimaciones puntuales conviene hacerlas por intervalos. Los pasos a seguir son:
Determinar un nivel de confianza y buscar la puntuacin tpica asociada.

Calcular el error tpico de estimacin.
Calcular el error mximo.
Aplicar la ecuacin de regresin correspondiente y obtener la puntuacin
pronosticada.
Establecer el intervalo de confianza: [Puntuacin pronosticada Emx, Puntuacin
pronosticada + Emx].
Interpretacin de la evidencia obtenida acerca de la capacidad predictiva del test

Los resultados obtenidos se pueden interpretar en funcin de tres coeficientes: de
determinacin, de alienacin y el valor predictivo.
Coeficiente de determinacin
Equivale al coeficiente de validez al cuadrado y representa la proporcin o porcentaje de la
varianza de las puntuaciones de los sujetos en el criterio (variable dependiente) que se puede
pronosticar a partir del test (variable independiente o predictora). Es la varianza comn entre
el test y el criterio.
2
. . =
Coeficiente de alineacin
Indica la proporcin que representa el error tpico de estimacin respecto a la desviacin tpica
de las puntuaciones en el criterio. En la medida en que el error tpico sea ms pequeo que la
desviacin tpica, este ndice K ser menor. K vara entre 0 y 1: ser mximo cuando el
coeficiente de validez sea 0 y mnimo cuando el coeficiente de validez sea 1.
El coeficiente de alienacin representa la inseguridad o el azar que afecta a los pronsticos.
2
. . = = = 1

Coeficiente de valor predictivo

Es el complementario del coeficiente de alienacin y es otra forma de expresar la capacidad
del test para pronosticar el criterio ya que representa la proporcin de seguridad en los
pronsticos.
2
. . . = 1 = 1 1
Ejemplo
Supongamos que se quiere llevar a cabo un estudio de validacin relativa al criterio de un test
de aptitud mecnica (X), para lo cual ser aplica a una muestra de sujetos representativa de la
poblacin en la que se va a utilizar el test. Estos sujetos son evaluados posteriormente pos sus

lOMoARcPSD|378992
supervisores, en una escala de 0 a 10, utilizando como indicador de su capacidad mecnica el

tiempo en horas que tardan en reparar un coche Y) con la misma avera. Los resultados
obtenidos se muestran en la siguiente tabla.
Dado que ambas variables son cuantitativas, para calcular el coeficiente de validez se utiliza el
coeficiente de correlacin de Pearson:
6 473 43 61
= = 0,73
[6 711 612 ][6 335 432 ]
Dado que el valor mximo del coeficiente de validez es 1, se puede deducir que el test tiene
buena capacidad predictiva. Una vez calculado este coeficiente, se calculan las ecuaciones de
regresin en puntuaciones directas, diferenciales y tpicas.
El error tpico de estimacin se calcula a partir de la varianza de los errores de estimacin:
2 ( )2
= = 2,12
2
= = 1,46

lOMoARcPSD|378992
Supongamos que queremos saber la puntuacin que le correspondera en el criterio a un

sujeto con una puntiacin x=13. Vamos a hacer una estimacin ppuntual y por intervalos_
Nivel de confianza: 95% = 1,96.

El error tpico de estimacin (ya calculado): = 1,46.
El error mximo es: = = 2,86.
Para hacer la estimacin en puntuaciones tpica shay que tener en cuenta que el error tpico de
2
estimacin es diferente y hay que calcularlo: = 1 = 0,69. El error mximo por
tanto ser: = = 1,35.
Aplicacin de las ecuaciones de regresin al valor X=13 para obtener las puntuaciones
pronosticadas:
o Puntuaciones directas: = 3,15 + 0,395 (13) = 8,28.
o Puntuaciones diferenciales: = 0,395 (13 10,17) = 1,18.

o Puntuaciones tpicas: = 0,73 = 0,53.

A partir de las puntuaciones pronosticadas hacemos la estimacin por intervalos:
= 8,26 2,86
= 1,18 2,86
= 0,53 1,35
Finalmente, calculamos los coeficientes:

2
De determinacin: . . = = 0,52.
De alienacin: . . = = 0,69.
De valor predictivo: . . . = 0,31.
10

lOMoARcPSD|378992
Psicometra | Tema 7: La validez de las inferencias (II)
Tema 7: La validez de las inferencias (II)

Validacin con varios predictores y un solo indicador del criterio
Cuando se desea conocer la influencia de varias variables predictoras cuantitativas (p. ej.:
varias aptitudes o caractersticas medidas para seleccionar personal para un puesto de trabajo)
sobre otra variable tambin cuantitativa (el criterio), se utilizan principalmente dos
procedimientos estadsticos: el anlisis de regresin mltiple y el modelo de regresin lineal
mltiple.
Nota: en esta asignatura se ver una introduccin al tema utilizando slo dos variables
predictoras puesto que con ms, el procedimiento y los clculos se complican.
Correlacin parcial
Permite interpretar el grado de correlacin entre la variable criterio (Y) y una de las variables
predictoras, eliminando de antemano el efecto que sobre dicha correlacin puedan ejercer el
resto de las variables.
1 2 1 2 2 1 1 2
1 2 = 2 1 =
2
(1 2
) (1 21 2 ) 2
(1 1
) (1 21 2 )
En la primera se calcula la correlacin entre la variable criterio Y y la variable predictora X1

eliminando la influencia que pueda ejercer X2 sobre esa correlacin.
Correlacin semiparcial
La correlacin semiparcial permite conocer el grado de correlacin entre la variable criterio (Y)
y una de las variables predictoras, eliminando el efecto que esta variable predictora pueda
estar ejerciendo sobre el resto de las variables.
1 2 1 2 2 1 1 2
(1 2 ) = (2 1 ) =
(1 21 2 ) (1 21 2 )
La primera frmula presenta la correlacin entre la variable criterio (Y) y la variable predictora
X1, cuando de esta variable se elimina la influencia que pueda estar ejerciendo la variable
predictora X2.
Nota: no se debe confundir la correlacin parcial con la semiparcial:
En la correlacin parcial se elimina la influencia que una variable predictora ejerce

sobre la correlacin entre el criterio y otra variable predictora.
En la correlacin semiparcial se elimina la influencia que una variable predictora ejerce
sobre la otra variable predictora, no sobre la correlacin.
El coeficiente de validez mltiple

Este coeficiente viene dado por la correlacin mltiple entre las puntuaciones obtenidas por
la muestra de sujetos en la variable criterio y las obtenidas en el conjunto de variables
predictoras.

lOMoARcPSD|378992
La correlacin mltiple permite analizar el grado de asociacin entre la variable dependiente

(criterio) y el conjunto de variables predictoras (en nuestro caso X1 y X2).
La correlacin mltiple se calcula como:
2 2
+ 21 2 1 2
1 2 = 1 2
1 21 2
Tambin se puede expresar en funcin de los coeficientes de regresin mltiple en

puntuaciones tpicas y de las correlaciones de cada variable predictora con el criterio:
1 2 = 1 1 + 2 2
Donde 1 y 2 son los coeficientes de regresin en puntuaciones tpicas.
El modelo de regresin lineal mltiple

La estructura de este modelo es igual que la del modelo de regresin lineal simple, tan solo
que en este caso las ecuaciones no determinarn una recta sino un plano (2 variables) o
hiperplano (3 o ms variables). Con n variables predictoras la ecuacin del hiperplano de
regresin lineal ser:
= + 1 1 + 2 2 + +
Donde Y es la puntuacin pronosticada en el criterio; a es la ordenada en el origen; los bi son
los coeficientes de regresin; y las Xi son las variables predictoras.
Ecuaciones de regresin
Puntuaciones tpicas
La ecuacin de regresin es:
= 1 1 + 2 2
Siendo:
1 2 1 2 2 1 1 2
1 = 2 2 =
1 1 2 1 21 2
Puntuaciones diferenciales
La ecuacin de regresin es:
= 1 1 + 2 2
Siendo:

1 = 1 2 = 2
1 2
Puntuaciones directas
La ecuacin de regresin es (los coeficientes b son igual que en el caso de las puntuaciones
diferenciales):
= + 1 1 + 2 2

lOMoARcPSD|378992
=
+ 1 1 2
2
Consideraciones
Es importante remarcar que:
Las ecuaciones de los planos de regresin en puntuaciones directas y diferenciales son

paralelos.
Las ecuaciones de los planos de regresin en puntuaciones diferenciales y tpicas
pasan por el origen de coordenadas.
La varianza residual o varianza error y el error tpico de estimacin mltiple

El coeficiente de validez indica la eficacia de las variables predictoras para estimar el criterio:
cuanto ms alto sea el coeficiente de validez, ms exacta ser la estimacin y en el lmite (1), el
valor estimado coincidira con la puntuacin real en el criterio.
Sin embargo, a pesar de haber utilizado ms de una variable predictora el coeficiente de

validez no ser perfecto y estar afectado por un cierto error de estimacin, que es la
diferencia entre la puntuacin que ha obtenido un sujeto en el criterio y la que se le pronostica
mediante la ecuacin de regresin (Y-Y).
A la varianza de los errores de estimacin cometidos en cada sujeto se le denomina Varianza

residual, Varianza error o Error cuadrtico medio y su frmula es:
2
( )2
1 2
=

Donde:
Y es la puntuacin obtenida por cada sujeto en el criterio.

Y es la puntuacin pronosticada para cada sujeto.
N es el nmero de sujetos de la muestra.
A la desviacin tpica de los errores se le denomina Error tpico de estimacin de estimacin

mltiple:
( )2
2
1 2 = 1 2
=

Intervalos de confianza
En lugar de hacer estimaciones puntuales es ms conveniente hacerlas por intervalos debido a
los errores de estimacin que se cometen al hacer los pronsticos. Para ello, asumiendo que la
distribucin de los errores se ajusta a una normal cuya desviacin tpica viene dada por el error
tpico de estimacin mltiple, se establece un intervalo confidencial en torno a una puntuacin
determinada. Los pasos a seguir son los siguientes:
Determinar un nivel de confianza y buscar su puntuacin tpica asociada.

Calcular el error tpico de estimacin mltiple.
Calcular el error mximo.
Aplicar la ecuacin de regresin para obtener la puntuacin pronosticada.
Establecer el intervalo de confianza en torno a la puntuacin pronosticada.

lOMoARcPSD|378992
Interpretacin de la evidencia obtenida acerca de la capacidad predictora del

conjunto de variables utilizadas
Los resultados obtenidos se pueden interpretar en funcin de tres coeficientes: el de
determinacin mltiple, el de alienacin mltiple y el de valor predictivo mltiple.
Coeficiente de determinacin mltiple

El coeficiente de determinacin mltiple equivale al coeficiente de validez al cuadrado.
Representa la proporcin de la varianza de las puntuaciones de los sujetos en el criterio
(variable dependiente) que se puede pronosticar a partir del conjunto de variables predictores.
Tambin se define como la varianza comn entre el criterio y las variables predictoras.
2
. . = 1 2
Coeficiente de alienacin mltiple

El coeficiente de alienacin mltiple indica la proporcin que representa el error tpico de
estimacin respecto a la desviacin tpica de las puntuaciones en el criterio. En la medida en
que el error tpico sea ms pequeo que la desviacin tpica del criterio, el coeficiente K ser
menor. K vara entre 0 y 1: ser mximo cuando el coeficiente de validez sea 0 y mnimo
cuando el coeficiente de validez sea 1.
El coeficiente de alienacin representa la inseguridad o el azar que afecta a los pronsticos.

1 2 2
. . = = = 1 1 2

Coeficiente de valor predictivo mltiple

Es el complementario del coeficiente de alienacin y es otra forma de expresar la capacidad
del test para pronosticar el criterio ya que representa la proporcin de seguridad en los
pronsticos.
2
. . . = 1 = 1 1 1 2
Ejemplo
Entre las pginas 354 y 361 del libro de Psicometra se puede encontrar un ejemplo completo
de regresin lineal mltiple e interpretacin de los resultados obtenidos.
Mtodos para seleccionar las variables predictoras ms adecuadas

Al hacer el anlisis del puesto de trabajo es posible que se disponga de diferentes predictores
para pronosticar un criterio. Sin embargo, antes de utilizarlos hay que asegurarse de que
contribuyen de manera significativa a la prediccin del criterio explicando una parte de
varianza que no es explicada por ninguno de los dems predictores.
Para hacer esta seleccin hay varios mtodos estadsticos:
Forward o hacia adelante.

Backward o hacia atrs.

lOMoARcPSD|378992
Mtodo Forward
Dentro de estos mtodos el stepwise (paso a paso) es el ms utilizado. Se procede de la
siguiente manera:
Se calculan las intercorrelaciones entre las distintas variables.

Se selecciona en primer lugar la variable predictora (independiente) cuya correlacin
con el criterio sea ms alta y se construye la ecuacin de regresin.
Se van aadiendo en la ecuacin de regresin, una a una, las dems variables
predictoras con la siguiente pauta: la segunda variable a incluir ser aquella con la
correlacin semiparcial con el criterio ms alta (es decir, que sea ms alta despus de
haber eliminado de antemano el efecto que pueda ejercer dicha variable sobre la
variable seleccionada en primer lugar). A continuacin, la tercera variable a incluir ser
la que tenga con el criterio una correlacin ms alta despus de haber eliminado la
influencia debida a la asociacin entre esa variable y las otras dos seleccionadas.
Cada vez que se incluye una variable predictora en la ecuacin de regresin se calcula
el aumento que se produce en el porcentaje de la varianza del criterio que explican el
conjunto de variables seleccionada (aumento en el coeficiente de determinacin
mltiple) y se analiza si ese aumento es estadsticamente significativo o no. El proceso
se detiene cuando el aumento no es significativo.
Mtodo Backward
Este mtodo es inverso al anterior y menos utilizado. Al utilizar este mtodo se procede de la
siguiente manera:
Se calcula el coeficiente de determinacin mltiple entre la variable criterio y todo el

conjunto de predictores de que se dispone.
Se van eliminando una a una las variables menos relevantes calculando en cada
proceso de eliminacin la reduccin que se produce en el coeficiente de
determinacin.
El proceso se detiene cuando la reduccin observada sea significativa.
Ejemplo
Entre las pginas 363 y 366 del libro de Psicometra se puede encontrar un ejemplo de
aplicacin de estas dos tcnicas.
Validez y utilidad de las decisiones

En este apartado se incluyen procedimientos que van a permitir analizar la validez de las
decisiones tomadas a partir de las puntuaciones obtenidas por los sujetos en un test (o varios)
en relacin con un criterio dicotmico. En este caso las variables predictoras estn
dicotomizadas (p. ej.: la calificacin de la prueba es apto- no apto) y el criterio tambin (p. ej.:
buen mal rendimiento).
Ejemplo: se quiere llevar a cabo la seleccin de los alumnos que se admitirn en un doctorado
y no se sabe si la prueba de admisin es vlida, por lo que se quiere llevar a cabo un estudio de
validez. Se aplica la prueba a todos los que han presentado la solicitud de admisin para este
ao y se fija un punto de corte (Xc) de manera que los sujetos que obtengan puntuaciones de
por encima de este punto sern considerados aptos (A) para hacer el doctorado y los que no lo
alcancen sern considerados no aptos (R). Como se puede ver, la prueba utilizada como
predictor para tomar decisiones sobre los aspirantes est dicotomizada. Se admite a todos los

lOMoARcPSD|378992
estudiantes en los cursos de doctorado y al finalizar el ao se les evala de manera que la

calificacin asignada permita diferenciar entre los alumnos que han tenido un buen
rendimiento (A) y los que no lo han tenido (R).
Diremos que la prueba de admisin ser vlida para hacer la seleccin de los alumnos que
acceden al doctorado (y por tanto se podr utilizar el en curso siguiente) cuando las decisiones
tomadas a partir de las puntuaciones en el test se vean confirmadas con las decisiones
tomadas en base a los criterios marcados por el departamento.
Supongamos que los resultados del proceso de validacin son los que recoge la siguiente tabla.
En ella podemos distinguir varios valores importantes:
Aciertos = NAA + NRR: nmero de alumnos calificados del mismo modo en la prueba de
seleccin (test) y en el criterio.
Falsos negativos = NRA: alumnos que superaron el criterio de rendimiento y sin
embargo en la prueba de admisin no superaron el punto de corte. Habran sido rechazados
en el proceso de seleccin pero deberan haber sido admitidos.
Falsos positivos = NAR: alumnos que no superaron el criterio de rendimiento pero s
superaron la prueba de admisin. En un proceso de seleccin no deberan haber sido
seleccionados y, sin embargo, al superar el punto de corte en el predictor s que lo habran
sido.
NAC: nmero de alumnos considerados aptos en el criterio.
NRC: nmero de alumnos considerados no aptos en el criterio.
NAT: nmero de alumnos considerados aptos en el test.
NRT: nmero de alumnos considerados no aptos en el test.
Tabla 1. Clasificacin de los sujetos en funcin del test y el criterio.
Criterio
A R Marginales
A NAA=18 NAR=2 NAT=20
Test
R NRA=3 NRR=27 NRT==30
Marginales NAC=21 NRC=29 N=50
ndices de validez
Coeficiente Kappa
El coeficiente Kappa es uno de los ms utilizados como indicador de la validez de la prueba de
admisin para pronosticar el criterio. Este coeficiente evala la consistencia o acuerdo entre
las decisiones tomadas a partir de las puntuaciones obtenidas por los sujetos en el predictor
(p. ej.: prueba de admisin) y en el criterio (p. ej.: rendimiento en el doctorado).
Se calcula como:

=

Donde:
: nmero de casos en que hay coincidencia entre el predictor y el criterio.

: nmero de casos en los que cabe esperar que las calificaciones del predictor y el
criterio coincidan por azar.

lOMoARcPSD|378992
N: nmero de personas en la muestra.
Las frecuencias esperadas por azar se calculan como:
= +

= +

El valor mximo del coeficiente de Kappa es 1 (acuerdo total, mxima validez).
Ejemplo: siguiendo con el ejemplo anterior:

21 20 29 30
= + = 8,4 + 17,4 = 25,8
50 50
45 25,8
= = 0,79
50 25,8
La prueba de admisin tiene una validez alta para pronosticar el criterio de rendimiento. Ante
estos resultados se podra utilizar la prueba en cursos posteriores para hacer la seleccin de
los alumnos que quieren hacer el doctorado.
Proporcin de clasificaciones correctas

Simplemente es el total de aciertos dividido por el total de sujetos:
+
. . . =

Sensibilidad
La sensibilidad es la proporcin de aspirantes correctamente seleccionados mediante la
prueba de admisin respecto al total de los que tuvieron xito en el criterio:

=

Nota: La sensibilidad nos indica la capacidad de nuestro estimador para dar como casos
positivos los casos realmente positivos: proporcin de positivos correctamente identificados.
Ejemplo: en el ejemplo, de los 21 aspirantes que tuvieron un rendimiento adecuado en los

cursos de doctorado, 18 haban sido detectados mediante la prueba de seleccin:
18
= = = 0,86
21
Especificidad
La especificidad es la proporcin de aspirantes que fueron correctamente rechazados
mediante la prueba de admisin respecto al total de aspirantes que no alcanzaron un
rendimiento adecuado en el doctorado:

=

Nota: La especificidad nos indica la capacidad de nuestro estimador para dar como casos
negativos que realmente lo son: proporcin de fracasos correctamente identificados.

lOMoARcPSD|378992
Ejemplo: en el ejemplo, de los 29 aspirantes que no tuvieron un rendimiento satisfactorio en

los cursos de doctorado, 27 haban sido detectados mediante la prueba de admisin:
27
= = = 0,93
29
Razn de eficacia
Es la proporcin de aspirantes seleccionados mediante la prueba de admisin que rindieron
satisfactoriamente en el doctorado:

. . =

Ejemplo: en el ejemplo:
18
. . = = = 0,90
20
ndices de seleccin
Razn de idoneidad
La razn de idoneidad equivale a la proporcin de aspirantes que rindieron satisfactoriamente
en el criterio:

. . =

21
. . = = = 0,42
50
Razn de seleccin
En un proceso de seleccin, es la proporcin de aspirantes que han sido seleccionados
mediante el test:

. . =

20
. . = = = 0,40
50
Dnde situar el punto de corte?

Es necesario establecer dos puntos de corte:
Uno en el test o prueba de admisin para clasificarlos en admitidos rechazados (p.

ej.: a partir de una determinada nota se consideran admitidos).
Uno en el criterio para establecer las categoras satisfactorio no satisfactorio.

lOMoARcPSD|378992
Supongamos que la eclipse representa el diagrama de la distribucin conjunta de las

puntuaciones obtenidas por los sujetos de la muestra en el test predictor (prueba de admisin)
cuya validez se quiere probar y en el criterio (rendimiento en el doctorado). Las dos lneas
(horizontal y vertical) que cruzan a la elipse son los puntos de corte establecidos en el criterio y
el test.
Si el punto de corte del test se mueve hacia la derecha (criterio de seleccin ms estricto), se
reducira la costa de falsos positivos (habra menor nmero de aspirantes seleccionados por el
test que luego no alcanzan el rendimiento adecuado en el criterio) a costa de aumentar los
falsos negativos (sujetos que, teniendo un rendimiento adecuado, no seran seleccionados).
Del mismo modo, si el criterio se hace ms estricto, disminuir el nmero de falsos negativos a
costa de que aumenten los falsos positivos.
Dnde situar el punto de corte es, por tanto, una cuestin complicada. Se trata de buscar el
punto de corte que maximice la capacidad predictiva de la variable predictora (mnimos
errores de clasificacin). En todo caso siempre hay que analizar las consecuencias de las
decisiones tomadas puesto que no siempre tienen la misma importancia los dos tipos de
errores (falsos positivos o falsos negativos).
Ejemplo
Entre las pginas 373 y 376 del libro de Psicometra se puede encontrar un ejemplo completo
en el que se calculan estos ndices.
Modelos de seleccin
A la hora de tomar decisiones acerca de la competencia o no de una muestra de sujetos es
necesario obtener el mximo de informacin posible para evitar cometer errores. Esta
informacin se puede obtener del currculum vitae, de las puntuaciones obtenidas en ciertos
tests, de entrevistas, etc. La cuestin es cmo combinar toda esa informacin a la hora de
tomar una decisin, para lo cual hay tres modelos bsicos (ms dos de tipo mixto):
compensatorio, conjuntivo, disyuntivo, conjuntivo-compensatorio y disyuntivo-compensatorio.

lOMoARcPSD|378992
Modelo compensatorio
Es un modelo aditivo en el que a cada sujeto se le asigna una nica puntuacin global. El
nombre alude a que los sujetos pueden compensar una baja puntuacin en una de las pruebas
con una puntuacin ms alta en otra, de manera que el resultado final es una nica
puntuacin (p. ej.: la selectividad). Este modelo no siempre tiene sentido ya que a veces la
ausencia de una competencia o destreza no se puede compensar con otras (p. ej.: si el ingls e
imprescindible para un puesto de trabajo, no se podr compensar con otras competencias).
Una forma adecuada de obtener la puntuacin global es mediante la regresin lineal mltiple,
asignando a cada sujeto una nica puntuacin a partir de la combinacin aditiva de los
resultados obtenidos en los diferentes predictores, que tendrn un peso determinado por su
coeficiente de regresin.
Modelo conjuntivo
En este modelo se fijan de antemano uno mnimos en cada una de las pruebas utilizadas para
la seleccin, de manera que slo se seleccionaran aquellas personas que hayan superado esos
mnimos en todas y cada una de las pruebas
Modelo disyuntivo
En este modelo slo se exige superar determinado nivel de competencia en al menos alguno
de los predictores o bloque de predictores.
Modelo conjuntivo-compensatorio
En primer lugar se aplica el modelo conjuntivo, seleccionando aquellos sujetos que superen los
mnimos establecidos. A continuacin, a los sujetos seleccionados se les aplica el modelo
compensatorio para ordenarlos en funcin de su puntuacin global. Una vez ordenados, se
puede elegir a un determinado nmero de entre los mejores o establecer un punto de corte de
manera que se seleccione a aquellos cuya puntuacin global supere el punto establecido.
Modelo disyuntivo-compensatorio
Se hace una primera seleccin aplicando el modelo disyuntivo y a los sujetos seleccionados se
les aplica el modelo compensatorio.
Cmo estimar la eficacia de una seleccin?

Entre los ndices expuestos anteriormente uno de ellos es la razn de eficacia, que representa
la proporcin de personas seleccionadas que tienen xito en el criterio.
Otra forma de estimar la seleccin es utilizando el modelo de regresin, siempre que se

verifiquen los supuestos que implica, pues permite estimar la probabilidad de que los
seleccionados tengan xito en el criterio. De entre las posibles situaciones que hay, vamos a
estudiar dos: cuando no hay nmero limitado de plazas y se seleccionan a todas las personas
que superan una determinada puntuacin en el predictor (o predictores) y cuando s hay un
nmero de plazas limitadas y se quiere seleccionar a los que hayan obtenido mejores
resultados en el predictor (o predictores).
Ejemplo: supongamos que la ecuacin de regresin obtenida a partir de un test (X) para
predecir un criterio (U) ha sido Y = 0,5 + 2X, que la desviacin tpica del criterio es Sy=5, que
el coeficiente de validez es rxy=0,80 y que para considerar que se ha tenido xito en el criterio
es necesario obtener en el mismo una puntuacin superior o igual a 8 puntos.
10

lOMoARcPSD|378992
Con estos datos, y suponiendo que no hay un nmero limitado de plazas, qu probabilidad de
xito tendrn los sujetos que en el test hayan obtenido una puntuacin de 6 puntos?
En primer lugar se estima la puntuacin pronosticada en el criterio de los sujetos que

obtuvieron 6 puntos en el test.
Y = 0,5 + 2 6 = 12,5
Esta puntuacin es la media de la distribucin de todas las puntuaciones que han podido
obtener en el criterio los sujetos que en el test obtuvieron 6 puntos y la desviacin tpica de
esta distribucin es el error tpico de estimacin:
2
= 1 = 5 1 0,64 = 3
La puntuacin tpica correspondiente al punto crtico del criterio Zc es la que marca la

separacin entre la probabilidad de xito y fracaso: nos va a permitir analizar la eficacia de la
seleccin. Se calcula de la siguiente manera:
8 12,5
= = = 1,5
3
Buscando en la tabla de la normal el rea de la curva que queda por encima de una puntuacin
tpica de -1,5 encontramos una probabilidad de 0,9332. Esto significa que un sujeto que
obtuviera en el test 6 puntos y haya sido seleccionado al pronosticrsele en el criterio una
puntuacin de 12,5 que est por encima del punto crtico, tiene una probabilidad de 0,9332 de
tener xito (y de 1-0,9332=0,0668 de fracaso).
Supongamos ahora que hay 100 aspirantes al puesto de trabajo y que hay 10 plazas a cubrir.
En este caso debe seleccionarse a los 10 aspirantes que hayan obtenido mejores puntuaciones
en el test. Cul sera la probabilidad de xito de estas personas?
En primer lugar hay que averiguar la puntuacin mnima que han obtenido las 10 personas
seleccionadas por el test. Como sabemos que esas personas son el 10% de todos los
aspirantes, debemos buscar la puntuacin que deja por debajo al 90% de los aspirantes. Si
asumimos que las puntuaciones en el test se distribuyen segn la curva normal, la puntuacin
tpica que deja por debajo el 90% de los casos es ZX=1,28 (se busca en la curva normal el Z que
tiene asociada un rea de 0,90).
Si la media del test fuera de 7 puntos y la desviacin tpica de 2 puntos, la puntuacin directa
mnima de las 10 personas seleccionadas sera:
7
1,28 = = = 1,28 2 + 7 = 9,56
2
Una vez obtenida esta puntuacin, se procede como en el ejemplo anterior, por lo que en
primer lugar se aplica la ecuacin de regresin para calcular la puntuacin que se les
pronosticara a estos sujetos en el criterio:
Y = 0,5 + 2 9,56 = 19,62

Conocida la puntuacin pronosticada se calcula la Zc, a partir de la cual se averigua la
probabilidad de xito de estos sujetos:
11

lOMoARcPSD|378992
8 19,62
= = = 3,87
3
Por lo que la probabilidad de que los seleccionados tengan xito es prcticamente el 100%.
Factores que influyen en el coeficiente de validez

La variabilidad de la muestra
El coeficiente de validez (la correlacin entre las puntuaciones obtenidas en el predictor o
predictores y las obtenidas en el criterio) tiende a aumentar a medida que la variabilidad de la
muestra utilizada es mayor y a disminuir cuando la muestra es ms homognea (la variabilidad
es menor).
La fiabilidad de las puntuaciones del test y del criterio

Cuando se calcula el coeficiente de validez como la correlacin entre las puntuaciones
emprica obtenidas por los sujetos en el test y en el criterio, hay que tener en cuenta que las
puntuaciones empricas estn afectadas por errores de medida y que esos errores de medida
estn influyendo en el coeficiente de validez, produciendo una serie de sesgos que hay que
eliminar o controlar.
Spearman propuso la frmula de atenuacin porque permite corregir la atenuacin,

disminucin o reduccin del coeficiente de validez debida a errores de medida. De esta
frmula se pueden derivar varios casos particulares que van a ser analizados con un ejemplo.
Ejemplo: aplicando un test de razonamiento abstracto a una muestra de sujetos se obtuvo un

coeficiente de fiabilidad igual a 0,64, la fiabilidad del criterio result ser 0,60 y el coeficiente de
validez 0,56.
Estimacin del coeficiente de validez en el supuesto de que tanto el test como el

criterio tuvieran una fiabilidad perfecta
La frmula viene expresada por:

=

Donde:
: coeficiente de validez terico que se obtendra si las puntuaciones del test y del
criterio estuvieran libres de errores de medida. En este caso la correlacin se calculara
entre las puntuaciones verdaderas del test y del criterio.
: coeficiente de validez emprico.
: coeficiente de fiabilidad emprico del test.
: coeficiente de fiabilidad emprico del criterio.
Ejemplo: Cul sera el coeficiente de validez estimado en el caso de que tanto las
puntuaciones del test como las del criterio estuvieran libres de errores de medida?
0,56
= = = 0,91
0,64 0,60
Esto significa que si se pudieran eliminar todos los errores de medida que afectan a las
puntuaciones del test y del criterio, habra un aumento considerable del coeficiente de validez
(de 0,56 a 0,91).
12

lOMoARcPSD|378992
Estimacin del coeficiente de validez en el supuesto de que el test tuviera una fiabilidad
perfecta
A partir de la frmula anterior, si se supone que ahora slo el test tiene una fiabilidad perfecta,
la estimacin del coeficiente de validez se hara calculando la correlacin entre las
puntuaciones verdaderas del test y las empricas del criterio:

=

Ejemplo: Cul sera el coeficiente de validez estimado en el caso de que slo las puntuaciones
del test estuvieran libres de errores de medida?
0,56
= = = 0,70
0,80
El valor del coeficiente de validez aumenta con respecto al inicial, pero este aumento es ms
moderado ya que slo se han eliminado los errores de medida de una de las variables (el test)
pero no del criterio, cuyas puntuaciones an siguen afectadas por errores.
Estimacin del coeficiente de validez en el supuesto de que el criterio tuviera una

fiabilidad perfecta
Si el criterio es el nico que est libre de errores de medida:

=

Ejemplo: Cul sera el coeficiente de validez estimado en el caso de que slo las puntuaciones
del criterio estuvieran libres de errores de medida?
0,56
= = = 0,73
0,60
El aumento en el coeficiente de validez tambin es considerable, aunque el test sigue afectado
por errores de medida.
Estimacin del coeficiente de validez en el supuesto de que se mejorara la fiabilidad del

test y del criterio
En la frmula las letras maysculas corresponden a los coeficientes de fiabilidad mejorados:

=

Ejemplo: Cul sera el coeficiente de validez si se consiguiera un coeficiente de fiabilidad en el

test de 0,75 y en el criterio de 0,64?
0,56
= = = 0,63
0,64 0,60

0,75 0,64
Se observa que ha habido un incremento en el coeficiente de validez (de 0,53 0,63). El
aumento no es tan grande como cuando se consiguen eliminar por completo los errores de
medida en el test y en el criterio pero s que es un aumento considerable.
13

lOMoARcPSD|378992

test
Si se mejora la fiabilidad del test pero se mantiene constante la del criterio:

=


test de 0,75 y en el criterio se mantuviera constante?
0,56
= = = 0,61
0,64

0,75
Se observa que ha habido un incremento en el coeficiente de validez (de 0,53 a 0,63). El
aumento no es tan grande como cuando se consiguen eliminar por completo los errores de
medida en el test y en el criterio pero s que es un aumento considerable.

criterio
Si se mejora la fiabilidad del criterio pero se mantiene constante la del test:

=


criterio de 0,64 y en el test se mantuviera constante?
0,56
= = = 0,58
0,60

0,64
Se observa que ha habido un incremento, algo menor que en el caso anterior, en el coeficiente
de validez (de 0,53 a 0,58).
Valor mximo del coeficiente de validez

El valor mximo del coeficiente de validez es menor o igual que el coeficiente de fiabilidad del
criterio:
Y dado que la raz cuadrada del coeficiente de fiabilidad es el ndice de fiabilidad:
Validez y longitud
Una forma de aumentar el coeficiente de fiabilidad del test era aumentar la longitud del test
aadindole elementos paralelos a los que ya tena. Esta mejora en el coeficiente de fiabilidad
repercute directamente en una mejora del coeficiente de validez. La relacin entre el
coeficiente de validez con la fiabilidad y la longitud del test viene dada por la siguiente
expresin:
14

lOMoARcPSD|378992

=
1 + ( 1)
Donde:
: coeficiente de validez estimado al modificar la longitud del test.

: coeficiente de validez inicial del test, antes de la modificacin de su longitud.
n: nmero de veces que se aumenta o disminuye la longitud del test.
: coeficiente de fiabilidad inicial del test.
En ocasiones lo que se pretende es averiguar el nmero de veces que hay que aumentar o
disminuir la longitud del test para conseguir un determinado coeficiente de validez.
Despejando n de la frmula tenemos que:
2
(1 )
= 2
2
Ejemplo: supongamos que un test de 20 elementos que tienen un coeficiente de validez de

0,60 y un coeficiente de fiabilidad de 0,64. Cuntos elemento sabra que aadirle para
obtener un coeficiente de validez de 0,70?
0,702 (1 0,64)
= = 3,80
0,602 0,702 0,64
Eso significa que hay que aumentar la longitud del test 3,8 veces. Para saber cuntos tems
habra que aadir hay que aplicar la siguiente frmula:

= = = 3,8 25 = 95

El test deber tener 95 tems para tener un coeficiente de validez de 0,70 por lo que habra
que aadir 70 tems (95 = 25+70).
15

lOMoARcPSD|378992
Psicometra | Tema 8: Anlisis de la calidad mtrica de los tems
Tema 8: Anlisis de la calidad mtrica de los

tems
Introduccin
El anlisis de los tems se puede definir como el proceso por el que los tems de un test son
evaluados y examinados crticamente con el objetivo de identificar y reducir las fuentes de
error (aleatorio o sistemtico) y poder eliminar o reformular aquellos que no renen las
suficientes garantas psicomtricas.
Como hemos visto hasta ahora, los tems pueden tener distintos formatos y evaluar variables
cognitivas (aptitudes, rendimiento, etc.) donde hay respuestas correctas e incorrectas as
como variables no cognitivas (actitudes, intereses, valores, etc.) donde no hay respuestas
correctas. Los estadsticos que se vern en este tema se utilizan, fundamentalmente, con tems
altitudinales o de rendimiento en los que existe una alternativa correcta y una o varias
incorrectas.
Para analizar los tems es necesario disponer de la matriz de datos con las respuestas y se
puede:
Analizar la alternativa correcta, que es la que ofrece ms informacin sobre la calidad

del test. Se puede obtener el ndice de dificultad, el de discriminacin y la fiabilidad y
validez del tem.
o En este caso la matriz de datos estar formada por unos y ceros, donde los
unos hacen referencia a los aciertos y los ceros hacen referencia a los fallos.
o Aunque la dificultad del tem se puede establecer a priori durante su
redaccin, sta tendr que ser contrastada con la dificultad emprica (la que se
estudia en este tema).
o El poder de discriminacin indica la capacidad del tem para diferenciar a los
sujetos con distinto nivel en el rasgo medido.
o La fiabilidad y validez de los tems estn relacionadas con la desviacin tpica
del test e indican la posible contribucin de cada tem a la fiabilidad y validez
de las puntuaciones totales del test.
Analizar las respuestas incorrectas o distractores, lo cual aporta evidencias sobre la
utilidad de cada alternativa y su contribucin a la calidad mtrica del tem. La revisin
de estas alternativas es fundamental para mejorar el tem, mediante la sustitucin o
reparacin de los distractores que no funcionan como tales.
o En este caso en la matriz han de aparecer las opciones concretas que haya
seleccionado cada sujeto.
Otro aspecto importante a evaluar dentro del anlisis de los tems es el funcionamiento
diferencial de los tems (FDI): si de manera sistemtica sujetos de distintos grupos de
pertenencia pero con el mismo nivel en el rasgo medido tienen distintas probabilidades de
xito en el tem en cuestin.

lOMoARcPSD|378992
Parmetros de los tems

Dificultad del tem
Uno de los ndices ms populares para cuantificar la dificultad de los tems (dicotmicos o
dicotomizados) es la proporcin de sujetos que lo han respondido correctamente. Esta
dificultad es relativa ya que depende del nmero de personas que intenta responder al tem y
de sus caractersticas (puesto que no se obtendr el mismo ndice de dificultad si el tem es
respondido por un grupo normal o por un grupo de superdotados).
Formalmente, el ndice de dificultad se expresa como:

=

Donde:
A: nmero de sujetos que aciertan el tem.

N: nmero de sujetos que intenta responder al tem.
El ID oscila entre 0 y 1:
0 indica que es un tem difcil (nadie lo ha acertado).

1 indica que es un tem fcil (todo el mundo lo ha acertado).
Debera llamarse ndice de facilidad puesto que cuanto ms prximo sea a 1, ms fcil resulta
el tem. En general, se recomienda que los tems con valores extremos para la poblacin a la
que van dirigidos sean eliminados del test final ya que no contribuyen a diferenciar entre
sujetos con distinto nivel en el rasgo medido (todos lo aciertan o lo fallan).
El ndice de dificultad es dependiente de la muestra de sujetos utilizada.
El dato proporcionado por el ID es ms interesante en Test Referidos al Criterio (TRC): un

grupo de tems fciles para un conjunto de alumnos podra indicar que no tiene sentido
evaluar dicho dominio en esa muestra de sujetos dado que dominan el concepto medido. Por
el contrario, si dicho grupo de tems resultada muy difcil, entonces habra que, por ejemplo,
pensar que la instruccin realizada no ha sido adecuada.
Correccin de la dificultad en tems de eleccin mltiple

Al calcular el ID hay que tener en cuenta que acertar un tem no slo depende de que los
sujetos conozcan la respuesta, sino tambin de la suerte que tengan aquellos que eligen la
alternativa correcta sin conocerla (por azar).
Cuanto mayor sea el nmero de distractores menos probable es que los sujetos acierten el
tem por azar (hay ms alternativas para elegir). El nmero de aciertos puede ser mayor de lo
esperado en funcin del nivel real de aptitud de los sujetos, por lo que se aconseja corregir el
ID:
1
= =
1
Donde:
IDc: ndice de dificultad corregido.

A: aciertos.

lOMoARcPSD|378992
E: errores.
p: proporcin de aciertos.
q: proporcin de errores.
k: nmero de alternativas del tem.
N: nmero de personas que intentan responder al tem.
Ejemplo: supongamos que un tem de rendimiento de matemticas se aplica a 10 sujetos con

el siguiente resultado:
Sujeto: A B C D E F G H I J
Respuesta: 1 1 1 1 0 1 0 1 1 0
Es decir: de los 10 sujetos que han intentado responder al tem, 7 lo han acertado mientras
que 3 lo han fallado. El ID es por tanto de 0,7.
Si suponemos que el tem tiene 3 alternativas posibles de respuesta y lo corregimos aplicando

la frmula, tendremos que:
1 7 33 1
= = = 0,55
10 10
0,3
= = 0,7 = 0,55
1 31
Los tems ms difciles son los que sufren mayor correccin. Se supone que habr mayor
nmero de aciertos por azar en los tems ms complicados dado que los sujetos tienden a
desconocer la respuesta correcta. Por el contrario, los tems ms fciles los sujetos los
respondern con conocimiento de su respuesta, por lo que la correccin por azar es ms leve.
Relacin con los parmetros el test

En general, en los test de aptitudes se consiguen mejores resultados psicomtricos cuando la
mayora de tems son de dificultad media. Lgicamente, se siguen incluyendo tems fciles
(que se sitan al principio para no desmotivar a los examinandos) e tems difciles: los primeros
sern tiles para evaluar a los sujetos menos competentes mientras que los segundos
permiten identificar el grupo de sujetos con mejor nivel en el rasgo medido en el test.
Discriminacin del tem

Un tem con alto poder discriminativo es aquel que es acertado en mayor proporcin por los
sujetos que tienen buenas puntuaciones mientras que es fallado en mayor proporcin por los
sujetos con peores puntuaciones. Si un tem no sirve para diferenciar entre los sujetos en
funcin de su nivel de competencia, es decir, no discrimina entre los sujetos, debera
eliminarse.
Cuando se seleccionan tems con poder discriminativo es porque se pretende diferenciar a los
sujetos en funcin de su nivel en el rasgo medido.
Intuitivamente, la discriminacin de un tem implicara comparar la proporcin de aciertos

entre dos grupos extremos de aptitud (uno bajo y uno alto). Si el tem discrimina
adecuadamente, la proporcin de aciertos en el grupo de aptitud alta sera mayor que en el de
baja aptitud. En este caso, la correlacin entre las puntuaciones obtenidas por los sujetos en el
tem y las obtenidas en el test total sera positiva.

lOMoARcPSD|378992
El ndice de discriminacin D
El ndice de discriminacin D se basa en las proporciones de aciertos entre grupos extremos
de aptitud. Para formar estos grupos, se aconseja tomar el 27% (Percentil 73) superior y el 27
por ciento inferior (Percentil 27). Una vez formados estos grupos, el ndice D se calculara
como:
=
Donde:
ps: proporcin de aciertos en el grupo superior.

pi: proporcin de aciertos en el grupo inferior.
El ndice D oscila entre -1 y 1:
El valor ideal 1 lo toma cuando todas las personas hayan acertado el tem y todas las
del grupo inferior lo hayan fallado.
Si fuese igual a 0, estara indicando que el tem es acertado indistintamente en ambos
grupos, por lo que estar en un grupo u otro es indistinto de cara a acertar el tem. En
este caso no tiene poder discriminativo.
Tomar valores negativos cuando los sujetos pertenecientes al grupo inferior acierten
el tem en mayor proporcin que los ms competentes, lo cual no sera razonable
porque esto indicara que el tem confunde a los ms hbiles.
Grficamente se puede representar la discriminacin de forma que se vea claramente la

proporcin de aciertos en funcin del nivel de aptitud de los sujetos:
La figura 8.1 muestra un tem con un ndice D alto. Este tem permite diferenciar a los
sujetos en funcin de su nivel de aptitud: a mayor nivel de habilidad mayor
probabilidad de acertar el tem.
La figura 8.2 muestra un tem con una discriminacin moderada: a pesar de que
permite separar entre sujetos con distinto nivel de aptitud, no lo hace con toda
rotundidad como el tem de la figura 8.1 ya que hay un porcentaje de sujetos con baja
aptitud que tienden a acertar el tem.
La figura 8.3 representa un tem sin poder discriminativo: la proporcin de aciertos en
el tem no es funcin del nivel de aptitud de los sujetos, con lo cual no sirve para
discriminar entre ellos.
La figura 8.4 muestra un ejemplo de un tem que discrimina en sentido contrario al que
cabra esperar: los sujetos con menor competencia tienden a acertarlo en mayor
proporcin que los ms hbiles, a los que probablemente se les est confundiendo por
alguna razn que habra que investigar y corregir.

lOMoARcPSD|378992
El marco de referencia para interpretar los valores de D es el siguiente (Ebel, 1965):

Tabla 1. Interpretacin del nivel de discriminacin.
Valores Interpretacin
0,40 El tem discrimina muy bien
0,30 0,39 El tem discrimina bien
0,20 0,29 El tem discrimina poco
0,10 0,19 El tem necesita revisin
< 0,10 El tem carece de utilidad
Ejemplo: en la siguiente tabla aparecen las respuestas dadas por 370 sujetos a las 3
alternativas (A, B y C) de un tem, donde la opcin B es la correcta. Por filas aparece la cantidad
de sujetos que han seleccionado cada alternativa en los grupos superior (27% superior),
intermedio (46% central) e inferior (27%).
Para calcular el ndice de dificultad corrigiendo el efecto del azar necesitamos los porcentajes
de respuestas correctas y de errores. El porcentaje de respuestas correctas (pc) y respuestas
incorrectas (q) sera:
53 + 70 + 19
= = 0,38 = 1 = 1 0,38 = 0,62
370
Para calcular el ndice de dificultad corrigiendo el efecto del azar aplicamos la frmula:
0,62
= = 0,38 = 0,07
1 31
El ndice de discriminacin D:
53 19
= = = 0,34
19 + 53 + 28 65 + 19 + 16
El tem resulta difcil pero discrimina razonablemente bien.
Tabla 2. Sujetos por nivel de aptitud.
A B* C
27% superior 19 53 28
46% intermedio 52 70 48
27% inferior 65 19 16

lOMoARcPSD|378992
Los coeficientes de discriminacin (basados en la correlacin)

Si un tem discrimina adecuadamente entonces la correlacin entre las puntuaciones
obtenidas por los sujetos en el tem y las obtenidas en el test total ser positiva. Esto significa
que los sujetos que puntan alto en el test tendrn ms posibilidades de acertar el tem (esto
se puede ver en las figuras 8.1 y 8.2). Si la discriminacin es nula la correlacin sera 0 (figura
8.3) y si discrimina en sentido inverso su correlacin sera negativa (figura 8.3).
Se puede definir la discriminacin como la correlacin entre las puntuaciones de los sujetos
en el tem y sus puntuaciones en el test. La puntuacin total del test debe calcularse sin
utilizar el tem que se est estudiando, de lo contrario estaramos aumentando artificialmente
el ndice de discriminacin al estar correlacionando una variable (tem) con otra (puntuacin
total) que contiene a la primera.
La relacin entre la probabilidad de acertar un tem con el nivel de aptitud o rasgo medido se
conoce como Curva Caracterstica del tem (CCI) y es importante porque es posible modelar
dicha relacin a partir de la dificultad, discriminacin y acierto por azar.
El ndice de correlacin ha de ser coherente con el tipo de puntuaciones del tem y del test
(Nota: en el tema 6 sobre Validez se vieron los tipos de correlacin adecuados para cada tipo
de variable): veremos la correlacin Phi (), la biserial-puntual y la biserial.
Coeficiente de correlacin Phi ()

Se utiliza cuando las puntuaciones del tem y del test son estrictamente dicotmicas. Este
coeficiente permite estimar la discriminacin de un tem con algn criterio de inters.
Para calcular este coeficiente se colocan los datos en una tabla de contingencia 2x2 tal y como
muestra la tabla a continuacin, donde 1 indica que se acierta el tem o se supera el criterio y 0
que se falla el tem o no se supera el criterio.
Tabla 3. Tabla para el clculo de
tem (X)
1 0
1 a/N=pxy b (a+b)/N=py
Criterio (Y)
0 c d (c+d) /N=qy
(a+c)/N=px (b+d)/N=qx N
En esta tabla:
a: son los sujetos que han acertado el tem y aprobado el examen de Psicometra.
a+b: es el nmero de sujetos que han aprobado el examen de Psicometra.
c+d: es el nmero de sujetos que no han superado el examen de Psicometra.
a+c: es el nmero de sujetos que han acertado el tem.
b+d: es el nmero de sujetos que han fallado el tem.
Los valores divididos por N son las proporciones.
Una vez ordenados los datos, se aplica la frmula del coeficiente de correlacin Phi:

=


lOMoARcPSD|378992
Ejemplo: deseamos conocer si el tem 5 del ltimo examen de Psicometra discrimina

adecuadamente entre los aptos y no-aptos. Tras ordenar los resultados de 50 sujetos
presentados al ltimo examen obtenemos la siguiente tabla:
Aplicando la frmula obtenemos el coeficiente de correlacin:

0,6 0,7 0,7
= = = 0,52
0,7 0,3 0,7 0,3
Se puede concluir que existe una correlacin alta entre el tem y el criterio: aquellos sujetos
que aciertan el tem suelen aprobar el examen de Psicometra.
Tabla 4. Datos necesarios para el anlisis.
tem (X)
1 0
1 30/50=0,6=pxy 5 35/50=0,7=py
Criterio (Y)
0 5 10 15/50=0,3=qy
35/50=0,7=px 15/50=0,7=qx N=50
Coeficiente de correlacin biserial-puntual
Cuando el tem es una variable dicotmica y la puntuacin en el test es continua, se el ndice
de correlacin ms apropiado es el biserial-puntual:
Donde:
: es la media en el test de los sujetos que aciertan el tem.

: es la media del test.
: es la desviacin tpica del test.
p: es la proporcin de sujetos que aciertan el tem.
q: es la proporcin de sujetos que fallan el tem.
Nota: para calcular la correlacin habra que eliminar de las puntuaciones del test las del tem
en cuestin, en caso contrario se incrementara artificialmente la correlacin biserial-puntual.
Esta correlacin es ms necesaria cuando el nmero de tems es menor de 25.
Tabla 5. Datos del ejemplo.
tems Total
Sujetos 1 2 3 4 X X-i
A 0 1 0 1 2 1
B 1 1 0 1 3 2
C 1 1 1 1 4 3
D 0 0 0 1 1 1
E 1 1 1 0 3 2
Ejemplo: en la tabla anterior se muestran las respuestas de 5 sujetos a 4 tems. Calcular la

correlacin biserial-puntual del segundo tem.
Los sujetos que han acertado el tem 2 son el A, B, C y E, luego su media es:

lOMoARcPSD|378992
1+2+3+2
= =2
4
La media total del test es:
1+2+3+1+2
= = 1,8
5
La desviacin tpica de las puntuaciones del test es:
1 2 + 2 2 + 3 2 + 1 2 + 22
2 = 1,82 = 0,56 = 0,56 = 0,75
5
Las proporciones de sujetos que han acertado y fallado el tem 2 son:
4 1
= = 0,8; = = 0,2
5 5
Finalmente, la correlacin biserial-puntual entre el tem y las puntuaciones del test

(descontando las del tem) es:
2 1,8 0,8
= = = 0,54
0,75 0,2
Coeficiente de correlacin biserial

Mientras que la correlacin biserial-puntual se aplica cuando una de las variables es
intrnsecamente dicotmica y la otra continua, la correlacin biserial se aplica a dos variables
inherentemente continuas, aunque una de ellas se ha dicotomizado (tem).

=

Donde y es la altura en la curva normal correspondiente a la puntuacin tpica que deja por
debajo un valor de probabilidad igual a p (este valor debe buscarse en la tabla 7 del
formulario). El resto de valores representan lo mismo que en el caso de la correlacin biserial-
puntual.
Ejemplo: la correlacin biserial del tem 3 sera:
2,5 2,2 0,4

= = = 0,41
0,75 0,3863
Importante: el valor de p se obtiene de la tabla 7 del formulario buscando el valor de y
asociado a p = 0,40. Como 0,40 no aparece en la primera columna, se busca su
complementario (q=0,60), que lleva asociada una y=0,3863. Este valor de y es igual para p que
para q, por lo tanto el valor de y asociado a p=0,40 es 0,3863.
Hay que sealar que rb es una estimacin de la correlacin de Pearson y que es posible allar
valore smayores que 1, especialmente si alguna variable no es normal. La relacin entre r bp y rb
viene dada por:

lOMoARcPSD|378992
Como el valor de y es siempre menor que el de el valor de la correlacin biserial ser

mayor que el de la biserial-puntual. Esta diferencia ser moderada en tems de dificultad
media y se incrementar en tems de dificultad alta y baja.
Discriminacin de los tems en diseos pre-post test

Poder discriminativo de los tems en las escalas de actitudes
Los tems de actitudes se caracterizan porque no existen respuestas correctas o incorrectas y
el sujeto ha de situarse en el continuo establecido en funcin del grado del atributo medido. Al
tratarse de tems que no son dicotmicos, el coeficiente de correlacin adecuado sera el de
Pearson, que en este caso se puede interpretar como un ndice de Homogeneidad (IH): indica
hasta qu punto el tem est midiendo la misma dimensin (actitud) que el resto de los tems
de la escala. En general, aquellos tems con un IH menor que 0,20 se han de eliminar de la
escala resultante.
()
= =
[ 2 ( )2 ] [ 2 ()2 ]
Donde:
N: nmero de sujetos de la muestra.

: suma de las puntuaciones de los sujetos en el elemento j.
: suma de las puntuaciones de los sujetos en la escala total.
: correlacin entre las puntuaciones obtenidas por los sujetos en el elemento j y en
la escala total.
Si las puntuaciones del tem estn contando a la hora de calcular la puntuacin total del test es
necesario:
Descontar la puntuacin del tem de la puntuacin total y aplicar la frmula anterior.

Aplicar la siguiente formula de correccin:

() =
2 + 2 2
Tambin se puede averiguar si un tem diferencia entre grupos extremos de actitud

comparando las medias entre los sujetos con puntuaciones ms altas y los sujetos con
puntuaciones ms bajas. Para establecer estos grupos se suele utilizar el 25% (o27%) de
sujetos con mejores y peores puntuaciones. Una vez establecidos los grupos se calculan sus
medias y se comparan mediante la prueba T de Student para saber si la diferencia es
estadsticamente significativa:

= ( + 2 . )
( 1)2 + ( 1)
2
1 1
[ + ]
+ 2
Donde:
: media de las puntuaciones obtenidas en el tem por el 25% superior.

lOMoARcPSD|378992
: media de las puntuaciones obtenidas en el tem por el 25% inferior.

2
: varianza de las puntuaciones obtenidas en el tem por el 25% superior.
2
: varianza de las puntuaciones obtenidas en el tem por el 25% inferior.
: nmero de sujetos en el 25% superior.
: nmero de sujetos en el 25% inferior.
La hiptesis nula es que la media del grupo inferior es mayor o igual que la del grupo superior
(contraste unilateral) de manera que si obtenemos un T emprico superior al T terico (valor
crtico obtenido a partir del nivel de confianza) se rechazara esta hiptesis nula y
aceptaramos la hiptesis alternativa de que la media del grupo superior es mayor que la del
inferior.
Ejemplo: en las pginas 430-433 del libro de Psicometra se puede ver un ejemplo completo de
clculo del poder discriminativo de un tem y aplicacin del test estadstico.
Relacin de los parmetros del tem con los parmetros del test
Variabilidad
La variabilidad en las respuestas de los sujetos a los tems es importante. Si la varianza de un
tem es 0, todos los sujetos han respondido lo mismo: en un test de conocimientos todos
habran acertado o fallado, en un test de actitudes, intereses, personalidad, etc. todos habran
elegido la misma alternativa. Un tem con varianza 0 no presenta ningn poder discriminativo
(y su correlacin con las puntuaciones del test es 0).
La relacin entre la variabilidad del test y la discriminacin de los tems se puede formular
algebraicamente:

=
=1
Donde:
: es la desviacin tpica del test.

: desviacin tpica del tem.
: ndice de discriminacin del tem j.
Si el test estuviera compuesto por tems dicotmicos la varianza del tem se puede expresar en
funcin de la proporcin de aciertos y fallos:

2
=
=1
Para maximizar la capacidad discriminativa de un test habr que considerar tanto la dificultad
(pj) como la discriminacin (rjx) de sus tems: esto se consigue con dificultad media (pj=0,5) y
discriminacin mxima (rjx=1).
Dificultad del tem

Un tem alcanza su mximo poder discriminativo cuando su dificultad es media. Para optimizar
la discriminacin hay que tener en cuenta la dificultad del tem.
10

lOMoARcPSD|378992
Dimensionalidad del tem

La dimensionalidad de un test hace referencia al nmero de conceptos o constructos que se
estn midiendo. Cuando se construye un test se trata de que slo mida un nico concepto
(que sea unidimensional). Si tras someter al test a un Anlisis Factorial encontrsemos varias
dimensiones subyacentes, esto significara que existen distintas escalas (lo que sera como una
batera de test que mide tantos aspectos como escalas o dimensiones distintas hubiera). En
este caso, la correlacin entre las puntuaciones del test y las del tem se ver afectada a la
baja, y tanto ms cuanto ms dimensiones contenga el test.
En test multidimensionales, la discriminacin de los tems debe estimarse nica y

exclusivamente considerando el conjunto de tems asociados a cada dimensin (de lo contrario
podramos desechar tems que en su dimensin tengan gran poder discriminativo).
Nota: La dimensionalidad del test no es independiente de la discriminacin del tem. La

discriminacin del tem est muy influida por el nmero de conceptos implicados en la
obtencin de las puntuaciones del test.
Faibilidad del test

Fiabilidad y discriminacin estn muy relacionadas, de manera que el coeficiente Alpha de
Cronbach se puede expresar a partir de la discriminacin de los tems:
=1 2 =1 2
= (1 ) = (1 2)
1 2 1 [ ] =1
Valores pequeos en la discriminacin de los tems suelen estar asociados con tests poco
fiables.
Conclusiones
Finalmente cabe destacar que aunque tcnicamente sea factible obtener muy buenos tems
desde el punto de vista psicomtrica mediante la combinacin ptima de estos factores, el
examen definitivo para un tem implica que los sujetos ms competentes elijan la alternativa
correcta en mayor proporcin que los sujetos menos competentes en el dominio de inters.
Fiabilidad y validez del tem

ndice de fiabilidad
Se utiliza para cuantificar el grado en que el tem est midiendo con precisin el atributo de
inters:
Donde:
11

lOMoARcPSD|378992
: desviacin tpica de las puntuaciones en el tem.

: ndice de discriminacin del tem.
Cuando se utiliza algn coeficiente de correlacin para calcular la discriminacin de los tems
(IDi):
La suma de los IF de los tems al cuadrado coincide con la varianza de las puntuaciones de los
sujetos en el test total. Adems, la fiabilidad de los tems se relaciona directamente con la del
test: cuanto mayor IF tengan los tems, mayor ser su sumatorio y por tanto mejor la fiabilidad
del test.
ndice de validez
El ndice de validez de un tem determina hasta qu punto contribuye cada tem a realizar con
xito predicciones sobre un criterio externo:
En el caso de que el criterio sea una variable continua y el tem una dicotmica, la correlacin a
utilizar sera la biserial-puntual, sin embargo, ahora no es necesario descontar de la
puntuacin total del criterio externo la del tem ya que no est incluida ah:
La validez del test total puede expresarse en funcin de los IV de los tems: cuanto mayores
sean los IV de los tems, ms optimizarn la validez del test. La fiabilidad del test total puede
expresarse como:
=1 =1
= =
=1 =1
En esta ecuacin se puede ver como la validez del test total se estima a partir de la
discriminacin de cada tem (rjx), de su validez (rjy) y de su dificultad (Sj=pjqj).
Comparacin entre tems
Anlisis de distractores
El anlisis de distractores (alternativas incorrectas) implica indagar en la distribucin de los
sujetos a lo largo de los distractores. Esto permitir detectar posibles motivos de la baja
discriminacin de algn tem o comprobar que algunas alternativas no son seleccionadas por
nadie.
Un primer paso del anlisis de distractores incluye:
Comprobar que todas las opciones incorrectas sean elegidas por un nmero mnimo
de sujetos es decir, que sean equiprobables o igualmente atractivas para personas
que no conocen la respuesta correcta.
Que el rendimiento en el test de los sujetos que han seleccionado cada alternativa
incorrecta sean mejor al de los sujetos que han seleccionado la correcta.
o A medida que aumenta el nivel de aptitud se espera que disminuya el
porcentaje de ellos que seleccionen la alternativa incorrecta y viceversa.
12

lOMoARcPSD|378992
Equiprobabilidad de distractores
Los distractores son equiprobables si son seleccionados por un mnimo de sujetos y son
igualmente atractivos para los que no conocen la respuesta correcta.
Este supuesto se puede comprobar mediante una prueba de independencia, por ejemplo, una
prueba 2 :

( )2
2 = ( 1 )

=1
Donde:
FT: frecuencias tericas.

FO: frecuencias observadas.
k: nmero de alternativas correctas.
La hiptesis nula es que FT=FO, lo que significa que para los sujetos que no conocen la
respuesta correcta la eleccin de los distractores es igualmente atractiva.
Tabla 6. Sujetos por nivel de aptitud.
A B* C
27% superior 19 53 28
46% intermedio 52 70 48
27% inferior 65 19 16
Total 136 - 92
Ejemplo: con los datos de la tabla anterior, aplicaremos la frmula para determinar si las
alternativas son igualmente atractivas.
En este ejemplo FT=(136+92)/2=114. Esto significa que cada distractor ha de ser seleccionado
por 114 sujetos (la mitad de los que han respondido incorrectamente al tem).
(114 136)2 (114 92)2

2 = + = 8,49
114 114
Si acudimos a las tablas de 2 encontramos que para 1 grado de libertad y un N.C. del 95%, el
valor terico de 2 es 3,84. Dado que el valor emprico obtenido (8,49) es superior al terico,
se rechaza la hiptesis nula y se acepta la alternativa, es decir, que las alternativas incorrectas
no son igualmente atractivas para todos los sujetos (aunque sean elegidas por un mnimo del
10%).
Poder discriminativo de los distractores

Si las alternativas son buenos distractores es lgico que discriminen en sentido contrario a
como lo hace la opcin correcta: se espera que la correlacin entre un buen distractor y las
puntuaciones del test sea negativa (la de la alternativa correcta es positiva). Esto significa que
a medida que aumenta el nivel de aptitud de los sujetos la proporcin de sujetos que eligen el
distractor disminuye.
En la figura 8.7 se puede ver un ejemplo de buen tem:
A medida que aumenta la nota de los sujetos, la opcin correcta (a) es seleccionada
cada vez ms (correlacin positiva).
13

lOMoARcPSD|378992
En los distractores (b y c), la tendencia es la contraria y por tanto discriminan al revs

que la alternativa correcta.
En la figura 8.7 vemos un ejemplo de mal tem:
La alternativa correcta (a) es seleccionada aproximadamente en la misma proporcin

por los sujetos poco competentes y muy competentes.
Con las alternativas incorrectas ocurre lo mismo: son seleccionadas igualmente por no-
aptos, aprobados y notables (discriminacin muy prxima a 0).
Adems, la opcin c apenas es elegido por nadie, lo que significa que es fcilmente
identificado como incorrecto por cualquier sujeto y debe ser revisado.
Para cuantificar el poder discriminativo de las alternativas incorrectas utilizaremos la

correlacin y, dependiendo del tipo de variable utilizaremos la biserial, biserial-puntual, phi o
Pearson.
Ejemplo: en las pginas 442 y 443 del libro de texto se puede ver un ejemplo de clculo de la
discriminacin de un distractor. El proceso es similar al clculo de la discriminacin de la
alternativa correcta, por lo que no se ha incluido aqu este ejemplo.
En ocasiones, basta con una inspeccin visual de la distribucin de respuestas de los sujetos a
las distintas alternativas. En la siguiente tabla se muestra el nmero de sujetos de los grupos
extremos que han seleccionado cada una de las alternativas de un tem, donde la c es la
correcta. Para cada alternativa se muestra la proporcin de sujetos que la han seleccionado
(p), la media en el test de los sujetos y el ndice de discriminacin (rbp) de cada una.
Tabla 7. Anlisis de distractores.
A B C*
Nivel de Superior 20 25 55
aptitud Inferior 40 35 25
p 0,28 0,50 0,22
Estadsticos media 5 10 9
rbp -0,20 0,18 0,29
De acuerdo con los criterios anteriores, se observa que la alternativa correcta (C) es elegida
mayoritariamente por los sujetos competentes, lo que se refleja en un ndice de discriminacin
positiva.
La alternativa incorrecta A ha sido elegida por pocos sujetos (28%) y es seleccionada en mayor
proporcin por los sujetos menos competentes (la media de esos sujetos en el test es 5). Este
resultado es coherente con el ndice de discriminacin negativo.
14

lOMoARcPSD|378992
Finalmente, el distractor B ha de ser revisado puesto que es el elegido como correcto por los
sujetos con mejores puntuaciones en el test. Adems, es la opcin ms seleccionada (50%), su
discriminacin es positiva y la media de los sujeto que la han seleccionado es superior a la de
los sujetos que han optado por la alternativa correcta.
El funcionamiento diferencial del tem

El funcionamiento diferencial del tem es si de manera sistemtica sujetos de distinto grupos
de pertenencia pero con el mismo nivel en el rasgo medido tienen distintas probabilidades
de xito en el tem en cuestin:
La interpretacin de las causas de dicho funcionamiento es el sesgo.

Si dichas diferencias son debidas a una diferencia real y no a fuentes sistemticas de
variacin entonces hablamos de impacto.
Impacto y funcionamiento diferencial del tem

Por ejemplo, se dice que un metro est sistemticamente sesgado si no proporciona la misma
pedida para dos objetos o clases de objetos que de hecho miden lo mismo, sino que
significativamente perjudica a uno de ellos.
En nuestro contexto, un tem estar sesgado si sujetos igualmente hbiles no tienen la misma
probabilidad e acertarlo por el hecho de pertenecer a subpoblaciones distintas. Este sesgo est
relacionado con la validez, ya que implica un error sistemtico (siempre en la misma
direccin): el rendimiento de alguna subpoblacin est afectado por alguna otra variable
extraa a la que se supone que mide el tem.
El FDI es la herramienta utilizada para detectar posibles tems sesgados. El FDI detecta que un
tem funciona de manera diferente en dos grupos con el mismo nivel de aptitud comparando
el rendimiento de grupos conformados por alguna variable externa (gnero, raza, nivel
econmico, etc.) pero no apunta las posibles causas.
El impacto se refiere a las diferencias reales entre grupos. Es lcito que el rendimiento de dos
grupos en un tem sea distinto y que ello se deba a diferencias en cuanto al nivel de
competencia de las subpoblaciones.
La diferencia entre FDI e impacto es que:
En el FDI las diferencias no son reales (se deben a motivos distintos al nivel de aptitud).
En el impacto las diferencias son reales, un grupo es ms hbil o apto que otro (p. ej.:
una clase de un colegio que ha recibido mejor instruccin que otra).
En el grfico se puede observar un test

sesgado: sujetos con el mismo riesgo de
suicido puntan en el test
diferencialmente en funcin de su grupo
de edad. Cuando el riesgo de suicidio es
alto (16), los jvenes puntan mucho
menos que los ancianos en el test, lo que
podra estar causando que los jvenes que
necesitan cierta ayuda psicolgica no la
reciban. Cuanto menos riesgo existe (2) es
cuando el test ofrece puntuaciones ms similares entre ambos grupos.
15

lOMoARcPSD|378992
El procedimiento de Mantel-Haenszel
El mtodo de mantel-Haenszel es uno de los ms utilizados para calcular el FDI. Para aplicar
Mantel-Haenszel:
En primer lugar hay que identificar una variable que sea la posible causante del FDI.
Una vez seleccionada, hemos de conformar dos grupos: uno de referencia (GR) y uno
focal (GF). El GR suele coincidir con el grupo favorecido y el GF por los perjudicados.
Luego se establecen distintos niveles de aptitud tomando la puntuacin emprica
obtenida en el test y, finalmente, se cuenta el nmero de respuestas correctas e
incorrectas por cada grupo en el nivel de habilidad i.
Este procedimiento se traduce en la siguiente hiptesis nula: un tem no presentar FDI si el

cociente entre los sujetos que aciertan el tem y los que lo fallan es el mismo para los dos
grupos en cada nivel de aptitud:

0 : =

Donde Ai, Bi, Ci y Di son las frecuencias absolutas de cada categora de habilidad i en la
siguiente tabla de contingencia:
Tabla 8. Tabla de contingencia Mantel-Haenscel.
Correctas Incorrectas
GR Ai Bi nRI
GF Ci Di NFI
n1j n0j Nj
Una vez confeccionadas las tablas anteriores (una para cada nivel de aptitud), se aplica el
estadstico de Mantel-Haenscel:

=1

=

=1

Los valores de este estadstico varan entre 0 e infinito: valores mayores que 1 indican que el
tem favorece al GR y menores al GF. Valores iguales o prximos a 1, indica que el tem no
presenta FDI.
Ejemplo: existen indicios de que un tem de las pruebas de acceso al PIR podra estar
perjudicando a los graduados por la UNED. Para investigar esta posibilidad se han conformado
5 grupos de aptitud a partir de las puntuaciones del examen de ingreso al PIR. Vamos a utilizar
el mtodo de Mantel-Haenszel para comprobar si dicho tem presenta FDI.
Tabla 9. Datos de ejemplo.
A NO-UNED (GR) UNED (GF)

Nota
Aciertos Fallos Aciertos Fallos
examen
0-4 2 7 0 9
5-10 15 51 8 21
11-15 25 48 21 80
16-20 67 14 50 35
16

lOMoARcPSD|378992
21-35 43 8 37 10
Los datos de esta tabla se organizan en 5 tablas de contingencia, una para cada nivel de
aptitud:
Tabla 10. Tabla de contingencia para el nivel de habilidad 0-4.
Aciertos Fallos
GR 1 7 nRI
GF 0 9 NFI
n1j n0j 18
Aciertos Fallos
GR 15 51 nRI
GF 18 51 NFI
n1j n0j 125
Aciertos Fallos
GR 25 48 nRI
GF 21 80 NFI
n1j n0j 174
Aciertos Fallos
GR 67 14 nRI
GF 50 35 NFI
n1j n0j 166
Aciertos Fallos
GR 43 8 nRI
GF 37 10 NFI
n1j n0j 98
Los datos de estas tablas se pueden sintetizar en la siguiente tabla para facilitar el clculo del
estadstico:

Nivel de aptitud

I (0-4) 1=(2x9)/18 0=(7x0)/18
II (5-10) 6,12 3,26
III (11-15) 11,49 5,79
IV (16-20) 14,13 4,22
V (21-35) 4,39 3,02
Total 37,13 16,29
Finalmente, se aplica la frmula:
17

lOMoARcPSD|378992

=1 37,13

= = = 2,28

=1 16,29

A la vista de estos resultados se puede concluir que el tem presenta FDI: el tem perjudica
sistemticamente a los psiclogos graduados por la UNED, por lo que habra que revisarlo o
substituirlo para evitar esta discriminacin.
18

lOMoARcPSD|378992
Psicometra | Tema 9: Asignacin, transformacin y equiparacin de las puntuaciones
Tema 9: Asignacin, transformacin y

equiparacin de las puntuaciones
Necesidad de transformacin de las puntuaciones para su
interpretacin
Cuando aplicamos un test (o conjunto de tests) a un sujeto, lo corregimos y le asignamos una
puntuacin que representa una descripcin cuantitativa del rasgo que estamos evaluando.
Ahora bien, cmo se interpreta esa puntuacin? Qu significado tiene? Los dos
procedimientos de interpretacin propuestos son: la interpretacin referida a la norma
(normativa) y la interpretacin referida al criterio (criterio).
En la interpretacin referida a la norma (o normativa), se compara la puntuacin obtenida por

un sujeto en un test con las obtenidas en el mismo test por un grupo de referencia o grupo
normativo. A las puntuaciones obtenidas por los sujetos del grupo normativo (y a sus
transformaciones) se les llama normas. El conjunto de todas las normas constituye el baremo
del test.
En la interpretacin referida al criterio (criterial) se trata de determinar el grado de dominio

que un sujeto tiene sobre un criterio prestablecido. Para ello se suele tomar una puntuacin de
corte que permita clasificar a los sujetos en dos grupos: los que dominan el criterio definido y
los que no lo dominan. El referente en este caso ya no es un grupo normativo sino un criterio
previamente establecido.
Transformacin de las puntuaciones en los tests referidos a

normas
Para hacer una interpretacin normativa es necesario seleccionar de la poblacin objeto de
estudio una muestra representativa a la que se aplica el test (o tests) para obtener las normas.
Una vez establecidas las normas se puede comprar la puntuacin obtenida por un sujeto
perteneciente a la misma poblacin para interpretarla: saber cul es su posicin respecto a la
del grupo normativo.
A partir de las puntuaciones directas de los sujetos que forman el grupo normativo se pueden
obtener otras escalas, mediante una serie de transformaciones, que permitan una mejor
interpretacin de las mismas. Estas transformaciones pueden ser de dos tipos:
Lineales: escala de puntuaciones tpicas o escala de puntuaciones tpicas derivadas.

No lineales: rangos percentiles, escalas tpicas normalizadas y escala de puntuaciones
derivadas normalizadas.
Transformaciones lineales
Escalas tpicas
Las puntuaciones tpicas se obtienen a partir de la puntuacin emprica directa obtenida por
un sujeto en un test (X) restndole la media del grupo de referencia () y dividiendo por la
desviacin tpica del grupo de referencia ( ):

lOMoARcPSD|378992
La puntuacin tpica nos indica el nmero de desviaciones tpicas a las que se encuentra la
puntuacin de un sujeto respecto de la media del grupo normativo (p. ej.: si la media obtenida
por una muestra de sujetos es 9 con desviacin tpica 4 y la puntuacin tpica de un sujeto es 2,
esto quiere decir que la puntuacin directa que ha obtenido el sujeto est a dos desviaciones
tpicas por encimad e la media del grupo. Teniendo en cuenta que la desviacin tpica es 4, la
puntuacin directa del sujeto estar a 8 puntos de la media: 9 + 8 = 17 puntos).
Ejemplo: se aplica un test de razonamiento a una muestra de 400 sujetos. Sabiendo que la
media es 18 y la deviacin tpica es 3, calcular la puntuacin tpica de dos sujetos cuyas
puntuaciones directas en el test son 16 y 21:

16 18
1 = = = 0,67
3

21 18
2 = = = 17
3
Esto quiere decir que el primer sujeto est a 0,67 desviaciones tpicas por debajo de la media y
el segundo sujeto est una desviacin tpica por encima de la media.
La escala de puntuaciones tpicas tiene media 0 y desviacin tpica 1. La distribucin de

puntuaciones tpicas de una variable normal suele oscilar entre -3 y 3, lo que implica la
existencia de valores negativos y decimales. Una forma de evitar este inconveniente es la
utilizacin de las escalas tpicas derivadas.
Escalas tpicas derivadas

Las escalas tpicas derivadas se emplean para para evitar trabajar con puntuaciones negativas
o con decimales. Las escalas tpicas derivadas son transformaciones lineales de las escalas
tpicas: se multiplica la puntuacin tpica por una constante b (desviacin tpica de la nueva
escala) y se suma otra constante a (media de la escala resultante). Esta transformacin se
puede expresar como:
= +
Donde:
Y: puntuacin tpica derivada.

a: media de las puntuaciones en la nueva escala.
b: desviacin tpica de las puntuaciones en la nueva escala.
Zx: puntuacin tpica en la escala original.
Las transformaciones ms utilizadas son la escala D y la escala T.
Escala D
Se trata de una escala en la que la media es 50 y la desviacin tpica es 20:
= 50 + 20
Ejemplo: en el ejemplo anterior tendramos que:
1 = 0,67 = 50 + 20 (0,67) = 36,6 37

2 = 1 = 50 + 20 1 = 70

lOMoARcPSD|378992
Escala T
Se trata de una escala en la que la media es 50 y la desviacin tpica es 10:
= 50 + 10
Ejemplo: en el ejemplo anterior tendramos que:
1 = 0,67 = 50 + 10 (0,67) = 43,3 43

2 = 1 = 50 + 10 1 = 60
Inconvenientes de las escalas tpicas y tpicas derivadas

Las escalas tpicas y las escalas tpicas derivadas siguen presentando un problema: la aplicacin
de un test a distintas muestras dar lugar, seguramente, a valores distintos tanto de la media
como de la desviacin tpica y, en algunos casos, las distribuciones de las puntuaciones de los
sujetos no sern siempre iguales. Por ejemplo: una distribucin puede ser asimtrica positiva y
otra asimtrica negativa, lo que significara que hay que tener cuidado a la hora de comprar la
puntuacin de un sujeto con respecto a una muestra concreta, ya que los tipos de escalas que
acabamos de ver solamente representan una transformacin lineal de la escala pero no de la
formad e la distribucin. Este problema se puede resolver empleando las escalas tpicas
normalizadas.
Transformaciones no lineales
Rango de percentiles
Se define el percentil como la puntuacin del test que deja por debajo de s un determinado
porcentaje de casos del grupo normativo (p. ej.: si decimos que la puntuacin 40 equivale al
percentil 90, queremos decir que esa puntuacin deja por debajo al 90% de sujetos de la
muestra, es decir, es superior a la del 90% de los sujetos). El percentil nos proporciona una
idea de la posicin de un determinado sujeto dentro del grupo normativo y constituyen una
escala ordinal.
Para calcular los percentiles se aplica la siguiente expresin:
100 100
= ( + ( )) =

Donde:
Px Cx: porcentaje de sujetos que obtienen una puntuacin inferior a la puntuacin

directa X.
fb: frecuencia absoluta acumulada bajo el intervalo crtico.
fd: frecuencia absoluta dentro del intervalo crtico.
I: amplitud de los intervalos.
Xc: puntuacin del test correspondiente al centil Cx.
Li: lmite inferior del intervalo crtico.
fac: frecuencia acumulada al punto medio del intervalo donde se encuentra Xc.
Ejemplo: a continuacin se muestran las puntuaciones obtenidas por un grupo de sujetos en

una prueba de ortografa: 8, 6, 5, 7, 8, 9, 4, 3, 6, 9, 4, 2, 10, 6, 7, 5, 1, 2, 2, 5, 3, 7, 4, 5.
Si un sujeto obtiene 8 puntos en dicha prueba, qu percentil representa esa puntuacin?

lOMoARcPSD|378992
En primer lugar hay que ordenar las puntuaciones de menor a mayor y calcular la distribucin
de frecuencias acumuladas:
X 1 2 3 4 5 6 7 8 9 10
fd 1 3 2 3 4 4 3 2 2 1
fb 1 4 6 9 13 17 20 22 24 25
A continuacin aplicamos la frmula para el clculo del percentil:
100 100 2
= ( + ( )) = (20 + (8 7,5)) = 84
25 1
100 100
= = 21 = 84
25
Cmo obtenemos fac? Hay que tener en cuenta que en el intervalo 7,5-8,5 en el que se
encuentra la puntuacin directa 8 hay 2 sujetos, de manera que el punto medio es 8, por
debajo del cual habr un sujeto. Si a ese sujeto le aadimos todos los que hay en intervalos
inferiores (20) obtenemos un fac=20+1=21.
Este resultado significa que un sujeto que ha obtenido una puntuacin de 8 puntos deja por
debajo al 84% de los sujetos de la muestra.
Si queremos saber la puntuacin que corresponde a un sujeto que supera al X% de los sujetos
de la muestra, despejamos Xc y obtenemos la siguiente frmula:

= + ( )
100
Ejemplo: con los datos del ejemplo anterior, queremos saber la puntuacin que corresponde al
sujeto que deja por debajo al 60% de la muestra:
25 60 1
= + ( ) = 5,5 + ( 13) = 6
100 100 4
Este resultado significa que un sujeto que obtiene una puntuacin de 6 puntos deja por debajo
al 60% de la muestra.
Esta escala presenta las siguientes ventajas:
Es fcil de interpretar.
Podemos comprar las puntuaciones de un mismo sujeto en test distintos puesto que
su significado es el mismo independientemente del test aplicado y de la forma de la
distribucin de frecuencias.
Podemos comprar las puntuaciones de sujetos distintos en un mismo test.
Escalas tpicas normalizadas

Las puntuaciones tpicas normalizadas se obtienen a partir de los percentiles y se definen
como la puntuacin tpica que le corresponde a una puntuacin emprica obtenida por un

lOMoARcPSD|378992
sujeto en un test en una distribucin normal. Al emplear estas puntuaciones se asume que la
distribucin de las puntuaciones es normal por lo que si la distribucin se aleja mucho de una
distribucin normal se podran estar falseando los resultados.
Para obtener estas puntuaciones debemos partir de los percentiles y mediante la tabla de la
normal, buscar el valor de la puntuacin tpica Zn que le corresponde.
En la siguiente tabla se muestra:
En la primera fila, las puntuaciones directas de los sujetos, que representan el punto
medio de una distribucin de puntuaciones en la que la amplitud del intervalo es 1 (p.
ej.: la puntuacin directa 9 equivale al punto medio de un intervalo que incluye todos
los valores entre 8,5 y 9,5).
La segunda y tercera filas corresponden a la distribucin de frecuencias y las
puntuaciones tpicas respectivas que se obtienen como se indica a continuacin.
En la cuarta columna se muestran las frecuencias acumuladas hasta el punto medio
del intervalo (asumiendo que los sujetos en un intervalo se distribuyen
homogneamente de manera que hay el mismo nmero de sujetos por encima que
por debajo del punto medio).
En la quinta columna se han obtenido los percentiles correspondientes a los puntos
medios de los intervalos.
En la sexta columna se muestran las puntuaciones tpicas normalizadas, que son las
que se obtienen buscando la puntuacin tpica en las tablas de la normal. Si la
distribucin de las puntuaciones de nuestro ejemplo se hubieran ajustado a una
distribucin normal, estas puntuaciones seran iguales a las puntuaciones tpicas de la
tercera columna. En este caso se puede observar que esto no ocurre.
Tabla 1. Tabla resumen de los datos de ejemplo.
Frecuencias
Puntuacin
acumuladas
X Fa Zx Percentil tpica
al punto
normalizada
medio
10 1 1,95 24,5 98 2,05
9 2 1,53 23 92 1,39
8 2 1,11 21 84 0,99
7 3 0,69 18,5 74 0,64
6 4 0,34 15 60 0,25
5 4 -0,15 11 44 -0,15
4 3 -0,57 7,5 30 -0,52
3 2 -0,99 5 20 -0,84
2 3 -1,41 2,5 10 -1,28
1 1 -1,83 0,5 2 -2,05
Ejemplo: veamos cmo se obtienen los valores para el caso de una puntuacin emprica directa
X = 10:
( ) (10 5,36)
= 5,36; = 2,38; 1 = = 2,38 = 1,95


lOMoARcPSD|378992
100 100 2
= ( + ( )) = (24 + (10 9,5)) = 98
25 1
Para calcular la puntuacin tpica normalizada buscamos en la tabla de la normal el valor

correspondiente al percentil 98, es decir, el Z que deja por debajo un rea de 0,98. Este valor
es 2,05.
Escalas normalizadas derivadas

Al igual que suceda con las escalas tpicas, las escalas tpicas normalizadas presentan el
inconveniente de los valores negativos y decimales (lo cual es incmodo y puede dificultar la
interpretacin de los resultados). Estos inconvenientes se pueden resolver mediante la
transformacin de las puntuaciones tpicas normalizadas a puntuaciones tpicas normalizadas.
La escala normalizada derivada ms utilizada es la escala de estaninos o eneatipos. Consiste en

una escala de valores enteros y positivos de 9 unidades, del 1 al 9. Esta escala tiene media 5 y
desviacin tpica 2:
= 5 + 2
Ejemplo: calcular el estanino correspondiente a las puntuaciones a las siguientes puntuaciones
tpicas normalizadas:
1 = 0,25 1 = 5 + 2 1 = 5 + 2 0,25 = 5,5 6

2 = 0,64 2 = 5 + 2 2 = 5 + 2 0,64 = 6,28 7
Esta escala tiene el inconveniente de que se pierde bastante informacin al incluir en el mismo
eneatipo a sujetos con distintas puntuaciones distintas (p. ej.: en un test de aptitud dos sujetos
obtienen las puntuaciones 6 y 7 respectivamente. Adems, la puntuacin obtenida por el
primer sujeto corresponde al percentil 65 y la del segundo al percentil 74. La diferencia entre
ambas es notoria, sin embargo, a ambas puntuaciones les correspondera el estanino o
eneatipo 6).
Normas cronolgicas
Las normas cronolgicas con otro tipo de transformacin de las puntuaciones directas
obtenidas por un grupo de sujetos en un test. La interpretacin de la puntuacin obtenida por
un sujeto en un test se lleva a cabo con relacin a su edad y a la puntuacin media obtenida
por los sujetos de su edad.
Este tipo de escalas tienen varios inconvenientes:
No siempre es posible la comparacin de las puntuaciones de un mismo sujeto en

reas distintas puesto que a las mismas puntuaciones de edad pueden
corresponderles rangos percentiles diferentes y, por lo tanto, tener significados
distintos.
El significado de un ao de edad mental no es constante con el desarrollo evolutivo de
un nio: a medida que aumenta la edad cronolgica, la distancia entre un ao y el
siguiente disminuye, con lo que se dificulta su interpretacin.
o Por ejemplo, lo que ocurre con el desarrollo intelectual: durante la infancia se
produce un desarrollo rpido y constante que va decreciendo a medida que
llegamos a la adolescencia (p. ej.: las diferencias en razonamiento son mayores
entre los 8 y 9 aos de edad que entre los 15 y los 16 aos).

lOMoARcPSD|378992
Las normas cronolgicas ms utilizadas son la edad mental y el cociente intelectual.
El proceso de construccin de una escala de edad mental es el siguiente:
Seleccionar muestras de nios de los diferentes rangos de edad contemplados en el

test.
Aplicar el test a los nios de cada rango de edad, calculando la puntuacin media en
cada rango de edad.
Se construye una tabla en la que se asigna a cada edad la puntuacin media
correspondiente en el test.
Ejemplo: supongamos que en un test de razonamiento abstracto los nios de 9 aos obtienen
una puntuacin media de 25 puntos. Si aplicamos el test a un nio y este obtiene 25 puntos, se
le asignar la edad mental de 9 aos, independientemente de su edad cronolgica.
Debido a las razones expuestas, este tipo de escalas dan lugar a interpretaciones equvocas,
por lo que su utilizacin ha cado en desuso hoy en da.
Para la obtencin del cociente intelectual, se calcula la edad mental del sujeto y se divide por
su edad cronolgica, multiplicando por 100 el valor obtenido:

= 100

Donde CI es el cociente intelectual, EM es la edad mental y EC es la edad cronolgica.
De esta ecuacin se puede observar que:
El CI ser 100 para aquellos sujetos en los que su edad mental coincida con la
cronolgica.
El CI ser menor de 100 cuando exista un nivel de desarrollo intelectual ms bajo que
el promedio de su grupo.
El CI ser mayor de 100 cuando exista un nivel de desarrollo intelectual ms alto que el
promedio de su grupo.
Esta escala es poco recomendable debido a los inconvenientes que presenta: es poco
discriminativo para adultos debido a que la edad mental medida por los tests se estabiliza a
partir de una determinada edad cronolgica (con lo que se produce el efecto de techo). Otro
inconveniente es que las distribuciones de cocientes intelectuales para distintas edades no
presentan la misma desviacin tpica, lo que implica que el mismo cociente intelectual no
proporciona la misma posicin relativa en las distribuciones de distintas edades.
Equiparacin de puntuaciones
La equiparacin de las puntuaciones de dos o ms tests es el proceso mediante el cual se
establece una correspondencia entre las puntuaciones de dichos tests, de tal manera que sea
indistinto el empleo de uno u otro test, puesto que las puntuaciones de cualquiera de ellos se
podrn expresar en trminos de las del otro test.
Ejemplo: una empresa anuncia una convocatoria para cubrir una serie de puestos de trabajo y,
dado que el nmero de candidatos es muy elevado, decide realizar las pruebas en diferentes
das. Una vez hechas las pruebas vemos que Juan, que realiz la prueba el primer da, obtiene
una puntuacin superior a la de Pedro, que realiz la prueba el segundo da. Las diferencias
pueden deberse a que Juan tiene una preparacin superior a la de pedro pero tambin pueden

lOMoARcPSD|378992
deberse a que la primera prueba es ms sencilla que la segunda, en cuyo caso Juan (y los
aspirantes del primer da) estara jugando con ventaja. El proceso de equiparacin puede
resolver estos problemas. Si este proceso se lleva a cabo correctamente podemos conocer si
las diferencias encontradas son atribuibles a una mayor sencillez de la prueba del primer da o
a una mayor preparacin de Juan.
Para establecer la equiparacin de tests tienen que cumplirse dos condiciones:
Que los tests midan el mismo constructo psicolgico.

Que los tests tengan la misma fiabilidad.
Los pasos a seguir para llevar a cabo la equiparacin son:
Definir el propsito de la equiparacin.

Construir formas diferentes del test.
Elegir un diseo para la recogida de datos.
Recogida de datos.
Determinar el mtodo a emplear para equiparar las puntuaciones.
Evaluar los resultados obtenidos.
A continuacin se describen los mtodos y diseos de equiparacin ms utilizados, conocidos

como equiparacin horizontal puesto hacen una equiparacin entre las puntuaciones
obtenidas en test que a priori se ha intentado construir con la misma dificultad. Si la
comparacin se lleva a cabo entre las puntuaciones obtenidas en tests que midiendo el mismo
rasgo tienen una dificultad distinta se denomina equiparacin vertical (p. ej.: establecer
comparaciones entre competencias que se incrementan con la edad, utilizando tests de
diferente dificultad en cada edad).
Diseos de equiparacin
Cuando se lleva a cabo un estudio de equiparacin, es conveniente que el nmero de sujetos
que se vaya a utilizar sea representativo de la poblacin a la que va a ir destinado el test.
Presentamos a continuacin los tres diseos ms utilizados: de un solo grupo, de grupos
equivalentes y de grupos no equivalentes con tems comunes.
Diseo de un solo grupo

En los diseos de un solo grupo se administran las dos formas del test (cuyas puntuaciones se
quieren equiparar) al mismo grupo de sujetos. Las dos formas del test deben medir la misma
caracterstica y presentar el mismo grado de dificultad.
Este diseo tiene un inconveniente: supongamos dos formas de un test X e Y. Si se presenta

primero la forma X y luego la Y, podra ser que las diferencias entre las puntuaciones obtenidas
por los sujetos en cada forma fueran debidas al cansancio o bien podra deberse a que el orden
de presentacin influye.
Debido a que no siempre se puede asegurar que no se presenten estos efectos, es ms

aconsejable utilizar una variante de este diseo: el diseo de un solo grupo contrabalanceado.
Una de las formas de poder evitar los posibles efectos en el orden de presentacin de las dos
formas es el contrabalanceo: se divide a los sujetos en dos subgrupos iguales y a continuacin
se administra a ambos subgrupos las dos formas del test en orden inverso (al primer grupo se
le aplica primero X y luego Y; al segundo grupo se le aplica primero Y y luego X). De esta
manera podemos asegurar que ambas formas se vern afectadas igualmente por los efectos
mencionados anteriormente.

lOMoARcPSD|378992
Diseo de grupos equivalentes

En el diseo de grupos equivalentes se extraen de la poblacin dos muestras aleatorias de
sujetos, y a cada una se le aplica una forma del test (cada sujeto responde solo a una de las
formas). Es importante que los grupos sean equivalentes en la aptitud que mide el test.
Otra forma posible para obtener muestras aleatorias y equivalentes puede ser alternar las
formas en cada grupo, de tal manera que el primer sujeto recibe la forma X, el segundo la Y, el
tercero la X, y as sucesivamente. Este diseo presenta la ventaja (al igual que el
contrabalanceo) de que se evitan los efectos de fatiga, aprendizaje u orden de aplicacin.
Diseo de grupos no equivalentes con tems comunes

El diseo de grupos no equivalentes con tems comunes (tambin denominado diseo de
anclaje) se puede considerar el diseo ms utilizado para llevar a cabo la equiparacin de las
puntuaciones de distintos tests.
Este diseo se caracteriza porque:
A cada una de las muestras de sujetos se les administra solamente una forma del test
(X o Y).
Las muestras no tienen por qu ser equivalentes entre s.
A cada muestra se le aplica adems, un test comn (Z) o test de anclaje, que permite
establecer las diferencias entre los tests a equiparar.
Es decir, cada sujeto contesta un test diferente (X Y) y un test comn, que se conoce como
test de anclaje.
Este diseo presenta dos posibles modalidades:
1) Utilizando un conjunto de tems comunes (tems de anclaje) a ambos tests que

aparecen intercalados con el resto de los tems propios de las dos formas X e Y, cuyas
puntuaciones se quieren equiparar. En este caso, las puntuaciones obtenidas en los
tems comunes se incluyen en la puntuacin total de los sujetos en el test.
2) Utilizando un test de anclaje externo, de manera que los tems comunes aparecen
formando un test independiente y las puntuaciones obtenidas por los sujetos en ese
test no se utilizan en el cmputo de la puntuacin total de los sujetos en las formas a
equiparar.
En ambas modalidades los tems comunes deben ser lo ms parecidos posibles a los de las dos
formas, aunque no es una condicin imprescindible.
Tambin se debe de pensar el nmero de tems comunas a emplear: la experiencia dice que el
nmero de tems comunes debera ser al menos el 20% de la longitud de un test compuesto
por 40 tems; si el test est formado por un elevado nmero de tems, la utilizacin de 30 tems
comunes puede resultar suficiente. Tambin se debe tener en cuenta el mayor o menor grado
de heterogeneidad del test.
Las diferencias que se pueden presentar entre las puntuaciones obtenidas en ambas formas
pueden ser debidas a las diferencias entre ambos grupos de sujetos, o bien a las diferencias
entre ambas formas. En el siguiente ejemplo se puede ver la forma de comprobar si las
diferencias son debidas a una causa o a la otra.

lOMoARcPSD|378992
Grupo Forma X Forma Y tems comunes

1 59 - 9 (60%)
2 - 70 12 (80%)
Ejemplo: supongamos que aplicamos las formas X e Y de un test compuesto por 80 tems, de
los cuales 16 son comunes a ambas formas, a dos grupos de sujetos. En la tabla anterior
aparecen las medidas obtenidas por ambos grupos en la forma aplicada y en los tems
comunes.
Los valores de las medias obtenidos por ambos grupos en los tems comunes nos sugieren que
el nivel de conocimiento del grupo 2 es superior al del grupo 1: el grupo 2 contest
correctamente a un 20% ms de tems comunes que el grupo 1.
La segunda cuestin que nos planteamos es si las diferencias obtenidas entre ambos grupos de
sujetos son debidas a las diferencias entre ambas formas. Para responder a esta pregunta nos
podemos plantear cual hubiera sido la puntuacin media del grupo 2 si le hubisemos aplicado
la forma X. El grupo 2 contest correctamente a un 20% ms de tems comunes que el grupo 1,
de manera que podramos pensar que el grupo 2 contestar correctamente un 20% ms de
tems en la forma X (teniendo en cuenta que el test tiene 80 tems, el 20% seran 16) que el
grupo 1. En base a este razonamiento, su puntuacin sera 59 + 16 = 75. El grupo 2 tiene una
puntuacin media en la forma Y de 70 puntos y su puntuacin esperada en la forma X es de 75
puntos, luego, la forma X, aparentemente es ms fcil que la forma Y.
Mtodos de equiparacin
En este apartado se presentan los mtodos de equiparacin ms utilizados para la obtencin
de puntuaciones equivalentes a partir de test distintos que evalan el mismo rasgo psicolgico.
Mtodo de la media
En el mtodo de la media se asume que las puntuaciones de uno de los test difieren en una
cuanta constante de las puntuaciones del otro test. Este mtodo pretende hacer
corresponder las medias de los test a equiparar.
Sean X e Y dos test distintos cuyas puntuaciones queremos equiparar, para toda puntuacin X
podemos establecer que:
= = +
Donde:
X*: puntuacin del test Y equivalente a una del test X.

X: puntuacin del test X.
Y: puntuacin del test Y.
: puntuacin media del test X.
: puntuacin media del test Y.
Ejemplo: supongamos que dos tests X e Y con medias 65 y 70 respectivamente. Segn el

mtodo de la media tendramos que sumar 5 puntos a toda puntuacin X para poder equiparar
las puntuaciones de ambos tests (o restar 5 puntos a cada puntuacin del test Y). Con este
mtodo, una puntuacin de 60 puntos en el test X se equiparara a una puntuacin de 65
puntos en el test Y.
10

lOMoARcPSD|378992
= = + = 60 65 + 70 = 65
Mtodo lineal
Al contrario que el mtodo de la media, que asume que las diferencias entre las puntuaciones
obtenidas por los sujetos en ambos tests es constante, en el mtodo lineal se asume que las
diferencias entre las puntuaciones pueden variar (p. ej.: las puntuaciones bajas del test
pueden ser mayores que las encontradas entre las puntuaciones altas).
Este mtodo se basa en la equiparacin de aquellas puntuaciones directas que tienen la

misma puntuacin tpica. Es decir, una determinada puntuacin del test Y, es equivalente a
una puntuacin del test X, si ambas puntuaciones tienen idntica puntuacin Z (Zx=Zy):

= = =

Despejando:

= = ( ) +

O bien:
= ( ) +
Donde:
X*: puntuacin del test X equivalente a una puntuacin del test Y.

S{x|y}: desviaciones tpicas de los test X e Y.
X: puntuacin del test X.
b= : puntuacin media del test X.
c= : puntuacin media del test Y.

a= : cociente entre las desviaciones tpicas.

Ejemplo: supongamos que se aplica a una muestra de sujetos un test de razonamiento

numrico y la media de las puntuaciones es 38 y la desviacin tpica 5. A una segunda muestra
le aplicamos un test Y, tambin de razonamiento numrico, siendo la media de las
puntuaciones igual a 46 y la desviacin tpica 7.
Las dos muestras, extradas de la misma poblacin, son equivalentes. Deseamos saber qu
puntuacin en el test Y sera equivalente a una puntuacin de 40 puntos en el test X:
7
= = ( ) + = (40 38) + 46 = 48,8
5
En este ejemplo se ha aplicado a cada grupo de sujetos una forma distinta del test, es decir,
sera la situacin del diseo de grupos equivalentes.

Si se utilizase un diseo de un solo grupo, al que se administran los dos test cuyas
puntuaciones se desean equiparar, subdividido en dos grupos (a uno se le presenta primero X
y luego Y y al otro primero Y y luego X), la transformacin lineal se expresara de la siguiente
manera:
11

lOMoARcPSD|378992
2 2
1 + 2 1 + 2 1 + 2
== 2 2 ( )+
1 + 2 2 2
El subndice 1 hace referencia a los valores obtenidos en el subgrupo 1 (subgrupo al que se

aplic primero el test X y luego el Y) mientras que subndice 2 hace referencia a los valores
obtenidos en el subgrupo 2 (subgrupo al que se aplic primero el test Y y luego el X).
Ejemplo: supongamos que se selecciona de una poblacin una muestra aleatoria y, una vez
dividida en dos subgrupos equivalentes se aplica:
Al primer grupo:
Primero un test de razonamiento numrico X obteniendo una media de 38
puntos y una desviacin tpica de 5.
Despus un test de razonamiento numrico Y obteniendo una media de 46
Al segundo grupo:
Primero un test de razonamiento numrico Y obteniendo una media de 44
Despus un test de razonamiento numrico X obteniendo una media de 40
Deseamos saber que puntuacin en el test Y sera equivalente a la puntuacin 37 obtenida por
un sujeto en el test X:
2 2

1 + 2 1 + 2 1 + 2 7 2 + 62 38 + 40 46 + 44
== 2 2 ( )+ = 2 (37 )+
1 + 2 2 2 5 + 82 2 2
= 43,04
Diseo de anclaje
En tercer lugar, si se hubiera utilizado un diseo de anclaje en el que se cuenta con dos grupos
de sujetos a cada uno de los cuales se les administran dos tests X e Y, adems de un test de
anclaje (Z) comn. Como hemos dicho, las diferencias obtenidas por los sujetos pueden ser
debido a que difieren en el rasgo medido o bien a que los tests utilizados tienen niveles de
dificultad diferentes.
En este caso la transformacin lineal sera:
2 2 2 2
2 + 2 ( 2 )
== [ (1 + 1 ( 1 ))] + [2 + 2 ( 2 )]
2 2 2 2
1 + 1 ( 1 )
[ ]
Donde:
X*: puntuacin del test X equivalente a una puntuacin del test Y.

2
1 : varianza de las puntuaciones en el test X (aplicado al grupo 1).
2
1 : pendiente de la recta de regresin de X sobre Z (en el grupo 1):

o 1 = 1 1
1
2 : varianza de las puntuaciones del test Z (calculada sobre el conjunto de sujetos de
los grupos 1 y 2).
12

lOMoARcPSD|378992
2 1 : varianza de las puntuaciones del test Z (calculada sobre el conjunto de sujetos del
grupo 1).
2 2 : varianza de las puntuaciones del test Z (calculada sobre el conjunto de sujetos del
grupo 2).
2
2 : pendiente de la recta de regresin de Y sobre Z (en el grupo 2):
2
o 2 = 2
2
X: puntuacin directa del test X.
1 : media de las puntuaciones en el test X (aplicado al grupo 1).
: media de las puntuaciones en el test Z, calculada sobre los sujetos de los grupos 1 y
2.
1 : media de las puntuaciones en el test Z, calculada sobre los sujetos del grupo 1.
2 : media de las puntuaciones en el test Z, calculada sobre los sujetos del grupo 2.
2 : media de las puntuaciones en el test Y (aplicado al grupo 2).
Test X Test Y Test Z

1 = 11 2 = 12,5 2 = 9,5
1 = 0,80 2 = 0,95 2 1 = 10
1 = 74 2 = 79 2 2 = 11
= 15,5
1 = 14
2 = 17
Ejemplo: supongamos que se dispone de dos formas X e Y de un test de fluidez verbal

compuesto por 100 tems de eleccin mltiple y de un test de anclaje Z compuesto por 20
tems. Se aplica cada forma del test a un grupo de sujetos junto con el test Z. La tabla anterior
muestra los datos correspondientes a las dos formas del test y al test de anclaje. Deseamos
saber qu puntuacin en el test Y sera equivalente a la puntuacin 85 obtenida en el test X.
2 2 2 2
2 + 2 ( 2 )
== [ (1 + 1 ( 1 ))] + [2 + 2 ( 2 )]
2 2 2 2
1 + 1 ( 1 )
[ ]
12,5 + 0,95 (9,52 112 )
2 2
= [85 (74 + 0,80 (15,5 14))]

112 + 0,802 (9,52 102 )
[ ]
+ [79 + 0,95 (15,5 17)] = 1,06 (85 75,2) + 77,6
Mtodo equipercentil
El mtodo equipercentil es el mtodo de comparacin ms habitual y consiste en equiparar
aquellas puntuaciones cuyos percentiles son iguales (p. ej.: supongamos que a un sujeto que
obtiene una puntuacin directa de 25 en un test X de fluidez verbal le corresponde un
percentil de 70, y a otro sujeto que obtiene una puntuacin directa de 29 en otro test Y de
fluidez verbal le corresponde tambin el percentil 70. En este caso podremos decir que una
puntuacin directa de 25 en el test X equivale a una puntuacin directa de 29 en el test Y).
Los pasos a seguir para llevar a cabo el proceso de equiparacin percentil son:
13

lOMoARcPSD|378992
Tenemos dos tests X e Y cuyas puntuaciones queremos equiparar. En primer lugar,

calculamos las puntuaciones percentiles que corresponden a cada una de las
puntuaciones de ambos tests, aplicando la frmula vista en el apartado Rango de
percentiles:
100 100
= ( + ( )) =

Donde:
Px Cx: porcentaje de sujetos que obtienen una puntuacin inferior a la

puntuacin directa X.
fb: frecuencia absoluta acumulada bajo el intervalo crtico.
fd: frecuencia absoluta dentro del intervalo crtico.
I: amplitud de los intervalos.
Xc: puntuacin del test correspondiente al centil Cx.
Li: lmite inferior del intervalo crtico.
fac: frecuencia acumulada al punto medio del intervalo donde se encuentra Xc
En segundo lugar, representamos grficamente las dos distribuciones de percentiles.
Para ello, en el eje de abscisas ponemos las puntuaciones del test X en del test Y,
mientras que en el eje de ordenadas ponemos los rangos percentiles. A continuacin
dibujamos la curva correspondiente a cada test.
En tercer lugar, obtenemos las puntuaciones equivalentes en los dos tests X e Y a
partir del grfico anterior. En este caso representamos la segunda forma descrita.
Puntuacin directa Test X Test Y

1 3 3
2 5 5
4 10 14
6 20 26
8 29 40
10 43 57
12 61 72
14 75 82
16 87 91
18 98 97
20 99 99
Ejemplo: en la tabla anterior se presentan las puntuaciones percentiles correspondientes a un

grupo de sujetos en dos formas (X, Y) de un test de razonamiento compuesto por 0 tems.
14

lOMoARcPSD|378992
En el grfico se puede ver como a una puntuacin X = 14 le corresponde, aproximadamente,

una puntuacin equivalente a X*=12,8: a partir de la lnea de puntuacin 14 se traza una lnea
perpendicular hasta cortar con la curva de la distribucin de percentiles del test X; en dicho
punto se traza una lnea perpendicular hasta cortar con la curva de distribucin de percentiles
del test Y; finalmente se traza una lnea perpendicular hasta cortar el eje de abscisas y
determinamos la puntuacin equipercentil equivalente, en este caso 12,8. El mismo proceso se
realizara con el resto de componentes.
El proceso sera el mismo para diseos de un solo grupo y diseo de grupos equivalentes. El
diseo de anclaje presenta una mayor complejidad y no se aborda aqu.
El error tpico de equiparacin

El proceso de equiparacin de puntuaciones conlleva un error aleatorio. Se define el error
tpico de equiparacin como la desviacin tpica de las puntuaciones transformadas a la
escala Y, que se corresponden a un valor concreto de un test X:
= ( )
Diseo de grupos equivalentes

El error tpico de medida se puede expresar como:
2 2
= ( 2 + 2)
1 + 2
Donde:
1 y 2 : nmero de sujetos en ambas muestras.

2 : puntuacin tpica correspondiente al valor de X*:

=

2 : varianza de las puntuaciones en el test Y.
A medida que las puntuaciones equiparadas se alejan de la media, el error tpico es mayor.
Ejemplo: supongamos que a una muestra de 50 sujetos se aplica un test X de percepcin del
color, donde la media de las puntuaciones en el test es 20 y la desviacin tpica es 4. A una
segunda muestra de 50 sujetos se le aplica un test Y de percepcin del color, donde la media
es 25 y la desviacin tpica es 6. Las dos muestras han sido extradas de la misma poblacin y
son equivalentes.
15

lOMoARcPSD|378992
Deseamos saber: qu puntuacin en el test Y sera equivalente a una puntuacin 30 obtenida

por un sujeto en el test X y cul es el error tpico de equiparacin cometido.
6
= = ( ) + = (30 20) + 25 = 40
4
2 2 2 36 40 20 2
= (2 + 2) = (( ) + 2) = 4,41
1 + 2 50 + 50 4

2 (1 ) [2 (1 + ) + 2]
=

Donde:
: nmero de sujetos en la muestra.

2 : puntuacin tpica correspondiente al valor de X*.
: correlacin entre ambos tests.
2 2
(1 + 2 )
2 : varianza de las puntuaciones obtenidas en el test Y: 2 = 2
Ejemplo: seleccionamos una muestra aleatoria de 50 sujetos y la dividimos en dos subgrupos,
de manera que al primero le aplicamos primero un test X de aritmtica (obteniendo una media
de 35 y una desviacin tpica de 5) y luego un test Y tambin de aritmtica (obteniendo una
media de 40 y una desviacin tpica de 6). Al segundo grupo le aplicamos los mismos tests pero
en orden inverso, de manera que la media en el test Y es 41, con desviacin tpica 6, y la media
en el test X es 38, con desviacin tpica 7. La correlacin entre ambos tests es 0,70 y los valores
totales del test son: = 36,5, = 40,5, = 6.
Deseamos saber que puntuacin en el test Y sera equivalente a la puntuacin 50 obtenida en

el test X y cul es el erro tpico de equiparacin obtenido.
2 2
1 + 2 1 + 2 1 + 2 6 2 + 62 35 + 38 40 + 41
== 2 2 ( )+ = 2 2
(40 )+
1 + 2 2 2 5 +7 2 2
= 44
44 36,5 2
2 (1 ) [2 (1 + ) + 2] 36 (1 0,80) [( 6
) (1 + 0,80) + 2]
= =
50
= 0,83
Diseo de anclaje
2 2 (1 2 ) [2 (1 + 2 ) + 2]
=

Donde:
16

lOMoARcPSD|378992
1 2
= =

1 : es la pendiente de la recta de regresin de X sobre Z, determinada en el grupo 1.

2 : es la pendiente de la recta de regresin de Y sobre Z, determinada en el grupo 2.
Ejemplo: utilizando los datos del ejemplo utilizado para el diseo de anclaje (N=100)
calculamos que la puntuacin equivalente en el test Y de un sujeto que en el test X obtuvo una
puntuacin de 85 es 93.
1 2
= = = 0,072

93 74
= = 1,27
11
2 2 (1 2 ) [2 (1 + 2 ) + 2]
=

2 156,25 (1 0,005) [1,61(1 + 0,005) + 2]

= = 3,35
100
El manual del test

Hasta ahora hemos visto aquellos aspectos psicomtricos necesarios para la elaboracin de un
test. De todas estas consideraciones se puede concluir que un test se utiliza para obtener unas
puntuaciones que hemos de interpretar y dotar de significado psicolgico. Esto conlleva la
necesidad de proporcionar una informacin a los usuarios de modo que puedan dar una
significacin adecuada a la puntuacin obtenida por un sujeto en el test. Esta necesidad
implica que junto con el test se incluya el manual del test, imprescindible para llevar a cabo
una ptima comprensin y aplicacin del test.
Este manual, que debe de tener una finalidad prctica, debe contener todos los datos que
hacen de l un instrumento cientfico. Estos datos se pueden agrupar en cuatro categoras: la
especificacin, la descripcin, la justificacin y las referencias bibliogrficas.
La especificacin del test

Hace referencia a la denominacin y clasificacin del test. La clasificacin se puede subdividir
en funcin del constructo que queremos evaluar, la forma en que se presenta el material que
se emplea en el test (impreso o manipulativo) o segn el mtodo do de administracin de la
prueba (individual o colectivo).
La descripcin del test

Hace referencia a toda la informacin relativa a los fines y forma de aplicacin del test. Se
puede incluir una introduccin donde se explique el objetivo del test y sus principales
caractersticas. A mayores, resultar til saber si el test tiene relacin con otros tests similares
as como los antecedentes y desarrollo del test.
En segundo lugar se especificar el campo de aplicacin al que va dirigido el test (reas de

aplicacin etc.). En tercer lugar consideramos la descripcin detallada del material que incluye
(el propio test y sus partes, material auxiliar como lpices, cronmetros, etc.) En cuarto lugar
17

lOMoARcPSD|378992
debemos incluir un punto muy importante las instrucciones de aplicacin. Finalmente, se

incluir la informacin respecto a la forma de puntuar as como las plantillas de soluciones.
La justificacin
Con la justificacin se incluyen los datos cuantitativos y experimentales que justifican el uso
del test y que permiten la valoracin de sus resultados. Dentro de esta justificacin se incluye
toda la informacin relativa a la duracin de la prueba, la fiabilidad, validez y tipificacin del
test.
Referencias bibliogrficas
Se incluirn todas las referencias bibliogrficas que contengan cualquier tipo de informacin
referida al test.
18

Temas 1 9 Psicometria

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Temas 1 9 Psicometria

Uploaded by

Copyright:

Available Formats

lOMoARcPSD|378992

Temas 1-9 Psicometra

Su distribucin est prohibida | Descargado por Sidharta Galardi (descubriendoargentina.com@gmail.com)

Psicometra | Tema 1: Introduccin a la Psicometra

Tema 1: Introduccin a la Psicometra

Definicin: La Psicometra es una disciplina metodolgica, dentro del rea de la Psicologa,

La Psicometra deber ocuparse de:

La justificacin y legitimacin de la medicin psicolgica (Teora de la Medicin). Para

La Psicometra no se cie a un campo especfico si no que abarca todos los campos de la

La medicin consiste en un conjunto de normas para asignar nmeros a objetos de manera

Su distribucin est prohibida | Descargado por Sidharta Galardi (descubriendoargentina.com@gmail.com)

Psicometra | Tema 1: Introduccin a la Psicometra

La medicin Psicolgica tiene dos objetivos fundamentales:

Orgenes y vas de desarrollo de la Psicometra

Los mtodos de escalamiento

Hay dos supuestos bsicos en todos los mtodos de escalamiento:

La existencia de un continuo latente o subyacente sobre el que se distribuyen todos

Es posible escalar estmulos, sujetos o respuestas en funcin de qu queramos estudiar.

Desarrollo de los mtodos de escalamiento de estmulos

Mtodos de escalamiento Psicofsico

Su distribucin est prohibida | Descargado por Sidharta Galardi (descubriendoargentina.com@gmail.com)

Psicometra | Tema 1: Introduccin a la Psicometra

Este cambio mnimo en la sensacin es lo que se denomina diferencia apenas perceptible

En este escalamiento psicofsico se tienen dos continuos:

i. Un continuo fsico a lo largo del cual varan los estmulos.

La Ley de Fechner establece que:

Cuando la magnitud fsica del estmulo est en el umbral absoluto la sensacin es

El problema fundamental est en la obtencin experimental de los umbrales absoluto y

Su distribucin est prohibida | Descargado por Sidharta Galardi (descubriendoargentina.com@gmail.com)

Psicometra | Tema 1: Introduccin a la Psicometra

El procedimiento general para escalar consiste en presentar a una muestra de sujetos el

Mtodo de los lmites (o cambios mnimos)

Para calcular el umbral absoluto:

Mtodo de ajuste (o de error promedio)

Mtodo de los estmulos constantes

Este es el mtodo ms utilizado para el clculo de umbrales absoluto y diferencial.

Crticas a la ley de Fechner

Diferencias con Fechner:

Stevens desarroll mtodos directos de escalamiento ya que estos originan una

Su distribucin est prohibida | Descargado por Sidharta Galardi (descubriendoargentina.com@gmail.com)

Psicometra | Tema 1: Introduccin a la Psicometra

Los mtodos de escalamiento utilidades por Stevens ms destacables son:

Mtodos de emparejamiento por magnitudes:

Mtodos de emparejamiento por magnitudes

Mtodos por emparejamiento de razones

Su distribucin est prohibida | Descargado por Sidharta Galardi (descubriendoargentina.com@gmail.com)

Psicometra | Tema 1: Introduccin a la Psicometra

Mtodos por emparejamiento de intervalos

Un estmulo intermedio (biseccin).

Escalas de categoras o clasificacin

Mtodos de escalamiento Psicolgico

La figura ms representativa fue Thurstone, quien desarroll un modelo basado en:

Su distribucin est prohibida | Descargado por Sidharta Galardi (descubriendoargentina.com@gmail.com)

Psicometra | Tema 1: Introduccin a la Psicometra

La variabilidad perceptual de los sujetos (e incluso de un mismo sujeto).

Orgenes y desarrollo de los tests

Un test se puede definir de la siguiente manera: Un test es un instrumento de medicin

Hay tres factores decisivos en el desarrollo de los tests:

Galton y su estudio antropomtrico.

La importancia de los trabajos de Galton

Los primeros tests mentales

Desarrollo de los primeros test de inteligencia

Su distribucin est prohibida | Descargado por Sidharta Galardi (descubriendoargentina.com@gmail.com)

Psicometra | Tema 1: Introduccin a la Psicometra