Introduccionn A La Psicometria

Introduccin a la Psicometria - Androshonor
1
TEMA 1
INTRODUCCIN A LA PSICOMETRA

1
11.
..
O
OOR
RRI
II E
EEN
NNT
TTA
AAC
CCI
II O
OON
NNE
EES
SS D
DDI
II D
DD
C
CCT
TTI
II C
CCA
AAS
SS
Los dos caminos a travs de los cuales se fue desarrollando la Psicometra son:
- Estudios de Psicofsica Mtodos de Escalamiento de estmulos.
- Estudios de las Diferencias Individuales Mtodo de los Tests para el escalamiento de los sujetos.

2
22.
..
A
AAP
PPR
RRO
OOX
XXI
II M
MMA
AAC
CCI
II
N
NN A
AAL
LL C
CCO
OON
NNC
CCE
EEP
PPT
TTO
OO D
DDE
EE P
PPS
SSI
II C
CCO
OOM
MME
EET
TTR
RR
A
AA
El concepto de Psicometra est formado por las palabras griegas Psykhe y Metrum que significa
literalmente Medida de la Psykhe.
La Psicometra es una disciplina metodolgica, dentro del rea de la Psicologa, cuya tarea fundamental
es la medicin o cuantificacin de las variables psicolgicas con todas las implicaciones que ello conlleva,
tanto tericas (posibilidades y criterios de medicin) como prcticas (cmo y con qu se mide).
La Psicometra deber ocuparse de:

- La justificacin y legitimacin de la medicin psicolgica, para ello deber: a) desarrollar modelos
formales que permitan representar los fenmenos que se quieren estudiar y posibiliten la
transformacin de los hechos en datos. b) validar los modelos desarrollados para determinar en qu
medida representan la realidad que pretenden y c) establecer las condiciones que permitan llevar a
cabo el proceso de medicin.
- Las implicaciones prcticas y aplicadas que dicha medicin conlleva: proporcionando los mtodos
necesarios que indiquen, en cada caso concreto, cmo se debe llevar a cabo la cuantificacin, y
construyendo los instrumentos necesarios y adecuados para poder efectuarla.

La Psicometra no tiene un campo de actuacin especfico, sino que abarca todos los campos de la
Psicologa. Juega un papel importantsimo y que contribuye a fundamentar, elaborar y contrastar todas las
teoras psicolggicas.

3
33.
..
L
LLA
AA P
PPS
SSI
II C
CCO
OOM
MME
EET
TTR
RR
A
AA E
EEN
NN E
EEL
LL M
MMA
AAR
RRC
CCO
OO D
DDE
EE L
LLA
AA M
MME
EET
TTO
OOD
DDO
OOL
LLO
OOG
GG
A
AA D
DDE
EE L
LLA
AA P
PPS
SSI
II C
CCO
OOL
LLO
OOG
GG
A
AA C
CCO
OOM
MMO
OO C
CCI
II E
EEN
NNC
CCI
II A
AA D
DDE
EEL
LL
C
CCO
OOM
MMP
PPO
OOR
RRT
TTA
AAM
MMI
II E
EEN
NNT
TTO
OO
La Psicometra pertenece al rea denominada Metodologa de las Ciencias del Comportamiento. La
Metodologa estudia las estrategias y procedimientos que, de una forma ms o menos etructurda, se utilizan
para la obtencin de los conocimientos que constituyen una disciplina cientfica. Por otra parte, las Ciencias
del Comportamiento son aquellas que estudian la conducta mediante la utilizacin del mtodo cientfico, con
el fin de encontrar estructuras generales o leyes. El trmino Conducta se refiere a la actividad de un
organismo ante una situacin concreta que estar determinada biolgica y socialmente.
Las Tcnicas metdicas son aquellas estrategias y tcnicas complementarias que permiten estudiar y
tratar de solucionar los problemas que se le plantean a la Psicologa.

Los Diseos de Investigacin se refieren fundamentalmente a aquella faceta de la investigacin
cientfica cuya tarea fundamental es la operativizacin de las variables de la hiptesis y la elaboracin de un
plan de trabajo, o procedimiento para la recogida de datos, que sea coherente con la hiptesis. Este
concepto est esencialmente vinculado a la eleccin y especificacin del procedimiento para la obtencin de
los datos relevantes para la hiptesis. Es necesario analizar la naturaleza de las variables, sus posibilidades
de manipulacin, la eleccin de aquellas que sean de inters para la investigacin objeto de estudio, la
deteccin de variables extraas y formas de control, criterios de seleccin y asignacin de unidades de
observacin, estructuracin interna del procedimiento con delimitacin de situaciones, tareas, etc.

El Anlisis de datos, hace referencia a las tcnicas necesarias para llevar a cabo el tratamiento
estadstico de los mismos, tratamiento que puede ir desde la simple descripcin o representacin grfica a
procedimientos ms complejos de ajuste de modelos o contrastes de hiptesis.
La Psicometra hace una adaptacin del mtodo cientfico orientado al estudio de la Psicologa.
Proporciona las reglas que van a permitir llevar a cabo el proceso de operativizacin de las variables que se
quieren medir. Una vez obtenidas las medidas mediante la asignacin de nmeros, los modelos
psicomtricos permitirn un anlisis del error que las afecta (fiabilidad de las medidas) y los estudios de
validacin permitirn hacer inferencias acerca de las relaciones entre los datos empricos obtenidos
(medidas) y el constructo o variable psicolgica que se puede medir.


2

4
44.
..
L
LLA
AA M
MME
EED
DDI
II C
CCI
II
N
NN P
PPS
SSI
II C
CCO
OOL
LL
G
GGI
II C
CCA
AA
De acuerdo con Coombs, Dawes y Tversky (1981) se considera que uno de los papeles fundamentales
asignados a la Ciencia es la descripcin, explicacin y prediccin de los fenmenos observables por medio
de unas cuantas leyes generales que expresen las relaciones entre las propiedades de los objetos
investigados. En las ciencias ms avanzadas las leyes expresan relaciones cuantitativas, lo cual indica que
las propiedades de los objetos se pueden representar por medio de nmeros mediante un proceso de
medicin.
Para Nunnally, la medicin consiste en un conjunto de normas para asignar nmeros a los objetos de
modo tal que estos nmeros representen cantidades de atributos, entendiendo por atributos las
caractersticas de los objetos y no los objetos mismos. La medicin conlleva un proceso de abstraccin. La
medicin se toma como la asignacin de nmeros a entidades o eventos con el fin de representar sus
propiedades y sus relaciones.
La medicin de las caractersticas psicolgicas se trata de medir conceptos abstractos, constructos
tericos (o variables latentes) cuya medicin no puede llevarse a cabo de forma directa sino que debe
inferirse a travs de la medicin de una serie de conductas representativas de dicho constructo. As, para
Zeller y Carmines la medicin es un proceso mediante el cual se enlazan conceptos abstractos (los
constructos inobservables directamente) con indicadores empricos observables directamente (las
conductas). Este tipo de medicin se llama medicin por indicadores.

Hay dos formas de afrontar el problema de las unidades de medida a la hora de interpretar las
puntuaciones obtenidas por los sujetos, una referida a:

- Las normas: es la forma ms habitual. Consiste en comparar los resultados obtenidos por ese nio
con los obtenidos por un grupo de nios que forman el grupo normativo de la misma poblacin.
- Al criterio: Se interpreta en relacin a un criterio establecido previamente. Los resultados obtenidos
se comparan con dicho criterio (un punto crtico) y la superacin o no del mismo es lo que va a dar
significado a las puntuaciones obtenidas.

La medicin psicolgica tiene una serie de objetivos comunes sea cual sea el campo de estudio:
- Estimar los errores aleatorios que conlleva toda medicin (fiabilidad de las medidas)
- Garantizar que la misma no es algo intil sino que sirve para explicar y predecir los fenmenos de
inters (validez de las medidas)

5
55.
..
O
OOR
RR
G
GGE
EEN
NNE
EES
SS Y
YY V
VV
A
AAS
SS D
DDE
EE D
DDE
EES
SSA
AAR
RRR
RRO
OOL
LLL
LLO
OO D
DDE
EE L
LLA
AA P
PPS
SSI
II C
CCO
OOM
MME
EET
TTR
RR
A
AA
Existieron dos motivos fundamentales que posibilitaron la introduccin de la medicin en Psicologa.
- La tendencia a formular los problemas cientficos en trminos matemticos
- El enfrentamiento de la Psicologa, hacia la mitad del siglo XIX, con dos problemas fundamentales:

a) El problema psicofsico: el estudio cuantitativo de las relaciones entre las caractersticas
fsicas de los estmulos y las sensaciones que suscitan en los sujetos, en funcin de las
cuales se asignan valores numricos a los estmulos. Los estudios de Psicofsica dieron
lugar al desarrollo de modelos que permitieron asignar valores numricos a los
estmulos y el escalamiento de estmulos.

b) El problema de la cuantificacin de las diferencias individuales: mediante la asignacin
de nmeros a los sujetos en funcin del grado en que manifiesten un atributo o
conducta. Los estudios acerca de las diferencias individuales dieron lugar al desarrollo
de las distintas Teoras de los Tests (modelos) que posibilitaron la asignacin de valores
numricos a los sujetos y, por lo tanto, el escalamiento de los sujetos.

6
66.
..
L
LLO
OOS
SS M
MM
T
TTO
OOD
DDO
OOS
SS D
DDE
EE E
EES
SSC
CCA
AAL
LLA
AAM
MMI
II E
EEN
NNT
TTO
OO
Escalamiento: Campo de la Psicometra cuyo objetivo fundamental es la construccin de escalas de
medida, es decir, la construccin de instrumentos que permitan llevar a cabo mediciones para representar
las propiedades de los objetos (estmulos, sujetos o respuestas) por medio de nmeros, de acuerdo a unas
normas o reglas. Hay dos supuestos bsicos en todos los mtodos de escalamiento:
- La existencia de un conjunto latente o subyacente, a lo largo del cual varan los objetos psicolgicos
que se van a escalar (estmulos, sujetos o respuestas), que no puede ser observado de forma
directa.

3
- Que los objetos psicolgicos (estmulos, sujetos o respuestas) pueden situarse de forma ordenada a
lo largo de ese continuo.
Los estmulos son las cosas que los investigadores presentan normalmente a un sujeto con el propsito
de elicitar una respuesta. El propsito del escalamiento de estmulos es determinar las caractersticas que
los sujetos perciben en ellos y, por lo tanto, la respuesta del sujeto (o sujetos) ante la presentacin de l os
estmulos es una respuesta subjetiva que nos va a permitir diferenciarlos y escalarlos, es decir, asignar un
valor numrico a cada uno de los estmulos.

7
77.
..
D
DDE
EES
SSA
AAR
RRR
RRO
OOL
LLL
LLO
OO D
DDE
EE L
LLO
OOS
SS M
MM
T
TTO
OOD
DDO
OOS
SS D
DDE
EE E
EES
SSC
CCA
AAL
LLA
AAM
MMI
II E
EEN
NNT
TTO
OO D
DDE
EE E
EES
SST
TT
M
MMU
UUL
LLO
OOS
SS
El origen de los mtodos de escalamiento de estmulos tuvo lugar cuando la psicologa se enfrenta con
el problema psicofsico.

7.1. Mtodos de Escalamiento Psicofsico
Herbart: Acua el trmino Umbral Mnimo para designar a la mnima intensidad que tiene que tener un
estmulo para que se pueda percibir.
Weber: Comienza a desarrollar una serie de procedimientos experimentales, los mtodos psicofsicos,
que iban a permitir el clculo de los umbrales y desarrolla su famosa Ley de Weber que establece que: el
incremento de magnitud que debe experimentar un estmulo (E) para que el sujeto perciba que se ha
producido un cambio, es una proporcin constante de su magnitud inicial (E):

K = E/E

A la constante K se le conoce como constante de Weber; el (E) es el incremento mnimo que ha de
experimentar la magnitud de un estmulo (magnitud fsica) respecto a la magnitud inicial (E) para que el
sujeto perciba b cambio mnimo en la sensacin (magnitud psicolgica), a este cambio mnimo de sensacin
le denomin Weber diferencia apenas perceptible (dap)
Fechner: Desarroll una serie de mtodos denominados mtodos psicofsicos indirectos que permitan
elaborar unas escalas denominadas escalas psicofsicas. En el escalamiento psicofsico se tienen dos
continuos, un continuo fsico a lo largo del cual varan los estmulos y uno psicolgico a lo largo del cual
variarn las sensaciones que dichos estmulos producen en los sujetos. La funcin que mejor representa la
relacin entre dos continuos es una funcin logartmica cuya frmula es:

S = C ln E + A
Siendo:
S = valor en la escala de sensacin
E = valor del estmulo
C y A = la pendiente y la ordenada en el origen de la funcin logartmica.

Para poder medir la relacin entre los estmulos y las sensaciones Fechner introdujo los conceptos de
Umbral Absoluto (magnitud fsica del estmulo que se requiere para que se produzca una sensacin) y
Umbral Diferencial (incremento mnimo, en la magnitud fsica del estmulo, que se requiere para que el
sujeto perciba un cambio de sensacin). La ley de Fechner establece que cuando la magnitud fsica del
estmulo est en el umbral absoluto la sensacin es nula, y que si se aumenta la estimulacin en proporcin
geomtrica las sensaciones aumentarn aritmticamente. Es decir, que cada vez se necesitar un mayor
incremento en la estimulacin fsica para que se perciba un cambio en la sensacin.

El problema fundamental de esta teora est en la obtencin experimental de los umbrales absoluto y
diferencial. Para ello Fechner desarroll una serie de procedimientos:

- El mtodo de los lmites (cambios mnimos): es el experimentador el que va modificando la
intensidad del estmulo. Cuando se quiere calcular el umbral absoluto comenzar, o bien por un
estmulo de baja intensidad e ir aumentndola hasta que el sujeto que lo va a evaluar comience a
detectarlo, o bien por uno de alta intensidad e ir reducindola poco a poco hasta que el sujeto deje
de percibirlo. En el caso de querer calcular los umbrales diferenciales el experimentador
seleccionar un valor del estmulo como estndar y, junto a l, ir presentando al sujeto un estmulo
de comparacin cuya intensidad ir manipulando hasta que el sujeto considere que la intensidad del
estmulo de comparacin es igual que la del estmulo estndar.

- El mtodo de ajuste (error promedio): En lugar de ser el investigador el que manipula la intensidad
de los estmulos, es el propio sujeto el que a va modificando, aumentndola o disminuyndola,
hasta encontrar el valor de sus umbrales.

4

- El mtodo de los estmulos constantes: se asume que cuando un estmulo se presenta a un mismo
sujeto en repetidas ocasiones no siempre es percibido, y que an cuando lo perciba no siempre le
produce la misma sensacin. Cada estmulo se presenta a los sujetos un nmero elevado de veces
en orden aleatorio y, en cada ocasin, cada sujeto ha de decidir si lo ha percibido o no. El umbral
absoluto es la magnitud del estmulo que ha sido percibido por los sujetos el 50% de las veces que
se ha presentado.

La ley de Fechner recibi varias crticas entre ellas que los estmulos de muy alta intensidad o muy baja
intensidad no se ajustan bien a ella y que tampoco lo hacen todos los sistemas sensoriales. Psi.
Cuantitativa.
Wundt: Marc el comienzo de la Psicologa Experimental.
Stevens: Hace una reformulacin de la psicofsica fechneriana desarrollando los mtodos de
escalamiento que esta nueva reformulacin requera, y una nueva funcin conocida con el nombre de
Funcin Potencial de Stevens:

R = q E
n
Siendo:
R = respuesta de los sujetos.
E = valor del estmulo.
q = constante que depende de las unidades de medida.
n = exponente de la funcin que depende del atributo sensorial.

Los mtodos desarrollados por Stevens se conocen tambin como mtodos directos de escalamiento,
ya que en lugar de originar una escala de sensacin (S), como ocurra con los mtodos de Fechner, dan
lugar a una escala de respuesta (R) cuyos valores son las estimaciones subjetivas que, de forma directa,
hacen los sujetos de los estmulos presentados, y cuyas propiedades van a estar determinadas pos las
instrucciones dadas a los sujetos, a los que se considera capaces de hacer estimaciones a nivel de intervalo
y de razn.
Stevens trata de medir por un lado la respuesta que de forma directa emiten los sujetos para
posteriormente encontrar una funcin que los relacione. Esta funcin es una funcin potencial. A diferencia
de Fechner, no basa sus mediciones en ninguna suposicin acerca de las (dap), que Fechner utiliza como
unidad de medida de su escala de sensacin, no en el concepto de umbral.

Mtodos de escalamiento que utiliza Stevens:

- Mtodos de emparejamiento de magnitudes por :

o Modalidad cruzada: Se utilizan dos continuos fsicos diferentes y la tarea del sujeto
consistir en emparejar uno con el otro. El experimentador selecciona una serie de
estmulos, que varan a lo largo de un continuo determinado cuya magnitud se puede medir
mediante los instrumentos adecuados, y la tarea de cada sujeto consistir en ajustar, a
cada uno de los estmulos presentados, otro estmulo que vara a lo largo de otro continuo.
Para obtener los valores, tanto de la escala correspondiente al estmulo (escala E) como los
correspondientes a la respuesta ( escala R), se dispone de instrumentos de medida
adecuados.

o Estimacin de magnitudes: Se presenta a cada sujeto un estmulo y se le advierte que se
fije en l puesto que va a servir de estmulo estndar a partir del cul habr de estimar los
valores correspondientes al resto de los estmulos que se le van a presentar. Puede ser el
experimentados el que asigne un mdulo al estmulo estndar y el sujeto ir asignando
valores al resto de los estmulos que se le vayan presentando, tomando como referencia el
valor asignado al estmulo estndar.

o Produccin de magnitudes: El experimentador va presentando al sujeto una serie de
nmeros, de uno en uno y de forma aleatoria, y la tarea del sujeto consiste en modificar la
magnitud de los estmulos en base a los nmeros presentados por el experimentados, de
manera que cada nmero lleve emparejado un estmulo cuya magnitud ser, a juicio del
sujeto, la representada por el nmero.

- Mtodos de emparejamiento de razones por:

5

o Modalidad cruzada: Se presentan al sujeto dos estmulos que guardan una determinada
proporcin entre ellos y se le pide que ajuste otros dos, pertenecientes a otro conjunto
diferente, de manera que guarden entre s la misma proporcin que guardaban los
primeros.

o Estimacin de razones: Se le presentan al sujeto todos los pares de estmulos, y su tarea
consiste en hacer estimaciones de las razones que hay entre las magnitudes de cada par y
asignar un nmero a cada par que represente esa razn. Se trata de asignar razones
numricas a las razones entre las magnitudes de los estmulos.

o Produccin de magnitudes: Se presenta al sujeto un estmulo estndar junto a l una
proporcin numrica. La tarea del sujeto consiste en producir otro estmulo que guarde con
el estndar una proporcin igual a la presentada.

- Mtodos de emparejamiento de intervalos por:

o Modalidad cruzada: Dados una serie de estmulos que varan a lo largo de dos continuos
divididos en intervalos el sujeto habr de emparejar los intervalos existentes entre los
estmulos de un continuo con los intervalos existentes entre los estmulos del otro continuo.

o Estimacin de razones: Se le presentan al sujeto una serie de estmulos diferentes entre
s y se le pide que, mediante nmeros, haga una estimacin de las diferencias estimulares.

o Produccin de magnitudes: Se le presentan al sujeto dos estmulos y su tarea consiste en
encontrar un estmulo intermedio entre los dos presentados (biseccin), una serie de
estmulos que dividan el intervalo entre los dos estmulos presentados en ms de dos
intervalos iguales (equiseccin) o en una serie de intervalos distintos (multiseccin).

- Mtodo de escalas de categoras o clasificacin: Asumir que el continuo a lo largo del que se
han de situar los estmulos est dividido en una serie de categoras ordenadas cuyos lmites sern
fijos salvo por error aleatorio. La tarea a realizar ser estimar los valores escalares de los lmites de
las categoras para, una vez hecho esto, asignar los estmulos a cada una de ellas y averiguar sus
valores escalares.

Los mtodos desarrollados por Stevens estn centrados en medir la capacidad de los sujetos para
hacer estimaciones subjetivas acerca de la magnitud de los estmulos y comprobar hasta qu punto los
juicios emitidos (estimaciones subjetivas) se ajustan a los datos reales (magnitud real de los estmulos).

7.2. Mtodos de Escalamiento Psicolgico

Se trata de establecer una relacin entre las caractersticas fsicas de los estmulos y las sensaciones
que producen.
Comienzan a desarrollarse a finales del siglo XIX una serie de mtodos de escalamiento psicolgico
(basados en las ideas de Fechner pero sin necesidad de recurrir a medidas de tipo fsico) y las escalas
psicolgicas o subjetivas. La figura que ms a contribuido al desarrollo de este tipo de escalas fue
Thurstone (1887-1955).

Thurstone trat de elaborar un modelo a partir del cual pudiera elaborar una escala sobre un continuo
psicolgico y situar en ella los estmulos sin necesidad de recurrir a ninguna operacin en un continuo
fsico. El modelo que desarroll est basado en la variabilidad perceptual de los sujetos, e incluso de un
mismo sujeto cuando se le presentan los mismos estmulos en distintas ocasiones y en la limitacin que
tienen los sujetos para percibir las diferencias de magnitud entre dos estmulos cuando estas son muy
pequeas. Desarroll un modelo matemtico cuyas ecuaciones se conocen con el nombre de Ley de Juicio
Comparativo (mtodo de las comparaciones binarias). Ms tarde desarrollara otro modelo cuyas
ecuaciones se conocen como Ley de Juicio Categrico (mtodo de los intervalos sucesivos, mtodo de los
intervalos aparentemente iguales y el mtodo de ordenacin de rangos).

A partir de estos trabajos se fueron desarrollando nuevas formas de escalamiento psicolgico:


6
Guttman, en los aos 40 del siglo XX, desarroll un nuevo modelo para el escalamiento conjunto de
sujetos y estmulos (escalamiento de respuestas). Para la obtencin de la escala utiliza el mtodo del
escalograma. La escala resultante se denomina escala de entrelazamiento puesto que los sujetos y los
estmulos se sitan a lo largo del mismo continuo psicolgico de forma entrelazada.
Coombs (1950), desarrollo una teora conocida como Teora del despliegue y propuso un modelo que
permite escalar sujetos y estmulos conjuntamente.
Todos estos modelos y sus mtodos asociados se desarrollaron, en principio, para la construccin de
escalas unidimensionales, es decir, escalas que permitieran ordenar un conjunto de estmulos o estmulos y
sujetos respecto a un nico atributo o caracterstica.
En los aos 60 se desarrollaron los mtodos de escalamiento multidimensional, que permiten la
ordenacin de los objetos a escalar atendiendo, simultneamente, a ms de un atributo o caracterstica,
asumiendo la existencia de ms de una dimensin subyacente al conjunto de observaciones.

8
88.
..
O
OOR
RR
G
GGE
EEN
NNE
EES
SS Y
YY D
DDE
EES
SSA
AAR
RRR
RRO
OOL
LLL
LLO
OO D
DDE
EE L
LLO
OOS
SS T
TTE
EES
SST
TTS
SS
El intento de apreciar de forma sistemtica las diferencias individuales, es decir, de escalar a los sujetos
llev al desarrollo del Mtodo de los Tests y de las distintas Teoras de los Tests.
Un Test es un instrumento de medicin diseado especialmente para estudiar de un modo objetivo y
sistemtico el nivel de los sujetos respecto a algn atributo, caracterstica o dominio de conocimientos y, a
partir de las puntuaciones que obtengan los sujetos en el test, poder analizar las diferencias existentes entre
ellos.
Hay tres factores que se pueden considerar decisivos en el desarrollo de los test: la apertura del
laboratorio antropomtrico de Galton en Londres, el desarrollo de la correlacin de Pearson y la
interpretacin que Spearman hace de ella, considerando que la correlacin entre dos variables indica que
ambas tienen un factor comn.

8.1. La importancia de los trabajos de Galton
Wundt trataba de encontrar las leyes generales que dirigen o gobiernan la mente humana, los
evolucionistas trataban de clasificar y catalogar las diferentes formas de mentes que podan existir.
Francis Galton (1822 1921) recurri a la correlacin como medida de asociacin. Fue el primero en
aplicar el concepto estadstico de distribucin normal, de media, de mediana, varianza y correlacin a datos
psicolgicos. Esta tarea fue continuada por Karl Pearson
Galton construy y utiliz una serie de instrumentos que pueden ser considerados los primeros Tests
psicomtricos, pero estos se caracterizan por un fuerte carcter antropomtrico, sensorial y motor.

8.2. Los primeros Tests mentales
James McKeen Cattell utiliz por primera vez el trmino Test Mental. Al igual que los tests de Galton
tenan un carcter sensorial y motor fundamentalmente, ya que incluan medidas de energa muscular,
velocidad de movimientos, sensibilidad al dolor, etc.
Para Cattell los tests constituan un sistema uniforme que permite comparar y combinar, en lugares y
momentos diferentes, la medida de las funciones mentales y comparta con Galton la creencia de que se
poda medir el funcionamiento intelectual de las personas mediante tests de discriminacin sensorial y
midiendo el tiempo de reaccin. Fue necesario llegar a finales del siglo para aceptar que estos tests no
medan la inteligencia.

8.3. Desarrollo de los primeros Test de inteligencia
Alfred Binet (1857-1911) fue el primero en darse cuenta de que las sensaciones no jugaban un papel
demasiado importante en la Psicologa Diferencial y que era necesario centrarse en los procesos mentales
superiores. Se dio cuenta de la importancia que tena la edad de los sujetos como variable interviniente.
Binet trabaj con Simon y en 1905 publicaron la primera escala de inteligencia. Este test ya no se
ocupaba de las funciones motoras o sensoriales sino de la capacidad de comprensin y razonamiento de
los nios. Esta escala, conocida como la Escala de Binet-Simon, constaba de 30 elementos de dificultad
creciente, y aunque se incluan algunos elementos de tipo sensorial, la mayora eran verbales.

La adaptacin ms conocida de este test fue la que realiz Terman con el Test Stanford-Binet. Aunque
la finalidad en un principio era detectar a los sujetos que presentaran algn retraso intelectual, se utiliz
para el estudio de las diferencias en otros niveles. Para poder interpretar las puntuaciones obtenidas se
desarroll el concepto de Edad Mental que equivale a la edad cronolgica de los nios intelectualmente
normales cuya media en la escala es igual a la puntuacin obtenida por el nio examinado.
Terman (1877-1956) consideraba que la inteligencia se poda definir como la habilidad para llevar a
cabo razonamientos abstractos y utiliza como medida de la inteligencia el concepto de Cociente Intelectual

7
(CI) acuado por Stern en 1912. Este CI equivale al cociente entre la edad mental y la edad cronolgica,
generalmente multiplicado por cien para evitar los decimales.

8.4. Los Test colectivos
La entrada de EEUU en la Primera Guerra Mundial llev a la necesidad de seleccionar y clasificar a las
personas disponibles para el ejrcito en funcin de sus posibilidades. Yerkes sera el encargado de
investigar nuevos procedimientos que posibilitaran la administracin de tests en el ejrcito. Se crearon el:
o Test Alpha: diseado para la poblacin general.
o Test Beta: para los reclutas analfabetos o aquellos que no dominaban el ingls.

Siendo este el comienzo de los Test Colectivos. Una vez finalizada la guerra el uso de test se extendi a
la industria y al resto de instituciones. En 1922 Cattell fund la primera empresa dedicada a la publicacin
masiva de test, y a partir de ah empezaron a utilizarse normalmente como instrumento de seleccin en la
administracin americana.
En 1938 apareci el Test de Weschler-Bellevue para la medicin de la inteligencia en adultos y en 1949
una versin para nios conocida como WISC. En 1955 apareci una revisin de la escala anterior conocida
como Weschler Adult Intelligence Scale (WAIS). La aparicin de estas escalas supuso un avance en el
desarrollo de los Test, porque se haba constatado la falta de efectividad que tena el test de Stanford-Binet
aplicado a adultos.

Se desarroll el Coeficiente de Correlacin de Pearson y una serie de tcnicas correlacionales
conocidas como Anlisis factorial (representar un conjunto de variables observables mediante un nmero
ms pequeo de variables no observables sino latentes llamadas factores de las que las primeras son
indicadores).

La influencia del anlisis factorial respecto a los test de inteligencia fue doble:
o Dio una fundamentacin terica a su utilizacin, mostrando que en la mayor parte de las funciones
cognoscitivas interviene un factor general g comn a todas ellas.
o Los resultados del anlisis factorial subrayan la importancia de estudiar otras aptitudes ms
especficas en el campo de la inteligencia.

As surgen los primeros test destinados a la medida de aptitudes y del rendimiento.

8.5. Las bateras de aptitud mltiple
La finalidad de las Bateras de Aptitud Mltiple era procurarnos una medida de la posicin de cada
sujeto en un cierto nmero de rasgos. En vez de CI, se obtiene una puntuacin por separado de cada rasgo.
Thurstone cre la Batera de Aptitudes Mentales Primarias que inclua pruebas para la medida de lo que
se consideraban los componentes fundamentales del comportamiento inteligente: comprensin verbal,
fluidez verbal, aptitud numrica, aptitud espacial, memoria, rapidez perceptiva y razonamiento general.

8.6. Los Tests de personalidad
Se puede considerar a Kraepelin como el precursor de los Test de Personalidad pues ya en 1984 utiliz
el Test de Asociacin Libre con pacientes normales para estudiar los efectos psicolgicos de la fatiga, el
hambre y las drogas.
El prototipo de cuestionario de personalidad con carcter psicomtrico es la Hoja de Datos Personales
de Woodworth utilizada en la Primera Guerra Mundial y cuya finalidad era la deteccin de aquellos sujetos
que por padecer trastornos neurticos graves no eran aptos para el servicio militar.

De los primeros tests objetivos hay tres que han sobrevivido en la actualidad:
o Los de Guilford que se usan en poblaciones normales y estn basados en el anlisis factorial y
orientados hacia los rasgos.
o Los de Cattell que presentan las mismas caractersticas que los de Guilford.
o El Inventario Multifsico de Personalidad de Minnesota (MMPI) de Hathaway y McKinley que se usa
en poblaciones clnicas y no utilizaba escalas derivadas del anlisis factorial y est orientado hacia
una clasificacin psiquitrica.

Durante la primera mitad siglo XX aparecieron otro tipo de tests, los Test Proyectivos. Fue Rorschach
quien dise el primer test que pretenda dar una visin global y comprensiva de la personalidad, El Test de
Psicodiagnstico, conocido como el Test de las manchas de tinta. A partir de estos aparecieron otros

8
muchos que pronto se vieron asociados con la psicologa clnica y, en especial, con el Psicoanlisis. En
1926 aparece el test de Dibujo de la Figura Humana de Machover y en 1938 el Test de Apercepcin
Temtica (TAT).

Hay varias razones que han contribuido a que disminuya la utilizacin de estas tcnicas:
a) el aumento de la sofisticacin cientfica que ha creado escepticismo hacia ellos.
b) el desarrollo de procedimientos alternativos como el MMPI y otros tests objetivos.
c) las tcnicas proyectivas, en general, estaban asociadas con la teora psicoanaltica.

8.7. La medicin de intereses y actitudes
Entre los instrumentos clsicos para la medida de los intereses destacan el Cuestionario de Intereses
Vocacionales de Strong (SVIB) y la Escala de Preferencias de Kuder en 1934.
En cuanto a la medida de las actitudes, creencias y opiniones destaca Thurstone con el desarrollo dos
modelos: la Ley del Juicio Comparativo y la Ley del Juicio Categrico. La tcnica utilizada por Thurstone
para la medida de las actitudes que permite la ordenacin de los tems (estmulos) a lo largo de una escala
continua en funcin de los valores escalares que les hayan asignado el grupo de sujetos a los que se les
han presentado para su evaluacin (prueba de jueces. Una vez escalados los tems se podr utilizar la
escala para averiguar el grado de actitud de los sujetos en la variable medida. Para escalar a los sujetos.
Algunos aos ms tarde, Likert (1932) desarroll la Tcnica de Likert (basadas en los mismos principios
que los test de aptitudes) para paliar alguno de los inconvenientes de la de Thurstone, entre otros, la prueba
de jueces)
Con el fin de medir el significado connotativo, afectivo o subjetivo, que determinados estmulos tienen
para los sujetos, Osgood cre una escala de clasificacin para medirlo, el Diferencial Semntico.

8.8. La institucionalizacin del uso de los Tests
El uso masivo de los test fue extendiendo su campo de aplicacin a diferentes sectores, lo que ocasion
la aparicin de instituciones dedicadas a ello.
El aumento de estudiantes que queran acceder a la escuela secundaria hizo necesario un plan de
seleccin. As se form en 1899 el College Entrance Examination Board (CEEB). Los primeros de estos
tests estaban basados en contenidos curriculares, pero ms tarde se utiliz el Scholastic Aptitude Test
(SAT) que intentaba medir la capacidad para el aprendizaje. Tambin se cre el Educational Testing Service
(ETS) con el fin de potenciar la investigacin en el campo educativo.

8.9. Los Tests referidos al criterio frente los referidos a normas
Los tests que se utilizaban habitualmente no se adecuaban bien a los nuevos objetivos planteados, ya
que se haban desarrollado para evaluar el grado de aptitud o el nivel de los sujetos en un determinado
rasgo, pero interpretando los resultados en relacin a los que se haban obtenido en una muestra
representativa que haba servido para establecer una serie de normas, sin analizar si los sujetos haban
alcanzado o no los objetivos mnimos de a nivel educativo: Test referidos a las normas (TRN). Por el
contrario, el inters del momento estaba centrado en la evaluacin del rendimiento y el diagnostico de las
necesidades que pudieran tener los alumnos de cara a una posible intervencin. Se trataba de averiguar
hasta qu punto los alumnos dominaban el contenido de determinadas materias o eran capaces de resolver
correctamente problemas habituales de su vida real, de ah que se desarrollaran los Test referidos al criterio
(TRC). Estos test proporcionaron las bases para interpretar las puntuaciones de los sujetos en relacin a un
dominio bien definido y permitieron a los psiclogos y educadores la evaluacin de los estudiantes en
funcin de su conocimiento o no de una materia determinada en lugar de hacerlo en relacin a otros
estudiantes.
Glaser es considerado como el primero que distingui entre las dos aproximaciones a la medicin del
rendimiento, referida al criterio y referida a la norma. Las diferencias entre TRC y TRN hacen referencia a
cinco aspectos fundamentales:

Tests Referidos a las Normas Tests Referidos al Criterio
Finalidad de la
evaluacin
Poner de manifiesto las diferencias individuales en la
conducta o rasgo que mide el test.
Estimar el rendimiento o conducta del
sujeto en los objetivos que mide el test.
Construccin del
test y la
especificacin de
los contenidos
Recurrir a las teoras existentes respecto al rasgo o
constructo que se quiere medir, sin una delimitacin
clara de los contenidos a evaluar.
Especificar claramente el dominio de
contenidos o conductas que se quiere
evaluar y el uso del test.

9
Forma de
seleccionar los
tems
Los tems ponen de relieve las diferencias individuales
maximizando la varianza del test, seleccionando tems
de dificultad media y alto poder discriminativo.
Los tems se seleccionan en funcin de los
objetivos y del uso que se vaya a hacer de
ese test.
Significado de las
puntuaciones
La puntuacin obtenida se considera un indicador de
su puntuacin verdadera en un rasgo latente.
Puntuacin: estimador de la conducta o
rendimiento del sujeto en el dominio.
Interpretacin de las
puntuaciones
Puntuacin: tiene significado nicamente con relacin
a los resultados del grupo normativo.
Puntuacin: tiene significado en trminos
absolutos.

8.10. Los Tests adaptativos informatizados (TAI`s)
Los Tests Adaptativos Informatizados se denominan as porque la seleccin de los tems se va
haciendo a lo largo del proceso de administracin, de manera que los tems se pueden adaptar al nivel de
cada sujeto y no le resulten ni demasiado fciles ni demasiado difciles..

9
99.
..
D
DDE
EES
SSA
AAR
RRR
RRO
OOL
LLL
LLO
OO D
DDE
EE L
LLA
AA T
TTE
EEO
OOR
RR
A
AA D
DDE
EE L
LLO
OOS
SS T
TTE
EES
SST
TTS
SS
Surge la necesidad de desarrollar un marco terico que sirva de fundamento a las puntuaciones
obtenidas por los sujetos cuando se les aplican los tests que posibilite la validacin de las interpretaciones e
inferencias realizadas a partir de ellas, y permita la estimacin de los errores de medida inherentes a todo
proceso de medicin a travs del desarrollo de una serie de modelos.
Aparece la necesidad de obtener algn procedimiento para medir hasta que punto las puntuaciones
obtenidas por los sujetos en un test equivalen a sus puntuaciones verdaderas y cul es la cuanta del error
de medida que las afecta (fiabilidad de las puntuaciones) y la validez de las inferencias o conclusiones que
se pueden sacar a partir de las mismas (Validez).

La Teora de los Test va a permitir establecer una relacin funcional entre las variables observables (a
partir de las puntuaciones empricas obtenidas por los sujetos en los test o tems que los componen) y las
variables inobservables (las puntuaciones verdaderas o el nivel de habilidad de los sujetos en el rasgo que
se esta midiendo). Las teoras que han tenido mayor incidencia son: la Teora Clsica de los Test (TCT) y la
Teora de Respuesta al tem (TRI).

9.1. Teora Clsica de los Tests (TCT)
La TCT se desarroll, fundamentalmente, a partir de las aportaciones de Galton, Pearson y Spearman,
y gira en torno a tres conceptos bsicos: las puntuaciones empricas y observadas (X) (puntuaciones
obtenidas por los sujetos cuando se les aplica un test, las puntuaciones verdaderas (V) (puntuaciones que
realmente tienen los sujetos en el rasgo o constructo medido y coincidiran con las empricas en el hipottico
caso de que no existieran los errores de medida), y las puntuaciones debidas al error (E).
Para establecer la relacin funcional de esos tres conceptos la TCT se sirve del modelo ms simple, el
modelo lineal, desarrollado por Spearman.

El modelo lineal de Spearman es un modelo aditivo en el que la puntuacin observada (variable
dependiente) de un sujeto en un test (X) es el resultado de la suma de dos componentes: su puntuacin
verdadera (variable independiente) en el test (V) y el error (e) que inevitablemente lleva asociado todo
proceso de medicin. A partir de los supuestos y de las deducciones que se extraigan a partir de los
mismos, se podr hacer una estimacin de esos errores. La expresin formal de este modelo es:

X = V + e

La ejecucin de un sujeto al responder a un test en un momento determinado estar afectada por
mltiples factores difcilmente controlables, lo que implicar que la puntuacin obtenida, su puntuacin
emprica no coincida con su puntuacin verdadera. Ante la imposibilidad de saber con exactitud cul es esta
puntuacin verdadera ser necesario hacer estimaciones de la misma en base a los supuestos del modelo.
Los errores pueden provenir de numerosas fuentes: una de las fuentes de error puede ser el mismo
sujeto ya que cualquier cosa que le haya ocurrido, su estado emocional, cansancio y fatiga, puede estar
incidiendo en el rendimiento en el test y, por lo tanto, en la puntuacin que se obtenga; otra fuente de error
puede provenir del propio test debido a los tems que lo forman y al tipo de formato; tambin de las
caractersticas de los aplicadores del test pueden estar incidiendo en la puntuacin de los sujetos en el
mismo; otras fuentes pueden ser las condiciones ambientales y las instrucciones que se den.

El ms ambicioso y global de los intentos realizados para estimar la fiabilidad de un instrumento de
medida, analizando de forma sistemtica las posibles fuentes de error es el proporcionado por la Teora de
la Generalizabilidad (TG) propuesta por Cronbach que tiene en cuenta todas posibles fuentes de error e
intenta diferenciarlas mediante la aplicacin de los procedimientos clsicos de anlisis de varianza (AVAR).
Las fuentes de variacin (factores en trminos de ANOVA) se denominan facetas y los niveles de cada

10
factor condiciones. La medida psicolgica se convierte en un ndice obtenido en una muestra y el problema,
como en toda inferencia ser generalizar esa medida.

9.2. Teora de respuesta al tem (TRI)
Lord observ que cuando a una muestra de sujetos se le aplicaba un test, o una serie de test, para
evaluar su nivel en un determinado rasgo, la puntuacin obtenida dependa del conjunto de tems o tests
utilizados cuando, en realidad su nivel en el rasgo en el momento de la aplicacin no tena porqu variar.
Los sujetos no deban tener puntuaciones altas o bajas en un test en funcin de que lo tems que lo
formaran fueran ms fciles o difciles. Tambin los estadsticos de los tems su ndice de dificultad y de
discriminacin dependan de la muestra de sujetos utilizada para su clculo
Estos dos problemas, junto con la indiferenciacin del error, fueron los que centraron las crticas hechas
a la TCT. Para intentar solucionar los dos ltimos algunos psicmetras, entre ellos Gulliksen y Lord se
interesaron en el desarrollo de teoras y modelos que permitieran describir los niveles de habilidad de los
sujetos con independencia de la muestra de tems o de tareas utilizados para su evaluacin, y el clculo de
los estadsticos de los tems con independencia de la muestra de sujetos utilizada.

La solucin ms adecuada se encontr en el marco de la Teora de Respuesta al tem (TRI) que
proporciona una serie de modelos que asumen una relacin funcional entre los valores de la variable que
miden los tems (nivel de habilidad de los sujetos) y la probabilidad de que los sujetos, en funcin de su
nivel de habilidad, acierten cada tem. A esta funcin se la conoce con el nombre de Curva Caracterstica
del tem ya que es la curva que caracteriza a cada uno de ellos. La probabilidad de acertar a cada tem
depende, exclusivamente del nivel de los sujetos en la variable que mide cada uno de ellos.


11

Tema 2.

Principios bsicos para la construccin de instrumentos de medicin psicolgica.

1 1. . O OR RI IE EN NT TA AC CI IO ON NE ES S D DI ID D C CT TI IC CA AS S. .

Vas de desarrollo de la psicometra:
- la de los estudios de psicofsica
- la de los estudios de las diferencias individuales

Tipos de escalamiento segn que el objetivo a escalar fueran:
- los estmulos
- los sujetos
- ambos

Etapas del test:

- 1. Elaboracin de una prueba piloto, su aplicacin a una muestra de sujetos y la asignacin de puntuaciones a
los mismos.
- 2. Evaluacin de la calidad psicomtrica de cada uno de los tems que componen la prueba piloto as como del
conjunto de la misma y finalizara con la construccin definitiva del test.
- 3. Se llevara a cabo la aplicacin del test a una muestra representativa de la poblacin a la que va dirigido, se
asignaran puntuaciones a los sujetos para su evaluacin y se llevara a cabo el proceso de estandarizacin
de las puntuaciones obtenidas y el establecimiento de las normas que permitan su interpretacin. El
proceso finalizar con la elaboracin del manual del test que deber incluir toda la informacin necesaria
para que pueda ser utilizada por psiclogos especializados.

Distintas decisiones que hay que tomar en cada una de las fases y cmo hacerlo:

- a) En la fase de definicin, tomar decisiones acerca de la variable psicolgica que se va a medir, poblacin a la
que va destinado y cul va a ser la utilizacin prevista.

- b). Fase de especificacin de las caractersticas del test, tipo de formato de los tems, longitud de la prueba y
caractersticas psicomtricas mas adecuadas.

- c). Conocer qu tipo de formato es el mas adecuado en funcin de la variable psicolgica que se quiera medir
y las reglas que se deben seguir, sean de carcter general o especficas de cada formato, para que la
redaccin de los tems sea lo mas correcta posible.

- d) Una vez redactados, tomar la decisin acerca de qu personas han de hacer una revisin crtica de los
mismos para conseguir una mejor calidad.

- e). La prueba piloto implica tomar decisiones acerca de las instrucciones que se van a incluir, cul va a ser la
forma de administrar la prueba y de qu manera se van a registrar las respuestas de los sujetos.

2 2. . L LO OS S T TE ES ST TS S, , E ES SC CA AL LA AS S, , C CU UE ES ST TI IO ON NA AR RI IO OS S E E I IN NV VE EN NT TA AR RI IO OS S

Test: trmino general para referirnos a cualquier instrumento de medicin psicolgica; pero sobre
todo referido a instrumentos de medicin de variables de tipo cognitivo (aptitudes, conocimientos,

12
rendimiento, habilidades, etc); donde las respuestas de los sujetos son correctas o incorrectas
y la puntuacin total en el test es la suma (directa o ponderada) de todas las respuestas correctas,
dando lugar a una escala jerrquica o acumulativa. Ej. de Test de conocimientos: La capital de Espaa
es: a) Pars b) Londres c)Madrid

Escala: hace referencia a los instrumentos elaborados para medir variables no cognitivas
(preferencias, opiniones, etc; ) y se caracteriza porque los sujetos han de responder eligiendo, sobre
una escala de categoras graduada y ordenada, aquella categora que mejor represente su posicin;
no hay respuesta correctas o incorrectas, y la puntuacin total en la escala ser la suma de las
puntuaciones asignadas a las categoras elegidas por los sujetos. Ej. de Escala: 2. Debera estar
prohibido fumar en todos los restaurantes: a) Completamente de acuerdo. b) De acuerdo. c) Indiferente. d) En
desacuerdo. e) Completamente en desacuerdo

Cuestionarios: formados por tems o elementos que no estn necesariamente relacionados unos
con otros, cuyas opciones de respuesta no estn ordenadas ni graduadas, que pueden ser
puntuados e interpretados individualmente y en los que tampoco hay respuestas correctas e
incorrectas. Se utilizan para obtener una mayor informacin del sujeto y de su entorno (edad,
profesin, estudios, etc); y se utilizan cuando la investigacin es mediante encuestas. Ej. de
Cuestionario: Qu parte de la asignatura de Psicometra le resulta ms fcil de estudiar? A) Fiabilidad.
b)Validez. C)Anlisis de elementos. D)La construccin de test

Inventario: vinculado a los instrumentos elaborados para medir variables de personalidad. Las
respuestas no son correctas o incorrectas, lo nico que demuestran es la conformidad o no con los
enunciados de los tems. Ej. de inventario: 1 A menudo me siento como si los dems me ignoraran (V
F). El problema de mucha gente es que no toma las cosas en serio ( V F)

3 3. . E EL L P PR RO OC CE ES SO O D DE E C CO ON NS ST TR RU UC CC CI I N N D DE E U UN N T TE ES ST T
El conocimiento del objetivo del test es el paso previo que va a condicionar la siguientes etapas de la
construccin.

ETAPAS
DECISIONES A TOMAR ACERCA DE
Determinar la finalidad del test Qu se va a medir, a quin y para qu
Especificar las caractersticas del test Cul va a ser el contenido. Qu tipos de tems se van a incluir. Cuntos
tems. Caractersticas psicomtricas
Redaccin de los tems tems de eleccin e tems de construccin
Revisin crtica de los tems por un grupo
de expertos
qu tems van a seleccionarse
Confeccin de la prueba piloto Instrucciones de administracin. Formato de la presentacin y formato del
registro de respuestas
Aplicacin de la prueba piloto individual- colectiva; papel y lpiz- informatizada; correo, mediante
entrevista personal, por telfono, etc
Correccin de la prueba piloto y asignacin
de puntuaciones a los sujetos
En los tests formados por tems de eleccin, en los test formados por
tems de construccin

4 4. . L LA A F FI IN NA AL LI ID DA AD D D DE EL L T TE ES ST T
Como paso previo para la construccin del test, es necesario tener claro su objetivo, es decir, lo que se
quiere medir, a quien se quiere medir y para qu se quiere medir.

4.1. La variable objeto de estudio. Constructo: variable psicolgica inobservable de forma
directa; pero que se manifiestan a travs de conductas que s son observables de forma
directa, y son las que se miden. Estas conductas han de ser uniformes y constantes a lo
largo del tiempo y en diferentes situaciones. Es decir, que para construir un test, lo primero
que hay que hacer es definir el/los constructo/s que lo forman y as determinar mejor las
conductas representativas del mismo.

4.2. Poblacin a la que va dirigido. Segn esta, variar el contenido de los tems, su
redaccin, la longitud del test y las instrucciones, etc.

13

4.3. Utilizacin prevista. Es decir, para qu se va a utilizar, qu decisiones se van a tomar a
partir de las puntuaciones que obtengan los sujetos.

Usos ms frecuentes de los tests y decisiones que se suelen tomar a partir de las puntuaciones
obtenidas.

Funciones Decisiones a tomar
SELECCIN mbito educativo: alumnos aptos / no aptos.
mbito profesional: seleccin de aspirantes.
CLASIFICACIN/COLOCACIN En cualquier mbito
DIAGNSTICO En cualquier mbito, para detectar problemas de aprendizaje, etc.
CERTIFICACIN Para acreditar diversas cualificaciones o competencias, tanto en el
mbito profesional como acadmico.
ORIENTACIN/CONSEJO Detectar las capacidades e intereses de las personas para,
examinando las distintas opciones, elegir aquella/s que mejor se
adecuen a su perfil.
DESCRIPCIN/INFORMACIN Describir el rendimiento academico tanto a nivel individual como
colectivo. Obtener informacin acerca de la opinin pblica.

5 5. . E ES SP PE EC CI IF FI IC CA AC CI I N N D DE E L LA AS S C CA AR RA AC CT TE ER R S ST TI IC CA AS S D DE EL L T TE ES ST T. .
Aqu es importante la habilidad del constructor para planificar y desarrollar las especificaciones del test.

5.1. Contenido. Comienza determinando cual es su dominio de conductas (o conjunto de
conductas a travs de las cuales se manifiesta).

Cuando el constructo no esta claramente definido, se recomienda (como seala Martnez-Arias, 1995):

a) Hacer un anlisis del contenido del constructo (hacer preguntas abiertas a los sujetos acerca
del constructo y seleccionando las respuestas de mayor frecuencia).
b) Revisar las investigaciones publicadas anteriormente.
c) Llevar a cabo un anlisis de tareas (y segn estas observaciones elaborar una lista de
conductas crticas)
d) La observacin directa por parte del constructor del test (podr identificar conductas
relacionadas con el constructo a medir).
e) Utilizar el juicio de expertos (que ya hayan trabajado en el constructo).
f) Revisar los objetivos instruccionales o de programas de intervencin.

Todo esto da una idea de la dificultad de definir un constructo y determinar su dominio de
conductas, no son procesos distintos, sino que estn fuertemente relacionados. A medida
que tiene una mayor informacin acerca del constructo que se quiere medir se ir
modificando el contenido de la prueba y viceversa, las investigaciones encaminadas a
determinar el dominio de conductas del constructo aumentarn el conocimiento del mismo
y permitirn clarificar su concepcin.

Los test de rendimiento y conocimientos y, sobre todo, en los test referidos al criterio (TRC), en lugar de
hablar de un dominio de conductas se hablar de un dominio de contenidos a evaluar y la especificacin
del mismo cobrar una importancia extraordinaria.

Cuando se quiere construir un test para ser utilizado en el mbito acadmico, el camino que se suele seguir
para especificar el contenido del test es construir una tabla de doble entrada, en la que las columnas

14
representan las distintas reas de contenido o facetas del constructo a medir y las filas los distintos
procesos u operaciones implicados en la resolucin de las tareas planteadas.

Aunque los contenidos de las filas variarn en funcin de aquello que se quiera medir, se ha intentado hacer
una categorizacin jerrquica uniforme (American Educational Research Association) que recoge los
siguientes procesos ordenados jerrquicamente en funcin de su menos o mayor complejidad:

- Conocimiento: recuerdo del material presentado
- Comprensin: interpretacin o extrapolacin de un concepto de forma distinta a la
originalmente presentada.
- Aplicacin: resolucin de problemas nuevos aplicando principios familiares o generalizaciones.
- Anlisis: descomposicin de un problema en sus componentes elementales. Requiere del
reconocimiento de elementos mltiples y de las relaciones y/o principios de organizacin entre
los elementos.
- Sntesis: combinar elementos a partir de una estructura original o resolver un problema que
requiere la combinacin secuencial de varios principios.
- Evaluacin: empleo de criterios internos o externos para hacer juicios crticos.

Matriz de especificaciones del contenido para un test de psicometra:

Ejemplo de tabla de doble entrada

PROCESOS REAS DE CONTENIDO
Medicin 20% Fiabilidad 35% Validez 35 % A. de tems 10 %
Conocimiento 25 % 4 7 7 2
Comprensin 25% 4 7 7 2
Aplicacin 25% 4 7 7 2
Anlisis 25% 4 7 7 2

Total 16 28 28 8

Es importante que estn representadas todas las reas de la Psicometra para que tenga validez y que en
cada una de ellas haya nmero suficiente de tems para asegurar la fiabilidad.

Cada casilla de la matriz representa la interaccin entre un rea de contenido y un proceso, esto facilita la
redaccin de tems que cubran todos los aspectos que se consideran importantes. No obstante hay otro
punto que hay que aclarar: si a todos los procesos y a todas las reas de contenido se les concede la
misma importancia; ser necesario cubrir todas las celdas de la matriz con el mismo nmero de tems. Por
el contrario si se considera que no todas las reas son igualmente importantes, ni todos los procesos, ser
necesario establecer una ponderacin para poder establecer el nmero de tems de cada casilla.

Se pueden dar dos casos: que las reas de fiabilidad y validez por ejemplo fueran mas importantes,
despus el rea de medicin y por ltimo el anlisis, quedando a 35%, 35%, 20% y 10% respectivamente,
o bien dar la misma importancia a todos los procesos, con lo cual le correspondera a c/ uno de ellos una
ponderacin del 25%.

Una vez asignadas las ponderaciones, la versin piloto debe contar como mnimo con el doble o el triple de los tems de la versin final del test, en
nuestro caso queremos que tenga 80, entonces asignamos: fiabilidad 35% y validez 35% 28 tems c/u, rea 20% 16 tems y anlisis 10% 8 tems. De
los 16 tems del rea de medicin, un 25 % corresponde a c/u de los procesos, as habr que construir 4 tems por cada uno de los procesos y as el
resto.

Un test de aptitudes tiende a ser menos especfico en cuanto a su contenido puesto que est pensado
para medir una caracterstica ms general y persistente de la persona.

Cuando lo que se quiere construir es un test para medir constructos de naturaleza no cognitiva, las
especificaciones pueden ser bastante esquemticas y a veces el contenido de los tems se deduce
fcilmente de la misma definicin del constructo. En este tipo de tests hay veces que a partir del anlisis y

15
reflexin sobre las teoras existentes acerca del constructo que se quiere medir surgen los tems que se
deben incluir.

5.2. Formato de los tems.

5.2.1. tems de eleccin. Son items de respuesta cerrada, donde el sujeto elige una o
varias alternativas de entre las propuestas.

Formatos ms comunes de los tems se eleccin:
Dos alternativas: se elige entre dos alternativas (V F; Si No; Correcto Incorrecto). Se utiliza
para medir variables de tipo cognitivo (habilidades, aptitudes y sobre todo para la construccin de test
de conocimiento y rendimiento). Ventaja: es rpido y fcil de usar. Inconveniente: los sujetos que
responden al azar tienen un 50% de posibilidad de elegir la respuesta correcta.

Eleccin Mltiple: Estos tems constan de:
a) el enunciado propiamene dicho, y
b) las alternativas u opciones de respuesta, que consisten en una lista de posibles respuestas
de las cuales una es la correcta, o la ms adecuada, y las otras son incorrectas o
distractores. Se suelen utilizar 3-5 alternativas de respuesta para disminuir la posibilidad de
elegir la alternativa correcta por azar.

Se utiliza para medir Vs cognitivas y sobre todo en tests de conocimiento y rendimiento. No se
utiliza para medir vs de personalidad, inters, etc; es decir, en el mbito orctico o afectivo.

Ventaja: son fciles de administrar, corregir y puntuar. Inconveniente: son ms difciles de
construir que los de dos alternativas (es difcil construir alternativas que sean realmente efectivas).
Muiz y Garca Mendoza (2002) muestran una clasificacin de los tems de eleccin mltiple en
funcin de la estructura que tenga el enunciado y las distintas alternativas.

El enunciado puede presentarse en forma interrogativa, enunciativa o como una frase truncada o
incompleta; lo que dar lugar a un tipo de tem. La forma ms directa y recomendable es la
interrogativa. La forma enunciativa es equivalente a la interrogativa, y se puede utilizar si el
conjunto del tem es coherente. Las frases incompletas se suelen utilizar en tests educativos.

Hay dos tipos de tems segn la forma de redactar las alternativas:
1) los que presenta una nica respuesta correcta. Se utiliza cuando no hay ambigedad
acerca de la veracidad o falsedad de la respuesta.
2) los que todas las alternativas son parcialmente correctas pero hay una que es ms
completa y la mejor respuesta. Se utiliza cuando se pretende evaluar procesos mentales
complejos.

Emparejamiento: el sujeto debe emparejar los elementos de dos columnas de acuerdo a las
instrucciones dadas en el enunciado. Se utiliza para medir vs de tipo cognitivo (sobre todo,
conocimientos).

Formato Cloze o incompleto: frase con espacio en blanco para rellenar con palabra de una
lista.

* los formatos vistos hasta ahora se utilizan para la medida de habilidades, aptitudes y conocimientos; en los que
se decide de antemano cul es la respuesta correcta. Los test elaborados con este tipo de tems se denominan
tests objetivos.

Escalas de clasificacin (rating scales): las alternativas de respuesta estn ordenadas de
forma gradual (total_ de acuerdo; de acuerdo; indiferente; etc.). Tb se las denomina escalas
valorativas (los sujetos tienen que emitir juicios de valor). No se utilizan en el mbito cognitivo.

Ventaja: los sujetos expresan su postura de una manera ms precisa. Inconveniente: el significado
de las distintas opciones de respuesta no es el mismo para todos los sujetos. Aparecen sesgos en
las respuestas (hay sujetos que tienden a elegir las respuestas extremas, o la central cuando es impar). El n
de opciones no debe ser mayor a 7 (lo ms usual son 5).

16
En general, las etiquetas lingsticas asignadas a las distintas categoras reflejan los aspectos:
Acuerdo; Frecuencia; Cantidad; Sentimientos; Valoracin. Entre medias de estas categoras extremas,
se asignarn distintas etiquetas lingsticas en funcin del n de alternativas.

Listados (checklists): Tb es una escala valorativa en la que los sujetos han de mostrar su
opinin. No uso para vs cognitivas. Las opciones son independientes entre s ( = escalas
clasificacin); y no hay respuestas correctas o incorrectas ( = tems eleccin mltiple). El n de
respuestas suele ser grande y es posible elegir varias opciones. Es un formato tpico de los
cuestionarios.

*las escalas de clasificacin y los listados se utilizan para la medida de vs de personalidad, actitudes, opiniones,
etc. Vs no cognitiva. En estas pruebas no hay respuestas correctas o incorrectas.

5.2.2. tems de construccin. El sujeto elabora su propia respuesta; por lo que tb se
denominan de respuesta abierta. Los hay de 2 tipos:

tems de respuesta corta: el sujeto ha de elegir una nica palabra o frase sin que se le
presente en ninguna lista.
tems de respuesta extensa o de ensayo: se pide a los sujetos que desarrollen un tema.
Dando a los sujetos la oportunidad de expresarse con sus propias palabras, se podr evaluar no
slo el nivel de conocimientos de los sujetos y su forma de estructurarlos, sino sus habilidades
cognitivas de orden superior, los procesos cognitivos que ponen en marcha a la hora de solucionar
un problema.
Se utilizan para medir todo tipo de variables, tanto cognitivas como orcticas o afectivas.
Inconveniente: las respuestas son difciles de analizar y valorar pues el investigador tiene que
codificarlas en una serie de categoras antes de comenzar el anlisis, agrupar juntos a los sujetos
que han emitido respuestas similares y es muy difcil encontrar a sujetos que hayan dado la misma
respuesta. Cuando la poblacin es pequea se utilizan tests con tems de respuesta corta.

5.3. Longitud del test.

No hay un nmero de tems adecuado en cada caso ya que son muchos los factores que hay que tener en cuenta: a la poblacin a la que va
dirigido, el tiempo del que se dispone, los objetivos del test.
La tabla de especificacin nos puede dar una idea acerca del n de tems a incluir. Se puede partir
del n mnimo, teniendo en cuenta los factores de ponderacin asignados a c/ rea de conducta y c/
proceso a evaluar, se van calculando el n de tems del resto de las casillas. Al final se podr contar
con el n de tems total del test. En cualquier caso se recomienda que el n de tems de la prueba
piloto sea mayor que el de la versin final.

5.4. Caractersticas psicomtricas de los tems.

Esto se refiere a:

o su nivel de dificultad (Un tem es fcil o difcil para una determinada poblacin, en funcin de la probabilidad que
tengan de responder a l correctamente). 3 tipos de tests:

Test de velocidad: los tems deben ser fciles de resolver. La dificultad est en el tiempo limitado de
ejecucin.
Test de ejecucin mxima (Test de potencia): se utiliza para la evaluacin del rendimiento
acadmico y para la medida de las aptitudes y destrezas. Aqu los tems tienen diferentes grados
de dificultad (de muy fciles a muy difciles); y el tiempo de ejecucin no es un factor importante.
Test de ejecucin tpica: son los test de personalidad, actitudes, intereses, etc. Como no hay
respuestas correctas e incorrectas, no se puede hablar de dificultad de los tems.

o su homogeneidad en relacin con los dems tems (Un tem tendr un alto grado de homogeneidad con el resto
de tems que forman el test cuando mida lo mismo que ellos). Si el constructo a medir es unidimensional, los
tems han de ser ms homogneos que si el constructo es multidimensional.


17
o su capacidad de discriminacin (Un tem tendr poder distriminativo en la medida en que sirva para diferenciar
entre sujetos que han obtenido en el test puntuaciones extremas). Depende de la poblacin a la que va dirigida el
test.

6 6. . R RE ED DA AC CC CI I N N D DE E L LO OS S T TE EM MS S. .
Consideraciones para la tarea:

1) Debe existir un alto grado de congruencia entre el tem y el constructo psicolgico que se quiere medir
(validez del constructo).
2) Los constructos deben estar claramente definidos para poder valorar el grado de congruencia entre tem-
constructo..
3) Hay que tratar de minimizar los errores de medida cometidos al medir el constructo con cada tem.
4) El formato de los tems debe ha de ser adecuado para los objetivos del test.
5) Los tems deben reunir las caractersticas psicomtricas ms adecuadas en cada caso.
6) Los tems deben estar bien redactados.
7) Los tems deben satisfacer las consideraciones legales y tcnicas pertinentes. (Por ejemplo se deben evitar
plagios).

6.1. Recomendaciones generales.
Evitar la ambigedad de los enunciados: (con enunciados cortos y directos).
Evitar enunciados que provoquen respuestas sesgadas (aquella que es ms probable que elijan
los sujetos independiente_ de su opinin).
Expresar una nica idea en el enunciado.
Evitar las dobles negaciones en los enunciados (hacen que los sujetos no sepan cul es la respuesta
que representa su opinin).

6.2. Recomendaciones para tems de eleccin. Adems de las anteriores:

Dos alternativas: Verdadero-Falso: (1.- estar completa_ seguro de que el tem es verdadero o
falso. 2.- no utilizar frases que sean universalmente verdaderas o falsas. 3.- evitar poner en el
enunciado palabras que puedan inducir la respuestas correcta (como siempre, todo, nada, nunca, a
veces, en general, etc). 4.- evitar patrones de respuesta, colocando a lo largo del test, de forma
aleatoria, los tems cuyo enunciado sea correcto.

Eleccin mltiple: 1.- asegurarse de que el enunciado del tem formula el problema con claridad.
2.- Incluir la mayor parte del texto en el enunciado para evitar repeticiones innecesarias en las
opciones de respuesta. 3.- Incluir distintas opciones de respuesta al final del enunciado. 4.-
Asegurarse de que los distractores, son plausibles. 5.- Evitar opciones de respuesta como:
ninguna de las anteriores o todas las anteriores. 6.- Que slo haya una opcin correcta, a no ser
que se indique lo contrario claramente en las instrucciones. 7.- Tratar de que todas las alternativas
de respuesta tengan una longitud aproximada igual y con una construccin gramatical parecida.
8.- Aleatorizar la ubicacin de la alternativa correcta. 9.- Hacer que todas las alternativas le
parezcan igualmente atractivas a una persona no informada del problema al que alude el
enunciado. 10.- Asegurarse de que cada alternativa concuerda gramaticalmente con el enunciado
del tem. Si el enunciado est en singular, asegurarse de que cada alternativa est en singular.

Emparejamiento: 1.- Asegurarse de que tanto las premisas como las opciones de respuesta que
hay que emparejar son homogneas. 2.- Utilizar el formato adecuado (las premisas se deben
presentar de forma aleatoria en una columna a la izquierda y en una columna paralela, situada a la derecha, se
deben presentar las distintas alternativas de respuesta). 3.- El enunciado del tem debe reflejar
claramente la tarea que se espera del sujeto y la forma en que hay que llevar a cabo el
emparejamiento.

Formato Cloze o incompleto: necesario que en el enunciado del tem haya tantos espacios en
blanco como alternativas de respuesta; y si no es as, debe constar en las instrucciones.

Escalas de Clasificacin: 1.-Evitar expresiones coloquiales, por si alguien no las conoce. 2.-
Incluir en el test completo aproximadamente el mismo n de tems formulados de manera positiva y
negativa. 3.- Asignar las etiquetas lingsticas: al menos en los extremos de la escala deben
aparecer las etiquetas lingsticas para facilitar la respuesta de los sujetos. Tambin es

18
conveniente introducir una categora central que represente el punto medio o neutral, (No se,
Indiferente, Ni de acuerdo ni en desacuerdo) pues refleja la actitud u opinin de muchas personas.

Listados: son fciles de construir.

6.3. Recomendaciones para tems de construccin.

tems de respuesta corta: 1.- Asegurarse de que el enunciado puede ser contestado con una
nica frase o palabra y que hay una nica respuesta correcta. 2.- Los espacios en blanco para las
respuestas han de ser de la misma longitud. 3.- Evitar dar pistas de la respuesta correcta, (por
ejemplo con el artculo de antes de la palabra etc). 4.- Indicar el grado de precisin exigido, (por ejemplo
el n de decimales). 5.- Evitar determinantes especficos como Todo o Nada y ambiguos como
Frecuentemente o Algunas veces.
tems de respuesta extensa o de ensayo: 1.- Asegrese de que el problema est bien enfocado,
con palabras que definan claramente la tarea (Compare, Contraste, etc). 2.- No permitir a los sujetos
que elijan entre varias preguntas de ensayo. 3.- Decidir de antemano cmo se van a puntuar las
preguntas de ensayo. 4.- Redactar las preguntas referidas a cuestiones controvertidas de manera
que los sujetos que deben responder sean evaluados en relacin a la evidencia que presentan no
a su posicin personal respecto al tema.

6.4. Los sesgos de respuesta.

Este tipo de respuestas suelen aparecer en tests construidos para la medida de aspectos orcticos
y afectivos.
Principales sesgos:

1. Aquiescencia: tendencia a responder sistemticamente que se est de acuerdo (o en
desacuerdo) con el enunciado del tem, con independencia de su contenido.
2. Deseabilidad social: responder de manera social_ aceptada.
3. Indecisin o tendencia a seleccionar la alternativa central o neutra: no se, ni acuerdo ni
desacuerdo, indiferencia.
4. Respuesta extrema o tendencia a elegir como respuesta las categoras de los extremos con
independencia del contenido del tem.

7 7. . R RE EV VI IS SI I N N C CR R T TI IC CA A P PO OR R U UN N G GR RU UP PO O D DE E E EX XP PE ER RT TO OS S. .

Una vez que se han redactado los tems del test, y antes de dar forma a la prueba piloto, es
conveniente que estos tems sean revisados por un grupo de personas que no hayan intervenido en
su elaboracin, para que analicen todos aquellos aspectos que contribuyen a la calidad del tem. Una
vez revisados, se puede construir la versin preliminar del test, la prueba piloto, con aquellos que
han pasado este primer control de calidad.

8 8. . C CO ON NF FE EC CC CI I N N D DE E L LA A P PR RU UE EB BA A P PI IL LO OT TO O. .
Dos aspectos bsicos:

8.1. Instrucciones de administracin.

- Evitar un leguaje ampuloso y amenazante.

- En los test de ejecucin mxima se debe explicar que hay algunos tems que resultaran muy
difciles para todos los sujetos y que la prueba est pensada para que haya ejercicios que no
puedan resolver. Si se incluye esta observacin se reducir la ansiedad de los sujetos.


19
- En los test de velocidad, avisar que el tiempo est limitado y muy pocos llegarn al final, Tb. hay
que explicitarlo en las instrucciones.

- Las instrucciones deben proporcionar uno o ms tems de ejemplo.

- Las instrucciones deben informar acerca de cmo distribuir el tiempo y que hacer cuando no se
conoce la respuesta de un tem.

- Las instrucciones deben animar al sujeto a responder a todas las preguntas y favorecer as su
rendimiento, pues ste tiende a bajar considerablemente cuando se dejan muchas respuestas en
blanco.

- Las instrucciones deben explicitar claramente la forma de responder en ellas.

8.2. Formato de presentacin y de registro de las respuestas.

Una vez elaboradas las instrucciones hay que organizar y ordenar los tems seleccionados para su
posterior presentacin a los sujetos y decidir el formato de registro de respuesta. Se puede optar
por que los sujetos respondan en la misma hoja o cuadernillo o en un folio aparte (en este caso los
test podrn ser reutilizados) y se puede contestar en una lectora ptica que facilitar su correccin.

- El formato debe ser claro y perfectamente legible.
- Debe solicitar al comienzo la identificacin del sujeto.
- Presentar las instrucciones
- Presentar los tems: para medir variables cognitivas es importante que se coloquen los tems
ordenados en funcin del nivel de dificultad, de menos a mas para evitar desmotivar al sujeto y
que deje de responder. En pruebas no cognitivas las preguntas embarazosas deben aparecer al
final de lo contrario podra el sujeto dejar de contestar.
- Los formatos diferentes deben aparecer agrupados para evitar provocar desconcierto.
- Hay que tratar de que los tems sigan una ordenacin lgica.

9 9. . A AP PL LI IC CA AC CI I N N D DE E L LA A P PR RU UE EB BA A P PI IL LO OT TO O. .

Una vez construida la prueba es necesario hacer un estudio piloto de la misma para su evaluacin
psicometra (ver si cumple los requisitos necesarios que permitan considerarla como un instrumento cientfico de
medicin). Esta requiere, decidir acerca de la forma de administracin y seleccionar una muestra de sujetos
que pertenezcan a la misma poblacin que aquellos para los cuales se ha diseado el tet.
Formas de administracin de la prueba:
Colectiva individual: preferible la colectiva (aunque WAIS , WISC son individuales).
Oral: las instrucciones y las respuestas se dan de forma oral.
Papel y lpiz: la presentacin y el registro de las respuestas se hace de forma impresa.
Mediante ordenador: aparecen los tems en pantalla y se responde a travs del teclado.
A travs del correo: alta tasa no responde y falta de seguridad de que el que responde es al que iba dirigido

1 10 0. . C CO OR RR RE EC CC CI I N N D DE E L LA A P PR RU UE EB BA A P PI IL LO OT TO O Y Y A AS SI IG GN NA AC CI I N N D DE E P PU UN NT TU UA AC CI IO ON NE ES S A A L LO OS S
S SU UJ JE ET TO OS S. .

Una vez que se ha aplicado la prueba piloto, la primera tarea es valorar las respuestas dadas por los
sujetos a cada uno de los tems para asignarles puntuacin. Siempre que se emite un juicio de algo
es inevitable un cierto grado de subjetividad, pero tambin es necesario tratar de eliminarla o al
menos controlarla.


20
10.1 En los tests formados por tems de eleccin

Tambin llamados de respuesta cerrada, tiene la ventaja que el examinador no debe realizar
ninguna valoracin de las respuestas emitidas por los sujetos a cada uno de los tems, eliminndose
la posibilidad de introducir subjetividad en la puntuacin que les asigne.

10.1.1. Pruebas cognitivas:
Se conoce de antemano cual es la respuesta correcta, solo hay que comprobar si coincide.
Una vez corregida es necesario combinar las puntuaciones asignadas a cada elemento para
obtener la puntuacin de cada sujeto en el test total. Una forma puntuacin =
1
n
i
i
X
=

Un inconveniente grave es, la posibilidad de que un sujeto, desconociendo la respuesta, elija por azar la correcta, siendo en ese caso la puntuacin
final inflada de su verdadero nivel. Para evitarlo se utiliza una frmula de correccin: penalizando errores o bonificando las omisiones.
Respuestas incorrectas dadas al azar:

c
X puntuacin corregida. A = n de aciertos.

1
c a
E
X A A A
K
= =

a
A aciertos obtenidos al responder al azar.
E = n errores. K = n alternativas de los tems.

Si llamamos R
a
al n de respuestas aleatorias que emite el sujeto en el total del test, se puede
establecer que el n de errores ser

1 1
1
a a
k
E R R
k k
| | | |
= =
| |
\ . \ .
Ser igual al n de respuestas aleatorias por la probabilidad del error.

Es decir, el n de respuestas aleatorias por la
El n de aciertos al azar ser: A
a =
R
a
K
1
probabilidad de acertar por azar.
El n de errores al azar:

R
a
= E
1 k
k

Sustituyendo en la formula de los aciertos por la probabilidad de acertar:

1 k
E
k
1
1 K
K
E A
a
= |
.
|
\
|
=

Cuando se bonifican las omisiones la frmula correcta sera:
K
O
A A A X
a c
+ = +

Aunque este procedimiento permitira hacer comparaciones entre las puntuaciones, estaran
sobrevaloradas. No corresponderan al verdadero nivel de los sujetos, por lo tanto es ms
adecuado utilizar el primer procedimiento.

Cuando un mismo tem esta formado por tems con distinto n de alternativas, para conocer cual es la puntuacin de cada sujeto
ser necesario ir aplicando la correccin del azar por partes; se agruparan los tems en funcin del nmero de alternativas y se
calcular la puntuacin del sujeto en cada uno de los grupos. La puntuacin final ser la suma de las puntuaciones parciales
obtenidas.

10.1.2. Pruebas no cognitivas


21
En estas no hay respuestas correctas ni incorrectas, los tems llevan asignado un valor n
distinto a cada alternativa de respuesta, lo que implica un escalamiento previo de los tems
en funcin del grado de atributos que manifiesten. La forma de corregir es sumando los
valores numricos asignados a las alternativas o categoras de repuesta elegidas por el
sujeto.
Cuando se utiliza un formato de escalas de categoras o clasificaciones hay que tener muy
claro cul es la direccin del continuo de la variable que se est midiendo.

10.2 En los tests formados por tems de construccin.

Cuando se trata de que el sujeto construya la respuesta correcta con una palabra o frase corta
(tems de respuesta corta) es fcil la asignacin de la puntuacin a los sujetos. El problema ser
cuando sean ms abiertas y extensas puesto que es ms difcil corregir sin subjetividad.
Este tipo de test permite expresarse de forma abierta, y as valorar no solo los conocimientos del
tema sino otros aspectos importantes en algunas situaciones, el inconveniente es la correccin de
las mismas ya que es muy laboriosa y bastante subjetiva.

Formas de controlar la subjetividad:

10.2.1. Mtodo de la puntuacin analtica: Requiere:

1. Definir de forma inequvoca y aislar las dimensiones que se consideran importantes
para la realizacin de la tarea a evaluar.

2. Establecer las formas de evaluarlas, definiendo claramente lo que se considera una
respuesta adecuada o correcta en cada dimensin y estableciendo el nmero de
respuestas correctas que se necesitan, a cada una de ellas, para poder decir que la
tarea ha sido correctamente realizada.

3. Las pruebas pueden ser corregidas por personas que no sean expertas en la materia a
evaluar, ya que no habr dificultad en decidir si la respuesta es correcta o no.

4. La puntuacin final viene expresada por dos nicos valore: correcta / incorrecta, apto /
no apto, pero se obtiene informacin de cada una de las dimensiones.

10.2.2. Mtodo de la puntuacin holstica.

Evala de una manera global u holstica la forma en que los sujetos han realizado la
prueba, y la puntuacin asignada, que podr tomar distintos valores dentro de los lmites
establecidos. Requiere que la correccin de las pruebas sea hecha por expertos,
entrenados para alcanzar un acuerdo entre ellos y eliminar la subjetividad.

TEMA 3-
TCNICAS PARA LA CONSTRUCCIN DE ESCALAS DE ACTITUDES

1 1. . O OR RI IE EN NT TA AC CI IO ON NE ES S D DI ID D C CT TI IC CA AS S

Nunnally (1978); distincin entre:
- Intereses (preferencias por actividades particulartes). Los tems hacen referencia a numerosas
actividades especficas.
- Valores (preferencias sobre objetivos de vida y formas de vida ms que sobre actividades
concretas). Los tems hacen referencia a numerosas y amplias categoras de actividades.
- Actitudes (sentimientos acerca de un determinado objeto social (objetos fsicos, tipos de personas,
etc)). En las escalas de aptitudes todos los tems que forman la escala deben hacer referencia a
un mismo objeto social (una misma variable).

22

2 2. . E EL L M MO OD DE EL LO O E ES SC CA AL LA AR R D DE E T TH HU UR RS ST TO ON NE E

Hay que diferenciar lo que es el proceso de construccin de la escala, de su posterior aplicacin. 1. En la
fase de construccin de la escala (se escalan los estmulos a lo largo de un continuo psicolgico,
asignando un valor en la escala a cada uno de ellos). 2. El trmino de esta fase constituye la prueba
piloto que puede ser aplicada a una muestra de sujetos para estudiar sus propiedades psicomtricas y
poder elaborar la escala definitiva.
En la construccin de la escala se aade la denominada prueba de jueces (se asignan valores escalares o
puntuaciones a cada uno de los tems o estmulos que componen la prueba).

2.1. Supuestos bsicos del modelo. Este modelo esta basado en:

- en la variabilidad perceptual de los sujetos (en las diferencias que hay entre los sujetos a la hora
de percibir los estmulos, e incluso en las diferencias perceptivas producidas en un mismo sujeto
cuando se le presentan los estmulos en distintas ocasiones).
- En la limitacin que tienen los sujetos para percibir la diferencia de magnitud entre dos
estmulos (ya que dada una serie de estmulos, ordenados respecto a un determinado atributo a lo
largo de un continuo, siempre es posible encontrar dos de ellos cuya diferencia sea tan pequea
que no pueda ser percibida por el observador).

Supuestos bsicos:

- a) existe un continuo psicolgico o subjetivo a lo largo del cual vara el atributo o carctks que se est
estudiando.

- B) cada uno de los estmulos que se van a estudiar, al ser presentado a un sujeto para su
evaluacin, origina en l un proceso subjetivo, proceso discriminativo, a travs del cual les asignar
un valor tb subjetivo en el continuo psicolgico.

- C) cuando un estmulo es presentado en repetidas ocasiones al mismo sujeto, no siempre origina
en l el mismo proceso discriminativo y, por lo tanto, el valor subjetivo asignado en cada ocasin al
estmulo a travs de los distintos procesos discriminantes puede variar.

- D) si el n de veces que se presenta cada uno de los estmulos es muy grande, se puede hacer una
distribucin de los valores subjetivos asignados a cada uno de ellos y se asume que esta
distribucin se ajusta a una distribucin normal.

- E) Distribucin discriminativa (es la media de esta distribucin, y es el valor del estmulo en el
continuo psicolgico, al que se denomina valor escalar del estmulo). Dispersin discriminante
(es la desviacin tpica, y nos da una idea de la ambigedad suscitada por el estmulo en el sujeto.
Si es 0 el estmulo no ha producido ambigedad y el sujeto le habr asignado el mismo valor. Cuanto mayor
sea, mayor ambigedad habr provocado el estmulo, es decir, mayor variabilidad en las puntuaciones dadas
por el sujeto).

- F) si se presentan varios estmulos, en repetidas ocasiones, a un mismo sujeto, cada uno de ellos
dar lugar a una distribucin discriminante distinta que vendr definida por su media y su desviacin
tpica.
- G) el modelo se cumple tanto si es un solo sujeto el que emite numerosos juicios, como si es una
muestra grande de sujetos donde cada uno emite un nico juicio.

2.2. La Ley del Juicio Comparativo.

Utiliza el mtodo de las comparaciones binarias para la obtencin emprica de los datos.
Consiste en comparar directamente cada uno de los estmulo que se presentan con todos los
dems y decir, ante cada uno de los pares formados, cual es el estmulo preferido o el dominante en
la direccin del atributo.


23
Diferencia discriminativa (al comparar dos estmulos y tener que emitir un juicio acerca de cul es
el dominante, se produce en cada uno de los jueces un proceso discriminante mediante el cual
asignan un valor subjetivo a cada uno de los estmulos y, al compararlos, se produce una diferencia
entre los valores subjetivos asignados a cada uno de ellos a travs de los correspondientes
procesos discriminantes. Esta diferencia discriminativa no siempre ser la misma para los distintos
jueces. Los resultados de los juicios se ordenan en una serie de matrices, de frecuencias, de
proporciones y de puntuaciones tpicas.
La mejor estimacin de su valor escalar es la media de las puntuaciones tpicas (asignadas a
cada estmulo a travs de los procesos discriminantes).

2.3. La Ley del Juicio Categrico. Utiliza el mtodo de los intervalos sucesivos; (el de los
intervalos aparentemente iguales y el mtodo de ordenacin de rangos). En este modelo,
adems de los supuestos generales, tb hay que asumir que el continuo psicolgico de cada
sujeto, puede ser dividido en una serie de categoras ordenadas.
Consiste en asignar cada uno de los estmulos que se presentan a una categora en funcin
del grado de atributo que considere que tiene el estmulo.

* tanto en la Ley del Juicio Comparativo como del Categrico, los sujetos deben emitir un juicio
objetivo acerca del grado de atributo que consideran que contiene cada uno de ellos, y no mostrar su
actitud personal; es decir, se les pide juicios de hecho y no juicios de valor (denominado prueba de
jueces).

Mtodo de los intervalos aparentemente iguales: despus de la redaccin de un conjunto de
items, es necesario que sean juzgados por un grupo de personas (100 ms). Cada juez es instruido para
que imaginen un espacio dividido en 11 categoras ordenadas, una escala imaginaria dividida en 11
categoras o intervalos aparentemente iguales (de negativa a positiva, pasando por un punto neutral). Los
jueces deben clasificar cada uno de los estmulos en una de las categoras en funcin del grado y la
direccin del atributo que manifiesten. Dado que se conocen los valores escalares asociados a cada
categora (del 1 al 11), as como los correspondientes a sus lmites (de 0.5 hasta 11.5), slo necesitaremos
calcular los valores escalares de los estmulos; para ello se calcula la mediana de la distribucin de
frecuencias originada por cada uno de ellos (para ello se obtienen las frecuencias acumuladas para cada
tem).

Valor escalar de un tem es igual a
2
i b
d
I N
Mdna L f
f
| |
= +
|
\ .

L
i
= lmite inferior del intervalo asociado a la categora de la mediana.

I = amplitud del intervalo que en este procedimiento es igual a 1.

f
d
= n de jueces que clasificaron el elemento o tem en la categora correspondiente a la mediana.

N / 2 = 50 % de los sujetos de la muestra de jueces.

f
b
= n de sujetos de la muestra de jueces que clasific al elemento en categoras inferiores a la de
la mediana.

Ej.
1 2 3 4 5 6 7 8 9 10 11
tem 5
tem 6

50
0
100
0
60
0
40
0
25
10
15
15
10
25
0
40
0
60
0
100
0
50
Fa (5)
Fa (6)
50
0
150
0
210
0
250
0
275
10
290
25
300
50
300
90
300
150
300
250
300
300
Valor escalar del tem 5 = Mdna = 1,5 +
1
100
(150 50) = 2,5. del tem 6 = Mdna = 8.5 +
1
60
(150 90) = 9,5

24

Para seleccionar los tems que han de formar la escala se eligen aquellos en los que los jueces han
mostrado un mayor acuerdo, una menor ambigedad, o una pequea desviacin tpica.
Como medida del grado de acuerdo entre los jueces se puede utilizar el COEFICIENTE DE AMBIGEDAD que
es la distancia entre el tercer y el primer cuartil; o lo que es lo mismo, se calcula el percentil 25 (deja el 25 %
de las puntuaciones por debajo) y el 75

( )
75
3 / 4
i b
d
I
P L N f
f
= + ( )
25
/ 4
i b
d
I
P L N f
f
= +

.
100
.
d
i
c
k n
n
Pk L I
n
| |
|
= +
|
|
\ .

( ).
.100
k i c
d
P L n
n
I
k
n
| | | |
+
| |
\ .
|
=
|
|
|
\ .

Pk: puntuacin correspondiente al percentil k
Li: lmite exacto inferior del intervalo crtico
n: nmero total de observaciones
k: porcentaje de observaciones inferiores a Pk
Nd: frecuencia absoluta acumulada por debajo del intervalo crtico
I: amplitud del intervalo crtico

ej (cont) item 5
P75 = Q3 = 3,5 +
1
40
(225 210) = 3,88 P25 = Q1= 1,5 +
1
100
(75 50) = 1,75 C.A. = P75 P25 = 2,13

Item 6. P75 = 10.25; P25 = 8.12 C.A. = 2.13

- 2 si CA el elemento ser considerado ambiguo y deber eliminarse de la escala definitiva.
- en elementos neutrales (donde el valor escalar est comprendido en el intervalo mediano) el C.A
puede ser 3.
- La escala completa debe incluir tems que cubran todo el continuo de actitud.
- Una vez asignados los valores escalares a los tems, la escala de actitud ya se puede utilizar.
- Los sujetos deben emitir juicios de valor (no de hecho como los jueces).
- La puntuacin en la escala para cada sujeto se obtiene calculando la media de los valores escalares de
los tems con los cuales el sujeto estuvo de acuerdo.

Las escalas de actitudes de Thurstone tienen la ventaja de que permiten la interpretacin directa de la
actitud de un sujeto sin necesidad de hacer referencia al grupo, o la actitud media de un grupo sin recurrir a
normas generales.

3 3. . L LA A T T C CN NI IC CA A D DE E L LI IK KE ER RT T

Likert propone la tcnica del modelo sumativo, en la que slo se asume que los tems estn
monotnicamente relacionados con el rasgo subyacente que se quiere medir y que la suma de las
puntuaciones a los tems est relacionada linealmente con el rasgo. La puntuacin total sera la suma de
todas las puntuaciones de los sujetos a cada uno de los tems.
Ventajas: fciles de construir; son muy fiables; se pueden adaptar para medir cualquier tipo de actitud.


25
3.1. Fundamentos de la tcnica.

Supuesto: las actitudes pueden medirse a travs de las manifestaciones verbales de los sujetos, y se
basa en los siguientes principios y postulados:

- es posible estudiar dimensiones de actitud a partir de un conjunto de enunciados que operen como
reactivos para los sujetos.

- Los individuos pueden situarse en la variable de actitud desde el punto ms favorable al ms
desfavorable. La variacin de las respuestas ser debida a diferencias individuales.
- La valoracin de los sujetos en la variable de actitud no supone una distribucin uniforme sobre el
continuo de actitud, sino su posicin favorable o desfavorable sobre el objeto estudiado.

Premisa: * las actitudes sociales se agrupan en pautas. Partiendo de la actitud de un sujeto frente a algn
aspecto de un problema planteado, se podra predecir la actitud que manifestara dicho sujeto respecto a
otros aspectos del mismo problema.

Desde el punto de vista de la medicin, los sujetos son ordenados en la escala en funcin de su
posicin respecto a la actitud medida (en un nivel de medida ordinal). La escala es sumativa, es
decir, es funcin de las puntuaciones obtenidas en cada uno de los tems que la componen. Esto
implica dos supuestos adicionales:

- que la suma de las curvas caractersticas de los tems sea una funcin monotnica y
aproximadamente lineal respecto a la actitud medida.

- Que todos los elementos que componen la escala estn midiendo una nica dimensin (escala
unidimensional).

3.2. Asignacin de valores numricos a los tems y puntuaciones a los sujetos.

La asignacin se deja al arbitrio del investigador, pero debe de ser hecha de forma ue se mantenga la
coherencia interna en el sentido de la actitud medida (valor + alto indique actitud ms +, y al revs).
(Completa_ en desacuerdo (1). En desacuerdo (2). Indiferente (3). ........

4 4. . E EL L D DI IF FE ER RE EN NC CI IA AL L S SE EM M N NT TI IC CO O D DE E O OS SG GO OO OD D ( (1 19 95 57 7) ). .

Es una escala de clasificacin para medir el significado connotativo, o significado afectivo o subjetivo.

Osgood investig las reacciones emocionales que las palabras o conceptos producen en las personas.
Chomsky (teoras estructuralistas del significado).

El Diferencial Semntico es un instrumento para medir el significado. Premisa: la actitud que muestra una
persona hacia un objeto depende del significado evaluativo que dicho objeto tienen para la persona.
Para Visauta (1989) el Diferencial Semntico se basa en que la gran diversidad de significados es
reducible a unas determinadas variaciones en un n limitado de dimensiones.
Dentro de la Psicologa, el Diferencial Semntico se utiliza en * investigacin clnica; * en medida de las
actitudes; * en investigaciones transculturales; y * en investigaciones sociales.

El formato de la escala consiste en la presentacin a los sujetos de un concepto seguido de una serie de
escalas cuyos extremos estn marcados por adjetivos bipolares.

4.1. Los conceptos. Es el estmulo u objeto que ha de evaluar el sujeto. Pueden ser conceptos
verbales (Dios, madre, etc) como no verbales (cuadros, esculturas, etc); por lo que 1 hay
que definir clara_ el problema a investigar, y luego elegir los conceptos ms adecuados.

Los conceptos tienen que aparecer encabezando el formulario, seguidos del conjunto de escalas
bipolares que se utilizarn.

26
Como no se puede cubrir a base de conceptos todo el rea a investigar, es necesario hace un
muestreo de todo el universo de conceptos que la definen, para extraer los ms relevantes. A veces
el investigador tiende a elegir aquellos conceptos que:

- Discriminan bien entre los sujetos, ya que de esta manera, se obtiene una mayor informacin.
- Tengan un significado claro y nico para el sujeto, de manera que cuando se le presenten sepa lo
que est juzgando.
- Sean familiares a todos los sujeto para que la respuesta sea real y no est sesgada (Osgood:
cuando los sujetos no estn familiarizados con el concepto, se produce una regresin hacia el punto
medio en la escala de evaluacin).

4.2. Las escalas bipolares. Se utilizan para evaluar el significado de los conceptos. Estas
escalas bipolares representan una reaccin de tipo afectivo hacia el objeto, con el fin de
poder obtener una media del significado afectivo que cada objeto (estmulo) tiene para los
sujetos.

Estas escalas estn ancladas en sus extremos por dos adjetivos antnimos, que describen un
aspecto del continuo semntico (fuerte-dbil; etc) a lo largo del cual se situar el concepto evaluado.
El continuo est dividido en categoras (normal_ 7).

1 2 7
... .. .. ... ..... ..... ..... ..... .. ... Mala Buena .

Cuando un sujeto clasifica un concepto en la categora media de la escala, diremos que
considera que no hay asociacin ni relacin semntica entre el concepto y la escala bipolar utilizada
(p.e. en conceptos no familiares para el sujeto).

La forma de presentacin del DS es muy variada; en general, se utiliza como una prueba de papel y
lpiz.

4.3. El espacio semntico: criterios de seleccin de las escalas. Las escalas ms
representativas seran las que mejor vayan a medir las dimensiones subyacentes al
significado semntico del concepto a evaluar.

Los resultados de las primeras investigaciones factoriales, se encontr que con independencia del
concepto evaluado, haba una serie de escalas que definan 3 factores o dimensiones subyacentes
al espacio semntico: Valorativa (bueno-malo), de Potencia (fuerte-dbil) y de Actividad (activo-
pasivo).
No hay un criterio estricto sobre el n de escalas a utilizar para valorar de forma adecuada cada una
de las dimensiones del espacio semntico, aunque se estima que 6 son suficientes:

- Factor Valorativo o Evaluativo (Bueno Malo; Bonito Feo; Sincero Falso; etc).
- Factor de Potencia (Fuerte Dbil; Duro Blando; Masculino Femenino; etc).
- Factor de Actividad (Activo Pasivo; Rpido Lento; Dinmico Esttico; etc).

El factor VALORATIVO o EVALUATIVO es el que explica un mayor porcentaje de varianza.

Criterios de seleccin de las escalas:

- criterio de la composicin factorial de las escalas: hay que tratar de que cada una de las
dimensiones o factores est representada, al menos, por 4 o 5 escalas bipolares (estas escalas han
de tener saturaciones muy altas en el factor que representan y bajas o nulas en el resto de los
factores).
- Criterio del grado de relevancia para la evaluacin del concepto; que tienen las distintas
escalas para la evaluacin de un determinado concepto. La inclusin de escalas poco relevantes
conlleva a la prdida de informacin (las respuestas se sitan en el punto neutral).
- Criterio de Estabilidad semntica de la escala respecto a los conceptos y a los sujeto (ej.
Grande Pequeo, para evaluar una piedra, o para evaluar una Patria).


27
4.4. Elaboracin de la prueba piloto y aplicacin. Elaborar lista de conceptos a evaluar. Una
muestra califique los conceptos por medio de adjetivos. Seleccin de los adjetivos ms
utilizados. Buscar palabras con significado opuesto al de los adjetivos para formar las
escalas bipolares. Organizar los conceptos y las escalas bipolares para su aplicacin.

Normas que facilitan la recogida de datos y su posterior anlisis:

- para una muestra alfabetizada, se suele presentar el Dsemantico en forma de cuadernillo, en la que
la 1 pgina est dedicada a las instrucciones de cumplimentacin, y en las siguientes se recogen
los distintos conceptos con sus escalas bipolares (una hoja para cada concepto).
- El n de conceptos y escalas debe ser el suficiente, pero no tantos que produzcan aburrimiento.
- Los valores numricos asignados a las categoras de cada escala bipolar tienen que mantener la
direccin de continuidad.

En el anlisis de datos, podemos obtener:

- Medias descriptvas

- Puntuaciones escalares:

- se puede averiguar la puntuacin de un sujeto o grupo en cada una de las escalas.
- Averiguar la puntuacin media obtenida por la muestra de sujetos en cada una de las escalas
bipolares utilizadas para evaluar cada concepto.
- La puntuacin media de todas las escalas que evalan un concepto determinado, tanto a nivel
individual como grupal.
- La puntuacin media de todos los conceptos y de todos los sujetos, etc.

- Puntuaciones factoriales:

Se obtienen con el fin de averiguar la puntuacin que corresponde a cada una de las dimensiones
subyacentes o factores; tanto a nivel individual como grupal. Cada una de las puntuaciones factoriales
representa la reaccin afectiva a un concepto determinado, en una de las dimensiones del DS. Para su
obtencin se calcula la media de las puntuaciones escalares que definen cada una de las dimensiones o
factores.

5 5. . L LA A T T C CN NI IC CA A D DE E G GU UT TT TM MA AN N

Esta tcnica tb se utiliza para la medida de las actitudes, y tb para la construccin de tests en los que hay
respuestas correctas o incorrectas. Se la conoce como Escalograma de Guttman.

El Escalograma de Guttman est diseado de tal forma que se puede conseguir la ordenacin tanto
de los sujetos como de los estmulos respecto a una dimensin determinada, asignndoles a ambos valores
en el continuo. Estara incluido en los mtodos centrados en las respuestas, (en los que la variabilidad en
las reacciones ante los estmulos se atribuyen tanto a la variabilidad de los sujetos como a la de los
estmulos).

Este modelo est basado en la idea de que es posible una ordenacin de estmulos de tal manera
que si un sujeto responde correctamente a un estmulo concreto, lo har tambin a todos los que estn
situados por debajo de dicho estmulo.

Tanto los sujetos como los estmulos pueden representarse, a lo largo de un continuo, formando
una escala tambin denominada de entrelazamiento. En esta escala, cada sujeto estar situado entre dos
estmulos y su orden ser el inmediato superior al del ltimo estmulo que ha contestado correctamente y el
inmediato inferior al del primer estmulo que no ha contestado correctamente. El sujeto habr contestado
correctamente a todas las preguntas que quedan representadas en la escala por debajo de l, pero habr
fallado todas las que estn representadas por encima.

As pues estaramos ante una escala acumulativa perfecta o casi perfecta pues, conociendo el
rango de un sujeto se podr predecir con exactitud su patrn de respuestas.


28
En la prctica es casi imposible obtener escalas perfectas, por tanto el problema es determinar qu
grado de desviacin, respecto de la escala perfecta, ha de ser tolerado para poder aceptar que los datos
obtenidos empricamente se ajustan al modelo de Guttman.

El inters de esta tcnica de escalamiento es que permite establecer la unidimensionalidad de un
conjunto de datos al tratar de eliminar todos los factores que son ajenos a la dimensin que se quiere medir.
La unidimensionalidad se consigue con las escalas acumulativas perfectas. El investigador podr, a la vista
de los resultados obtenidos, establecer la unidimensionalidad o no de determinados atributos.

Para analizar un Escalograma hay que seguir una serie de pasos:

1. Establecer una forma de medir la cantidad de error para cualquier ordenacin de filas y columnas.
2. Ordenar los datos de manera que se ajusten lo ms posible a una escala perfecta.
3. Evaluar el grado de aproximacin de los datos empricos al modelo de escala perfecta.
4. Establecer ciertas normas mediante la aplicacin de algunos criterios, que permitan obtener la escala
ms verosmil en funcin de los datos obtenidos.
5. Establecer una serie de reglas o normas para comprobar si el conjunto de tems elegido es escalable
segn el modelo de Guttman.
6. Asignar valores escalares tanto a los sujetos como a los estmulos.

Para la elaboracin de escalas de Guttman, los tems se eligen sobre la base de que miden una
determinada actitud que es la que se quiere medir, y se van eligiendo de manera que su grado de
extremosidad respecto a la variable medida vaya en aumento. De esta manera, si la escala es correcta, los
sujetos que respondan favorablemente a los tems ms extremos debern hacerlo en el mismo sentido a
todos los tems que representen actitudes menos extremas.

El tipo de escala resultante es el siguiente:

A 1 B 2 C 3 D 4 E
- - - - - - - - -

El patrn correspondiente a esta escala (perfecta) sera:

Estmulos
1 2 3 4
Sujetos E + + + + Responde favorable o correctamente a todos los
estmulos.
D + + + - Responde favorablemente a los estmulos 1, 2 y 3.
C + + - - Responde favorablemente a los estmulos 1 y 2.
B + - - - Responde favorablemente al estmulo 1.
A - - - - Responde desfavorable o negativamente a todos.

5.1. Evaluacin del error en el modelo.

Este modelo no lleva implcita ninguna teora del error, por ello es necesario definir que es lo que se
entiende por error en este contexto. (Mtodo determinstico).

Definimos el error como la desviacin del patrn de respuestas de los sujetos observado
respecto al patrn de respuestas ideal requerido por el modelo.

Hay varios procedimientos para evaluar el error, pero el que usaremos es el propuesto por
Goodenough y Edwards: Est basado en el nmero de desviaciones encontradas en la escala
emprica respecto a la escala ideal, o nmero de cambios que habra que hacer en el patrn de
respuestas observado en cada sujeto, para que se ajustara al patrn de respuestas correspondiente
al Escalograma perfecto.


29
5.2. Pasos a seguir para la elaboracin de la escala.

Si utilizamos una muestra de tems dicotmico el nmero de patrones de respuesta distintos que se
podrn producir sern 2
n
, siendo n el nmero de elementos de la escala, pero, si la representacin
escalar fuera perfecta, solo habr (n+1) posiciones posibles para situar a los sujetos en la escala y
dado que la posicin de cada sujeto depende de su patrn de respuestas, solo habr (n+1) de tales
patrones que renan las condiciones necesarias de escalabilidad segn el modelo de Guttman.

Cuando contamos con muchos sujetos y/o estmulos el proceso de elaborar una escala es bastante
dificultoso. El procedimiento ms sencillo consiste en elaborar una matriz en la que las columnas
representan a los estmulos y las filas a los sujetos, para posteriormente elaborar la escala. Los pasos a
seguir para la elaboracin de la escala son los siguientes:

a) Averiguar para cada uno de los sujetos el nmero de repuestas correctas o favorables segn su
patrn de respuestas.

Matriz Inicial de Datos
Estmulos
Sujetos 1 2 3 4 R. Sujetos
A 0 0 0 0 0
B 1 1 1 1 4
C 0 0 1 0 1
D 0 1 1 1 3
E 0 0 1 1 2
Proporcin 0,20 0,40 0,80 0,60

b) Averiguar la proporcin de sujetos que responden favorablemente a cada estmulo.

c) Reordenar las columnas correspondientes a los estmulos, de manera que stos queden ordenados
en funcin de la mayor o menor proporcin de respuestas favorables o correctas, desde el estmulo
que ha obtenido una mayor proporcin de repuestas favorables hasta el que obtuvo una menor
proporcin.

Ordenacin de Columnas
Estmulos
A 0 0 0 0 0
B 1 1 1 1 4
C 1 0 0 0 1
D 1 1 1 0 3
E 1 1 0 0 2
Proporcin 0,80 0,60 0,40 0,20

d) Reordenar las filas correspondientes a los sujetos de forma que queden ordenados desde el que
obtuvo una mayor puntuacin hasta el que la tuvo ms baja.

Matriz Ordenada (sujetos)
Estmulos
B 1 1 1 1 4
D 1 1 1 0 3
E 1 1 0 0 2
C 1 0 0 0 1
A 0 0 0 0 0
Proporcin 0,80 0,60 0,40 0,20


30
Si la matriz de datos obtenida se ajustara a una escala acumulativa perfecta, el resultado habra
sido una matriz triangular. En caso contrario, se debera hacer el recuento de los errores para
comprobar el grado de ajuste de los datos obtenidos al modelo de Guttman.

Como en la prctica es muy difcil encontrar este tipo de escalas, debemos contar con alguna
tcnica que nos permita tratar y analizar los datos y con alguna medida del grado de ajuste entre
los datos obtenidos empricamente y el modelo terico.

CRITERIOS DE BONDAD DE AJUSTE:

La tcnica de Goodenough-Edwardas se basa en los siguientes principios:

a) El patrn ideal de respuestas predicho para cada sujeto es funcin directa del nmero de tems o
estmulos a los cuales el sujeto contesta favorablemente.
b) Para hacer el recuento de errores, al analizar el patrn de respuestas obtenido empricamente se
compara ste con el patrn ideal; de esta manera, se puede comprobar hasta qu punto ambos
patrones son iguales.

COEFICIENTE DE REPRODUCTIVIDAD (CRITERIO DE BONDAD DE AJUSTE UTILIZADO POR GUTTMAN)

Se trata de un ndice numrico que seala el grado en el que una escala, obtenida a partir de unos
datos empricos, se ajusta al modelo ideal del Escalograma de Guttman o escala acumulativa perfecta.

Para averiguar el grado de escalabilidad de unos datos empricos Guttman utiliz el coeficiente de
reproductividad:

Numero de errores Numero de errores
. . 1 1
Numero total de respuestas (Numero de items x Numero de sujetos)
C R = =

Puede observarse que la cuanta del coeficiente de reproductividad va a depender directamente del
mtodo utilizado en el recuento de errores. Este coeficiente puede ser considerado como una medida de la
bondad de ajuste entre los patrones de respuestas observado e ideal.

Guttman estableci que un conjunto de tems era escalable segn su modelo, si el porcentaje de
error observado en la reproduccin de la escala perfecta era igual o menor que el 10% del total de
respuestas. Por lo tanto, diremos que los datos empricos se ajustan al modelo de Guttman si el
coeficiente de reproductividad es igual o mayor que 0,90.

6 6. . D DI IF FE ER RE EN NC CI IA AS S E EN NT TR RE E L LA AS S D DI IS ST TI IN NT TA AS S T T C CN NI IC CA AS S. .

(De Diferencial Semntico; de Thurstone; de Likert y de Guttman).

La DS se diferencia en el formato de los tems, ya que estos consisten en una serie de conceptos a evaluar
mediante respuestas a una serie de escalas ancladas por adjetivos bipolares. (En las otras tcnicas, los
tems estn formados por enunciados, no por adjetivos).

Para ver las diferencias en las escalas de Thurstone, Likert y Guttman, hay que considerar que
- la actitud existe a lo largo de un continuo subyacente, que
- el punto medio del continuo indica un cambio en la direccin de la actitud y que
- la distancia desde el punto medio en una u otra direccin indica la intensidad de la misma:


31
En la de Likert, los enunciados de los tems se sitan en los dos extremos del continuo (actitud + o -) y se
excluyen los tems cuyos enunciados puedan ser interpretados como representantes de los puntos del
continuo situados alrededor del punto medio. (En la de Thurstone y Guttman, se deben incluir tems que
cubran todo el continuo de la actitud).

La de Guttman es acumulativa ( = Thurstone). Una respuesta + a un tem implica una respuesta + a todos
los tems que estn situados a la izquierda del tem. El supuesto que asume es que las respuestas + a los
tems deben estar reunidas todas alrededor de un punto concreto del continuo.

La de Thurstone asume un nivel de medida de intervalos (las otras dan lugar a escalas ordinales). La
seleccin de los tems definitivos se basa en los valores asignados por los jueces a cada uno de los tems
(en las otras tcnicas se aplica la escala a un muestra representativa).

De estas tcnicas, la de Likert es la ms utilizada. Ventajas: * rpidas de administrar y puntuar; * se
pueden medir la mayora de las actitudes; * dan informacin fiable. Inconveniente: * facilidad para
dar respuestas falsas, socialmente deseables; * los intervalos entre los puntos de la escala no
representan cambios iguales en la actitud medida en todos los sujetos.

TEMA 4
LA FIABILIDAD DE LAS PUNTUACIONES.

2 2. . E EL L P PR RO OB BL LE EM MA A D DE EL L E ER RR RO OR R D DE E M ME ED DI ID DA A. .

Un requisito de la teora de la medicin es la fiabilidad y precisin, para ello debe haber instrumentos de
medida fiables y libres de errores.
El error de medida es la diferencia entre la puntuacin emprica en un test y su puntuacin verdadera.
Al aplicar n veces un test a un sujeto sus puntuaciones son muy parecidas pero no iguales.
Otras veces, los errores se deben a la motivacin, condiciones fsicas o al azar, son errores aleatorios e
impredecibles, de los que se ocupa la fiabilidad.
Deducimos que al aplicar repetidamente un test a un sujeto, se obtienen distintas puntuaciones, y stas
estarn afectadas por los errores de medida.
Para saber el valor real utilizaremos la TCT y el modelo lineal de Spearman.

3 3. . E EL L M MO OD DE EL LO O L LI IN NE EA AL L D DE E S SP PE EA AR RM MA AN N. .

La puntuacin emprica obtenida en un test, es una combinacin lineal de la puntuacin verdadera
(V) y el error de medida ( E ).
X = V + E

Para obtener V (puntuacin verdadera) a partir de X (puntuacin emprica) se basa en unos
supuestos:

1. V es la esperanza matemtica de X. V = E (X)
2. la correlacin entre V de n sujetos y E es 0. r
ve
= 0.
3. La correlacin entre los errores de medida que afectan a las puntuaciones en dos tests diferentes es 0.
r
e1
r
e2
= 0.

De estos supuestos se sacan las siguientes deducciones:

- el error de medida es la diferencia entre la puntuacin emprica y la puntuacinverdadera
E = X-V.
- la esperanza matemtica de los errores de dedida es cero E(e) = 0
- La media de las p. empricas y verdaderas son iguales X V =
- la covarianza entre la p verdaderas y los errores es cero. Cov (V,E ) = 0
- la varianza de las p empricas es igual a la suma de la varianza de las p verdaderas ms la de los
errores.
2 2 2
x v e
S S S = +
- la covarinza entre las p empricas y verdaderas es igual a la varianza de las p verdaderas.
Cov (X,V) = Sv.

32
- La correlacin de puntuaciones empricas y errores es el cociente de la desviacin tpica de los
errores y la de las puntuaciones empricas.
e
xe
x
S
r
S
=

- la covarianza entre las p empricas de dos tests es igual a la covarianza entre las p verdaderas.
Cov (X
1
, X
2
)= Cov (V
1
,V
2
)

4 4. . T TE ES ST T P PA AR RA AL LE EL LO OS S. . C CO ON ND DI IC CI IO ON NE ES S D DE E P PA AR RA AL LE EL LI IS SM MO O. .
Si a una misma muestra se aplican dos tests, X y X son paralelos s adems de los supuestos
anteriores se cumple:
1. Las puntuaciones verdaderas de los sujetos son iguales en ambos text.

X V E
X V E
= +
= +

2. La varianza de los errores de medida es la misma en ambos tests,
2 2
e e
S S =

De estas dos condiciones de paralelismo sacamos que :
a. ; X V E V X V = + = = ;

X V E X V = + =

la media de las puntuaciones de dos tests paralelos es la misma.

b.
2 2 2 2 2 2 2 2

; ;
x x x v e x v e
S S S S S S S S = = + = +
la varianza de las puntuaciones de dos tests paralelos son iguales.

c.
2
2
2
V
XX XV
X
S
r r
S
= = la correlacin entre las puntuaciones empricas obtenidas en dos
tests paralelos es igual al cuadrado de la correlacin entre las puntuaciones empricas y las
puntuaciones verdaderas, o bien, al cociente entre la varianza de las puntuaciones
verdaderas y la varianza de las puntuaciones empricas.

d.
1 2 1 3 2 3
....
j k
X X X X X X X X
r r r r = = = = En dos o ms tests paralelos las intercorrelaciones
entre cada dos de ellos son iguales.

5 5. . I IN NT TE ER RP PR RE ET TA AC CI I N N T TE E R RI IC CA A D DE EL L C CO OE EF FI IC CI IE EN NT TE E D DE E F FI IA AB BI IL LI ID DA AD D. .

El coeficiente de fiabilidad de un test r
XX
es la correlacin entre las puntuaciones empricas obtenidas por
una muestra de sujetos en dos formas paralelas.

2
2
V
XX
X
S
r
S
=

Si r
xx
= 1 el error de medida es 0, fiabilidad perfecta.
Si r
xx
= 0 la varianza de los errores es igual a la varianza de las puntuaciones empricas.

2
XX XV XV XX
r r r r = =
xx
r esel ndicede fiabilidad del test

2
2
2
1 1
e
XX xe
X
S
r r
S
' = =
1
e
xe xe xx
X
S
r r r
S
= =
es decir, que la correlacin entre las puntuaciones empricas y los errores de medida se puede obtener a
partir de la correlacin entre las puntuaciones obtenidas por los sujetos en las dos formas paralelas del test.

33

1
xx
r es la proporcin de la desviacin tpica de las puntuaciones que se debe a la desviacin tpica
de los errores.
El coeficiente de fiabilidad (definido segn el modelo clsico de Speraman) nos da informacin para
estimar la cuanta del error de medida.

6 6. . T TI IP PO OS S D DE E E ER RR RO OR RE ES S D DE E M ME ED DI ID DA A. .

1. Error de medida. Es la diferencia entre las puntuaciones empricas y las puntuaciones
verdaderas.
E = X V

El error de medida nos da una medida individual del error que se comete (una medida individual de la
precisin del test). Nos indica la diferencia entre la puntuacin de un sujeto en un test y el niver real de
dicho sujeto en la variable que medimos.
Error tpico de medida: es la desviacin tpica de los errores de medida
1
e x xx
S S r =
Es una medida grupal.
2. Error de estimacin de la puntuacin verdadera. E = V V

es la diferencia entre la puntuacin verdadera y la puntuacin verdadera pronosticada por
regresin.

Error tpico de estimacin de la puntuacin verdadera: es la desviacin tpica de los errores de
estimacin

1
vx x xx xx e xx
S S r r S r = =

3. Error de sustitucin e = X
1
- X
2
,

Es la diferencia de puntuaciones en un test y en otro paralelo (el error que se cometera al sustituir las
puntcnes del test X
1
por las obtenidas en un test paralelo X
2
).

Error tpico de sustitucin, la desviacin tpica de los errores de sustitucin.

1 2
1 2
X X x xx
S S r
=

4. Error de prediccin,
1 1
e X X =
Es la la diferencia entre puntuaciones obtenidas en un test (X
1
) y las pronosticadas en ese
mismo test (X
1
) a partir de una forma paralela X
2
.

La puntuacin X
1
se obtiene por regresin de X
1
sobre X
2

( )
1
2
1 12 2 2 1
x
x
S
X r X X X
S
= +

El error tpico de prediccin es la desviacin tpica de los errores de prediccin.

1 1 1
p
e x xx xx e xx
S S r r S r ' = =

7 7. . F FA AC CT TO OR RE ES S Q QU UE E A AF FE EC CT TA AN N A A L LA A F FI IA AB BI IL LI ID DA AD D. .
Depende de la variabilidad del grupo, la longitud del test y de las caractersticas de los tems.

7.1. Longitud del test.
Cuanto ms tems representativos se utilicen, habr mayor informacin del atributo que estudiamos,
menor el error y aumenta la fiabilidad (al aumentar la longitud del test, aumenta su fiabilidad).

Ecuacin de Spearman-Brown (hace referencia al caso en que se quiera aumentar la longitud del test inicial n
veces) .


34
1
xx
xx
xx xx
nr
R
nr r
=
+
Relaciona la fiabilidad y la longitud cuando los tems a aadir son paralelos.

R
xx
= Coeficiente de fiabilidad del test alargado o acortado.

r
xx
= Coeficiente de fiabilidad del test inicial.
n = n de veces que se ha alargado el test.
EF
n
EI
= EF = n elementos finales del test
EI = n elementos iniciales del test.

Si se disminuye la longitud del test, n < 1.
Para calcular cunto hay que alargar o acortar un test para obtener un determinado coeficiente de
fiabilidad
( )
( )
1
1
xx xx
xx xx
R r
n EF n EI
r R
= =

EF
n
EI
=
Para calcular cunto se puede reducir el n de tems para que el coeficiente de fiabilidad sea aceptable,
se usa la misma frmula que antes siendo r
xx
el coeficiente de fiabilidad y R
xx
el coeficiente de fiabilidad
admisible. Los tems que hay que eliminar EI-EF.

7.2. Variabilidad de la muestra.
Cuanto ms homogneo sea el grupo, menor es el coeficiente de fiabilidad, y la desviacin tpica
de las puntuaciones empricas ser menor.

Suponiendo que el error tpico de medida es constante hacemos la igualdad
1 2
2 2
e e
S S =

como ( )
2 2
11
1
e x
S S r = ( ) ( ) ( )
2
2 2 1
1 11 2 22 22 11 2
2
1 1 1 1
S
S r S r r r
S
= =

2
1
S = varianza emprica de las puntuaciones en el grupo 1.
2
2
S = varianza emprica de las puntuaciones en el grupo 2.
r
11
= Coeficiente de fiabilidad en el grupo 1.
r
22
= Coeficiente de fiabilidad en el grupo 2.

Considerando que Se=-Sx(1-rxx)
Al reducir la variabilidad de las puntuaciones empricas en el segundo grupo, se reduce el coeficiente de
fiabilidad. El valor del error tpico de medida permanece constante

1 1
1
e x xx
S S r =
2 2
1
e x xx
S S r =

8 8. . L LA A F FI IA AB BI IL LI ID DA AD D C CO OM MO O E EQ QU UI IV VA AL LE EN NC CI IA A Y Y C CO OM MO O E ES ST TA AB BI IL LI ID DA AD D D DE E L LA AS S M ME ED DI ID DA AS S. .
Un test debe cumplir:

1. Medir el rasgo que pretende (ser vlido).
2. Las puntuaciones obtenidas deben ser estables y precisas.


35
Precisin es estar libre de errores.
Estabilidad es que en distintas ocasiones y en condiciones parecidas el rasgo no cambie.
La fiabilidad del test es la estabilidad de las medidas.

Dos mtodos basados en la estabilidad para calcular el coeficiente de fiabilidad:
1. Mtodo de las formas paralelas.
2. Mtodo test-retest.

8.1. Mtodo de las formas paralelas. Pasos a seguir:

Construir dos formas paralelas de un test X y X y aplicarlas a una muestra de sujetos representativa
de la poblacin y calcular el coeficiente de correlacin de Pearson.

( ) ( )
1 2
1 2 1 2
'
2 2
2 2
1 1 2 2
xx x x
N X X X X
r r
N X X N X X
= =
( (

( (

X
1
y X
2
: Puntuaciones obtenidas en cada una de las formas.

El coeficiente de fiabilidad aqu tambin se llama coeficiente de equivalencia.
Ventaja: Si las pruebas se presentan a la vez hay un mayor control.
Inconveniente: Dificultad de construccin de 2 formas paralelas.

8.2. Mtodo test-retest.
Se aplica el mismo test en 2 momentos diferentes.

( ) ( )
1 2
1 1
1 2 1 2
2 2
2 2
1 1 2 2
x x
X X
N X X X X
r r
N X X N X X
= =
( (

( (

X
1
y X
2
las puntuaciones obtenidas en cada aplicacin.

Ventaja: No necesita dos o ms formas distintas del miso test.
Inconvenientes:
- Posible memorizacin de tems puede interferir la 2 aplicacin.
- Intervalo de tiempo entre aplicaciones.(Es deseable incrementar el tiempo entre aplicaciones para
minimizar el efecto aprendizaje o memoria, pero si este es muy elevado pueden variar factores
sociales, afectivos o evolutivos que inciden en la fiabilidad).
- La actitud del sujeto. (si cambia el grado de cooperacin , puede dar una puntuacin ms alta o
baja que da un coeficiente de fiabilidad ms bajo o ms alto).

El coeficiente de fiabilidad as obtenido se llama coeficiente de estabilidad.

9 9. . F FI IA AB BI IL LI ID DA AD D C CO OM MO O C CO ON NS SI IS ST TE EN NC CI IA A I IN NT TE ER RN NA A. .
A veces slo se puede aplicar una vez el test, por lo que lo anterior no es factible.
Las tcnicas aportan un ndice de la consistencia interna de las respuestas de los sujetos.

9.1. Mtodos basados en la divisin del test en dos mitades.
Ventaja respecto a los anteriores es que al haber slo las puntuaciones de un test, la
fiabilidad no se ve afectada por otros factores como el intervalo de tiempo, aprendizaje, memoria,
etc.. y con el consiguiente ahorro de tiempo y esfuerzo.

Se aplica el test a una muestra y se divide en dos mitades calculando la correlacin y aplicando una
frmula de correccin.

36
Las divisiones deben ser similares en dificultad y contenido para que la correlacin sea
mxima.

Hay varias formas de hacer la divisin:

1. n/2 primeros tems una mitad y los ltimos n/2 tems como la segunda. Inconveniente es
que algunos tests la complejidad de los tems va incrementando.
2. Los pares por un lado y los impares por otro.
3. Ordenar segn el grado de dificultad y dividirlos en pares e impares.
4. Asignacin de tems al azar a ambas mitades.

Se utilizan las sigientes frmulas:

9.1.1. Spearman-Brown, se basa en la relacin entre longitud de una test y el coeficiente de
fiabilidad. Se aplica el test, se divide en dos mitades paralelas y se calcula la correlacin
entre ambas partes, que sera el coeficiente de fiabilidad de cada mitad, para calcular la
fiabilidad des test completo.

2
1
XX
XX
XX
r
R
r
=
+

R
xx
= Coeficiente de fiabilidad del test cuando se na duplicado su longitud.
r
xx
= coeficiente de fiabilidad de cada una de las mitades.

9.1.2. Rulon, Se usa cuando no siendo las dos mitades estrictamente paralelas podemos
considerarlas t -equivalentes, que son segn Lord y Novick en las que las puntuaciones
verdaderas son iguales para un grupo de sujetos en ambas formas, pero las varianzas de
error no tienen por qu ser iguales. Son las que la puntuacin verdadera de cada sujeto en
uno de los tests es igual a la del otro ms una constante.

2
2
1
d
xx
x
S
R
S
=

d = diferencias entre puntuaciones pares e impares de cada sujeto.
2 2
d p i
S S

= =varianza de la diferencia entre las puntuaciones pares e impares.
=
2
x
S varianza de las puntuaciones empricas de los sujetos.

9.1.3. Guttman-Flanagan, equivalente a Rulon pero ms sencilla.

2 2
2
2 1
p i
xx
x
S S
R
S
| | +
=
|
|
\ .

=
2 2
i p
yS S varianza de las puntuaciones de los tems pares e impares.
=
2
x
S varianza emprica del test total.

9.2. Mtodos basados en la covariacin entre los tems.

9.2.1. Coeficiente alfa de Cronbach.
Es un indicador de la consistencia interna. Expresa la fiabilidad en funcin del n de tems y
de la proporcin de la varianza total del test debida a la covariacin entre los tems. A mayor
covariacin mayor fiabilidad.


37
( )
( )
( )
2 2 2
1
2 2 2
1
cov
1
1 1 1 1 1 1
n
j k x j j
x x x
jk
S S S n r
n n n n
n S n n r n S n S
o
=
| |
|
| | | | (
|
= = = =
| | (
| |
| +
\ . \ .
|
\ .

n= n de elementos del test.
=
2
j
S Suma de las varianzas de los elementos.
cov( ) jk =
suma de las covarianzas de los tems

=
2
x
S varianza de las puntuaciones en el test.
1
r = cociente entre la covarianza media de los tems y su varianza media

9.2.1.1. Estimador insesgado de o .

( )
3 2
1
N
N
o
o
+
=

= o
valor de alpha de Cronbach. = o stimador insesgado. N = n de sujetos de la muestra.

Aumentando el n de sujetos alpha y es estimador insesgado se aproximan siendo iguales cuando N tiende
a infinito. Son iguales a partir de 100 sujetos.

9.2.1.2. El coeficiente alpha como lmite inferior del coeficiente de fiabilidad.

Alpha es una estimacin del lmite inferior del coeficiente de fiabilidad siendo menor o igual
que el coeficiente de correlacin r
xx
.
xx
r o s

xx
r o = cuando los tems sean paralelos.

Otro estimador del lmite inferior del coeficiente de fiabilidad es lambda de Guttman.
2
1
2
2
3
) , (
1
1
x
n
j x
j
S
k j Cov
n
n
S
S

+
|
|
.
|
\
|
=
=
o

n = n de elementos del test.
=
2
j
S varianza del elemento j del test.
=
2
x
S varianza del elemento j del test.
= =

2
2
) , cov(
j
x
S S k j Suma de las covarianzas de los tems.

9.2.1.3. Inferencias sobre alpha.

De los problemas de las inferencias de alpha se desarroll la teora muestral para el coeficiente
alpha. Kristof y Feldt derivaron un estadstico de contraste del coeficiente alpha que se distribuye segn
una F de Snedecor, para determinar el intervalo confidencial.

Feldt deriva el estadstico W para contrastar dos valores de dos muestras independientes.
Pue ampliado a n muestras independientes por el estadstico UX1.

38

A) Inferencias para un solo valor de .
Para saber si toma un determinado valor en la poblacin o para saber entre que
valores se encuentra en la poblacin usamos F.
o
o
=
1
1
F

F se distribuye son N-1 y (n-1)(N-1) g.l.
= valor propuesto por hiptesis para la poblacin.
= o
valor alfa obtenido en la muestra.

N = n de sujetos.
N =n de tems.

b) Inferencias sobre alfa para muestras independientes..

* Dos muestras independientes.
Se usa el estadstico W para comprobar la H
0
:
1
=
2

2
1
1
1
o
o
= W

W se distribuye segn la F con (N
1
- 1) y (N
2
-1) g.l.
1
o
y
2
o
= valores del coeficiente en cada muestra.

N
1
y N
2
= n de sujetos de cada muestra.

* n muestras independientes.
El estadstico de contraste
( )
2
1
3
1 2
1
n
i
u
UX
S
o
(

(

=

UX
1
= es una
2
_ con n-1 g.l. N = n muestras.
i
o =
valor del coeficiente para cada muestra.

= u media de los coeficientes transformados.
( )
1/ 3
1
1 n
i
i
u
n
o

=

= S media aritmtica de las varianzas de cada muestra.
2
2
1
n
i
i
S
S
n
=
=

siendo
( )

( )
2
2/ 3
2
9 1 1
i
i i
S
N o
=

y
( ) 1
1
i i
i
i
N n
N
n

=
+

N
i
= n de sujetos en cada muestra
N
i
= n de tems en cada test.

B) Inferencias sobre para muestras dependientes.

En algunos diseos se pueden administrar distintas pruebas a la misma muestra, con lo que
los coeficientes son dependientes y no se puede utilizar lo anterior.

* Dos muestras dependientes.
Feldt propone el estadstico t para dos valores de obtenidos de una misma
muestra. Se recomienda cuando N.n menor o igual que 1000. . 1000 N ns

39

( )

( ) ( )
1 2
2
1 2 1 2
( ) ( 2)
4 1 1 1
x x
N
t
r
o o
o o

=
(

t = distribucin t de Student (N-2) g.l.

1 2
y o o = valores del coeficiente alfa
N = nmero de sujetos de la muestra.
1 2
2
x x
r = correlacin al cuadrado entre las puntuaciones de los sujetos en los 2 test.

* n muestras dependientes.

( )
2
1
3
1
2 2
1
k
i
i
u
UX
S C
o

=
(

(

=

UX
2
segn una
2
_ con (k-1) g.l. K = n de tests. N = n sujetos. =
i
o
valor de los
coeficientes .
= u media de los coeficientes transformados.
| |
( )
1/ 3
1
1
1
n
i
i
u
n o
=
=

2
S = media arimtica de las varianzas de cada muestra
2
2
1
n
i
i
S
S
n
=
=

donde
( )

( )
2
2/ 3
2
9 1 1
i
i
S
N o
=

siendo
( ) 1
1
N
N

=
+
y
1
1
n
i i
n
n
=
=

n
i
= n de tems de cada test.
= C media de las covarianza Sij.
( )

( )

( )
2
1/ 3 1/ 3
2
9 1 1 1
ij
i j
r
C
o o
=

9.2.2. Casos particulares del coeficiente .

Las ecuaciones de Kuder-Richarson es un caso particular del coeficiente , si los tems son
dicotmicos. La estimacin es segn el n de tems y sus intercorrelaciones. A mayor n de tems,
mayor covariacin, mayor consistencia interna y mayor fiabilidad.

Se punta 1 acierto y 0 fallo.
|
|
.
|
\
|
=

2
2
1
1
x
j
S
S
n
n
o

como la varianza de una variable dicotmica h, con proporcin de aciertos p
h,
y proporcin de errores q
h
,
siendo q
h
= 1-p
h
, se puede expresar
2
h h h
S p q = ; entonces

40

|
|
.
|
\
|
=

2 20
1
1
x
h h
S
q p
n
n
KR

n = n elementos del test.
p
h
= proporcin de aciertos en el elemento h.
q
h
= proporcin de errores en el elemento h.
p
h
q
h
= varianza del elemento h.
S =
2
x
varianza total del test.

Si los tems adems de ser dicitmicos, presentan la misma dificultad, se usa la

|
|
.
|
\
|
=
2 21
1
1
x
S
npq
n
n
KR ecuacin Kuder-Richardson

n = n elementos del test.
npq = suma de las varianzas de los elementos.
=
2
x
S varianza del test.

Simplificada
) 1 (
1
2
2
21
x
S
n
X
X
n
n
KR

=

n = n de elementos del test
2
x
S = varianza del test
X =media de las puntuaciones emprricas.

9.3. Coeficientes basados en el anlis factorial de los tems: Theta y Omega.
Son dos indicadores de la consistencia interna de los items y una aproximacin al coeficiente .

)
1
1 (
1
1
=
n
n

n = n de tems del test.
1= primer autovalor de la matriz factorial, o sea, la varianza explicada por el primer factor antes de
la rotacin.
El coeficiente indica la unidimensionalidad de los tems, a mayor varianza que explica el primer
factor mayor y la intercorrelacin de los tems, con lo que se distribuyen en torno a una sola
dimensin.

2 2 2
1 1
1 1
1
cov( , )
n n
j j j
j j
n n
j h
j h
j h
S S h
X X
= =
= =
=
O =


41

=
2
j
S Suma de las varianzas de los tems.
h =
2
comunalidad estimada del tem j.
= ) (
, h j
X X Cov suma de las covarianzas entre los tems j y h.

Ms sencillo
= O
h r n
h n
j
j
2
1
2

jh
r = correlacin entre j y h.
O s su o

9.4. El coeficiente beta () de Raju.

Nos da una estimacin de la fiabilidad de un test compuesto de varios subtest con distinto n de
tems, cosa que no hace .
Lo aplicamos cuando no conocemos las puntuaciones en los distintos subtest, si las conocieramos
usaramos .

2 2
1
2
2
1
1
k
x j
j
k
j
x
j
S S
n
S
n
|
=
=
=
| |
| |
|
|
|
\ .
\ .

k = n de subtests.
=
2
x
S varianza del test.
=
2
j
S varianza de cada subtest.
n
j
= n de tems de cada subtest.
n = n de tems del test.

10. ESTIMACIN DE LA PUNTUACIN VERDADERA DE LOS SUJETOS EN EL ATRIBUTO DE INTERES.
P Pa ar ra a p po od de er r h ha ac ce er r e es st ti im ma ac ci io on ne es s a ac ce er rc ca a d de el l v va al lo or r d de e l la a p pu un nt tu ua ac ci i n n v ve er rd da ad de er ra a d de e u un n s su uj je et to o e en n u un n t te es st t y y d de el l
e er rr ro or r q qu ue e a af fe ec ct ta a a a l la as s p pu un nt tu ua ac ci io on ne es s e em mp p r ri ic ca as s o ob bt te en ni id da ad d e en n e el l t te es st t. . N No o s se e p pu ue ed de e c ca al lc cu ul la ar r e el l v va al lo or r e ex xa ac ct to o, , p pe er ro o s si i
e es st ta ab bl le ec ce er r u un n i in nt te er rv va al lo o c co on nf fi id de en nc ci ia al l c co on n u un n d de et te er rm mi in na ad do o n ni iv ve el l d de e c co on nf fi ia an nz za a d do on nd de e s se e e en nc co on nt tr ra ar r d di ic ch ha a
p pu un nt tu ua ac ci i n n. . 3 3 f fo or rm ma as s: :

1 10 0. .1 1. . E Es st ti im ma ac ci i n n m me ed di ia an nt te e l la a d de es si ig gu ua al ld da ad d d de e C Ch he eb by yc ch he ev v. .
Si no se hace ningn supuesto sobre la distribucin de las puntuaciones empricas o de los errores.
( ) { } 2
1
1
e
K
K P X V K S s >

=
2
1
1
K
nivel de confianza utilizado.
S
e
= error tpico de medida.

10.2. Estimacin basada en la distribucin normal de los errores.

Asume una distribucin normal de los errores de medida (con media 0 y varianza
2
e
S ) y de las
puntuaciones empricas condicionadas a un determinado valor de V.

42

Pasos para determinar el intervalo:

Se fija un nivel de confianza y se determina Zc (buscar en tablas).
Se calcula el error tpico de medida S
e
.
1
e x xx
S S r = para puntuaciones directas o diferenciales.

1
e
z xx
S r = para puntuaciones tpicas.

Calcular el error de medida mximo dispuestos a admitir (est afectado por el nivel de confianza).
E
max
= Zc.Se

Calcular el intervalo confidencial.

max
IC X E =

10.3. Estimacin basada en el Modelo de Regresin.
La correlacin entre puntuaciones empricas y errores es 1 0
xe xx
r r = > , valor mximo r
xx
= 0
(las p empricas coinciden con los errores) y el mnimo cuando la fiabilidad es perfecta r
xx
= 1 (sin errores y
las puntuaciones empricas coinciden con las verdaderas).
El intervalo se hace de la puntuacin verdadera estimada (que no estn sesgadas), que se
calcula por regresin lineal por los mnimos cuadrados.

Puntuaciones directas:
y y
xy xy
x x
S S
Y Y r X r X
S S
| |
= +
|
\ .

Puntuaciones diferenciales:
y
xy
x
S
y r x
S
=

Puntuaciones tpicas:
xy x
y
Z r Z =

Ecuacin de regresin en puntuaciones directas de V sobre X.

) ( ' X
S
S
r V X
Sx
S
r V
x
v
xv
v
xv
+ = sabemos que
2 v v v
xv xv
x x x
S S S
r r
S S S
= = y como V X =

( )
xx xx
V r X X r X = +
( )
xx
V r X X X = +

Ecuacin de regresin en puntuaciones diferenciales.
v
xv
x
S
v r x
S
= , como
v
xv
x
S
r
S
= tendremos que
2
2
.
v v v
xx
x x x
S S S
v x x r r
S S S
= = =
x r v
xx
= '
) ( ' X X r v
xx
=

43

Ecuacin de regresin en puntuaciones tpicas.
' v vx x
Z r Z =

TEMA 5.
LA FIALIBILIDAD EN LOS TESTS REFERIDOS A CRITERIO

ORIENTACIONES DIDCTICAS
Temas 1, 2, 3, 4 construccin de los instrumentos de medicin psicolgica (TCT) Test referidos a
normas: el rendimiento de los sujetos se evala en referencia a otros sujetos que forman el grupo
normativo (posicin de sujeto relativa al grado de representatividad de la muestra).
Test referidos a criterio: a diferencia del anterior, su evaluacin tiene lugar en funcin del nmero de
objetivos logrados en el test tipo de problema a resolver, capacidad de resolucin,
Dos modelos son los adecuados para la clasificacin del sujeto en funcin de si ha alcanzado o no una
determinada puntuacin en el test denominada puntuacin de corte ndices de acuerdo que
requieren dos aplicaciones o una sola aplicacin del test.

DEFINICIN Y OBJETIVOS DE LOS TESTS REFERIDOS A CRITERIO (TRC)

Flanagan y Nedelsky introdujeron el concepto de estndar absoluto y relativo respecto a las
puntuaciones.
Ebel Test Referido al Criterio Glaser estable la diferenciacin con los tests normativos.
Hambleton expone las causas de su aparicin: conocer la eficacia de los programas educativos,
evaluar habilidades bsicas,
TRC en los sesenta: inatenta establecer el estatus de un sujeto respecto al dominio definido.
Aos 80: medicin autntica o evaluacin de la ejecucin son trminos alternativos de la medicin
referida a criterio.
Popham y su definicin ms consensuada: un TRC se utiliza para evaluar el status absoluto del
sujeto con respecto a algn dominio de conductas bien definido.

DIFERENCIAS TESTS REFERIDOS NORMAS Y TRC

TEST REFERIDOS A NORMAS
(TRN)
TEST REFERIDOS A CRITERIO (TRC)
FINALIDAD
Describe al sujeto en el continuo
de algn rasgo, haciendo hincapi
en las diferencias individuales y
expresando su posicin relativa
respecto al grupo normativo.
Permiten interpretar las puntuaciones en sentido
absoluto (sin referencia), y describir con mayor
precisin los conocimientos, habilidades y destrezas
de los sujetos en un dominio concreto de
contenidos.
Construccin
del test
Los tems suelen derivarse de
alguna teora de rasgos.
Se delimitan al contenido o conductas y el uso
pretendido del test.
Dominio de contenidos: especificaciones de
contenido y elaboracin y anlisis cualitativo de los
tems.

44
Validez de contenido: es la relevancia y
representatividad de los tems respecto al dominio
especfico.
Criterios de
seleccin de
tems del test
tems de dificultad media y alto
ndice de discriminacin para
incrementar el poder discriminativo
del test.

Estimacin de fiabilidad: no
permiten describir la precisin de
las puntuaciones individuales (los
estndares determinan los puntos
de corte)
Segn los objetivos del test y el propsito y finalidad
del mismo. 2 objetivos:
Test referido a dominio: estimacin de la
puntuacin dominio de los sujetos describe lo
que una persona puede hacer en un rea de
contenido especfico.
Test referido de maestra: establecimiento de
estndares mediante puntos de corte
clasifica a los sujetos en las posibles categoras
excluyentes entre s: xito-fracaso, apto-no
apto, trastorno-no trastorno.
- Fiabilidad de las clasificaciones y adecuada
ubicacin de los puntos de corte.
- Validez de las decisiones de la clasificacin:
curvas ROC

LONGITUD DEL TEST

Nmero de tems pequeos.
- Las puntuaciones obtenidas tienen un valor
limitado.
- La estimacin de dominio ser imprecisa.
- Clasificaciones inconsistentes o no indicativas de la
maestra.
Nmero de tems elevados.
La longitud del test est directamente
relacionada con el nmero de errores de
clasificacin tolerables. Se aseguran valores de
probabilidad de clasificacin incorrecta
mnimos.

Dos maneras de reducir el nmero de errores sin aumentar la longitud del test: Modelos bayesianos y tests
computarizados.

Modelo de Millman

Modelo binomial
Considera la proporcin esperada de
tems que un sujeto puede contestar
correctamente para ser considerado
apto de la poblacin de tems
definido, y el error mximo a tolerar.

Longitud del test supuesta una proporcin
de aciertos:
( )
2
1
c c
p p
n
e
=
n = n de tems del test. pc = proporcin de
aciertos para ser considerado apto. e = error
mximo admisible.
Supuestos:
Muestra aleatora de tems dicotmicos.
Probabilidad de una respuesta correcta de un sujeto es
constante en todos los tems
Las respuestas a los tems son independientes unas de
otras.
Los errores se ajustan al modelo binomial.

( )
Pr ( )

n
x n x x n x
x
n
n
ob x p p q p q
x x n x

| |
| |
= =
|
|
|
\ .
\ .

Pr ( ) ob x p =prbbldad de que un sujeto con una puntuacin p,
conteste correcta_ x tems de un test que tiene n tems.

FIABILIDAD EN LAS CLASIFICACIONES EN LOS TESTS REFERIDOS AL
CRITERIO

Tests de maestra (puntos de corte): en este contexto se aborda el estudio de fiabilidad de los TRC.
Fiabilidad: un test es fiable, si tras su aplicacin a los mismos sujetos en distintas ocasiones o la
aplicacin de dos formas paralelas, se clasifica a los sujetos siempre en la misma categora.

Mtodos basados en dos aplicaciones del test (para el clculo de la fiabilidad)

45

Tratan en qu medida las clasificaciones hechas por un tests coinciden con las hechas por otro en una
muestra (2 formas paralelas de test).
Estos mtodos implican la existencia de una sola muestra de sujetos y dos aplicaciones de un mismo
test o de dos formas paralelas.

ndice p
c
de Hambleton y Novick.

Fiabilidad del tests: utiliza la proporcin de sujetos que son clasificados dentro del grupo maestra o
no-maestra.

11 22
1
......
n
mm
c i
i
n n n
p p
N N N
=
= = + +

i
p =proporcin de suejtos clasificados consistente_ en ambas formas. N = n de sujetos.

11 22
, ,.....
mm
n n n =n de sujetos en cada casilla en los que ambos test coinciden en clasificarlos.

Cuando los sujetos sean clasificados de la misma forma con los dos test, 1
c
p = . Y el valor mnimo ser la
proporcin de clasificaciones consistentes que se den por azar ( )
a
p , cuyo valor viene dado en funcin de las
frecuencias marginales de la tabla
( )
j
N .
2
1
m
j j
a
i
N N
p
N
=
=

Coeficiente Kappa de Cohen (EXAMEN)

Estimacin de coeficiente de fiabilidad: se elimina del valor de la proporcin de sujetos
clasificados consistentemente el valor de la proporcin de clasificacin consistente esperada por
azar.
El valor Kappa proporciona una medida de la consistencia de clasificacin de los sujetos
independientemente del posible valor esperado por azar.
Fiabilidad perfecta: 1 (0 sera por azar).

1
c a
a
p p
k
p
(oscila entre 0 y 1) Tb expresado en frecuencias absolutas

c a
a
F F
k
N F

c
F = frecuencia observada de clasificaciones coincidentes.
a
F =frecuencia de coincidentes esperada por
azar. N = n de personas de la muestra.

para ver la significacin estadstica del coeficiente Kappa, se propuso la utilizacin del error tpico de
medida K:
( )
a
e
a
F
S
N N F
=

1
m
j j
a
i
N N
F
N
=
=
(sumatodio de frecuencias marginales

dividido N)

c
F = suma de frecuencias coincidentes en ambos test

y el intervalo confidencias es
x e
k Z S (Zx segn el intervalo confidencial)

ndice de Broker y Algina

El coeficiente P* como alternativa al Kappa de Cohen
P*: dice que la probabilidad mnima de una decisin consistente es de 0,50.
Este mnimo tendr lugar si las puntuaciones del test son independientes y el punto de corte est en la
mediana de la distribucin conjunta de las puntuaciones de los sujetos en las dos aplicaciones.
P* = 1 (decisiones consistentes).

46

*
0,50
2 1
1 0,50
c
c
p
P p
= =

Mtodos basados en una sola aplicacin del test (para el clculo de la fiabilidad)

Mtodo de Huynh

Solo se precisa un test y una sola aplicacin.
Mtodo para pronosticar las puntuaciones en un test B, conocidas las puntuaciones de una
muestra de sujetos en un primer test A. Para esto, se presupone:
o Presupone que la distribucin de puntuaciones es aproximadamente normal (tems
superior a 8).
o La razn entre la media de las puntuaciones de los sujetos en el test y el nmero de
tems oscila entre 0,15 y 0,85.
Estima Pc y Kappa.
Si el punto de corte se ubica en zona extremas de la distribucin: Pc tiende a aumentar y K a disminuir.

Los pasos a seguir son los siguientes:
1. Calcular la media
( )
X , l a varianza
2
( )
x
S y el coeficiente de correlacin de Kuder-Richardson 21
( KR21) y especificar el valor del punto de corte (c).
2. Calcular la puntuacin tpica ( )
x
Z del valor del punto de corte, con una correccin de 0,5; y en
las tablas se busca su probabilidad.
( )
0,5
x
x
C X
Z
S

=
3. A partir de las tablas de Gupta, obtener la prbbldad ( )
zz
P de que dos vs distribuidas normal_
con una correlacin KR21, sean menores que Z.
4. Se calculo los valores p
c
y k ( ) 1 2
c zz z
p p p = +
2
2
zz z
z z
p p
k
p p

Mtodo de Subkoviak (SOLO LEER)
El mtodo simula las puntuaciones de una segunda forma paralela del test.
Procedimiento con una nica aplicacin cuando no es posible establecer una forma paralela de un
test.
Da una buena estimacin de Pc y Kappa

Pasos:
1. Dada la distribucin de frecuencias, se calcula la media
( )
X y el coeficiente o del test.
2. Se estima la prbbldad de que una persona con una determinada puntuacin X responda correcta_ a
cada tem ( ) 1
x
X X
p
n n
o o
| |
| |
= +
| |
\ .
\ .
X = p directa. n = n de tems del test.
3. Se calcula la prbbldad de que una persona con una determinada puntuacin X, y una prbbldad p
x
de
acertar cada tem, responda correcta_ k > veces tem en el test y sea clasificado dentro del grupo de
maestra. ( ) ( ) Pr
x n x
n
f x ob X k p p
x

| |
= > =
|
\ .

Continua .........

Coeficiente de Livigston
2
xv
K
A diferencia de los anteriores, considera los errores cometidos al clasificar a un sujeto en el grupo que
no le corresponde considera ms importante los errores de clasificacin de los sujetos ms
distanciados del punto de corte de aquellos que estn ms cerca del punto de corte. Es ms fcil
cometer errores de clasificacin cuando un sujeto se encuentra muy cercano al punto de corte.

47
A medida que el punto de corte se distancia del valor de la media del test, aumenta el valor de
2
xv
K
Cuando la media coincide con el punto de corte,
2
xv
K = coeficiente alfa
Cuando alfa es igual a 1, tambin
2
xv
K es igual a 1.
2
xv
K ser siempre > que el coeficiente de
fiabilidad alfa.

( )
( )
2
2
2
2
2
x
xv
x
S X C
K
S X C
o +
=
+
C = punto de corte

Tema 6.
VALIDEZ DE LAS INFERENCIAS (I).

1. ORIENTACIONES DIDCTICAS.

Para poder medir variables psicolgicas, constructos tericos, variables latentes o atributos
psicolgicos es necesario seleccionar una serie de conductas que representen algn aspecto de ese
constructo y que sean consideradas indicadores del mismo.
Los instrumentos elaborados para medir estas conductas han de cumplir una serie de requisitos; hay dos
fundamentales:
- Que proporcionen medidas fiables
- Que se puedan hacer inferencias vlidas a partir de esas medidas fiables.

Fiabilidad de las medidas el grado en que las puntuaciones obtenidas al aplicar un test reflejan su nivel
real en el rasgo o caracterstica medida el grado en que esas puntuaciones estn libres de errores
aleatorios.
Validez de las inferencias se refiere al grado de relacin que se puede establecer entre la evidencia
emprica obtenida y el concepto terico que se tiene del constructo que se intenta medir.

2. INTRODUCCIN AL CONCEPTO DE VALIDEZ Y SU EVOLUCIN HISTRICA.

Validez hace referencia al grado en que el test mide aquello que pretende medir.
En la medida en que la relacin entre el test y el constructo que pretende medir sea ms estrecha, el test
ser ms vlido.
La relacin entre el test y el constructo se refiere a la relacin entre las puntuaciones obtenidas por los
sujetos en el test y la medida obtenida en el indicador o indicadores del constructo.
Hasta los aos 50 del siglo pasado la forma de operativizar la relacin entre el test y el criterio era
mediante un coeficiente de correlacin.

Validez predictiva de los test - Un test era vlido en la medida en que existiera correlacin entre las
puntuaciones obtenidas por los sujetos en el test y las obtenidas en el criterio externo seleccionado
Validez concurrente se diferencia de la validez predictiva en que la recogida de la informacin tanto del
test como del criterio se hace simultneamente.
Validez retrospectiva cuando se puede obtener la medida del criterio con anterioridad a la del test.
Validez de contenido la validez relacionada con criterios internos al propio test. Utilizada sobre todo en
los test de conocimientos en los que se trata de estudiar hasta qu punto a partir del contenido de los test,
se puede inferir el rendimiento en una determinada materia; el test en s mismo constituye su propio criterio.
Validez de constructo este tipo de validez implica recoger toda la informacin necesaria para poder tener
la garanta suficiente de que las conductas observables que se han elegido como indicadores del constructo
que se quiere medir, lo son realmente.


48
Estos 4 tipos de validez, en el libro se reducen a 3: validez de contenido, validez relativa al criterio (aqu
quedan incluidas la concurrente y la predictiva) y validez de constructo.
Se asume que los distintos tipos de validez van unidos a objetivos concretos en el uso de test, los objetivos
son:
- Determinar el rendimiento o actuacin de un sujeto en un universo de situaciones (contenido).
- Inferir el grado en el que un sujeto posee algn rasgo o atributo (constructo) que se supone vendr
reflejado por su ejecucin en el test.
- Predecir el rendimiento o comportamiento futuro (predictiva) o estimar su rendimiento actual sobre
una variable externa al test (concurrente).

1974 1 vez se afirma la validez se refiere a la adecuacin de las inferencias que se realizan a partir de
las puntuaciones de los test u otras formas de medida. Se mantiene la distincin de los 3 tipos de validez y
se consideran formas independientes de interpretar las inferencias realizadas.
1999 concepcin unitaria de validez la validez hace referencia al grado en que la evidencia emprica
obtenida y los conocimientos aportados por las teoras apoyan las inferencias que se hagan a partir de las
puntuaciones obtenidas en el test cuando ste se utiliza para un objetivo concreto.
Acuerdo generalizado, desde el punto de vista cientfico la nica validez la validez de constructo, las
otras 2 quedaran incluidas en esta y seran consideradas como estrategias de validacin para comprender
mejor lo que mide un test.
La validacin de los tests es un proceso continuo que permite obtener distintos tipos de evidencia emprica,
y un proceso de validacin ideal debe incluir los tipos de evidencia implicados en los 3 tipos tradicionales de
validez: la de constructo, la de contenido y la relativa al criterio.
Siempre es necesario la validacin de constructo, aunque no siempre es suficiente, segn sea la
interpretacin que se vaya a hacer de las puntuaciones y segn el objetivo, ser necesario obtener
otros tipos de evidencia.

Validacin el proceso mediante el cual el constructor o el usuario de tests, recoge la evidencia emprica
necesaria para apoyar las inferencias que van a realizar; entendiendo por evidencia tanto los datos,
observaciones y hechos como los argumentos que permitan apoyar o sustentar esos hechos.

Para llevar a cabo un proceso de validacin se requiere:
- 1 - explicitar claramente el tipo de inferencia que se quiere realizar,
- 2 - disear el estudio emprico que permita obtener la informacin necesaria acerca del grado en
que las puntuaciones obtenidas en el test son tiles par el tipo de inferencia requerida.

En este tema, se considera: la validez como un concepto unitario y el proceso de validacin como un
proceso continuo que permitir recoger la evidencia necesaria para poder interpretar las puntuaciones
obtenidas al aplicar los tests para un determinado objetivo.
NO distintos tipos de validez SI distintas estrategias para obtener esa evidencia.

3. VALIDACIN DEL CONTENIDO.

Objetivo analizar hasta que punto los elementos o tems que componen un test son una muestra
relevante (implica la necesidad de una clara y exhaustiva especificacin de todas las posibles conductas
observables que son representativas del constructo a medir) y representativa (la necesidad de que todas
esas conductas estn representadas en el test) del constructo sobre el que se van a realizar las inferencias.
Messick 1975 afirma que la especificacin y representatividad del dominio son metas a conseguir a la
hora de construir el test, pero no son garantas de validez pues no proporcionan evidencia emprica para
poder interpretar las puntuaciones.
Para un estudio de validacin de un test es necesario analizar hasta que punto los elementos que lo
componen son una muestra representativa de la clase de problemas o situaciones sobre las que van a
hacer inferencias y extraer conclusiones.
En los TCR y tests de rendimiento acadmico se pone de manifiesto el inters de los estudios de
validacin de contenido, ya que es fcil llevar a cabo la especificacin del contenido sin hacer referencia al
constructo. En estos tests las puntuaciones se suelen utilizar para dar cuenta de si los sujetos han
alcanzado un nivel mnimo de competencia en una determinada materia.

La forma tpica de llevar a cabo un estudio de validacin de contenido, es utilizando un grupo de expertos
que sern los encargados de analizar 2 aspectos fundamentales:
- Que el test no incluya aspectos irrelevantes del dominio de inters.
- Que incluya todos los elementos importantes que definen el dominio.

49

Se trata de hacer un anlisis racional del contenido del test y los resultados del estudio estarn basados en
los juicios subjetivos emitidos por los expertos.

Para llevar a cabo la especificacin del dominio, es necesario:
- 1 - analizar las reas de contenido que se deben cubrir.
- 2 - analizar los procesos que se van a evaluar y la importancia relativa de cada uno de ellos. Se
puede construir una tabla de doble entrada en la que las columnas representen las distintas reas
de contenido (dominio) que definen el constructo a medir y las filas las distintas operaciones o
procesos cognitivos implicados. Las celdillas incluyen el porcentaje de tems que deben contener la
prueba en relacin con cada rea de contenido y cada proceso cognitivo empleado.

Para evaluar la relevancia de los tems en relacin con el dominio hay varios procedimientos: uno de ellos
(Hambleton 1980) consiste en presentar a los expertos una serie de fichas cada una de las cuales
contiene un tem. Cada experto expresar en una escala de 5 puntos el grado de ajuste de cada tem, de
manera que el 1 indique un mal ajuste y el 5 un ajuste muy bueno. Hecho esto, se calcula la media o la
mediana de los valores asignados por cada uno de los expertos a cada tem y el valor obtenido ser el que
indique el grado de relevancia del tem. Se podrn seleccionar los que muestren un alto grado de ajuste y
eliminar los que no.

La representatividad el grado en que se han cubierto las especificaciones del dominio, en cuanto a
contenidos y a objetivos propuestos. En la medida en que el dominio este ms y mejor representado, las
inferencias sern ms precisas. Lo ideal sera poder contar con un banco de tems referidos al dominio de
inters y a partir de este extraer una muestra aleatoria de tems.

( ) /100
b
i
i
NP f
Med L
f

= +

i
L =lmite inferior del intervalo donde se encuentra la mediana. /100 NP = 50% de la muestra.
i
f = n de sujetos situados en el intervalo de la mediana.
b
f =n de sujetos por debajo del intervalo de la Md.

4. VALIDACIN DEL CONSTRUCTO.

Da significacin a las puntuaciones de los test, permite obtener evidencia de que las conductas observables
que se han elegido como indicadores del constructo, realmente lo son.
Es el proceso que permitir obtener evidencia acerca de la capacidad del test para medir el constructo.
Trata de garantizar cientficamente que la variable que el test pretende medir es una variable aceptable,
cuyo concepto ofrece suficiente consistencia lgica dentro de un sistema terico de la psicologa y descansa
en suficientes comprobaciones experimentales que lo verifican.
Para llevar a cabo un estudio de validacin es necesario:

- 1 - definir cuidadosamente el constructo de inters a partir de las teoras que existen acerca del
mismo. Postular una serie de hiptesis acerca de su naturaleza y grado de relacin entre el
constructo y una serie de variables y entre el constructo de inters y otros constructos.
- 2 - disear el instrumento de medida adecuado, que contar con elementos relevantes y
representativos de aquellas conductas que sean especficas y concretas del constructo.
- 3 - obtener datos empricos de las relaciones entre las puntuaciones obtenidas al aplicar el test y
las variables hipotetizadas.

Es necesario estudiar:
- la relacin entre el constructo y las conductas observables representativas del constructo.
- La relacin entre el constructo y otros constructos.
- La relacin entre esas conductas tomadas como indicadores del constructo y las puntuaciones
obtenidas por los sujetos en el test.

Si se confirman las relaciones de las hiptesis planteadas, se puede considerar que tanto el constructo
como el test son tiles. En caso contrario una nueva evaluacin del constructo.
Los estudios de validacin de constructo estn centrados en el anlisis de la estructura del test, tanto
interna como externa en el estudio de las interrelaciones entre las puntuaciones obtenidas por los sujetos

50
en los distintos tems (estructura interna) y en las relaciones entre las puntuaciones obtenidas en el test y
otras medidas obtenidas en variables externas al mismo y consideradas relevantes (estructura externa).
Los mtodos ms relevantes:

4.1. LA MATRIZ MULTIMTODO-MULTIRRASGO.
Propuesto por Campbell y Fiske 1959.
Permite el anlisis de la estructura externa del test (o conjunto de test).
Lgica del procedimiento se intenta medir un mismo constructo mediante distintos procedimientos
y distintos constructos mediante el mismo procedimiento. Una vez obtenidas todas las medidas,
calcular las intercorrelaciones entre ellas.

- Si las correlaciones entre las medidas del mismo constructo a travs de distintos procedimientos
son altas, el constructo quedar validado y se dir que existe validez convergente.
- Si estas correlaciones son significativamente ms altas que las obtenidas al correlacionar las
medidas de distintos constructos con el mismo procedimiento se dir que existe validez
discriminante.

Problema no existe un criterio estadstico que permita tomar decisiones acerca de si un test tiene
realmente validez convergente o discriminante, solo parece haber evidencia de su existencia o de
su ausencia.
Mayor informacin anlisis factorial confirmatorio.

4.2. EL ANLISIS FACTORIAL.
- Enfoque exploratorio no se establecen hiptesis previas acerca del nmero de dimensiones, es
la propia tcnica la que nos aportara esta informacin.
- Enfoque confirmatorio se establecen a priori hiptesis, y mediante las tcnicas oportunas se
comprueba si se pueden aceptar las hiptesis propuestas.

Anlisis factorial (AF) objetivo representar y explicar un conjunto de variables observables (tems de
un test, conjunto de tests, escalas, etc.) mediante un nmero de variables latentes o inobservables
llamadas factores.
Cada factor se podra considerar como un constructo que vendra definido por las variables
observables.
Para llevar a cabo un anlisis factorial se parte de un conjunto de n medidas tomadas a lamisca
muestra de sujetos en un conjunto de variables observables, a partir de ellas se obtiene una matriz (n X
n) con las intercorrelaciones entre todas ellas. A partir de esta matriz, aplicando alguna tcnica
estadstica de anlisis factorial, se intenta identificar un nmero ms reducido de variables latentes
llamadas factores.
Cuando en un mismo factor se agrupan mltiples indicadores del constructo, se obtiene evidencia de la
validez convergente.
Cuando en el anlisis se han obtenido medidas de otros constructos y estas aparecen agrupadas en
distintos factores, se obtiene evidencia de validez discriminante.

5. VALIDACIN REFERIDA AL CRITERIO.

Objetivo principal evaluar la hiptesis de relacin entre test y criterio.
Croker y Algina se suelen utilizar 2 tipos de ndices o medidas para describir la capacidad de un test o
conjunto de tests para predecir un criterio:

- Medidas correlacionales (coeficiente de validez, de determinacin, de alineacin, de valor predictivo,
etc...
- Medidas de error en la prediccin (errores de estimacin).

Estos estudios se suelen realizar desde 2 perspectivas diferentes dependiendo del uso que se vaya a dar al
test y del tipo de inferencia:

- Validez predictiva los tests se van a utilizar para la seleccin, clasificacin o colocacin de
personas en determinados puestos. La capacidad de los test para pronosticar el posterior
rendimiento de los sujetos a partir de las puntuaciones obtenidas en el test. La medida del criterio se
obtiene con posterioridad a la del test.
- Validez concurrente utilizar los test para hacer un diagnstico. La medida del criterio se obtiene a
la vez que la del test.

51

La teora no juega el papel principal, se acenta el inters en el aspecto emprico del proceso ms que en el
terico.
Un estudio de validacin de constructo del criterio ayudar a determinar las dimensiones a medir, cmo se
medir cada una de ellas y si se desea, cmo combinarlas.

Pasos a seguir para disear un estudio de validacin:

- Definir claramente el criterio que se quiere medir.
- Identificar el indicador o indicadores que se van a utilizar para obtener la medida del criterio.
- Seleccionar una muestra de sujetos representativa
- Aplicar el test a la muestra y obtener una puntuacin para cada uno.
- Obtener una medida de cada sujeto en el criterio bien en el mismo momento de la aplicacin del test
(validacin concurrente) o bien al cabo de un cierto tiempo (validacin predictiva).
- Determinar el grado de relacin entre las puntuaciones obtenidas por los sujetos en el test y la
medida criterio.

5.1. EL PROBLEMA DE LA SELECCIN Y MEDICIN DEL CRITERIO.
Ya se ha comentado que los test de seleccin los utilizamos tratando de seleccionar aquellas
personas que vayan a tener una mayor probabilidad de realizar un trabajo o aprovechar el programa
con xito aqu surge el problema de analizar que es aquello que constituye el xito.
Este concepto tiene muchas facetas, y es muy difcil de definir de forma precisa. Tenemos que tener
en cuenta que todos los indicadores son parciales y no ofrecen una comprensin completa del
criterio.

Thorndike y Hagen 1989 consideran que los indicadores deben cumplir una serie de
requisitos:

- Que sean relevantes un indicador es relevante en la medida en que se corresponde con el
criterio. Para apreciar la relevancia es necesario tener en cuenta consideraciones racionales y
apoyarse en los juicios de expertos.
- Que estn libres de sesgos que las medidas criterio representen la verdadera competencia de
los sujetos y no estn determinadas por factores que acten de manera diferencial en determinados
grupos.
- Que sean fiables las medidas criterio que proporcionen los indicadores han de ser estables.
- Que sean accesibles tener en cuenta las limitaciones econmicas y de tiempo.

5.2. PROCEDIMIENTOS ESTADSTICOS UTILIZADOS EN LA VALIDACIN REFERIDA AL
CRITERIO.
Los ms utilizados estn basados en correlaciones.
La utilizacin de una tcnica u otra depende del diseo de recogida de datos par la validacin y del
nmero de variables implicadas:

- Un nico test predictor y un solo indicador del criterio la correlacin y el modelo de la
regresin lineal simple. Segn la naturaleza de la variable, el tipo de correlacin variar (pearson,
biserial, coeficiente phi, etc...)
- Varios predictores y un solo indicador de criterio cuando se utiliza una batera de tests para
un nico criterio, el procedimiento: la correlacin y la regresin lineal mltiple. Si el criterio es
cualitativo: anlisis discriminante (tcnica multivariante) y con criterios dicotmicos: la regresin
logstica.
- Varios predictores cuantitativos y varios indicadores del criterio cuantitativos la regresin
lineal mltiple y la correlacin cannica. Rara vez se utilizan por su dificultad para interpretar
resultados.
- Procedimientos basados en la teora de decisin: validez y utilidad en las decisiones se
basan en diferentes mtodos para optimizar las decisiones realizadas con el test: tcnicas mximin
y mnimas y especialmente la Teora de la utilidad multiatributo.

6. VALIDACIN CON UN NICO PREDICTOR Y UN SOLO INDICADOR DEL CRITERIO.


52
La correlacin nos permitir conocer el grado de asociacin entre el test y el criterio.
El modelo de regresin nos permitir pronosticar, a partir de las puntuaciones obtenidas en el predictor,
las puntuaciones en el criterio.

6.1. EL COEFICIENTE DE VALIDEZ.
Definicin como la correlacin entre las puntuaciones obtenidas por los sujetos en el test predictor
y las obtenidas en el criterio.
A partir de las puntuaciones de los sujetos se podrn obtener tantos coeficientes de validez como
indicadores de criterio se elijan para su validacin.
El tipo de correlacin utilizada depender de la naturaleza de las variables implicadas.

INDICADOR
CRITERIO
TEST
Continua Dicotomizada Dicotmica
Continua Pearson Biserial Biserial puntual
Dicotomizada Biserial Tetracrica biserial
Dicotmica Biserial puntual biserial

Si designamos por X las puntuaciones del test y por Y las del indicador del criterio, la frmula del
coeficiente de validez ser:
- Correlacin de Pearson cuanto tanto los test (X) como el criterio (Y) son 2 variables cuantitativas
continuas:
( ) ( )
2 2
2 2
xy
N XY X Y
r
N X X N Y Y
=
( (

( (

- Correlacin biserial X la variable cuantitativa e Y la variable dicotomizada:
.
p q p
b
x x
X X X X
pq p
r
S y S y

= =

p
X = media en X de los que obtuvieron un 1 en Y.
q
X = media en X de los que obtuvieron un 0
en Y.
x
S = desviacin tpica en X de todas las personas de la muestra.
p y q proporcin de personas que obtuvieron un 1 y un 0 respectivamente en Y.
y ordenada que en una distribucin normal corresponde a la abscisa que divide el rea total en
dos partes iguales a p y q. X = media en X de todas las personas de la muestra.

- Correlacin biserial puntual X la variable continua e Y la dicotmica:

/
p q p
bp
x x
X X X X
r pq p q
S S

= =
Los smbolos = que en la formula anterior.

- Coeficiente las 2 variables son dicotmicas:

( )( )( )( )
cb ad
a b c d a c b d
|

=
+ + + +

a, b, c y d representan el nmero de personas de la muestra cuyas puntuaciones en X y en Y son
respectivamente (0,1), (1,1), (0,0), (1,0).

X
0 1
Y 1 a b
0 c d


53
- Coeficiente biserial la variable X se ha dicotomizado y la variable Y es dicotmica:

( )( )
biserial
pq bc ad
y
a b c d
|

=
+ +

Un hbrido entre la correlacin biserial y el coeficiente , con el mismo significado de smbolos.

- Correlacin tetracrica tanto X como Y son variables continuas que se han dicotomizado
artificialmente. Clculo muy laborioso. Se han ofrecido algunas aproximaciones ms utilizada
calcular la razn bc/ad y consultar la tabla correspondiente. Si la razn es menor que la unidad se
debe usar la recproca ad/bc y consultar la tabla, en este caso ser negativa.

Los valores que puede alcanzar el coeficiente de validez, cualquiera que sea el coeficiente
utilizado, van a estar incluidos en el intervalo -1 y 1.

6.2. EL MODELO DE REGRESIN LINEAL.
Ya conocido el grado de asociacin entre el test y el criterio, se puede utilizar el modelo de
regresin para hacer pronsticos.
Utilizar el modelo para a partir de las puntuaciones obtenidas por los sujetos en el test, hacer
estimaciones acerca de su puntuacin en el criterio.
Mediante el modelo de regresin se intenta buscar una ecuacin lineal que haga mnimos los
errores de pronstico:
Y a bX = +

a ordenada en el origen o termino constante, representa el valor pronosticado en el criterio (Y) cuando en el
test (X) se obtiene un valor 0.
b pendiente de la recta de regresin. representa el cambio en los valores del criterio Y por cada
cambio unitario en el test X.

6.2.1. ECUACIONES DE REGRESIN.
El valor de la pendiente se puede obtener en funcin del coeficiente de validez y de las
desviaciones tpicas de las puntuaciones obtenidas en el test y en el criterio

y
xy
x
S
b r
S
=

Con el valor de la pendiente, podemos calcular el de la ordenada en el origen:
a Y bX =

Ya tenemos los valores de a y b, podemos obtener la ecuacin de la recta de regresin, que
puede venir dada en tres tipos de puntuaciones:

Puntuaciones directas:
( )
y y y
xy xy xy
x x x
S S S
Y Y r r X r X X Y
S S S
| |
= + = +
|
\ .

Puntuaciones diferenciales:
( )
y
xy
x
S
Y r X X
S
=

Puntuaciones tpicas:
xy x
y
Z r Z =

Utilidad de estas ecuaciones la posibilidad de pronosticar la puntuacin que obtendrn en el
criterio otra muestra de sujetos, de las mismas caractersticas, a partir de las puntuaciones que
obtengan en el test. Mediante la aplicacin de estas ecuaciones obtenemos una estimacin
puntual de las puntuaciones de los sujetos en el criterio.

6.2.2. LA VARIANZA RESIDUAL O VARIANZA ERROR Y EL ERROR TPICO DE ESTIMACIN.
El coeficiente de validez indica la eficacia del test o variable predoctora para estimar el criterio.
En la medida en que el coeficiente de validez sea ms alto la estimacin ser ms exacta.

54
Cuando el coeficiente de validez = 1 el valor estimado coincidir con la puntuacin que obtuvieran
los sujetos en el criterio.
La estimacin vendr afectada por el error de estimacin la diferencia entre las puntuaciones
que ha obtenido un sujeto en el criterio y la que se le pronostica mediante la ecuacin de regresin
(Y Y).
Con cada sujeto se comete un determinado error de estimacin. A la varianza de todos los errores
de estimacin se le llama varianza residual, varianza error o error cuadrtico medio.

Su formula:
( )
2
2
Y X
Y Y
S
N

Y = puntuaciones obtenidas por cada sujeto en el criterio.
Y= puntuaciones pronosticas a cada sujetos mediante la ecuacin de regresin.
N = nmero de sujetos de la muestra

Varianza error representa la variabilidad media de las puntuaciones de los sujetos en el criterio
respecto a la puntuacin que se les pronostica mediante la recta de regresin.
Error tpico de estimacin la desviacin tpica de estos errores. Su formula:
( )
2
Y X
Y Y
S
N
=

Cuando se utilizan las ecuaciones de regresin para hacer pronsticos se cumplen unas propiedades
fundamentales:
- La media de las puntuaciones en el criterio es igual a la media de las puntuaciones pronosticadas. Y
= Y
- La suma de todos los errores de estimacin es 0, lo que implica que la media de los errores
cometidos = 0 (Y Y) = 0
- La varianza de las puntuaciones obtenidas en el criterio (VD Y) = a la varianza de las puntuaciones
pronosticadas ms la varianza de los residuos o varianza error.
2 2 2
Y Y X
Y
S S S = +

6.2.3. INTERVALOS DE CONFIANZA.
Conviene hacer la estimacin por intervalos.
Asumimos que la distribucin de los errores se ajusta a una distribucin normal, cuya desviacin tpica
viene dada por el error de estimacin, se establece un intervalo confidencial en torno a la puntuacin
pronosticada. Pasos a seguir:
- Determinar un nivel de confianza y buscar la puntuacin tpica asociada.
- Calcular el error tpico de estimacin.
- Calcular el error mximo.
- Aplicar la ecuacin correspondiente y obtener la puntuacin pronosticada.
- Establecer el intervalo de confianza.

6.3. INTERPRETACIN DE LA EVIDENCIA OBTENIDA ACERCA DE LA CAPACIDAD
PREDICTIVA DEL TEST.

2 2 2
Y Y X
Y
S S S = + a partir de esta ecuacin se puede averiguar la proporcin de la varianza de las
puntuaciones de los sujetos en el criterio, que se puede explicar a partir de las varianza de las
puntuaciones pronosticadas y que proporcin no se puede explicar y corresponde a los residuos.

2 2
2 2
1
Y X
Y
Y Y
S S
S S
= =
2
2
2
1
Y X
XY
Y
S
r
S
=
( )
2 2 2
2
1
1
Y X Y XY
Y X Y XY
S S r
S S r
= =
=

Cuando la escala es en puntuaciones tpicas, la formula es:
2
1
Y X Y XY
S S r =

6.3.1. COEFICIENTE DE DETERMINACIN.


55

2
. .
XY
C D r =

Equivale al coeficiente de validez al cuadrado.
Representa la proporcin (o porcentaje) de la varianza de las puntuaciones de los sujetos en el
criterio (V. D.) que se puede pronosticar a partir del test (V. I.).
Tambin se define varianza comn o asociada entre el test y el criterio.

6.3.2. COEFICIENTE DE ALIENACIN.

2
. . 1
Y X
XY
Y
S
C A K r
S
= = =

Indica la proporcin que representa el error tpico de estimacin respecto a la desviacin tpica de las
puntuaciones en el criterio.
En cuanto que el error tpico sea ms pequeo que la desviacin tpica del criterio el coeficiente K ser
menor.
El valor de K oscila entre 0 y 1, ser mximo cuando el coeficiente de validez sea 0 y mnimo cuando el
coeficiente de validez sea 1.
El coeficiente de alineacin al cuadrado es el complementario del coeficiente de determinacin.

Representa la proporcin de la varianza de las puntuaciones de los sujetos en el criterio que no se
puede predecir a partir del test, o sea la proporcin de varianza error que hay en la varianza de las
puntuaciones de los sujetos en el criterio.
Representa la inseguridad o el azar que afecta a los pronsticos.

6.3.3. COEFICIENTE DE VALOR PREDICTIVO.

2
. . . 1 1
XY
CV P r =

Es el complementario del coeficiente de alineacin.
Otra forma de expresar la capacidad del test para pronosticar el criterio.
Representa la proporcin de seguridad en los pronsticos (o el porcentaje si se multiplica por 100).

TEMA 7: VALIDEZ DE LAS INFERENCIAS (II)

2. VALIDACIN CON VARIOS PREDICTORES Y UN SOLO INDICADOR DEL
CRITERIO

2.1. EL COEFICIENTE DE VALIDEZ MLTIPLE
2.2. EL MOD. DE REGRESIN LINEAL MLTIPLE
2.2.1. Ecuacin de regresin
2.2.2. La varianza residual o varianza error y el error tpico de estimacin mltiple
2.2.3. Intervalos de confianza

2.3. INTERPRETACIN DE LA EVIDENCIA OBTENIDA ACERCA DE LA CAPACIDAD
PREDICTORA DEL CONJUNTO DE VARIABLES UTILIZADAS
2.3.1. Coeficiente de determinacin mltiple
2.3.2. Coeficiente de alineacin mltiple
2.3.3. Coeficiente de valor predictivo mltiple

2.4. MTODOS PARA SELECCIONAR LAS VARIABLES PREDICTORAS MA
ADECUADAS
2.4.1. Mtodo Forward
2.4.2. Mtodo Backward


56
3. VALIDEZ Y UTILIDAD DE LAS DECISIONES

3.1. NDICES DE VALIDEZ Y SELECCIN
3.1.1. ndices de validez
3.1.2. ndices de seleccin

3.2. DNDE SITUAR EL PUNTO DE CORTE?
3.3. MODELOS DE SELECCIN
3.4. CMO ESTIMAR LA EFICACIA DE LA SELECCIN?

4. FACTORES QUE INFLUYEN EN EL COEFICIENTE DE VALIDEZ

4.1. LA VARIABILIDAD DE LA MUESTRA
4.2. LA FIABILIDAD SDE LAS PUNTUACIONES DEL TEST Y NDEL CRITERIO
4.2.1. Estimacin del coeficiente de validez suponiendo que el test y el criterio tuvieran
una fiabilidad perfecta
4.2.2. Estimacin del coeficiente de validez suponiendo que el test tuviera una fiabilidad
perfecta
4.2.3. Estimacin del coeficiente de validez suponiendo que el criterio tuviera una
fiabilidad perfecta
4.2.4. Estimacin del coeficiente de validez en el supuesto de mejorar la fiabilidad del
test y del criterio
4.2.5. Estimacin del coeficiente de validez en el supuesto de mejorar la fiabilidad del
test
4.2.6. Estimacin del coeficiente de validez en el supuesto de mejorar la fiabilidad
criterio
4.2.7. Valor mximo del coeficiente de validez

4.3. VALIDEZ Y LONGITUD

2. VALIDACIN CON VARIOS PREDICTORES Y UN SOLO INDICADOR DEL
CRITERIO

- Procedimiento para llevar a cabo un estudio de validacin:
1. Se seleccionan una serie de actitudes, conocimientos o rasgos de personalidad
2. Se seleccionan los instrumentos adecuados para obtener 1 medida de cada 1
3. Se comparan con la medida del criterio de xito a partir de 1 o varios indicadores
- Los procedimientos para conocer la influencia de varias VV predictoras cuantitativas en otra
tambin cuantitativa (criterio) son: la correlacin mltiple y el mod. de regresin
mltiple
- El mod. de regresin lineal: permite obtener 1 ecuacin de regresin ponderado y
combinando las VV predictoras, para que los errores de pronstico sean mn. y se eliminen
las VV que no aporten inf.
- Correlacin parcial: interpreta el g de correlacin entre la variable criterio (Y) y 1 de las
VV predictoras, eliminando de antemano el efecto que sobre dicha correlacin ejerzan las
dems VV


57
) 1 )( 1 (

) 1 )( 1 (

2
2
2
2
2 1 1
1 1 2
1 2
2 1 2
1 2 1
2 1
X X YX
X X YX YX
X YX
X X YX
X X YX YX
X YX
r r
r r r
R
r r
r r r
R

=

=
) 1 )( 1 (

) 1 )( 1 (

2
2
2
2
2 1 1
1 1 2
1 2
2 1 2
1 2 1
2 1
X X YX
X X YX YX
X YX
X X YX
X X YX YX
X YX
r r
r r r
R
r r
r r r
R

=

=

a) En la 1 se calcula la correlacin entre la variable criterio Y y la variable predoctora X1
eliminando la influencia de la X2
b) En la 2 se calcula la correlacin entre la variable criterio Y y la variable predoctora X2
eliminando la influencia de la X1

- Correlacin semiparcial: g de correlacin entre la variable criterio (Y) y 1 de las VV
predictoras, eliminando el efecto que sobre sta, ejercen el resto de VV

a) La 1 expresa la correlacin entre la variable criterio y la predictora X1 cuando de
sta se elimina la influencia de la variable predictora X2
b) La 2 expresa la correlacin entre la variable criterio y la predictora X2 cuando de
sta se elimina la influencia de la variable predictora X1

2.1. EL COEFICIENTE DE VALIDEZ MLTIPLE

- Viene dado por la correlacin mltiple entre las puntuaciones obtenidas por la muestra en la
variable criterio y las obtenidas en el cjto. de las predictoras
- G de asociacin entre la VD (criterio) y el cjto de variables predictoras
- Correlacin mltiple:

ryx1 ryx2rx1x2
ry(x1*x2) =
1 - r x1x2

ryx2 ry1rx1x2
ry(x2*x1) =
1 - r x1x2

ryx1 + ryx2
2ryx1ryx2rx1x2
R y*x1x2 =

1 - rx1x2

58

- Otra forma de expresarla es en funcin de los coeficientes de regresin mltiple en
puntuaciones tpicas:

Y = puntuaciones de los sujetos de la muestra en el criterio
X1 y X2 = puntuaciones de los sujetos de la muestra en las 2 VV predictoras
b*1 y b*2 = coeficientes de regresin en puntuaciones tpicas

2.2. EL MODELO DE REGRESIN LINEAL MLTIPLE

- Son ecuaciones de 1 plano (no de 1 recta como en la simple) o hiperplano si son ms de 2
VV predictoras

Y = puntuacin pronosticada en el criterio
A = ordenada en origen
b1, b2,bn = coeficientes de regresin
X1, X2 Xn = VV predictoras

2.2.1. Ecuaciones de regresin

- Puntuaciones tpicas:

ryx1 y ryx2 = correlaciones entre las VV criterio y
cada variable predictora
rx1x2 = correlaciones entre las 2 VV predictoras
a = 0

- Puntuaciones diferenciales:

- Puntuaciones directas

2.2.2. La Varianza residual o de error y el error tpico de estimacin mltiple

R y*x1x2 = b*1ryx1 +
b2*2ryx2

Y= a + b1X1 + b2X2 + bnXn
Zy= b1*Zx1 + b2*Zx1
ryx1 ryx2 rx1x2
ryx2 ryx1 rx1x2
b1* = b2* =
1 - rx1x2
1 - rx1x2

Y = b1x1 + b2x2 Sy
Sy
b1 = b*1
b2 = b*2
Sx1
Sx1
a = 0
Y = a +b1X1 + b2 X2
__ __
__
a = Y b1X1 b2X2

59

- El coeficiente de validez mltiple indica la eficacia de las VV predictoras para estimar el
criterio
- Cuanto ms alto sea el coeficiente de validez, ms exacta es la estimacin
- Pero el coeficiente de validez no es perfecto y est afectada por el error de estimacin
- Error de estimacin: diferencia entre la puntuacin obtenida en el criterio y la pronosticada
mediante la ecuacin de regresin (Y Y)
- A la varianza de todos los errores de estimacin se llama varianza residual, varianza de
error o error cuadrtico medio y su frmula es:

Y = puntuacin de cada sujeto en el criterio
Y= puntuacin pronosticada mediante la ecuacin de regresin
N = n de sujetos

- Es la variabilidad media de las puntuaciones pronosticadas en la recta de
regresin
- Error tpico de estimacin mltiple: s la desviacin tpica de estos errores

2.2.3. Intervalos de confianza

- Asumiendo que la distribucin de los errores de estimacin cuya desviacin tpica viene
dada por el error tpico de estimacin mltiple, se establece 1 intervalo de confianza en
torno a la puntuacin pronosticada. Pasos:
1. Deter. el nivel de confianza y buscar su puntuacin tpica
2. Calcular el error tpico
3. Calcular el error mx.
4. Aplicar la ecuacin de regresin y obtener la puntuacin pronosticada
5. Establecer el intervalo de confianza

2.3. INTERPRETACIN DE LA EVIDENCIA OBTENIDA SOBRE LA APACIDAD
PREDICTORA DEL CONJUNTO DE VARIABLES UTILIZADAS

- La variacin total de los valores de Y es igual a la varianza explicada por la influencia de
X1X2 (cjto de VV predictoras) ms la variacin por el azar o residual

- Proporcin de la varianza de las puntuaciones en el criterio que se puede explicar a partir
de la varianza de las puntuaciones en las VV predictoras. Igual al coeficiente de validez al
cuadrado

(Y Y)
Sy*x1x2 =

N

(Y
Y)
Sy*x1x2 =

N
Sy = Sy + Sy*x1x2
Sy
Sy*x1x2
1 = +
Sy
Sy

Sy*x1x2 1 = Ry*x1x2 +

Sy


60

2.3.1. Coeficiente de determinacin mltiple (varianza comn o asociada)

- Equivale al coeficiente de validez mltiple al cuadrado
- Es la proporcin de la varianza de las puntuaciones del criterio que
se puede pronosticar a partir de las VV predictoras

2.3.2. Coeficiente de alineacin mltiple

- Proporcin que representa el error tpico de estimacin mltiple respecto a la desviacin
tpica de las puntuaciones en el criterio
- Al cuadrado es el complementario del C.D. y representa las puntuaciones en el criterio que
no se puede predecir a partir de las VV predictoras

2.3.3. Coeficiente de valor predictivo mltiple

- Es el complementario del coeficiente de alineacin (capacidad de las VV predictoras para
pronosticar el criterio

* ver ejemplo (pg.366 373)
2.4. MTODOS PARA SELECCIONAR LAS VARIABLES PREDICTORAS MS
ADECUADAS

2.4.1. Mtodos Forward

- Stepwise: es el ms utilizado. Pasos:
1. Clculo de las intercorrelaciones entre las VV
2. Seleccionar la variable predictora con 1 correlacin mayor y se efecta la ecuacin de
regresin
3. Se aade a la ecuacin (1 a 1) las dems VV predictoras y que cuya correlacin
semiparcial con el criterio sea ms alta (de mayor a menor), despus de haber
eliminado la influencia de la anterior, y as sucesivamente
4. Cada vez que se incluye 1 variable predictora en la ecuacin se calcula el aumento en el
C.D. y se analiza si ese aumento es significativo. Se para cuando el aumento no es
significativo
Sy*x1x2 = Sy(1 - Ry*x1x2)

Sy*x1x2 = Sy 1 - Ry*x1x2

Szy*zx1zx2 = 1 -- Ry*x1x2

C.D. = Ry*x1x2
Sy* x1x2
C.A. = K = 1 -
Ry*x1x2
Sy

1 = 1 - Ry*x1x2


61

2.4.2. Mtodos Backward

- Es inverso al anterior. Pasos:
1. Clculo de la (C.D.) entre la variable criterio y el cjto de predictoras
2. Se eliminan 1 a 1 las VV menos relevantes, calculando en cada proc. de eliminacin la
reduccin en el C.D.
3. El proc. se detiene cuando la reduccin sea significativa
* ver ejemplo (pg. 374 378)

3. VALIDEZ Y UTILIDAD DE LAS DECISIONES

- Procedimientos que analizan la valide de las decisiones a partir de las puntuaciones en 1 o
varios tests en relacin a 1 criterio dicotmico. La puntuaciones se dicotomizan a partir de 1
punto de corte (P:C), es decir se asignan en 2 cat. (p.e. aptos no aptos, admitidos
rechazados, etc.)

3.1. NDICES DE VALIDEZ Y DE SELECCIN

- Para el estudio de validacin se aplica 1 prueba a todos los sujetos y se fija 1 P.C., por lo
que todos que lo superen se consideran Aptos y los que no No aptos. Despus de 1 tiempo
se comprueba cul ha sido el rendimiento de ambas cat.

NAA + NNN = Aciertos Sujetos que se han calificado igual en el test y el criterio.
Han sido aptos y no-aptos igual en las 2 pruebas
NNA = Falsos negativos sujetos que superaron el criterio y no el del P.C.
NAN = Falsos positivos sujetos que superaron el P. C. y no el criterio
NAC = Sujetos considerados aptos en el criterio
NCNA = Sujetos considerados no aptos en el criterio
NTA = Sujetos considerados aptos en el test
NTNA = Sujetos considerados no aptos en el test

3.1.1. ndices de validez

- Coeficiente Kappa: evala la consistencia o acuerdo entre las decisiones adoptadas a partir
de las puntuaciones en el predictor (test) y el criterio (rendimiento)

Fc = n de casos en las que hay coincidencia predictor y criterio

Fa = n de casos en que el predictor y criterio coincidan por azar

+

CRITERIO
Aptos No- Aptos
TEST Aptos NAA NAN NTA
No - Aptos NNA NNN NTNA
NCA NCNA N
Fc
Fa
K =
N -
Fa
Fc = NAA + NNN

NCA * NTA

N
NCNA * NTNA

N

62

N = n de sujetos

a) Cuando el resultado se acerca a 1, mayor es la validez de la prueba de
admisin (test)
b) Proporcin de clasificaciones correctas:

c) Sensibilidad: proporcin de sujetos seleccionados en el test especto al total que
tuvieron xito en el criterio

c) Especificidad: proporcin de sujetos correctamente rechazados en el test respecto al
total de no aptos en el criterio

d) Razn de eficacia: proporcin e sujetos seleccionados en el test con buen rendimiento
en el criterio

3.1.2. ndices de seleccin

- Razn de idoneidad: proporcin de sujetos que rinden bien en el criterio

- Razn de seleccin: proporcin de sujetos aptos en el test

3.2. DNDE SITUAR EL PUNTO DE CORTE?

Fc
Pc =

N
NAA
S =
NCA
NNN
E =
NCNA
NAA
RE =
NTA

NCA
RI =

N

NTA
RS =
N

63

- En teora debera situarse en el valor donde se cometan menos errores, pero hay que
analizar las consecuencias ya que no tiene la misma importancia cometer 1 error u otro
(falsos negativos o positivos), ya que e ello depender la decisin de situar el P.C.
- En trminos de decisin estadstica, el P.C. se situara teniendo en cuenta la matriz de pagos
(la que refleja las prdidas y ganancias derivadas de las decisiones)
- Criterios utilizados en la toma de decisiones en ambiente de incertidumbre:
1. Criterio maximin: elegir la alternativa que entre los resultados ms desfavorables,
permita mx ganancia (mx. de mn.)
2. Criterio minimax: se estudia las alternativas que van a proporcionar las mx.
perdidas y dentro de stas se elige la que de 1 prdida menor (mn. de los mx.)

* ver ejemplo (pg. 386 389)
- Correlacin biserial puntual: Si se considera que la prueba de admisin (test) es 1
variable cuantitativa y el criterio es dicotmica
- Correlacin phi biserial: si la variable predictora (test) es dicotomizada y al criterio
(rendimiento) dicotmica

3.3. MODELOS DE SELECCIN

- Mod. Compensatorio: mod. aditivo en el que a cada sujeto se le asigna 1 nica puntuacin
global (p.e. selectividad). La forma adecuada es mediante el mod. de regresin
- Mod. conjuntivo: se fijan de antemano unos mn. en cada una de las pruebas. Slo se
seleccionan los sujetos que hayan superado esos mn. en todas las pruebas
- Mod. disyuntivo: slo se exige superar 1 deter. nivel de competencia en algn predictor/es
- Mod. conjuntivo compensatorio: se seleccionan los sujetos que superan los mn. en cada
uno de los predictores y se les aplica el mod. compensatorio de puntuacin global, pudiendo
elegir los mejores o establecer 1 P.C.
- Mod. disyuntivo compensatorio: despus de aplicar el mod. disyuntivo se aplica el
compensatorio

3.4. CMO ESTIMAR LA EFICACIA EDE UNA SELECCIN?

- Mediante la razn de eficacia
- Mediante el mod. de regresin (ver ejemplo pg. 391 393)
1. Se estima la puntuacin pronosticada en el criterio de los sujetos
2. Se asume que las distribuciones de los errores de estimacin se
ajusta a la distribucin normal, con media dada en la puntuacin
pronosticada en el criterio y la desviacin tpica dada por
el error tpico de estimacin

3. la puntuacin tpica correspondiente al punto crtico del criterio
Z, marca la separacin entre la posibilidad de xito y la de fracaso

4. Se busca en las tablas de curva normal
Y= A + BX

Sy*x = Sy 1 - rxy
Yc Y
Zc =

Sy*x

64

4. FACTORES QUE INFLUYEN EN EL COEFICIENTE DE VALIDEZ

4.1. LA VARIABILIDAD DE LA MUESTRA

- El coeficiente de validez tiende a aumentar a medida que la variabilidad es mayor (ver
ejemplo pg. 394 395)
- Supuestos:
1. La pendiente de la ecuacin de regresin (b = admitidos y B = aspirantes)) que permite
pronosticar el criterio a partir de la variable predictora es igual en aspirantes y
seleccionados

2. El error tpico de estimacin es igual en ambos grupos

- Si se quiere conocer el coeficiente de validez de la batera en el grupo de aspirantes, se
despejan las ecuaciones ant.

- Si se quiere estimar cul es la variabilidad de la muestra se aspirantes en el criterio,
despejamos las ecuaciones ant.

4.2. LA FIABILIDAD DE LAS PUNTUACIONES DEL TEST Y DEL CRITERIO

- Frmula de atenuacin (Spearman): permite corregir la atenuacin, disminucin o
reduccin del coeficiente de validez debida a errores de medida. De esta frmula se deriva:

4.2.1. Estimacin del coeficiente de validez suponiendo que tanto el test como el criterio
tuvieran una fiabilidad perfecta

Sy
sy
B = b Rxy = rxy
Sx
sx

Syx = syx Sy 1 - Rxy = sy
1 - rxy

Sx * rxy
Rxy =
Sx * rxy + sx - sx
* rxy

Sx
Sy = sy 1 - rxy + rxy

sx

rxy
RVxVy =

rxx *ryy

65
Rvxvy = coeficiente de validez terico si las puntuaciones del test y
del criterio no estuvieran errores
rxy = coeficiente de validez emprico
rxx = coeficiente de fiabilidad emprico del test
ryy = coeficiente de fiabilidad del criterio

4.2.2. Estimacin del coeficiente de validez suponiendo que el test tuviera una fiabilidad
perfecta

4.2.3. Estimacin del coeficiente de validez suponiendo que el criterio tuviera una fiabilidad
perfecta

4.2.4. Estimacin del coeficiente de validez del test suponiendo que mejorara la fiabilidad del
test y del criterio

4.2.5. Estimacin del coeficiente de validez suponiendo de que se mejorara la fiabilidad del test

4.2.6. Estimacin del coeficiente de validez suponiendo de que se mejorara la fiabilidad del
criterio

rxy
R VxY =

rxx

rxy
RVXy =
ryy

rxy
Rxy =
rxx
ryy

Rxx
Ryy

rxy
Rxy =

rxx

Rxx

rxy
Rxy =

ryy

Ryy

66

4.2.7. Valor mximo del coeficiente de validez

- Esta frmula permite estimar el CV cuando se han
eliminado todos los errores de medida del test y
del criterio y que como toda correlacin puede ser
mayor o igual a la und.

- Suponiendo que fuera igual a la und. que sera
el valor mx. se deduce:

- Como el valor mx. del coeficiente d fiabilidad del
criterio es la und., la frmula ant. se expresara:

- Como la raz cuadrada del coeficiente de fiabilidad es el ndice de fiabilidad, la frmula
queda as:

4.3. VALIDEZ Y LONGITUD

- La mejora del coeficiente de fiabilidad al aumentar la
longitud del test tambin repercute en la mejora del
coeficiente de validez. La relacin del coeficiente de validez
con la fiabilidad y la longitud del test viene dada en
esta expresin

Rxy = coeficiente de validez estimado al modificar la longitud del test
Rxy = coeficiente de validez inicial del test, antes de modificar la longitud
n = n de veces que se aumenta o disminuye la longitud del test
rxx = coeficiente de fiabilidad inicial del test

- Para la deduccin de la frmula basta aplicar la ecuacin
de Sperman Brown

rxy
RVxVy =
= 1

rxx ryy

rxy rxx ryy

rxy rxx
rxy rvx

rxy n
Rxy =
1 + (n -1)
rxx
nrxx
Rxx =
1 + (n 1)
rxx


67
- Cuando se quiere saber el n de veces que hay que aumentar o disminuir la longitud del test
para conseguir 1 deter. valor del coeficiente de validez, ser segn esta frmula:

- Para saber cuntos tems deben aadirse, segn la longitud que nos indica la frmula ant,
ser:

TEMA 8: ANLISIS DE LA CALIDAD MTRICA DE LOS TEMS

2. PROPIEDADES PSICOMTRICAS DE LOS TEMS

3. PARMETROS DE LOS TEMS

3.1. DIFICULTAD DEL TEM
3.1.1 Correccin de la dificultad en tems de eleccin mltiple

3.2. DISCIMINACIN DEL TEM
3.2.1. El ndice de discriminacin D
3.2.2. Los coeficientes de discriminacin
a) Correlacin biserial Puntual
b) Correlacin biserial
c) Coeficiente phi

3.2.3. Discriminacin de los tems en diseos pre post test
a) ndice de discriminacin D
b) Mtodo Brennan
c) Procedimiento Saupe

3.2.4. Poder discriminativo de los tems en las escalas de actitudes

Rxy (1 - rxx )
n =
rxy - Rxy rxx
EF
n =
EF = n * x * EI
EI

68
3.3. FIABILIDAD Y VALIDEZ DE TEM

3.4. COMPARACIN DE LAS RESPUESTAS A LOS TEMS

4. ANLISIS DE DISTACTORES

5. EL FUNCIONAMIENTO DIFERENCIAL DEL TEM

5.1. IMPACTO Y FUNCIONAMIENTO DIFERENCIAL DEL TEM

5.2. EL PROCEDIMIENTO DE MANTEL-HAENSZEL

2. PROPIEDADES PSICOMTRICAS DE LOS TEMS

- La calidad mtrica de los tems se puede evaluar con el anlisis de las RR de los sujetos a 2
elem. del tem:
a) Alternativa correcta: ofrecen ms inf. sobre la calidad y su relacin con el tem. Se
estudia:
1. Dificultad del tem: se establece a priori y est en funcin de contenido. Inf. los
que deben ser eliminados
2. Discriminacin del tem: diferencia a los sujetos de distintos niveles de 1 VD
3. La fiabilidad y validez del tem
b) Alternativa incorrecta: anlisis de distractores

3. PARMETROS DE LOS TEMS

3.1. DIFICULTAD DEL TEM

- Estadstico p:
a) Es el ms utilizado y segn el cual la dificultad del tem viene dada por la proporcin
de sujetos que contestan correctamente al tem

A = n de sujetos que responden correctamente
B = n de sujetos que responden al tem

b) Normalmente se multiplica por 100 para su interpretacin
c) Oscila entre p = 0 (tem muy difcil) y p = 1 (tem muy fcil). Los tems de estos
extremos deben descartarse
d) Si se calcula en tems dicotmicos, el valor de p coincide con la puntuacin media de
los sujetos en el tem
e) Permite la comparacin de tems que miden diferentes dominios o constructos y son
aplicados a los mismos sujetos (depende de la muestra utilizada)
f) Un mismo tem puede dar 1 valor diferente en p, dependiendo del nivel medio de la
muestra, por lo que depende tanto de la muestra como de las caract. del tem
g) Si 1 cjto. de tems difciles se contestan mayoritariamente correctamente o al contrario,
debe plantearse si tienen valor significativo o evalan bien el contenido

3.1.1. Correccin de la dificultad en tems de eleccin mltiple

A
P =

N

69
- En tems de eleccin mltiple o V-F, se debe hacer 1 correccin que controle el azar en el
clculo de la dificultad del tem

Pc = dificultad del tem corregida P = dificultad del tem sin corregir
Pazar = proporcin de RR correctas al azar E = n de R incorrectas
K = n de alternativas del tem
- La diferencia es mayor entre p y pc en los tems ms difciles
- La dificultad de los tems afecta a la variabilidad de las puntuaciones en el test y en la
precisin con la que las puntuaciones discrimina entre diferentes grupos de sujetos
- Influencia de p sobre la variabilidad de las puntuaciones en el test. Formalmente:

Sx = varianza de las puntuaciones del test
Si = varianza del tem i (i = 1., n)
cov (i,j) = covarianza entre el tem i y el tem j

- La media de las puntuaciones de un test tambin est relacionada con la dificultad:

Pi = dificultad del tem i n = n de tems

3.2. DISCRIMINACIN DEL TEM

- Es la capacidad de 1 tem para diferenciar a los sujetos de baja, media y a la puntuacin en 1
criterio
a) Criterio es interno: si el test o tem miden el mismo constructo, se espera que los
sujetos con puntuacin alta en el tem tambin lo hagan en el test (ndice de
homogeneidad)
b) Criterio externo: es 1 medida del g de validez del tem ref. a ese criterio y su valor es
proporcional al ndice de validez del tem

3.2.1. El ndice de discriminacin D

- Se basa en la inf. que da la comparacin del rendimiento de los grupos extremos (alto y
bajo) en las puntuaciones el test
- Para el clculo se forman los grupos extremos (27 % de sujetos con alta y baja puntuacin
del test) y se calcula el n de RR correctas
E
E

A
A k 1
k - 1
pc = p p azar = =

N N
N

n n n
n
Sx = Si + 2 cov ( i,j) = pi qi + 2 cov (i,j)
i i<j i
i<j
__ n
X = pi
I=
1

70

Aalto , Abajo = n de sujetos que responden correctamente en los grupos alto y bajo
Ng = n de sujetos correspondientes al 27 % de la muestra

- l ndice dar valores altos (poder discriminatorio del tem) cuando los sujetos del grupo alto
obtengan ms RR correctas que los del bajo
- D = 0 se obtendr si Aalto y Abajo estuviesen prximas entre s, reflejando que el tem no
discrimina entre los sujetos de diferente nivel de aptitud
- 1 ndice de discriminacin negativo se da en tems que cubren contenidos complejos en test
de opcin mltiple
- Tabla de valores D y su interpretacin:

ndice de Discriminacin Interpretacin
D 0,40
El tem presenta gran discriminacin
0,30 D < 0,39
La discriminacin del tem es aceptable
0.20 D < 0,29
El tem discrimina poco y necesita revisin
0,30 < D 0,19
tems no adecuados que deben modificarse o
eliminarse del test
D 0,0
tems que deben eliminarse directamente

3.2.2. Los coeficientes de discriminacin

- G de discriminacin medido a travs del coeficiente de correlacin
- Requiere considerar a todos los sujetos de la muestra (no slo el 27%)

a) Correlacin Biserial Puntual:
1. Correlacin entre el tem y 1 variable criterio (VD) cuantitativa continua
2. La puntuacin al test es 1 variable dicotmica con valores (0,1)
3. Pueden oscilar entre 1 y + 1

Xc = media de las puntuaciones del criterio por los sujetos que han
__ respondido correctamente
X = media de las puntuaciones en el criterio calculado con todos los sujetos de la muestra
Sx = desviacin tpica de las puntuaciones en el criterio con todos los sujetos
P = dificultad del test
q = 1 p

4. Si se quiere estudiar el g de homogeneidad del tem (criterio interno) en
relacin con el resto de tems y segn la aplicacin de la rbp presenta 1 problema :
la puntuacin se ha calculado considerando al tem bajo estudio, lo que conlleva
dependencia a priori y 1 relacin esprea. Se subsana calculando la puntuacin total
sin el tem. Tambin se puede calcular la correlacin sin descontar l tem:
Aalto Abajo
D =
Ng
__ __
(Xc X)
p
rbp =
Sx
q

71

rbp(c) = correlacin entre el tem y el test tras descontar tem
rbp = correlacin entre el tem y el test con el tem incluido
Sx = desviacin tpica del test
Si = desviacin tpica del tem i

5. Cuanto mayor es el n de tems menor g de correccin
6. Su pral. ventaja es que refleja la contribucin del tem al funcionamiento del test
b) Correlacin biserial:
1. Se aplica es 1 variable continua normalmente y que se ha dicotomizado
2. Es 1 correlacin producto momento entre 1 variable continua dicotomizada y 1
medida de criterio int./ext. continuo

__
Xc = media de puntuacin obtenidas en el criterio por los sujetos que han respondido
__ correctamente
X = media de las puntuaciones en el criterio calculado con todos los sujetos de la muestra

Sx = desviacin tpica de las puntuaciones en el criterio con todos los sujetos
p = dificultad del tem
y = valor de la ordenada que le corresponde a la puntuacin tpica en la curva normal que deja
debajo 1 rea igual a p

3. La relacin entre la correlacin biserial y la biserial puntual,
matemticamente:

____
4. Como el valor de la ordenada y en al curva normal es menor que pq el valor de
la correlacin biserial es mayor que la puntual
5. Est menos influenciada por la dificultad del tem y no vara entre aplicaciones

c) Coeficiente phi:
1. Calcula la relacin entre la ejecucin en 1 tem y 1 criterio ext. que es 1 variable
dicotmica (criterio y test son dicotmicos)
2. Para el calculo se ordenan los datos en 1 tabla de contingencia 2x2:

ITEM
Apto No apto
CRITERIO Apto a b a + b
rbpSx - Si

rbp(c) =
Si + Sx - 2rbp
Si Sx
__ __
(Xc X )
p
Rb =
Sx
y
y
rbp = rb ____
pq

72
No apto c d c + d
a +c b +d

3. Su clculo es:

3.2.3. Discriminacin de los tems en diseos pre post test

a) ndice de discriminacin D: Diferencia entre la proporcin de sujetos que contestan 1
deter. tem correctamente antes y despus de su instruccin

b) Mtodo Brennan:
1. Considera las puntuaciones de ambos grupos, 1 con instruccin
2. Sus valores oscilan entre 1 y + 1

U = n de sujetos por encima del punto de corte que aciertan el tem
L = n de sujetos por debajo del punto de corte que aciertan el tem
n1 = n de sujetos que puntan por encima del punto de corte
n2 = n de sujetos que puntan por debajo del punto de corte

c) Procedimiento de Saupe:
1. Deter. que tems discriminan mejor entre grupos que han recibido instruccin de los
que no
2. Cada tem se administra pre y pos test
3. La puntuacin final de 1 sujeto para 1 deter. tem: di = yi xi
4. La puntuacin final de 1 sujeto en 1 test: D = Y X
5. Para calcular la contribucin de 1 tem al cambio en la puntuacin total:

6. Se seleccionan los tems que presentan 1 valor rdD alto y se rechazan los bajos

3.2.4. Poder discriminativo de los tems en las escalas de actitudes

- Hay varios procedimientos para averiguar el poder discriminativo de los tems
1. Correlaciones entre las puntuaciones de los sujetos en cada elem. y las de la escala
total.
a) El ms adecuado es la correlacin momento producto de Pearson

bc ad
=

(a + b) (a +c) (c +d)
(b + d)
D = P post - Ppre

U
L
B =

n1
n2
rxx + ryy + rxy + ryx
rdD =
2 1 - rxy - 2 1 -
rxy
NJX - JX
Rjx =
[ NJ (J)] [ X
(X)]

73

N = n de sujetos de la muestra
J = suma de las puntuaciones de los sujetos en el elem. J
X = suma de las puntuaciones de los sujetos en la escala total
Rjx = correlacin entre las puntuaciones de los sujetos en el elem. J y en la escala total
b) Es necesaria 1 correccin ya que en la puntuacin total (X) est incluida la
puntuacin en el elem. J y lo que se pretende es la correlacin entre el elem. J y el
resto de los elem. Por lo que se aplica esta frmula al resultado anterior:

2. En otro procedimiento se eligen grupos extremos de actitud a partir de las
puntuaciones de los sujetos en la escala total
a) Se ordenan las puntuaciones de mayor a menor y se separan el 25 -27% de sujetos
con puntuacin total ms alta ( de 25%) y el 25-27% de puntuacin ms baja (
de 25%)
b) En la escala final slo se mantienen los elem. que discriminen bien entre los 2
grupos
c) T de Student se puede utilizar para saber si 1 elem. es discriminativo:

__
Xsj = media de las puntuaciones en el elem. J por los sujetos que, en la escala total, obtuvieron
__ puntuaciones ms altas ( de 25%)
Xij = media de ls puntuaciones en el elem. J por los sujetos que, en la escala total, obtuvieron
puntuaciones ms bajas ( de 25%)
Ssj = varianza de las puntuaciones en el elem. J por los del grupo sup.
Sij = varianza de las puntuaciones en el elem. J por los del grupo inf.
ns y ni = respectivamente el n de sujetos de los grupos sup. e inf.

d) U de Mann Whitney: Si se sospecha que no se cumplen condiciones de
normalidad y/o igualdad entre las poblaciones de las que proceden las muestras de
sujetos se utiliza esta prueba no paramtrica, donde se puede averiguar si las

RJxSx - SJ
RJ(x J) =

Sx + Sj -
2RJx SxSJ
__ __
Xsj X ij
T =

(ns 1)Ssj + (ni 1)Sij
1 1

+
ns + ni 2
ns ni

74
puntuaciones de ambas muestras en el elem. son estadsticamente distintas. Los
datos deben transformarse en ordinales. Forma de proceder:
1. Ordenacin cjta. de sujetos de los grupos inf. y sup., asignando 1 a la
puntuacin ms baja
2. Si 2 o ms datos tienen igual valor se halla la media de los rdenes que le
corresponderan y se les asigna el valor resultante
3. Se suman por separado los rdenes de cada grupo y se halla la U a cada 1
aplicando la siguiente frmula:

Rs y Ri = sumas de los rdenes de los grupos sup. e inf. respectivamente

4. Para comprobar si hay diferencias significativas se acude a las tablas U de
Mann Whitney y se averigua, a 1 deter. nivel de significacin, cul es el
valor crtico. Si el valor ms peq. de las U obtenido es mayor que el de las
tablas, la diferencia es significativa
e) Chi - cuadrado: separados ambos grupos se ordenan las puntuaciones desde
la menor a la mayor y se halla la mediana cjta. y se forma 1 tabla de
contingencia de 2x2 y se aplica la frmula:

a = n de sujetos del g. sup. con puntuaciones en el elem. J sup. a la Md cjta.
b = n de sujetos del g. sup. con puntuaciones en el elem. J inf. a la Md cjta.
c = n de sujetos del g. inf. con puntuaciones en el elem. J sup. a la Md. cjta
d = n de sujetos del g. inf. con puntuaciones en el elem. J inf. a la Md. cjta

* ver el ejemplo del libro (pg. 445-450).
- De acuerdo con Likert, consideramos que el 1 procedimiento es ms adecuado ya que
utiliza la inf. de todos los datos y en el 2 utiliza i inf. parcial

3.3. FIABILIDAD Y VALIDEZ DE LOS TEMS

- Son funcin de la S del tem y de su correlacin con el criterio:
a) Criterio interno
- ndice de Fiabilidad del tem (IF): es 1 medida de la precisin con la que mide el
constructo (ej. puntuacin en el test)
+ Mediana - Mediana
Grupo superior a b
Grupo inferior c d

ns (ns + 1)
Us = nsni +
__ Rs

2
ni (ni + 1)

Ui = nsni +
Ri

2
N [ | ad cb | N/2 ]
X =
(a + b) (c + d) (a + c) (b + d)

75

Si = desviacin tpica del tem i
Rix = correlacin del tem i con la puntuacin en el test o ndice de homogeneidad. Se puede
calcular con la correlacin biserial y la puntual

- ndice de la fiabilidad del test:

b) Criterio externo:
- ndice de Validez del tem (IV): su clculo es:

riy = correlacin entre el tem y el criterio ext. Y. Si es 1 variable continua se utilizar la biserial o
la puntual si hay 1 habilidad latente distribuida normalmente en la ejecucin del tem. Si es
dicotmica se emplea la

- Coeficiente de validez de 1 test:

3.4. COMPARACIN DE LAS RESPUESTA A LOS TEMS

- Estudiar la similitud de las RR dadas por 1 grupo, a 2 tems que presentan caract. similares ,
para por ejemplo desarrollar 1 test desde 1 banco de tems
a) Para estudiar si 2 tems miden lo mismo (g de homogeneidad):

n = n de sujetos de la muestra
a,b,c,d, = frecuencia de cada casilla
- Para interpretar los resultados se acude a las tablas
ITEM 1
ITEM 2 ACIERTO ERROR
ACIERTO a b
ERROR c d
IF = Sirix

k
k
n Si n
Si
= 1 i=1 =
1 i=1
n -1 n =1

k
k
Sirix
IFi
i=1
i=1
IV = Siriy
n
n
Sirbp(y,i)
IVi
i=1
i=1
rxy = =
Sirbp(x,i)
IFi
n (ad cb)
X =
(a + b) (c +d) (b + d)
(a + d)

76

b) Para analizar el g o intensidad de dicha homogeneidad

a y d = frecuencia de sujetos que aciertan dichos tems
n = n de sujetos de la muestra
c) Para saber si el g de dificultad en los 2 tems es igual (si las diferencias
encontradas son peq. debidas a errores de muestreo o son estadsticamente
significativas)

4. ANLISIS DE DISTRACTORES

- Si se comprueba que el contenido y redaccin son adecuados se analizarn las alternativas
incorrectas como distractores, que al ser eliminados y reemplazados, mejoraran la
discriminacin del tem
- El anlisis de los distractores es til para deter. la utilidad y eficacia de las alternativas
incorrectas en cada tem
- El objetivo del distractor es atraer la atencin de los sujetos con nivel medio o bajo
- Se consideran distractores eficaces:
a) Son elegidas por 1 mn. de sujetos se cumplen estos 2 criterios si
hay
b) Son aprox. igual de atractivas para los sujetos ms del 10% y con diferencias mn.

c) El rendimiento medio en el test de los sujetos en cada distractor sea inf. al de los que
han contestado correctamente y a la media gral. de todos los sujetos (se puede calcular
la media en las puntuaciones del test en cada distractor y comprobar que la correcta es
sup.)
d) Que discrimine entre los sujetos de baja, media y alta puntuacin, pero al contrario
como lo hace la alternativa correcta (se puede utilizar el ndice de discriminacin y el
coeficiente de correlacin)

5. EL FUNCIONAMIENTO DIFERENCIAL DEL TEM

- Cuando se ha llevado a cabo el anlisis y seleccin de los tems y se dispone de 1 test final
la pregunta es si todos miden de igual forma a todos los grupos a los que se les ha
administrado el test
- Sesgo:
a) En la T de los Test se conoce como la diferencia entre grupos en los tests de
rendimiento y aptitudes cuando sujetos de igual nivel de competencia tiene puntuaciones
diferentes, estando causado por factores ajenos que afectan los resultados
b) El objetivo de su estudio consiste en deter. si las diferencias son reales o son generadas
por el instrumento de medida
c) Anlisis del fundamento diferencial del tem (FDI): es 1 herramienta til para su
estudio
(a +
b)
p =
n

( |b c| - 1)
X =
b + c

77
d) Un tem presenta FDI si al comparar grupos de sujetos en 1 caract. sociodemogrfica,
ext. a la variable medida en el test, se observa que sujetos con igual nivel en la misma
variable medida tienen diferentes posibilidades de xito.
e) El mt. ms utilizado para identificar el FDI es el Mantel Haenszel

5.1. IMPACTO Y FUNCIONAMIENTO DIFERENCIAL DEL ITEM

- Impacto: un tem lo presenta cuando existen diferencias en la puntuacin media de ese tem
por 2 grupos de sujetos con distinto nivel en rasgo o caract. que mide el test (p.e. hombres
y mujeres)
- Funcionamiento diferencial: cuando existen diferencias en la puntuacin media de ese
tem por 2 grupos diferentes pero con igual nivel de rasgo (p.e. hombres y mujeres con
igual aptitud matemtica)

5.2. EL PROCEDIMIENTO DE MANTEL HAENSZEL

- Pasos a seguir:
1. Seleccionar la variable ext. que se sospeche que genera funcionamiento diferencial en
ciertos tems. Slo 2 grupos a comparar:
a) Grupo de referencia (GR): grupo mayoritario o socialmente favorecido y el que
tericamente se beneficia del funcionamiento diferencial
b) Grupo focal (GF): grupo minoritario en el que se centra la atencin y el que se
cree que est perjudicado por el funcionamiento diferencial
2. Subdividir a los sujetos en ambos grupos segn la puntuacin emprica obtenida en el
subtets de habilidad homognea
3. Calcular el n de RR correctas e incorrectas por cada grupo y nivel de habilidad k

Correctas Incorrectas
Grupo de Referencia (GR) AK BK NR
Grupo Focal (GF) CK DK NF
N1 N0 NK

4. Estimar la cant. de funcionamiento diferencial segn la expresin:

n
AkDk

k=1
Nk
MH =
n BkCk

k=1 Nk

78
5. Interpretar los resultados: los valores de MH oscila entre 0 y . Valores mayores de
1 favorecen al GR y los menores al GF y si est prx., no presenta funcionamiento
diferencial

* ver ejemplo del tema (pg. 461 463)

TEMA 9: ASIGNACIN, TRANSFORMACIN Y
EQUPARACIN DE LAS PUNTUACIONES

2. NECESIDAD DE TRANSFORMACIN DE LAS PUNTUACIONES PARA SU
INTERPRETACION

3. TRANSFORMACIN DE LAS PUNTUACIONES EN LOS TESTS REFERIDOS A
NORMAS

3.1. TRANSFORMACIONES LINEALES
3.1.1. Escalas tpicas
3.1.2. Escalas derivadas

3.2. TRANSFORMACIONES NO LINEALES
3.2.1. Rango de perceptiles
3.2.2. Escalas tpicas normalizadas
3.2.3. Escalas normalizadas derivadas

3.3. NORMAS CRONOLGICAS

4. MTODOS PARA ESTIMAR EL PUNTO DE CORTE EN LOS TESTS REFERIDOS A
CRITERIO

4.1. MTODOS VALORATIVOS
4.1.1. Mtodo de Nedelsky
4.1.2. Mtodo de Angoff
4.1.3. Mtodo de Ebel
4.1.4. Mtodo de Jaeger

4.2. MTODOS COMBINADOS

4.3. MTODOS DE COMPROMISO

5. EQUPARACIN DE PUNTUACIONES

5.1. DISEO DE EQUIPARACIN
5.1.1. Diseo de un solo grupo
5.1.2. Diseos de grupos equivalentes
5.1.3. Diseos de grupos no equivalentes con tems comunes (o de anclaje)


79
5.2. MTODOS DE EQUIPARACIN
5.2.1. Mtodo de la media
5.2.2. Mtodo lineal
5.2.3. Mtodo equipercentil

6. EL ERROR TPICO DE EQUIPARACIN

7. EL MANUAL DEL TEST
2. NECESIDAD DE TRANSFORMACIN DE LAS PUNTUACIONES PARA SU
INTERPRETACIN

- Escala primaria: Escala resultante de asignar a los sujetos una puntuacin
- Procedimientos de interpretacin de las puntuaciones:
a) Normativa o ref. a la norma:
1. Comparacin de la puntuacin de un sujeto con las del grupo
2. Normas: puntuaciones del grupo normativo y sus transformaciones
3. Baremo del test: cjto. de normas
b) Criterial o ref. al criterio:
1. G de dominio de un sujeto sobre un criterio preestablecido
2. Se toma una puntuacin de corte para clasificar los que dominan el criterio y a
los que no

3. TRANSFORMACIONES DE LAS PUNTUACIONEWS EN LOS TESTS REFERIDOS A
NORMAS

- Pasos: Se aplica el test a una muestra representativa se obtienen todas las normas
ya se puede compara la puntuacin de un sujeto con las de su grupo normativo
- A partir de las puntuaciones directas se pueden obtener otras escalas, que mejoran su
interpretacin, mediante transformaciones lineales o no lineales

3.1. TRANSFORMACIONES LINEALES

3.1.1. Escalas tpicas
- Indican el n de desviaciones tpicas a las que se encuentra la puntuacin de un sujeto
respecto a la media del grupo normativo o de ref.
- Media = 0 y desviacin tpica =1
- Oscilan entre -3 y +3 e implican la existencias de decimales y negativos

3.1.2. Escalas tpicas derivadas
- Son transformaciones lineales de las escalas tpicas
- Consiste en multiplicar la puntuacin tpica por una constante b, Sx de la nueva escala,
y sumarle otra constante a, la media en la escala resultante

__
X X
Zx=
Sx

80

- Escala D: D = 50 + 20z
- Escala T: T = 50 + 10z

3.2. TRANSFORMACIONES NO LINEALES

3.2.1. Rango de percentiles
- Puntuacin del test que deja por debajo de s u deter. porcentaje de casos del grupo
normativo
- Constituyen una escala ordinal

3.2.2. Escalas tpicas normalizadas
- Obtenidas a partir de los perceptiles
- Es la puntuacin tpica de una puntuacin emprica obtenida en una distribucin normal
- Si la distribucin de las puntuaciones se alejara mucho de la distribucin normal, se
podran estar falseando los datos
- Si las puntuaciones se distribuyen con curva normal, las puntuaciones tpicas y las
normalizadas coincidirn

3.2.3. Escalas normalizadas derivadas
- Resuelven el problema se los valores negativos y los decimales
- Estaninos o eneatipos:
a) Escala de valores enteros y positivos de 9 und., del 1 al 9
b) E = 5 + 2 (Zn)
c) Inconveniente: incluir en el mismo eneatipo sujetos con distintas puntuaciones

3.3. NORMAS CRONOLGICAS

- La interpretacin de la puntuacin es en relacin con la edad y su puntuacin media por
sujetos de igual edad
- No es muy recomendable porque no siempre se pueden comparar las puntuaciones de un
sujeto en reas diferentes ya que podran corresponder a rasgos perceptiles diferentes
- Edad mental (EM):
1. Muestras de nios de los distintos rangos de edad contemplados en el test
2. Aplicar test a los nios de cada rango y se calcula la media
3. Construccin de la tabla en la que se asigna a cada edad la puntuacin media en el
test
- Cociente intelectual (CI):
a) Se calcula dividiendo la edad mental por la cronolgica y multiplicada por 100
Y = A +BZX
k * n nd
Pk = Li + 100
* I
nc

81
b) El cociente ser igual a 100 en los que coincida el valor de la edad mental y la
cronolgica

4. MTODOS PARA ESTIMAR EL PUNTO DE CORTE EN LOS TESTS REFERIDOS AL
CRITERIO

- El criterio acta como un filtro o punto de corte
- Gralmente. un n adecuado de expertos establecen el punto de corte. Tipos :
a) Puntos de corte relativos: cuando se establece en funcin del grupo de sujetos
evaluados
b) Puntos de corte absolutos: cuando se establece en funcin del constructo o materia
objeto de estudio

4.1. MTODOS VALORATIVOS

- Basados en la evaluacin que un grupo de expertos estrenados hacen sobre los tems de un
test

4.1.1. Mtodo de Nedelsky
- Para puntos de corte en tests de competencia mn., usados en el mbito escolar
- Se utilizan tests compuestos de tems de eleccin mltiple
- El mod. asume que un sujeto elegir a l azar, entre las opciones, la respuesta correcta
- La puntuacin esperada vendra dada por el resultado de dividir la und. entre el n de
alternativas que se supone que el sujeto no rechaza como errneas

- Los sujetos contestan al azar entre las alternativas que no se consideran errneas cuando
no conocen la correcta
- Se tiende a dar valores de corte ms bajos que otros procedimientos

4.1.2. Mtodo de Angoff
- Es aplicable a todo tipo de tems
- Los jueces evalan el tem globalmente y deter. la probabilidad que con los requisitos
mn. de competencia se responda correctamente a cada uno de los tems del test
- Clculo del corte: se suman los valores de las probabilidades establecidas por los
jueces y se calcula la media

4.1.3. Mtodo de Ebel
- Valoracin del test desde una doble perspectiva:
a) g de relevancia: fcil, medio y difcil en 1
matriz con 12 cat.
b) g de dificultad: esencial, importante, aceptable y dudoso
EM
CI = *
100
EC

N A
P = A

n 1

82
- Clasificados los tems, se hace un recuento del n de tems por casilla y los jueces
establecen un porcentaje del n de tems que contestar un sujeto con competencia mn.

Xc = puntuacin correspondiente al punto de corte
P = proporcin de tems en cada casilla que un sujeto
minimamente competente contestara
M = n de tems en cada celda

4.1.4. Mtodo Jaeger
- Se pregunta a cada juez si cada uno de los tem se contestar correctamente por los
sujetos
- Sesiones para deter. el punto de corte:
1. Responder SI o NO si un sujeto minimamente competente contestar correctamente
el tem, despus se calcula el n de tems que se respondi con SI
2. Se repite el mismo proc. pero informando a los jueces de los datos anteriores
3. De nuevo se presentan los datos y se pide que valoren cada tem (puede variar los
juicios segn la inf. dada
- El punto de corte es la mediana ms baja de los diferentes jueces

4.2. MTODOS COMBINADOS

- Estn basados en los juicios que los expertos sobre la competencia de los sujetos

4.2.1. Mtodo del grupo lmite
- Los jueces, de mutuo acuerdo, definen 3 niveles de competencia de dominio a evaluar:
competente, lmite y no competente, debiendo identificar a los sujetos que estn en el
lmite para aplicar el punto de corte
- La mediana es ms conveniente que la media

4.2.2. Mtodo de los grupos de contraste
- Despus de clasificar lo sujetos en 2 grupos (competentes o no) se administra 1 test y las
puntuaciones se establecen en base a su rendimiento en el mismo
- Para deter. el punto de corte se puede usar una representacin grfica de la distribucin
de puntuaciones de los sujetos competentes y otra de los no competentes, siendo dicho
corte la interseccin de ambas distribuciones. Si el punto de corte se desplaza:
a) a la derecha se reducen los falsos positivos
b) a la izquierda se reducen los falsos negativos

4.3. MTODOS DE COMPROMISO

- Adems de basarse en los conoc. mn. de los sujetos, tambin informan sobre la posicin
del sujeto en relacin al grupo

4.3.1. Mtodo Beuk
- Los jueces han de tener en cuenta:
a) Las puntuaciones de los sujetos en el test que se quiere establecer el punto de corte
b) La inf. de las respuestas de los jueces a 2 preguntas:
1. Ref. al porcentaje mn. de tems que los jueces creen que deben contestar los
sujetos correctamente (datos absolutos)
Xc = p(M)

83
2. Ref. al porcentaje de sujetos que creen que tendrn la puntuacin mn. para superar
el test (datos relativos )
- Despus de recogida esta inf. se deter. el punto de corte mediante una representacin
grfica:
1. En el eje de abscisas porcentaje mn. de tems que el sujeto debe contestar
correctamente para superar el test. En el eje de ordenadas el porcentaje de sujetos
que creen que obtendrn la puntuacin mn. para superar el test. Se calcula el valor de
la media de los juicios emitidos por los expertos a las preguntas X e Y y se representa
el punto de interseccin A
2. Se obtiene la distribucin C correspondiente a las puntuaciones de los sujetos en el
test
3. Se dibuja 1 recta (AB), cuya pendiente la deter. el cociente entre la desviacin tpica de
las respuestas dadas por los jueces a las 2 primeras preguntas: Sy/Sx
4. Se obtiene el punto de corte Xc (se proyecta el punto B sobre el eje de abscisas). Para
expresar este valor en funcin del n de tems, multiplicamos el valor de Xc por el n de
tems n: N de tems = Xc * n

4.3.2. Mtodo de Hofstee
- Se basa en la inf. proporcionada por los jueces al responder 4 puntos:
1. Punto de corte que los jueces consideran adecuado
2. Punto de corte que los jueces consideran inadecuado
3. Porcentaje mx. admisible de sujetos que fallan en el test
4. Porcentaje mn. admisible de sujetos que fallan en el test
- Representacin grfica para la obtencin del punto de corte:
1. En el eje de abscisas: los puntos P min y P max puntos de corte que los jueces
consideran adecuado e inadecuados respectivamente
2. En el eje de ordenadas: los puntos F max y F min porcentaje mx y mn. admisible
de sujetos que fallan en el test
3. Se traza una recta perpendicular al eje de abscisas que coincida con la interseccin de
La distribucin de las puntuaciones en el test y la recta AB

5. EQUIPARACIN DE PUNTUACIONES

- Es el proc. por el cual se establece correspondencia entre las puntuaciones de 2 o ms
tess, de forma que sea indistinto el empleo de uno u otro
- Cuestiones bsicas:
a) Que midan el mismo constructo psicolgico
b) Tengan igual fiabilidad
- Equiparacin horizontal: entre puntuaciones de igual dificultad
- Equiparacin vertical: entre puntuaciones de diferente dificultad

5.1. DISEOS DE EQUIPARACIN

- Pasos en el proc. de equiparacin:
1. Definir propsito de equiparacin 2. Construir formas diferentes del
test
3. Elegir un diseo de recogida de datos 4. Recogida de datos
5. Deter. el mt. 6. Evaluar resultados

5.1.1. Diseo de un solo grupo
- Se administran 2 formas del test al mismo grupo, cuyas puntuaciones se quieren equiparar

84
- Deben medir igual caract. y presentar igual dificultad
- Diseo de un grupo contrabalanceado:
a) Se aconseja para evitar el cansancio y el efecto de orden
b) Se divide el grupo en 2 subgrupos y se les administra las 2 formas del test en orden
inverso

5.1.2. Diseo de grupos equivalentes
- Se extraen aleatoriamente 2 muestras de sujetos y a cada una se aplica 1 forma del test
- Otra forma sera alternar las formas en cada grupo, de manera que al 1 sujeto se le entregue
la forma X, al 2 la Y, al 3 la X, etc.

5.1.2. Diseo de grupos no equivalentes con tems comunes (o diseo de anclaje)
- A cada muestra (no tienen que ser equivalentes entre s) se le administra slo 1 forma del
test (X o Y) , luego a ambas se les aplica 1 test comn (Z)
- Test de anclaje interno: se utiliza 1 cjto. de tems comunes a ambos tests, apareciendo
intercalados con el resto de tems propios de las 2 formas X e Y (tems de anclaje)
- Test de anclaje externo: los tems comunes forman 1 test independiente y las estas
puntuaciones no se utilizan en el cmputo de la puntuacin total (test de anclaje)
- El n de tems comunes debe ser el 20% de la longitud total en 1 test con 40 tems

5.2. MTODOS DE EQUIPARACIN

5.2.1. Mtodo de la media
- Asume que las puntuaciones de 1 de los test difieren en1 cuanta constante de las
puntuaciones del otro test
X* = puntuacin del test Y equivalente a la del X

X = puntuacin del test X
__
X = media del test X
__
Y = media del test Y

5.2.2. Mtodo lineal
- Las diferencias entre las puntuaciones puede variar
- Se basa en la equiparacin en la puntuaciones directas que tienen misma puntuacin tpica
- Diseo de grupos equivalentes: aplicacin a cada grupo 1 forma diferente del test

y despejando,

o bien

X* = Y = puntuaciones del test Y equivalen a una puntuacin X
X* = Y = X X + Y
__
__
X X Y Y
Sx Sy
Sy
___ ___
X* = Y = (X X)
+ Y
Sx
X* = a (X- b) + c

85
Sy = desviacin tpica de las puntuaciones del test Y
Sx = desviacin tpica de las puntuaciones del test X
__ __
X = b= media del test X Y = c = media del test Y

Sy
a = = cociente entre las desviaciones tpicas
Sx

- Diseo de un solo grupo: aplicacin de los 2 tests al mismo grupo pero en orden inverso

X* = puntuacin del test Y equivalente a la del test X
Sy1 y Sy2 = desviacin tpica de las puntuaciones del test Y aplicado al subgrupo 1 y 2
Sx1 y Sx2 = desviacin tpica de las puntuaciones del test X aplicado al subgrupo 1 y 2
X1 y X2 = media del test X aplicado al subgrupo 1 y 2
Y1 y Y2 = media del test Y aplicado al subgrupo 1 y 2

- Diseo de anclaje: aplicacin a 2 grupos 1 forma diferente el test y 1 test de anclaje (Z)
comn a ambos

X* = puntuacin del test Y equivalente a la del test X
Sx1 = varianza de las puntuaciones en el test X aplicado al grupo 1
bxz1 = pendiente de la recta de regresin de X sobre Z en el grupo 1

Sz = varianza de las puntuaciones del test Z, calculada sobre los grupos 1 y 2
Sz1 = varianza de las puntuaciones en el test Z calcula sobre el grupo 1
Sy2 = varianza de las puntuaciones en el test Y, aplicado al grupo 2
byz2 = pendiente de la recta de regresin de Y sobre Z, deter. en el grupo 2
__
__ __ __
Sy1 + Sy2 X1 + X2
Y1 + Y2
X* = Y = X
+
Sx1 + Sx2 2
2
Sy2 + byz2 (Sx Sz2) __ __ __
__ __ __
X* = Y = (X (X1 + bxz1 (Z Z 1))
+ (Y2 + byz2 (Z Z2))
Sx1 + bxz2 (Sz Sz1)

Sx1
bxz1 = rxz1

Sz1

86

Sz2 = varianza de las puntuaciones en el test Z calculada en el grupo 2
5.2.3. Mtodo equipercentil
- Mtodo ms habitual que consiste en equiparar aquellas puntuaciones cuyos perceptiles son
iguales. Ver frmula del apartado 3.2.1.
- Pasos:
1. Calcular en cada test las puntuaciones perceptiles correspondientes a cada puntuacin
en ambos tests
2. Representacin grfica de las 2 distribuciones de perceptiles. En abscisas las
puntuaciones de los tests X e Y
3. Se obtienen las puntuaciones equivalentes a partir del grfico

6. ERROR TPICO DE EQUIPARACIN

- Desviacin tpica de las puntuaciones transformadas a la escala Y, correspondiente a 1 valor
concreto del test X (Se = S(x*/x))
- Diseo de grupo equivalente:

N1 y N2 = n de sujetos en ambas muestras
Zx = puntuacin tpica del valor de X*

Sy = varianza de las puntuaciones en el test Y

- Diseo de un solo grupo:

rxy = correlacin entre ambos tests
Sy = varianza de las puntuaciones obtenidas en los tests Y: Sy1 + Sy2

- Diseo de anclaje:

Sy2
byz2 = ryz2

Sy2

2Sy
Se = (Zx
+ 2)
N1 + N2
(X*- X
Zx =
Sx

(Sy)(1 rxy)(Zx(1 + rxy) + 2
Se =

N
2 Sy(1 - r)(Zx(1 + r) + 2
Se =

N
bxz1
byz2
r = =
Sx
Sy

87

7. EL MANUAL DEL TEST

- En el manual deben figurar todos los datos que hacen del test un instrumento cientfico
- Cat. en que pueden agruparse los datos:
a) La especificacin del test: denominacin y clasificacin del test
b) La descripcin del test: inf. sobre fines y formas de aplicacin del test
1. Introduccin debe explicar el objetivo y si guarda relacin con los otros tems.
Antecedentes y desarrollo del test
2. Especificacin campo de desarrollo, aspectos psicolgicos, reas de aplicacin
3. Descripcin del material (bsico o auxiliar)
4. Instrucciones de aplicacin
5. Inf. sobre la forma de puntuar
c) La justificacin: datos cuantitativos y experimentales que justifican el uso del test
(fiabilidad, validez y tipificacin)
d) Referencias bibliogrficas: todas aquellas que contengan cualquier inf. del test
- Normas de la APA para elaborar el manual de un test:
1. Actualizacin peridica de las pruebas (menos de 5 a.)
2. En la nueva actualizacin se incluirn los nuevos resultados (positivos o negativos)
3. Revisin si la nueva inf. sobre el test contradice la anterior
4. Con cada nueva revisin y estudio estadstico
5. Ejemplos sobre la interpretacin de datos y estadsticos del test
6. Inf. del error sistemtico
7. Especificacin de las aplicaciones (prctico o de investigacin)
8. Tanto las instrucciones como las normas reproducirn la misma situacin
9. Toda inf. cuantitativa ser precisa y clara
10. Debe figurar toda la bibliografa del test
11. Los criterios de puntuacin deben estar bien definidos
12. Inf. de fiabilidad (error de medida del test y dificultad, varianza y discriminacin de
tems)
13. Inf. sobre la fiabilidad y la descripcin de los procedimientos y muestras de la
obtencin de los resultados
14. La fiabilidad en pruebas de rendimiento acadmico, inteligencia y aptitudes, se
calcular para cada grupo de edad y curso acadmico. En grupos diferentes se calcular
el rxx
15. Descripcin de las caractersticas estadsticas si el test consta de 2 o ms formas
16. En el test-retest se incluir el tiempo transcurrido
17. Si incluyen subtets correlacionados con el rango de puntuaciones globales se incluirn
tablas de equivalencia
18. Tests con subtets se presentar 1 matriz de correlaciones y estadsticos descriptivos
19. Estabilidad de las puntuaciones en el tiempo y sus factores de riesgo
20. Periodo de caducidad de las puntuaciones del test
21. Inf. de la validez ref. a usos y aplicaciones del instrumento
22. La validez de contenido del test ser ref. al sector del dominio que refleja los tems
23. Descripcin del proc. de seleccin y criterios en el proc. de validacin

88
24. situaciones en que se utilicen la validez predictiva y su generalizacin
25. Datos sobre la homogeneidad de las conductas seleccionadas como criterio
26. La valoracin de los datos sobre la validez debe tener en cuenta las VV personales
27. Actualizacin de valores de validez
28. En test de orientacin escolar, se presentarn datos sobre la relacin test- aptitud verbal
29. Fciles de interpretar las puntuaciones y realizar las escalas
30. Actualizacin de baremos. Si se obtiene de muestras peq., debe advertirse
31. Inf. de resultados en cada uno de los grupos, teniendo en cuenta sexo, edad, etc.

TEMA 10: CONCEPTOS FUNDAMENTALES DE LA TEORA DE
RESPUESTA AL TEM

2. LIMITACIONES DE LA TEORA CLSICA DE LOS TESTS

3. INTRODUCCIN A LA TEORA DE LA RESPUESTA AL TEM

4. LA CURVA CARACTERSTICA DEL TEM

5. SUPUESTOS BSICOS DE LA TRI

5.1. UNIDIMENSIONALIDAD
5.2. INDEPENDENCIA LOCAL

6. PRINCIPALES MODELOS DE LA TRI

6.1. MODELO LOGSTICO DE UN PARMETRO
6.2. MODELO LOGSTICO DE DOS PARMETROS
6.3. MODELO LOGSTICO DE TRES PARMETROS
6.4. OTROS MODELOS

7. ESTIMACIN DE PARMETROS

7.1. ESTIMACIN DE LA APTITUD DE LOS SUJETOS
7.2. ESTIMACIN DE LOS PARMETROS DE LOS TEMS
7.3. ESTIMACIN SIMULTNEA DE LOS PARMETROS DE LOS SUJETOS Y
DE LOS TEMS

8. AJUSTE DEL MODELO A LOS DATOS

8.1. LA EVALUACIN DEL MODELO
8.2. MTODOS PARA LA EVALUACIN DEL AJUSTE DEL MODELO
8.2.1. Mtodos grficos
8.2.1.1. El grfico de la CCI emprica terica
8.2.1.2. El grfico de residuos

8.2.2. La prueba estadstica Q1

9. FIABILIDAD EN LA TRI: LA FUNCIN DE INFORMACIN

89

9.1. LA FUNCIN DE INFORMACIN DEL TEM
9.2. LA FUNCIN DE INFORMACIN DEL TEST Y EL ERROR TPICO DE
ESTIMACIN

10. FASES EN LA APLICACIN DE LA TRI

11. VALORACIN DE LA TRI

2. LIMITACIONES DE LA TEORA CLSICA DE LOS TESTS

- Inconvenientes de la TCT:
1. Dependencia de los parmetros de los tems y del test de la muestra de sujetos y la
dependencia de las puntuaciones de habilidad de los sujetos de los tems y tests utilizados
2. Dependen de las caract. de los sujetos:
a) Estadsticos clsicos de los tems (ndice de dificultad proporcin de aciertos y
el de discriminacin correlacin biserial puntual tem test)
b) Estadsticos de los tests (coeficiente de fiabilidad).
3. Carcter tautolgico de los supuestos del mod. lineal
4. La precisin de la medida es independiente de la habilidad de los sujetos o de su nivel en
el rasgo (a nivel intuitivo)

3. INTRODUCCIN A LA TEORA DE LA RESPUESTA AL TEM

- El 1 inconveniente de la TCT se soluciona en el marco de la TRI
- La TRI se centra ms en las propiedades de los tems individuales que en las globales
- Thurstone (1925): a partir de unos datos del test de Binet, establece unas curvas que
relacionan la edad con la proporcin de aciertos a cada tem
- Richardson (1936): Intento de ajustar el mod. de ojiva normal a las RR de los tems
- Tucker (1987): en la revisin de los mt. clsicos de anlisis de tems se atribuye el acuar
por m1 vez el trmino Curva Caracterstica del tem
- Birnbaum (1957-58): sustituye los mod. de ojiva normal por los logsticos
- Rasch (1960): expone el mod. logstico de 1 parmetro (soluciona los problemas de
dependencia del mod. de la TCT

4. LA CURVA CARACTERSTICA DEL TEM

- El inters pral. de la TRI se centra ms en la R del sujeto al tem que en la puntuacin total
del test, por lo que descansan en 2 postulados:
1. La R de 1 sujeto al tem puede predecirse por 1 o varias caract. (rasgos o aptitudes
inobservables)
2. La relacin R de 1 sujeto a 1 tem cjto. de rasgos subyacentes se describe mediante 1
funcin montona creciente Curva Caracterstica del tem (CCI)
1
(ver grfico
pg. 547)

- La probabilidad de responder correctamente a 1 tem P() est relacionada con el nivel de
aptitud de los sujetos . Es 1 relacin montona creciente a ms aptitud ms RR
correctas (CCI)

1
En adelante CCI

90
5. SUPUESTOS BSICOS DE LA TRI

5.1. UNIDIMENSIONALIDAD

- Los tems del test miden todos 1 mismo rasgo o aptitud (). Asumen que m =1
- Se considera la prueba unidimensional si existe 1 factor predominante que explique la
covariabilidad entre los tems

5.2. INDEPENDENCIA LOCAL

- No existe relacin entre las RR de los sujetos a diferentes tems para 1 mismo nivel de
aptitud, por lo que las puntuaciones estn relacionadas entre s mediante la variable latente

- La expresin matemtica significa que para 1 sujeto (o todos los sujetos con igual nivel de
aptitud), la probabilidad de obtener 1 deter. patrn de RR en el test es igual al producto de
las probabilidades de R del sujeto/s a los tems individuales
- Es decir, la probabilidad de 1 sujeto con n1 aptitud deter. de obtener 1 patrn de RR (U) en 1
cjto. de tems es igual al producto de las probabilidades de R a cada1 de los tems (ver ej. pg.
550)

- Cuando se cumple el supuesto de unidimensionalidad se obtiene la independencia local (slo
si es 1 dimensin, no se cumple con 2)

- Para solucionar el problema de una 2 dimensin se asumen 2 dimensiones y se fija 1 nivel
de aptitud para cada dimensin (los tems sern independientes entre s y se puede asumir l
independencia local pero con 1 mod. bidimensional )

6. PRINCIPALES MODELOS DE LA TRI

6.1. MODELO LOGSTICO DE UN PARMETRO (1 p)

- La probabilidad de responder correctamente a 1 tem depende del nivel de dificultad del
tem y del nivel de aptitud del sujeto
- La CCI viene dada por el parmetro de dificultad

Pi(j) = probabilidad de responder correctamente al tem i por parte del sujeto j
j = nivel de aptitud del sujeto j
bi = parmetro de dificultad del tem i

n
Prob [U1 = u1, U2 = u2, .,Un = un | ] =II Prob [Ui = ui | j]

i=1

D(j bi)

e 1
P(X = 1 | jbi) = Pi(j) = =

D(j bi) - D(j bi)
1 e
1 + e

91
e = n neperiano (e = 2,718)
D = constante igual a 1,7 que posibilita que los valores de la funcin de distribucin
logstica
se asemejen a los de la normal
- Cada tem se caracteriza por 1 parmetro de dificultad que est en la misma escala de la
aptitud y se define como aquel valor de para el que P(j) = 0,5 __
- La aptitud de de los sujetos se expresa en puntuaciones tpicas (X = 0 y Sx = 1)
- Los valores de b varan entre 3 (tems muy fciles) y +3 (tems muy difciles)
- Ver grfico pg. 553
- Adems de los supuestos de unidimensionalidad e independencia local hay otros 2:
1. No hay adivinacin al azar en las RR a los tems del test
2. Las CCI de los tems de 1 test son paralelas entre s (discriminacin constante en todos
los tems)

6.2. MODELO LOGSTICO DE DOS PARMETROS (2 p)

- La CCI viene dada por la funcin logstica en la que se especifican 2 parmetros de los
tems: la dificultad y la discriminacin del tem

ai = parmetro de discriminacin del
tem i

- El valor de ai es proporcional a la pendiente de la curva en el punto =b (valor de ka
aptitud que coincide con la dificultad del tem y con 1 Pi(j) = 0,5)
- Curva con mayor pendiente discriminan mejor
- ai adopta valores que comprenden el intervalo 0 2, (valores prx. a 0 los tems poco
discriminantes y cercanos a 2 los ms discriminantes)
- ver grfico pg. 555)
- No hay adivinacin al azar en las RR a los tems del test

6.3. MODELO LOGSTICO DE TRES PARMETROS (3 p)

- En este mod. se aade un 3 parmetro ci de adivinacin al azar que indica la probabilidad
de los sujetos con bajo nivel de aptitud responder correctamente por azar

- Con la inclusin del parmetro c, cambia la localizacin del parmetro de dificultad. El
parmetro b es el punto de escala de aptitud:

Dai(j bi)

e

Pi (X = 1 | jbi ai) = Pi(j) =

Dai(j bi)
1 + e

Dai(j bi)

e

P (X = 1 | j, ai,bi,ci) =ci + (1 ci) =

Dai(j bi)
1 + e

1 + ci
P (X = 1 | j, ai,bi,ci) =ci + (1 ci) = (1 ci)(0,50)=

2

92

- Ver grfico pg. 557

MODELO
EL TEM SE CARACTERIZA
POR

MOD. LOGSTICO DE 1 PARMETRO
- La dificultad (bi)

MOD. LOGSTICO DE 2 PARMETROS
- La discriminacin (ai)
- La discriminacin (ai)
- La adivinacin por azar (ci)

6.4. OTROS PARMETROS

- En la TRI, 1 mod. es 1 funcin matemtica utilizada para describir la relacin entre el rasgo
psicolgico y su R al tem

- Caract. de los principales tipos de mod. de la TRI:
1. Mods. dicotmicos unidimensionales:
a) Mod. logsticos 1, 2 y 3 parmetros
b) Tests unidimensionales de ejecucin mx.
c) RR dicotmicas (correcta = 1 e incorrecta = 0)
2. Mods. politmicos unidimensionales:
a) Distractores o RR incorrectas
b) Posible codificacin politmica de las RR: A = 2, B = 1, C = 0
c) Mod. de R graduada y Mod. de crdito parcial tems de produccin de R
3. Mods. para mltiples aptitudes o componentes (multidimensionales):
a) Se asume que 1 grupo de m dimensiones o rasgos subyacen a las RR de 1 sujeto
a los tems del test
b) Mods de R multicomponente, Mod. multidimensional de ojiva normal
4. Mods. para tiempos de R o mltiples intentos de los tems
a) Se da 1 tiempo lmite para responder y su velocidad es una 2 aptitud a medir
b) Tambin los que modelizan el n de xitos en deter. ensayos hasta conseguir la R
correcta
5. Mods. no paramtricos:
a) Menos exigentes en la forma de la funciones de R
b) RR dicotmicas y politmicas
c) Alternativa cuando los datos no se ajustan bien los mod. paramtricos
d) Adecuados cuando el n de sujetos es insuficiente para el mod. paramtrico
6. Mods. Con supuestos especiales acerca d los proc. de R a los tems:
a) Mod. multigrupo Se trabaja a nivel de grupo
b) Mod. conjuntivo cuando aparecen dependencias locales en las RR a varios
tems

93

- Caract. de los TRI:
1. Relacionan las RR de los sujetos a los tems
2. Modelizan por separado la influencia de los tems y de las personas sobre las RR
3. Establecen que la R de 1 persona a 1 tem es de naturaleza probabilstica (fenmeno
aleatorio que debe estudiarse con mods. de probabilidad)

7. ESTIMACIN DE PARMETROS

- Segn los mods. de la TRI, la probabilidad de responder correctamente depende de los
parmetros que caracterizan 1 tem y de aptitud j de los sujetos, as se estimarn n
parmetros de dificultad y N de aptitud:
- Mod. logstico de 1 parmetro n +N
- Mod. logstico de 2 parmetros 2n* N
- Mod. logstico de 3 parmetros 3n +N
- Los datos de partida son 1 matriz de N filas y n columnas de ceros y unos
- Las estimaciones ms utilizadas se basan en el principio de mxima verosimilitud
- Los parmetros de los tems y los de los sujetos se estiman simultneamente

7.1. ESTIMACIN DE LA APTITUD DE LOS SUJETOS

- La funcin de verosimilitud resulta til para estimar el valor ms verosmil a partir de los
datos observados:

- su transformacin logartmica:

- Ver ej. pg. 563-564)

7.2. ESTIMACIN DE LOS PARMETROS DE LOS TEMS

- Se parte de conocido
- Para el caso ms gral. , el mod. de los 3 parmetros, se aplica el tem de inters a 1 muestra
grande y se calcula la funcin de verosimilitud para las RR de N sujetos al tem:

7.3. ESTIMACIN SIMULTNEA DE LOS PARMETROS DE LOS SUJETOS Y DE LOS
TEMS

- La funcin de verosimilitud cjta. cuando N sujetos responden a n tems, asumiendo
independencia local:

u = patrn de RR del sujeto j a los n tems
= esa el vector de N parmetros de aptitud

n
ui 1 - ui
L(u1,u2,un| ) = IIpi Qi

n
Ln L (u1,u2,un| ) = [ui lnPi + (1 ui) inQi]

I=1

N uj 1-
uj
L(u1, u2.,uN | a, b, c) = II P Q

j=1

N n
uij 1 - uij
L (u1, u2,.,uN | , a, b,c) = II II Pij Qij

J=1 i=1

94
a, b, c = vectores de los parmetros de los
tems para los n tems

- Los datos observados es la matriz completa de N sujetos por n tems

- Proc. de estimacin: __
1. Fijar la escala de aptitud a una X = 0 y Sx = 1
2. Se eligen valores iniciales para la aptitud ej. Ln (aciertos fallos) para cada sujeto
que se tipifican y se trata comos se conociera el nivel de aptitud y luego se estiman con
el mt. de de estimacin de los parmetros de los tems
3. Considerados conocidos los valores de los parmetros (obtenidos en fase ant.) y se
estiman los parmetros de la aptitud con el mt. de estimacin de parmetros da aptitud
de los sujetos

- Tabla de los parmetros a estimar segn el mod. logstico:

8. AJUSTE DEL MODELO A LOS DATOS

- Desde el aspecto terico los mod. TRI son falsables
- Bondad de ajuste: Si la discrepancia entre el mod. de la TRI y los datos observados es peq.,
se dice que el mod. se ajusta razonablemente y si es grande, el mod. no describe
adecuadamente los datos y buscamos otro alternativo

8.1. LA EVALUACIN DEL MODELO

- El estudio de la bondad de ajuste del mod. a los datos implica el anlisis de 3 aspectos
interrelacionados:
1. Comprobacin del cumplimiento de los supuestos del mod.
2. Anlisis del ajuste global del mod.
3. Verificacin del cumplimiento de las propiedades esperadas del mod.

8.2. MTODOS PARA LA EVALUACIN DEL AJUSTE DEL MODELO

8.2.1. Mtodos grficos

- Ventaja:
1. Permiten una 1 aprox. visual exploratoria la adecuacin del mod. a los datos
2. Rapidez e interpretacin de los resultados
- Limitaciones:
1. No ofrecen criterios objetivos para la evaluacin del ajusta (s para la 1 impresin)
2. No inf. sobre la significacin estadstica de las discrepancias entre el mod. y los datos

8.2.1.1. El grfico de la CCI emprica terica

MODELO LOGSTICO
1 p 2 p 3 p
TEMS n 2n 3n
SUJETOS N N N
TOTAL n + N 2n + N 3n + N

95
- Es 1 diagrama de dispersin:
o Eje horizontal: aptitud de los sujetos
o Eje vertical: proporciones de RR correctas observadas y las probabilidades segn el
mod. para cada nivel de aptitud

- Lo 1 que se aprecia:
1. La tendencia de las proporciones observadas manifiesta 1 relacin montona creciente
con la aptitud de los sujetos
2. Se ve en que tramo de la actitud se produce discrepancia entre los datos y el mod. (ver
grfico 10.5 pg. 570)

8.2.1.2. El grfico de residuos

- Es 1 diagrama de dispersin:
o Eje horizontal: aptitud de los sujetos
o Eje vertical: residuos tipificados para cada nivel de aptitud (diferencia entre la
proporcin de RR correctas segn el mod. o discrepancias entre el mod. y los datos)
- Si el residuo se divide por el error tpico de estimacin residuo tipificado para cada
nivel de aptitud, distribuida normalmente:

- Residuo tipificado: > 2 o menores que < 2 indican grandes discrepancias en esta
regin de la aptitud
- El mod. se ajusta razonablemente a los datos con mn. discrepancias por azar:
Cuando hay ausencia de patrn, con residuos prx. a 0 y alternando por encima y debajo
de 0 aleatoriamente
- Ver grficos 10.6, 10.7, 10.8, 10.9 y 10.0 y ejemplos. pg. 571 574

8.2.2. La prueba estadstica Q1

- Los mt. estadsticos:
- Ventajas:
1. Ofrecen criterios objetivos para evaluar el ajuste
2. Informan de la significacin estadstica de las discrepancias observadas
3. Comparacin objetiva de mod. estadsticos
- Limitacin: no inf. de las causas del desajuste del mod. por lo que deben apoyarse en mt.
grficos
- Esta prueba evala el ajuste global de 1 mod. a cada tem, analizando la significacin
estadstica de las discrepancias entre los datos y el mod. que se vieron con los mt. grficos.
Pasos:
1. Aplicacin del mod. logstico seleccionado a los datos y estimacin de los parmetros de
los tems y sujetos
2. Creacin de k grupos de aptitud con Nj sujetos en cada grupo j
3. Clculo de la probabilidad observada de RR correctas para cada grupo de aptitud j, pj
4. Clculo de la probabilidad de responder correctamente al tem, a partir del mod., para la
aptitud media de cada grupo j, Pj

pj Pj
Zj =

Pj (1
Pj) /Nj

96
5. Para cada grupo de aptitud j, obtener:

- Inf. sobre la magnitud de las discrepancias entre le mod. y los datos en el grupo j de aptitud
- Equivales al residuo tipificado al cuadrado para el grupo j de aptitud
- La distribucin de Qj es X con 1 g.l.

- Si sumamos los Qj de todos los grupos de aptitud se obtiene el estadstico Q1:

- La distribucin de Q1 es X con k m g.l. donde
m = parmetros 1, 2 3 segn el mod.
- Si Q1 es que el valor crtico de X con k m g.l.,
las discrepancias no son significativas, por lo que el
mod. describe razonablemente las RR al tem (ver ej. pg. 575- 576)

9. LA FIABILIDAD EN LA TRI: LA FUNCIN DE INFORMACIN

- En La TRI el concepto de fiabilidad se sustituye por el de informacin

9.1. LA FUNCIN DE INFORMACIN DEL TEM

- Para 1 deter. nivel de aptitud j se define:

I(j) = inf. o precisin para la estimacin del nivel de aptitud
j en el tem
I(j) = Inf. para la aptitud j en el tem i
P(j) y Q(j) = probabilidad de que los sujetos con nivel de aptitud
j respondan correctamente al tem, respectivamente
P(j = derivada de la funcin P(j) en el punto j

- Tabla con la funcin de inf. de los 3 mod. logsticos

-

MODELO I(j)
MOD. LOGSTICO DE 1 PARMETRO

D P(j)Q(j)

MOD. LOGSTICO DE 2 PARMETROS DaPi(j)Q(j)
Da Qi(j) Pi(j) ci)

Pi(j)(1 ci)
NJ [pj Pj]
Qj = = zj
Pj (1 Pj)
k k Nj [pj
- Pj ] k
Q1 = Qj = = zj
j=1 j=1 Pj (1 Pj)
j=1

[P(j)]
I(j) =

P(j)Q(j)

97

- La inf. de 1 tem para 1 deter. nivel de aptitud es mayor cuando:
1. La varianza del estimador de la aptitud es peq.
2. La discriminacin del tem es alta

- Para los 3 mod., 1 tem da inf. mx. en los valores de que aparecen en la 2 columna de la
tabla siguiente. La 3 columna muestra el valor de la funcin de inf. del tem en el punto
max

- Ver ej. pg. 578 - 579

9.2. LA FUNCIN DE INFORMACIN DEL TEST Y EL ERROR TPICO DE ESTIMACIN

- La funcin de estimacin del test (FIT) para 1 deter. nivel de aptitud j se define como la
suma de las funciones de inf. de los n tests.

- Cuanto mayor es la FIT para 1 nivel de aptitud , mayor es el poder discriminativo y menor
el error de medida que el test presenta para ese nivel de aptitud:
MODELO max I( max)
MOD. LOGSTICO
DE 1
PARMETRO

= b
D
4
MOD. LOGSTICO
DE 2
PARMETROS

= b

Da
4
MOD. LOGSTICO
DE 3
PARMETROS

1 1
= b + In (1 + 1 + 8c)
Da 2

D a 3/2
[1 20c 8c+ (1 + 8c)
]
8(1 c)

n n [P(j)]
FIT = Ii(j) =
i=1 i=1 Pi(j)Q(j)


98

- La varianza de los errores de medida:

- El error tpico de estimacin:
no es 1 estadstico, sino, 1 funcin de

- El Intervalo Confidencial:

N.C del (1 )% para , donde:
^ ^
ET() = error tpico evaluado en
z/2 = valor crtico de la distribucin normal

10. FASES EN LA APLICACIN DEL TRI

1. definicin rigurosa del constructo a medir
2. Elaboracin y seleccin de los tems ms representativos
3. Aplicacin de los tems a 1 muestra amplia de sujetos de la poblacin interesada
4. Anlisis desde la TCT de la calidad mtrica de los tems y del test
5. Comprobacin del cumplimiento de los supuestos de Independencia Local y
Unidimensionalidad
6. Eleccin de 1 mod. de la TRI
7. Estimacin de parmetros de tems y sujetos conviene aplicarlos con cada
mod. bsico
8. Evaluacin del ajuste del mod. de la TRI

11. VALORACIN DE LA TRI

1. La invarianza de parmetros:
a) Mediciones que no varen segn el instrumento utilizado (invariante respecto a los
tems)
b) Disponer de instrumentos de medida cuyas propiedades no dependan de los
objetivos medidos (invariantes respecto a los sujetos)
2. Evaluacin del ajuste entre el mod. y los datos: son falsables, permiten verificar
empricamente si son adecuados a unos datos
3. Medidas locales precisas: mediante la Funcin de Informacin, proporciona medidas
precisas y de fiabilidad

TEMA 11: PRINCIPALES APORTACIONES DE LA TEORA
DE
RESPUESTA AL TEM

1
V () =

I()

1
ET() =

I()
^ ^ ^ ^
( z/2ET(), () + z/2ET())

99
2. EQUIPARACIN DE PUNTUACIONES

3. BANCOS DE TEMS

3.1. QU ES UN BANCO DE TEMS?

3.2. APORTACIONES DE LA TRI EN EL DESARROLLO DE LOS BANCOS DE
TEMS

3.3. VENTAJAS QUE APORTAN LOS BANCOS DE TEMS

3.4.FASES EN AL CONSTRUCCIN DE UN BANCO DE TEMS
3.4.1. Especificacin de las caractersticas del banco
3.4.2. Obtencin de los tems
3.4.3. Eleccin del diseo de recogida de datos
3.4.4. Administracin de los tems
3.4.5. Procesamiento de los datos y evaluacin del ajuste del modelo
3.4.6. Calibracin de los tems
3.4.7. Construccin del banco de tems

4. CONSTRUCCIN DE TESTS A PARTIR DE UN BANCO DE TEMS

4.1. LOS TEST ADAPTADOS

4.2. LOS TESTS REFERIDOS A CRITERIO

5. FUNCIONAMIENTO DIFERENCIAL DE LOS TEMS

2. EQUPARACIN DE PUNTUACIONES

- Los procedimientos usados en el marco de la TCT para el proc. de equiparacin funcionan
bien en situaciones de equiparacin horizontal (test con misma dificultad y sujeto de nivel
similar). Cuando se trabaja con tests paralelos y grupos equivalentes extrados
aleatoriamente de la misma poblacin, los mt. de equiparacin de la TCT tienen resultados
similares a los del TRI
- Es imposible conseguir que las diferentes alternativas sean completamente iguales en cuanto
a contenido, formato, dificultad, etc. , por lo que las puntuaciones de los sujetos en las
diferentes formas tengan igual significado y se puedan comparar entre s
- Este problema se resuelve en el marco de la TRI, debido a al invarianza de las
estimaciones de los parmetros caract. de los sujetos y de los tems respecto a sus
muestras
- Los mod. de R al tem no deter. de antemano el origen ni la und. de medida de la escala de
() o las de los parmetros de los tems (b,a,c), pero bastar hacer1 transformacin lineal
(p.e. escala de media 0 y desviacin tpica 1)
- Si X e Y son escalas linealmente relacionadas, puede expresarse en esta ecuacin:

- Para aplicar la ecuacin sobre los valores de 1 escala y transformarlas en otras bastar con
conocer las constantes C y D . Este razonamiento puede aplicarse a los parmetros de los
Y = C + (D)X

100
tems (a,b,c,) o a la de los sujetos (). Los parmetros b y estn en la misma escala. Las
ecuaciones para cada uno de los parmetros:

b1 a1 y 1 = valores de los parmetros de los tems y el valor del nivel de
habilidad de los sujetos en la mtrica a la que se van a transformar todas
las escalas
b2 a2 y 2 = valores de los parmetros de los tems y valor del nivel de
habilidad de los sujetos en la escala que va a ser transformada
C y D = constantes de equiparacin
- El cambio de mtrica no afecta al parmetro

- El procedimiento para calcular el valor denlas constantes de equiparacin depender del
diseo utilizado en la recogida de datos:
1. Igual test a diferentes muestras
2. Distintas formas del mismo test a diferentes muestras
3. diseo de anclaje de tems (aplicar distintos tests que comparten 1 cjto. de tems en
diferentes muestras
- Forma de calcular los valores de las constantes de equiparacin en el diseo de anclaje:
- Si 2 tests tienen 5 tems comunes y son aplicados a 2 muestras (a partir de las RR de
los sujetos y aplicando el mod. TRI en la que se obtienen las estimaciones de los
parmetros)
- De los 5 tems de anclaje se tendrn 2 estimaciones (1 de cada aplicacin) cuyos
valores deberan ser iguales, pero que variarn debido a las diferencias de origen y
und. de medida
- Para equiparar la estimacin del parmetro b, 1 se obtienen los valores C y D. El
mt. ms utilizado es el de la media y la desviacin tpicas (igualar las
puntuaciones tpicas de los valores de los tems de anclaje de ambas mtricas)

Despejando b1:

Teniendo en cuenta que: b1 = C + Db2 se deducen que los valores de C y D son:

b1 = C + (D) b2

1 = C + (D) 2
a2
a =
D
__
__
b1 b1
b2 b2
=

Sb1 Sb2

Sb1
Sb1 ___ ___
b1 = b2 - b2 +
b1
Sb2
Sb2

__
Sb1 __
C = b1
b2

Sb2

101

* ver ejemplo pg. (605 606)
- Calculados los valores de las constantes C y D se equiparan el esto de los parmetros. Al
calibrarse ambos tests en 1 mtrica comn, las estimaciones del parmetro de habilidad de
los sujetos () son iguales sea cual sea la forma del test aplicado
- No varan son las estimaciones del ().
- Si varan las puntuaciones empricas y las verdaderas

3. BANCO DE TEMS

3.1. QU ES UN BANCO DE TEMS?

- Cjto. de tems que miden el mismo rasgo o habilidad, almacenados para que cuando se
quiere construir 1 test, pueda recurrir a ellos
- Los 1s fueron construidos para el campo educativo

3.2. APORTACIONES DE LA TRI EN EL DESARROLLO DE LOS BANCOS DE TEMS

- Al principio los bancos de tems se construyeron en el marco de la TCT, luego el mod. TRI
impulso su desarrollo por las siguientes razones:
1. Se centra en las caract. de los tems (TRI) antes que la de los tests (TCT)
2. Es necesario que lo parmetros de los tems del banco reencuentren en la misma escala.
La TRI permite la estimacin de los parmetros de los tems independientes de la
muestra y la equiparacin de las estimaciones. La TCT depende de la muestra
3. En la TCT las estimaciones de las puntuaciones en el rasgo o habilidad dependen del
cjto. de tems. La TRI, al contrario tiene propiedades, adems de las invarianzas de los
parmetros de los tems tambin la de las estimaciones de los parmetros de los sujetos
4. La TCT no ofrece 1 respuesta adecuada al problema de la fiabilidad, cosa que si hace
la TRI al introducir 1 nueva concepcin de la fiabilidad: la inf. del tem, que es 1
medida de precisin de cada tem independiente del resto

3.3. VENTAJAS QUE APORTAN LOS BANCOS DE ITEMS

- Flexibilidad en la evaluacin
Si interesara poner en correspondencia las puntuaciones empricas o las verdaderas
obtenidas en 2 tests, se toma como ref. la estimacin de () y a travs de las curvas de
caract. de cada test (CCT) se conocer la estimacin de las puntuaciones empricas o
verdaderas que corresponde a cada valor de () . As diremos que el proc. de equiparacin
se hace mediante la CCT (ver ejemplo pg. 608)

102
- Un banco de tems bien construido permite construir 1 test adecuado al objetivo
- Se selecciona para cada sujeto el cjto. de tems que mejor se adecue a su nivel de habilidad
- Al disponer de 1 banco de tems y conocer de antemano el nivel de habilidad, se puede
predecir el comportamiento del sujeto ante el test
- Al compararse los resultados obtenidos por sujetos que han respondido a distintos tems, se
puede conocer antes de la aplicacin, la relacin entre los parmetros de los tems y el nivel
de habilidad del sujeto, por lo que se gana en precisin y rapidez en la construccin de tests

3.4. FASES EN LA CONSTRUCCIN DE UN BANCO DE TEMS

- Caract. de los tems que formen parte de 1 banco:
a) Deben medir el mismo rasgo o habilidad/es
b) Los datos obtenidos al aplicar los tems a la muestra/s se ajustarn al mismo mod.
psicomtrico
c) Las estimaciones de los parmetros de los tems han de estar en la misma escala
- Fases:
1. Especificacin de las caract. del banco
2. Obtencin de tems
3. Eleccin del diseo de recogida de datos
4. Administracin de los tems
5. Procto. de los datos
6. Evaluacin del ajuste del mod. y calibracin de los tems

3.4.1. Especificacin de las caractersticas del banco

- Tareas fundamentales:
1. Deter. y conceptuar la caract. a medir
2. Delimitar la poblacin
3. Seleccionar el tipo de tems
4. Previsin sobre las posibilidades de muestreo y recogida de datos
5. Seleccionar el mod. para el anlisis de la calidad mtrica del banco
6. Analizar la viabilidad del proc. de construccin del banco
7. Cualquier otra tarea considerada relevante

3.4.2. Obtencin de tems

- Utilizar tems existentes que se adapten a los objetivos
- Desarrollar nuevos tems que e ajusten a las especificaciones del banco

3.4.3. Eleccin del diseo de recogida de datos
- De 1 solo grupo: si la muestra es peq.
- De grupos equivalentes: si la muestra es grande
- De anclaje (anclaje de tems): varas muestras y cada una responde a 1 cjto. diferente de
tems y unos cuantos comunes a todas las muestras

3.4.4. Administracin de tems

- Varias formas: tests de papel y lpiz, computarizados

3.4.5. Procesamiento de los datos y evaluacin del ajuste del modelo

103

- Procesamiento:
1. codificacin de las RR
2. Introduccin de datos en el ordenador
3. Deteccin de errores y su solucin
4. Transformacin de los datos para su procto. estadstico
- Evaluacin del ajuste:
1. Deter. si los datos satisfacen los supuestos del mod.
2. Analizar si se consiguen las ventajas esperadas (p.e. la invarianza de las estimaciones
de los parmetros de los tems y de los sujetos
3. Deter. la bondad de ajuste (ajuste entre puntuaciones observadas y sus predicciones)

3.4.6. Calibracin de los tems

- Estimacin de los parmetros de cada tem segn el mod. aplicado
- Equiparacin de los parmetros
- Deter. la precisin e inf. que aporta el tem

3.4.6. Construccin del banco de tems

- Se introducen en el ordenador toda la inf. relativa a los tems seleccionados en la ant. Fases
- Ejemplo de 1 sist. de almacenaje:
a) Caract. grales.:
1. Identificador del tem: etiqueta alfanumrica del rea de contenido del tem y su n
2. Mod. de R: indicador del mod. de estimacin de parmetros (cod. de 2 caracteres)
3. Pre - tem: etiqueta que indica si est almacenado
4. Tiempo de exposicin: especifica el tiempo del tem en pantalla cuando es por
ordenador
5. N de alternativas: especifica el n de alternativas en las de eleccin mltiple
6. R clave: indica la alternativa correcta
b) Caract. descriptivas del tem: especificar discriminacin, dificultad y aciertos por
azar
1. Tamao de la muestra
2. Error tpico de estimacin
3. Mx. inf. del tem
4. Descriptores para cada tem para poder seleccionarlo
c) Inf. del origen del tem:
1. Fecha de introduccin en el banco
2. Nombre de quien lo introduce
3. Procedencia (nuevo o de otro test)
d) Inf. de los expertos sobre:
1. Correccin gramatical del tem
2. Legibilidad
3. Adecuacin de la R correcta
4. Posible sesgo al aplicar el tem a 1 subcjto.

4. CONSTRUCCIN DE TESTS A PARTIR DE UN BANCO DE DATOS
- Fases:
1. Funcin de inf. del test segn los objetivos
2. Seleccin de tems
3. Calcular la funcin de inf. del test con el cjto de tems seleccionados

104
4. Aadir nuevos tems y volver a calcular la funcin de inf.
5. Continuar hasta que la funcin de inf. se ajuste a la de los objetivos
- Ventaja de la funcin de inf.: posibilidad de comparar la eficacia de los tests a la hora de
medir la habilidad de los sujetos en sus distintos niveles a travs del calculo de su eficacia
relativa (ER) en cada nivel
- La ER de 2 tems para 1 deter. valor se obtiene dividiendo sus funciones de inf. para
ese valor

4.1. LOS TESTS ADAPTATIVOS

- Tambin llamados: a la medida, individualizados, secuenciales, programados,
ramificados, de nivel flexible
- Ventajas:
1. Ms precisin en la medida con menos tems
2. Menor tiempo de ejecucin del test menor fatiga de los sujetos
3. Aumento de la motivacin de los sujetos

- Procedimiento:
1. Estimacin del nivel del sujeto
2. Seleccin del banco de tems que maximice la inf. del nivel de aptitud
3. Se administra el tem y se revisa la estimacin del nivel de aptitud
4. Se van seleccionando hasta que la estimacin del nivel de aptitud sea la mejor
- Estrategias:
a) Doble nivel:
1. Aplicar el mismo test a todos los sujetos para obtener 1 estimacin de su nivel de
aptitud o habilidad
2. Aplicar otro test cuya dificultad depender del nivel
b) Multi nivel: en gral. en cada etapa se aplica 1 tem ms difcil segn se al R ant. (se
suele comenzar r con 1 dificultad media)
* ver ejemplo pg. 622-623)

4.2. LOS TESTS REFERIDOS A CRITERIO

- Para establecer el dominio del sujeto debe establecerse el punto de corte
- Pasos Para construccin de 1 TRC:
1. Si no se posee 1 banco de tems calibrados, seleccionar 1 cjto de tems de inters
calibrarlos, estimar sus parmetros segn el mod. mejor de ajuste
2. Deter. el punto de corte (gralmente. proporcin de tems a superar)
3. Mediante la curva originada del cjto. de tems del banco) calcular el valor de
correspondiente a la proporcin asignada al punto de corte
4. Establecer la cant. de inf. a obtener
5. Seleccionar del cjto de tems los ms informativos del valor calculado
6. Aplicar el cjto. de tems seleccionado y estimar los valores de para cada sujeto,
obtenindose un 1 si est por encima del corte y 0 si es por debajo

5. FUNCIONAMIENTO DIFERENCIAL DE LOS TEMS

- Segn la TRI, 1 tem muestra FDI si 2 grupos de sujetos (referencia y focal) con igual
nivel en la variable objeto de estudio, tienen distintas medidas

105
- Los procedimientos de la TRI se basan en la probabilidad de responder correctamente a 1
tem los sujetos de ambos grupos con igual nivel de habilidad aptitud (), comparndose
despus las diferencias obtenidas. (ver figura 11.2 )
- Tipos de FDI en el marco de la TRI:
a) FDI uniforme: (figura 11.3.)
- La curva del grupo focal y de referencia son paralelas (no se cruzan) lo que indica
que se cual sea de los sujetos, el tem ser ms difcil para 1 grupo de sujetos
- Las diferencias se dan en el parmetro de dificultad b siendo el mismo el
parmetro de discriminacin a en las 2 curvas
b) FDI no uniforme: (figura 11.4)
- Las curvas originales en cada grupo son diferentes y se cruzan debido a que la
probabilidad de responder correctamente al tem no siempre es mayor en 1 grupo,
sino que depende del nivel de aptitud
- El parmetro a es distinto en ambos grupos
c) FDI no uniforme mixto: (figura 11.5)
- Cuando hay diferencias en el parmetro a y b
- Inconvenientes de la estimacin FDI basados en la TRI: se precisan muestras grandes,
por lo que suele utilizarse en las peq. procedimientos como el Mantel Haenszel

Introduccionn A La Psicometria

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introduccionn A La Psicometria

Uploaded by

Copyright:

Available Formats

Introduccin a la Psicometria - Androshonor

suma de las covarianzas de los tems

valor de alpha de Cronbach. = o stimador insesgado. N = n de sujetos de la muestra.

valor alfa obtenido en la muestra.

= valores del coeficiente en cada muestra.

valor del coeficiente para cada muestra.

(oscila entre 0 y 1) Tb expresado en frecuencias absolutas

(sumatodio de frecuencias marginales

You might also like