Tema 6 PDF

jTEMA 6
VALIDEZ DE LAS INFERENCIAS {1}

Mara Isabel Barbero Garca
!SUMARIO
1. Orientaciones didcticas
2. Introduccin al concepto de validez y su evolucin histrica
3. Validacin de contenido
4. Validacin de constructo
4.1. La matriz multimtodo - multirrasgo
4.2. El Anlisis Factorial
5. Validacin referida al criterio
5.1. El problema de la seleccin y medicin del criterio
5.2. Procedimientos estadsticos utilizados en la validacin referida al
criterio
6. Validacin con un nico predictor y un solo indicador del criterio
6.1 . El coeficiente de validez
6.2 . El modelo de regresin lineal
6.2.1. Ecuaciones de regresin
6.2 .2. La varianza residual o varianza error y el error tpico de
estimacin
6.2.3. Intervalos de confianza
6.3. Interpretacin de la evidencia obtenida acerca de la capacidad
predictiva del test
6.3.1. Coeficiente de determinacin
6.3 .2. Coeficiente de alienacin
6.3.3. Coeficiente de valor predictivo
6.3.4. Ejemplo
7. Ejercicios de autoevaluacin
8. Soluciones a los ejercicios de autoevaluacin
9. Bibliografa complementaria
histrica
iterio
lidacin referida al
dor del criterio
1 error tpico de
de la capacidad
1. ORIENTACIONES DIDCTICAS
Cuando en el primer captulo hablamos de la dificultad de medir variables psi-
colgicas porque la gran mayora de ellas no pueden ser observadas de forma di-
recta y, por lo tanto, no se pueden medir directamente, dimos una solucin al
problema planteando que la medicin se poda llevar a cabo por medio de in-
dicadores. Que queramos decir con esto?, sencillamente que para poder me-
dir este tipo de variables, a las que denominamos constructos tericos, variables
latentes o atributos psicolgicos, entre otras acepciones, es necesario seleccio-
nar una serie de conductas que representen algn aspecto de ese constructo y
que sean consideradas indicadores del mismo. Estas conductas ya s son obser-
vables de forma directa y, por lo tanto, pueden ser medidas mediante los instru-
mentos adecuados elaborados ad hoc. Podremos decir que se ha obtenido una
medida del constructo cuando se obtenga una medida de las conductas selec-
cionadas como indicadores.
Ahora bien, los instrumentos elaborados para medir estas conductas han de
cumplir una serie de requisitos para que puedan ser utilizados con las suficien-
tes garantas de calidad, entre estos requisitos hay dos fundamentales: que pro-
porcionen medidas fiables a partir de las cuales se puedan hacer inferencias v-
lidas.
La fiabilidad de las medidas, como se ha visto en el Tema 4, hace referencia
al grado en que las puntuaciones obtenidas al aplicar los tests a un sujeto, o
muestra de sujetos, reflejan su nivel real en el rasgo, o caracterstica medida; es
decir, al grado en que esas puntuaciones estn libres de los errores aleatorios
presentes en cualquier proceso de medicin. La validez de las inferencias que se
puedan hacer a partir de las puntuaciones obtenidas por los sujetos al aplicarles
293
1 PSICOMETRA
el test, problema que se abordar en ste y en el tema siguiente, se refiere al
grado de relacin que se puede establecer entre la evidencia emprica obtenida
y el concepto terico que se tiene del constructo que se intenta medir.
Alguna de las crticas que se han hecho en relacin con la construccin y
evaluacin de los tests es que muchas veces el proceso ha estado orientado ms
a la obtencin de instrumentos de medicin fiables que a la obtencin de ins-
trumentos vlidos. A nuestro juicio, por muy fiables que sean las medidas que
proporciona un test, si stas no se refieren a aquello que se quiere medir difcil-
mente se podrn interpretar las puntuaciones obtenidas, de ah la importancia
del tema que vamos a estudiar.
En este tema, despus de hacer una introduccin al concepto de validez y a
su evolucin histrica se exponen las distintas clases de evidencia que se pue-
den obtener a la hora de llevar a cabo un proceso de validacin: contenido,
constructo y relativa al criterio, haciendo hincapi en cul sera la ms adecuada
en cada caso y exponiendo los procedimientos estadsticos que van a permitir su
obtencin e interpretacin.
Respecto a los estudios de validacin referida al criterio, nos hemos centrado
en la forma de llevarlos a cabo cuando hay un nico predictor y una nica va-
riable criterio, dejando para el tema siguiente la forma de llevar a cabo el estu-
dio de validacin cuando se cuenta con varios predictores.
Es necesario que los alumnos aprendan a diferenciar claramente las distintas
formas de llevar a cabo un estudio de validacin y la forma de interpretar la evi-
dencia obtenida; slo as podrn estar en condiciones de interpretar las puntua-
ciones obtenidas por los sujetos en los tests y, a partir de ellas, tomar decisiones
con una cierta garanta de xito.
2. INTRODUCCIN AL CONCEPTO DE VALIDEZ
Y SU EVOLUCIN HISTRICA
Al igual que el concepto de Psicometra ha evolucionado a lo largo de los
aos con la incorporacin de los conocimientos cientficos que han ido sur-
giendo a partir de las investigaciones realizadas; al concepto de validez, que por
otra parte es un concepto psicomtrico, le ha ocurrido lo mismo. Mientras que
la medicin de las caractersticas fsicas como la longitud, por ejemplo, tal y
como se viene haciendo, ha probado sus ventajas y utilidad y nadie plantea hoy
da seriamente la necesidad de cambiar por otras formas de medicin, no ocu-
rre lo mismo con las caractersticas psicolgicas (constructos tericos) ya que, en
294
sigui ente, se refiere al
Ki a emprica obtenida
intenta medir.
con la construccin y
estado orientado ms
a la obtencin de i ns-
sean las medidas que
quiere medir difcil-
de ah la importancia
cepto de validez y a
evidencia que se pue-
lidacin: contenido,
sera la ms adecuada
que van a permitir su
:o, nos hemos centrado
ictor y una nica va-
llevar a cabo el estu-
laramente las distintas
a de interpretar la evi-
. interpretar las puntua-
ellas, tomar decisiones
ado a lo largo de los
cosque han ido sur-
de validez, que por
o mismo. Mientras que
ud, por ejemplo, tal y
y nadie plantea hoy
de medicin, no ocu-
tericos) ya que, en
VALIDEZ DE LAS INFERENCIAS (1) 1
ocasiones, la aparicin de nuevos conocimientos puede aconsejar la modifica-
cin de la forma de medicin de las mismas y la bsqueda de enfoques alterna-
tivos.
Aunque es difcil dar una definicin concreta acerca del concepto de vali-
dez, convencionalmente y en relacin con los tests, se acepta que el trmino
hace referencia al grado en que el test mide aquello que pretende medir. En este
sentido, un test ser vlido para medir razonamiento espacial, por ejemplo, si
mide este tipo de razonamiento y no otra cosa. Ahora bien, cuando decimos que
un test mide razonamiento espacial surgen una serie de interrogantes: mide
realmente eso?, en qu grado lo mide?, mide slo razonamiento espacial?, el
intentar dar solucin a estos interrogantes forma parte de los estudios de valida-
cin de los tests.
De la definicin anterior se deduce que el concepto de validez hace referen-
cia al grado de relacin entre el test y el constructo que se quiere medir. En la
medida en que la relacin entre el test y el constructo que pretende medir sea
ms estrecha, el test ser ms vlido. Ahora bien, es necesario aclarar, y lo ha-
remos en ms de una ocasin, que cuando hablamos de la relacin entre el test
y el constructo, en realidad estamos haciendo referencia a la relacin entre las
puntuaciones obtenidas por los sujetos en el test y la medida obtenida en el in-
dicador o indicadores del constructo.
En esencia el concepto de validez no ha cambiado sustancialmente a lo largo
de los aos, lo que s ha cambiado es la forma de abordar y operativizar esa re-
lacin entre el test y el constructo.
Hasta los aos 50 del siglo pasado, los tests se valoraban fundamentalmente
por su uti 1 idad prctica, sobre todo para la seleccin y clasificacin de personal .
No se puede olvidar el xito alcanzado con la utilizacin de los tests para la se-
leccin y clasificacin de los reclutas en el Ejrcito de EE.UU. durante la Pri-
mera Guerra Mundial y su rpida implantacin, a partir de entonces, en las em-
presas y escuelas de todo el pas. Desde esta perspectiva la validez se entenda
como la capacidad del test para predecir un criterio externo. Este criterio poda
ser algn constructo terico, como la aptitud para el vuelo, o el rendimiento fu-
turo de los reclutas en un puesto de trabajo, por ejemplo en un puesto de me-
cnico. La forma de operativizar la relacin entre el test y el criterio era me-
diante un coeficiente de correlacin. As, un test era vlido en la medida en que
existiera correlacin entre las puntuaciones obtenidas por los sujetos en el test
y las obtenidas en el criterio externo seleccionado. Al concepto de validez as en-
tendido se le denomin validez predictiva de los tests.
1 PSICOMETRA
EJEMPLO:
Supongamos que se desea llevar a cabo una seleccin de vendedores y, ade-
ms de otras tcnicas, se piensa utilizar un test en el proceso de seleccin. No
se sabe si el test es vlido o no, pero para que se pueda decir que el test tiene
validez predictiva, deber permitir diferenciar a los buenos de los malos vende-
dores distinguiendo los diferentes grados de pericia o capacidad para las ventas
(constructo a medir). Para comprobar la validez predictiva del test es necesario
seleccionar algn indicador (o indicadores) que permita obtener una medida del
criterio externo; un indicador puede ser, por ejemplo, el nmero de ventas rea-
lizadas en una semana (variable observable relacionada con el constructo); una
vez seleccionado el indicador, se aplicar el test a todos los aspirantes al puesto
y, despus de un cursillo sobre tcnicas de ventas, se les pondr a vender durante
una semana; al cabo de la misma se les evaluar en funcin del nmero de ven-
tas realizadas y ese dato ser su medida en el criterio externo. Para comprobar
si el test tiene validez predictiva se calcular la correlacin entre las puntuacio-
nes que han obtenido en el test todos los aspirantes y el nmero de ventas rea-
lizadas en la semana de prueba; si la correlacin es alta diremos que el test tiene
validez predictiva, puesto que los que hayan obtenido puntuaciones altas en el
test sern tambin los que hayan realizado un mayor nmero de ventas, y los que
obtengan puntuaciones bajas en el test habrn realizado un nmero de ventas
menor.
Ya se puede imaginar el lector la dificultad y el coste que supone el estudio
de la validez predictiva de un test. En nuestro ejemplo supone aplicar el test a
todos los aspirantes, darles un cursillo de formacin en tcnicas de ventas y te-
nerles a todos trabajando durante al menos una semana para poder tener una me-
dida del criterio externo (el nmero de ventas). Esto a veces es imposible de lle-
var a cabo, o no tiene sentido hacerlo; por eso, poco a poco, fue surgiendo otra
forma de estudiar la validez de los tests relacionada con criterios externos, la va-
lidez concurrente, que se diferencia de la validez predictiva en que la recogida
de la informacin, tanto del test como del criterio, se hace simultneamente.
EJEMPLO:
Vamos a seguir con el ejemplo anterior pero con un enfoque distinto. Que-
remos disponer de un test que sirva para hacer una seleccin de vendedores por-
que una empresa nos ha solicitado que hagamos una seleccin para cubrir cua-
tro puestos de trabajo. Entonces lo que se hace es lo siguiente: a una muestra de
vendedores de las mismas caractersticas que los que exigen los puestos de tra-
bajo a cubrir, se les aplica el test cuya capacidad predictiva se quiere estudiar y,
al mismo tiempo, se pide a sus jefes directos que los evalen en cuanto a su
296
n de vendedores y, ade-
so de seleccin. No
a decir que el test tiene
de los malos vende-
d para las ventas
del test es necesario
obtener una medida del
1 nmero de ventas rea-
con el constructo); una
los aspirantes al puesto
dr a vender durante
in del nmero de ven-
no. Para comprobar
n entre las puntuacio-
nmero de ventas rea-
diremos que el test tiene
ntuaciones altas en el
ero de ventas, y los que
o un nmero de ventas
que supone el estudio
supone aplicar el test a
tcnicas de ventas y te-
ara poder tener una me-
es imposible de lle-
oco, fue surgiendo otra
criterios externos, la va-
ctiva en que la recogida
simultneamente.
enfoque distinto. Que-
'n de vendedores por-
leccin para cubrir cua-
iente: a una muestra de
igen los puestos de tra-
va se quiere estudiar y,
evalen en cuanto a su
grado de pericia para las ventas (por ejemplo el nmero de ventas realizadas en
la ltima semana). De esta manera las puntuaciones obtenidas por los vende-
dores en el criterio externo (nmero de ventas en la ltima semana) y las que han
obtenido en el test se obtienen en el mismo momento temporal (validacin con-
currente). La correlacin entre las dos series de puntuaciones, nos va a indicar
si el test puede ser utilizado posteriormente para hacer la seleccin con ciertas
garantas de xito al avalar, en cierta medida, que los aspirantes que obtengan
mejores resultados en el test sern buenos vendedores.
Hay veces que se puede obtener la medida del criterio con anterioridad a la
del test; en este caso se habla de validez retrospectiva.
La forma de operativizar la relacin entre el test y el criterio tanto en la vali-
dez predictiva como en la concurrente y en la retrospectiva es mediante un
coeficiente de correlacin, tal y como hemos visto.
Al mismo tiempo, y junto a las concepciones de la validez ligada a criterios
externos se fue perfilando un nuevo enfoque de la validez relacionada con cri-
terios internos al propio test: la validez de contenido. Esta nueva concepcin
surge porque hay muchos contextos en los que no interesa demasiado estudiar
la utilidad de los tests para predecir otras variables y por lo tanto, no tiene sen-
tido la u ti 1 izacin de criterios externos. Esto ocurre, sobre todo, en los tests de
conocimientos. En este tipo de tests no se utilizan criterios externos con los que
correlacionar las puntuaciones obtenidas, el planteamiento es distinto, se trata
de estudiar hasta qu punto, a partir del contenido de los tests, se puede inferir
el rendimiento en una determinada materia; el test en s mismo constituye su
propio criterio.
EJEMPLO:
Supongamos que se necesita preparar un test (un examen) para medir el co-
nocimiento que los alumnos matriculados en la asignatura de Psicometra tienen
de la materia. Esto que a primera vista puede parecer sencillo implica un es-
fuerzo por definir, en primer lugar, todos los contenidos propios de la Psicome-
tra y, en segundo lugar, hacer un muestreo de cada uno de esos contenidos de
manera que queden reflejados todos ellos en el test. Slo de esta manera po-
dremos tener cierta garanta de que el test tiene validez de contenido. No se po-
dra preparar un test (examen) en el que slo hubiera preguntas de fiabilidad,
por ejemplo, ya que de las puntuaciones que obtuvieran los sujetos en el test no
se podra inferir ms que el grado de conocimientos de los sujetos acerca de la
fiabilidad no de la Psicometra, puesto que el dominio, universo o campo de
contenidos de la Psicometra es algo mucho ms amplio.
297
1 PSICOMETRA
Nota: Cuando en el Tema 2 se abord el problema de la construccin de instrumen-
tos de medicin psicolgica ya se estudi la forma de elaborarlos de manera que tu-
vieran validez de contenido.
Tanto la validez predictiva como la concurrente dejaban muchos interrogan-
tes sin responder, se saba que el test, en nuestro ejemplo, vala para diferenciar
realmente a los buenos de los malos vendedores, tena utilidad prctica para lle-
var a cabo la seleccin, pero por qu?, qu es lo que realmente estaba mi-
diendo el test?: sera la capacidad de persuasin de los vendedores, su fluidez
verbal, sus habilidades sociales, su extraversin, etc.? Ya la aparicin de la vali-
dez de contenido marc una nueva tendencia en los estudios de la validez al es-
tar centrada ms en qu es lo que mide el test que en su utilidad para predecir
otras variables. Sin embargo, la respuesta real a todos esos interrogantes vendr
de la mano de otra nueva concepcin de la validez, la validez de constructo. Este
tipo de validez implica recoger toda la informacin necesaria para poder tener
garanta suficiente de que las conductas observables que se han elegido como
indicadores del constructo que se quiere medir, lo son realmente.
Todo esto nos hace reflexionar sobre la importancia que tiene, a la hora de
construir un test, el definir claramente para qu se va a utilizar y qu es lo que
se quiere medir; puesto que, en la medida en que el constructo est mejor defi-
nido, ser ms fcil especificar qu conductas observables se van a utilizar como
indicadores del mismo y, una vez especificadas estas conductas, se podrn to-
mar decisiones acerca de qu tems (qu contenido) se van a incluir en el test
para medirlas. Ahora bien, como seala Navas (2001 ), el que el constructo est
cuidadosamente definido facilita las cosas, pero no nos exime de comprobar
que, realmente, las puntuaciones obtenidas al aplicar el test miden esa caracte-
rstica o atributo y se pueden utilizar para el objetivo deseado, puesto que pue-
den estar midiendo adems alguna caracterstica no prevista e introduciendo un
error sistemtico en las puntuaciones obtenidas en el test.
EJEMPLO:
Supongamos que los tems incluidos en el test utilizado en la seleccin de
vendedores, adems de medir las conductas relacionadas con la capacidad o
pericia para las ventas, tienen una fuerte carga de rapidez y comprensin lectora;
en este caso, los participantes en el proceso de seleccin que sean capaces de
leer ms deprisa, y tengan a su vez una mejor comprensin lectora, tendrn una
mayor facilidad para contestar a los tems que componen el test, con indepen-
dencia de que sean mejores en el rasgo que stos intentan medir.
298
de instrumen-
los de manera que tu-
n muchos interrogan-
lo, vala para diferenciar
lidad prctica para !l e-
realmente estaba mi-
s vendedores, su fluidez
la aparicin de la vali-
ios de la validez al es-
su utilidad para predecir
os interrogantes vendr
/idez de constructo. Este
ria para poder tener
ue se han elegido como
realmente.
que tiene, a la hora de
utilizar y qu es lo que
structo est mejor defi-
les se van a utilizar como
ductas, se podrn to-
van a incluir en el test
el que el constructo est
exime de comprobar
test miden esa caracte-
eado, puesto que pue-
ista e introduciendo un
izado en la seleccin de
adas con la capacidad o
y comprensin lectora;
in que sean capaces de
in lectora, tendrn una
nen el test, con indepen-
ntan medir.
El estudio de la validez de constructo del test permitir responder a las pre-
guntas que se haban planteado anteriormente: mide el test aquello para lo que
se construy?, mide slo eso? Tambin en este enfoque de la validez la forma
de operativizar la relacin entre el test y el constructo suele hacerse mediante
tcnicas correlacionales.
Estos cuatro tipos de validez: predictiva, concurrente, de contenido y de cons-
tructo, aparecen ya recogidos en el primero de una serie de documentos, publi-
cado en 1954 por la American Psychological Association (APA): Recomenda-
ciones tcnicas para los tests psicolgicos y tcnicas de diagnstico (Technical
Recommendations for Psychological Tests and Diagnostic Techniques), y elabo-
rado por un comit de expertos con el objetivo de unificar, de alguna manera,
los criterios que deben reunir los tests para poder ser utilizados como instru-
mentos cientficos de medicin. El presidente del comit fue Cronbach y uno de
sus miembros Meehl que, en 1955, publicaron un artculo sobre la validez de
constructo, en el que ya se empezaba a perfilar como el aspecto esencial de la
validez que englobara a todas las dems.
En el segundo documento publicado en 1955: Recomendaciones tcnicas
para Tests de rendimiento (Technical Recommendations for achievement tests),
intervinieron representantes de la American Educational Research Association
(AERA) y el National Council on Measurement Used in Education (NCMUE) y fue
publicado por la National Education Association (NEA).
El tercero, que vino a reemplazar a los dos anteriores, fue publicado por la
APA en 1966 y preparado por un comit representante de la APA, AERA y el
National Council on Measurement in Education (NCME) y se denomin: Estn-
dares para tests educativos y psicolgicos y manuales (Standards for Educational
and Psychological Tests and Manuals). En este documento, los cuatro tipos de va-
lidez quedaron reducidos a tres: validez de contenido, validez relativa al crite-
rio y validez de constructo. En la validez referida al criterio quedaban subsumi-
das tanto la validez predictiva como la concurrente; tambin se asume que los
distintos tipos de validez van unidos a objetivos concretos en el uso de los tests
de ah la importancia de definir cuales van a ser estos objetivos:
Determinar el rendimiento o actuacin de un sujeto en un universo de si-
tuaciones (contenido).
Inferir el grado en el que un sujeto posee algn rasgo o atributo (cons-
tructo) que se supone vendr reflejado por su ejecucin en el test.
Predecir el rendimiento o comportamiento futuro (predictiva) o estimar su
rendimiento actual sobre una variable externa al test (concurrente).
299
1 PSICOMETRA
La edicin de 1974, cuyo ttulo fue: Estndares para Tests Educativos y Psi-
colgicos (Standards for Educational and Psychological Tests, AERA, APA y
NCME), supuso un avance en la definicin del concepto de validez ya que, por
primera vez, se afirma que /a validez se refiere a la adecuacin de las inferen-
cias que se realizan a partir de las puntuaciones de los tests u otras formas de
medida; se mantiene la distincin entre los tres tipos de validez y se conside-
ran como formas independientes de interpretar las inferencias realizadas. Por
otra parte se hace ya referencia explcita a que la validez no es una propiedad
implcita a los tests ya que lo que se trata de validar no es el test en s mismo
sino las inferencias que se hagan a partir de las puntuaciones obtenidas por los
sujetos.
En los Estndares para la Evaluacin Psicolgica y Educativa (Standards for
Educational and Psychological Testing, APA, AERA y NCME) de 1985, y en los de
1999, ya se defiende una concepcin unitaria de la validez, concepcin que
hace referencia al grado en que la evidencia emprica obtenida y los conoci-
mientos aportados por las teoras apoyan las inferencias que he hagan a partir
de las puntuaciones obtenidas en el test cuando ste se utiliza para un objetivo
concreto.
Parece haber un acuerdo ms o menos generalizado en que, desde el punto
de vista cientfico, la nica validez que se debe considerar es la validez de cons-
tructo y que las otras dos, la de contenido y la relativa al criterio, quedaran in-
cluidas en sta y seran consideradas estrategias de validacin para comprender
mejor lo que mide un test (Messick, 1989).
Ya no se habla de distintos tipos de validez, la validacin de los tests es un
proceso continuo que permite obtener distintos tipos de evidencia emprica, y un
proceso de validacin ideal debe incluir los tipos de evidencia implicados en los
tres tipos tradicionales de validez: la de contenido, la de constructo y la relativa
al criterio. Aunque siempre que se aplique un test psicolgico es necesario lle-
var a cabo un estudio de validacin de constructo (difcilmente se puede hacer
ninguna inferencia si no se sabe lo que mide realmente el test), este tipo de va-
lidacin no es siempre suficiente. Segn sea la interpretacin que se vaya a ha-
cer de las puntuaciones obtenidas y el objetivo que se pretenda alcanzar al apli-
car el test, ser necesario obtener otros tipos de evidencia; as, por ejemplo,
cuando se utilizan los tests en seleccin de personal, si el que una persona sea
seleccionada depende de la prediccin que se haga acerca de su rendimiento fu-
turo en el trabajo, ser necesario llevar a cabo un estudio de validacin predic-
tiva, y en los tests de conocimientos la estrategia fundamental sera la validacin
de contenido (Hambleton y Rogers, 1991 ).
300
r
l.
~
r
:::
ti
3
tE
p
h
1 PSICOMETRA
presentativas del contructo a medir (especificacin del dominio de conductas);
el segundo hace referencia a la necesidad de que todas esas conductas estn re-
presentadas en el test (representatividad del dominio).
EJEMPLO:
Qu quiere decir esto?
Vamos a representar el constructo que se quiere medir por una naranja y va-
mos a suponer que cada uno de los gajos de la naranja es una faceta o aspecto
del mismo. Si quisiramos construir un test para medir dicho constructo debera-
mos hacer un anlisis del tipo de conductas que podran ser tomadas como indi -
cadores de cada una de esas facetas (especificacin del dominio de conductas) y,
una vez seleccionadas todas esas conductas, deberamos elegir una muestra re-
presentativa de tems que permitieran medir cada una de ellas (representatividad
del dominio).
Partiendo de esto, es fcil darse cuenta de que la distincin entre la validez
de constructo y la de contenido es un poco artificial. En lo que se refiere a la es-
pecificacin del dominio de conductas, o bien nos limitamos a describirlas sim-
plemente, o en cuanto se intente establecer alguna definicin operativa o formal
entre esas conductas y el constructo se entra de lleno en el terreno de la valida-
cin de constructo. En lo referente a la representatividad del dominio, las inves-
tigaciones se han centrado, fundamentalmente, en los procedimientos de mues-
treo del dominio. Messick (1975) afirma que la especificacin y representatividad
del dominio son, en realidad, metas a conseguir a la hora de construir el test,
pero que no son garanta de validez pues no proporcionan evidencia emprica
para poder interpretar las puntuaciones.
Sin entrar en la polmica, diremos que cuando se lleva a cabo un estudio de
validacin del contenido de un test es necesario analizar hasta qu punto los
elementos que lo componen son una muestra representativa de la clase de pro-
blemas o situaciones sobre las que se van a hacer inferencias y extraer conclu-
siones.
En el mbito de la evaluacin educativa, en los tests referidos al criterio (TRC)
y en los denominados tests de rendimiento acadmico, las puntuaciones obte-
nidas se suelen utilizar para hacer inferencias acerca del grado en que los suje-
tos dominan un campo de conocimiento (dominio), no para hacer inferencias
acerca de una conducta externa al test, ni acerca del rasgo o constructo medido.
En estos tests, se pone de manifiesto el inters de los estudios de validacin de
contenido, ya que es relativamente fcil llevar a cabo la especificacin del do-
minio (campo de conocimiento) sin hacer referencia al constructo. Las puntua-
302
dominio de conductas);
s esas conductas estn re-
edir por una naranja y va-
ja es una faceta o aspecto
dicho constructo debera-
m ser tomadas como indi-
1 dominio de conductas) y,
nos elegir una muestra re-
ae ellas (representatividad
llistincin entre la validez
n lo que se refiere a la es-
a describirlas sim-
inicin operativa o formal
en el terreno de la valida-
ad del dominio, las inves-
procedimientos de mues-
[
caci n y representatividad
hora de construir el test,
ionan evidencia emprica
leva a cabo un estudio de
ili zar hasta qu punto los
ntativa de la clase de pro-
erenci as y extraer con el u-
s referidos al criterio (TRC)
o, las puntuaciones obte-
grado en que los suje-
no para hacer inferencias
asgo o constructo medido.
estudios de validacin de
la especificacin del do-
al constructo. Las puntua-
ciones obtenidas se suelen utilizan para dar cuenta de si los sujetos han alcan-
zado un nivel mnimo de competencia en una determinada materia y la defini-
cin y especificacin del dominio suele hacerse ms en funcin de los objetivos
instruccionales y educativos que se persigan que en referencia al constructo.
EJEMPLO:
Siguiendo con el ejemplo anterior, supongamos que nuestra naranja fuera la
asignatura de Psicometra (campo de conocimiento). La especificacin del do-
minio incluira el anlisis de todos aquellos componentes de la Psicometra que
han de ser evaluados; por ejemplo, los alumnos debern tener conocimientos de
fiabilidad, validez, anlisis de tems, interpretacin de puntuaciones, etc. Una
vez especificado el dominio, para construir un test (examen) cuyo contenido sea
vlido, ser necesario elaborar un conjunto de tems que representen cada uno
de esos componentes. El contenido del test ser relevante si todos los tems del
test miden algn aspecto del dominio y no otra cosa, y ser representativo si los
tems son una muestra representativa de todos los componentes especificados de
la Psicometra; es decir, una muestra representativa del dominio.
La forma tpica de llevar a cabo un estudio de validacin de contenido, es uti-
lizando un grupo de expertos que sern los encargados de analizar dos aspec-
tos fundamentales:
Que el test no incluya aspectos irrelevantes del dominio de inters.
Que incluya todos los elementos importantes que definen el dominio
(Livingston, 1977).
Se trata de hacer un anlisis racional del contenido del test y, por lo tanto, los
resultados del estudio estarn basados en los juicios subjetivos emitidos por los
expertos.
Para llevar a cabo la especificacin del dominio, tal y como se ha expuesto
en el Tema 2, es necesario, en primer lugar, analizar las reas de contenido que
se deben cubrir. En segundo lugar, se deben analizar los procesos que se van a
evaluar y la importancia relativa de cada uno de ellos. En los tests educativos se
deben establecer los objetivos instruccionales que se desean alcanzar. Una vez
hecho esto, se puede construir una tabla de doble entrada en la que las colum-
nas representen las distintas reas de contenido (dominio) que definen el cons-
tructo a medir y las filas las distintas operaciones o procesos cognitivos impli-
cados a la hora de responder a las preguntas o tems de la prueba, o los distintos
objetivos instruccionales. Las celdillas de esta tabla de doble entrada incluyen el
porcentaje de tems que debe contener la prueba en relacin con cada rea de
303
1 PSICOMETRA
contenido y cada proceso cognitivo empleado, u objetivo instruccional, para
que se considere que el dominio est bien representado en el test.
Para evaluar la relevancia de los tems en relacin con el dominio se pueden
utilizar varios procedimientos, uno de ellos es el propuesto por Hambleton (1980)
que consiste en presentar a los expertos una serie de fichas cada una de las cua-
les contiene un tem. Cada experto deber expresar en una escala de 5 puntos el
grado de ajuste de cada tem con su correspondiente especificacin en el domi -
nio (conducta, rea de conocimiento ... ), de manera que el 1 indique un mal
ajuste y el 5 un ajuste muy bueno. Una vez hecho esto, se calcula la media o la
mediana de los valores asignados por cada uno de los expertos del grupo a cada
tem, y el valor obtenido ser el que indique el grado de relevancia del tem. De
esta forma se podrn seleccionar aquellos tems que muestren un alto grado de
ajuste y eliminar aquellos que por su bajo nivel de ajuste no sean relevantes.
La representatividad de los tems que conforman el test hace referencia al
grado en que se han cubierto las especificaciones del dominio, tanto en cuanto
a los contenidos como a los objetivos propuestos. En la medida en que el domi-
nio est ms y mejor representado, las inferencias que se puedan hacer acerca de
la puntuacin de los sujetos en el dominio, a partir de las puntuaciones que han
obtenido en los tests, sern ms precisas. Lo ideal sera poder contar con un banco
de tems referidos al dominio de inters y a partir del mismo extraer una muestra
aleatoria de tems; ahora bien, lo cierto es que no siempre es esto posible.
EJEMPLO:
Supongamos que un grupo de 100 expertos han de juzgar la relevancia de 3
tems para medir la calidad de la enseanza (constructo de inters). En la tabla
adjunta se incluye la valoracin asignada a cada uno de los tems por el grupo
de expertos:
ESCALA
TEMS
1 2 3 4 5
A o 10 10 60 20
B 20 40 30 10 o
e 10 20 50 10 10
Calcular la relevancia de cada tem sabiendo que la categora 1 indica un
mal ajuste entre el tem y el constructo y la categora 5 un muy buen ajuste.
304
1 PSICOMETRA
contenido y cada proceso cognitivo empleado, u objetivo instruccional, para
que se considere que el dominio est bien representado en el test.
Para evaluar la relevancia de los tems en relacin con el dominio se pueden
utilizar varios procedimientos, uno de ellos es el propuesto por Hambleton (1980)
que consiste en presentar a los expertos una serie de fichas cada una de las cua-
les contiene un tem. Cada experto deber expresar en una escala de 5 puntos el
grado de ajuste de cada tem con su correspondiente especificacin en el domi-
nio (conducta, rea de conocimiento ... ), de manera que el 1 indique un mal
ajuste y el 5 un ajuste muy bueno. Una vez hecho esto, se calcula la media o la
mediana de los valores asignados por cada uno de los expertos del grupo a cada
tem, y el valor obtenido ser el que indique el grado de relevancia del tem. De
esta forma se podrn seleccionar aquellos tems que muestren un alto grado de
ajuste y eliminar aquellos que por su bajo nivel de ajuste no sean relevantes.
La representatividad de los tems que conforman el test hace referencia al
grado en que se han cubierto las especificaciones del dominio, tanto en cuanto
a los contenidos como a los objetivos propuestos. En la medida en que el domi -
nio est ms y mejor representado, las inferencias que se puedan hacer acerca de
la puntuacin de los sujetos en el dominio, a partir de las puntuaciones que han
obtenido en los tests, sern ms precisas. Lo ideal sera poder contar con un banco
de tems referidos al dominio de inters y a partir del mismo extraer una muestra
aleatoria de tems; ahora bien, lo cierto es que no siempre es esto posible.
EJEMPLO:
Supongamos que un grupo de 100 expertos han de juzgar la relevanci a de 3
tems para medir la calidad de la enseanza (constructo de inters). En la tabla
adjunta se incluye la valoracin asignada a cada uno de los tems por el grupo
de expertos:
Calcular la relevancia de cada tem sabiendo que la categora 1 indi ca un
mal ajuste entre el tem y el constructo y la categora 5 un muy buen ajuste.
304
a
bjetivo instruccional, para
'l.do en el test.
con el dominio se pueden
1esto por Hambleton (1980)
fi chas cada una de las cua-
n una escala de 5 puntos el
especificacin en el domi-
t que el 1 indique un mal
to, se calcula la media o la
; expertos del grupo a cada
de relevancia del tem. De
muestren un alto grado de
no sean relevantes.
, el test hace referencia al
dominio, tanto en cuanto
a medida en que el domi-
puedan hacer acerca de
las puntuaciones que han
contar con un banco
ismo extraer una muestra
pre es esto posible.
juzgar la relevancia de 3
de inters). En la tabla
de los tems por el grupo
4 5
60 20
10 o
10 10
la categora 1 indica un
un muy buen ajuste.
Calcularemos la mediana de cada tem aplicando la siguiente frmula:
(
NP/ )-f.
Med. = L + 1 / 1 00 b
fd
Donde:
L =lmite inferior del intervalo donde se encuentra la mediana.
1 = amplitud del intervalo que en nuestro caso es la unidad.
NP/100 =50% de la muestra.
fd = nmero de sujetos de la muestra situados en el intervalo de la mediana.
f
6
= nmero de sujetos de la muestra por debajo del intervalo de la mediana.
Para facilitar la comprensin del proceso se incluye la tabla de frecuencias
acumuladas:
ESCALA
TEMS
1 2 3 4 5
A o 10 20 80 100
B 20 60 90 100 100
e 10 30 80 90 100
tem A= 3,5 +
50-20
=4
60
tem B = 1,5 +
50-20
= 2,25
40
tem e= 2,5 +
50-30
=2, 90
50
Ante estos resultados se puede decir que el tem A tiene un buen ajuste y, por
lo tanto, se puede considerar como un tem relevante para la medida de la cali-
dad de la enseanza, los otros dos no deberan incluirse puesto que el ajuste no
es muy bueno.
305
1 PSICOMETRA
4. VALIDACIN DE CONSTRUCTO
Este tipo de validacin es, realmente, el que da significado a las puntuaciones
de los tests, pues permite obtener evidencia de que las conductas observables
que se han elegido como indicadores del constructo (variable latente inobserva-
ble) realmente lo son. Este tipo de estudios de validacin permite responder, en-
tre otras, a las siguientes preguntas: mide realmente el test la variable que in-
tenta medir? y existe en realidad esa variable?
Partiendo de que los tests son instrumentos que permiten describir de forma
indirecta, u operativizar, el grado en que los sujetos poseen alguna caracterstica
postulada a nivel terico denominada constructo, la validacin de constructo
ser el proceso que permitir obtener evidencia acerca de la capacidad del test
para medirle.
Este tipo de estudios de validacin trata de garantizar cientficamente que la
variable que el test pretende medir es, efectivamente, una variable aceptable,
cuyo concepto ofrece suficiente consistencia lgica dentro de un sistema terico
de la Psicologa y descansa en suficientes comprobaciones experimentales que
lo verifican (Yela, 1984).
Para llevar a cabo un estudio de validacin del constructo es necesario:
En primer lugar, definir cuidadosamente el constructo de inters a partir de
las teoras que existan acerca del mismo, y postular una serie de hiptesis
acerca de la naturaleza y grado de relacin entre el constructo (variable la-
tente inobservable) y una serie de variables (conductas directamente ob-
servables) y entre el constructo de inters y otros constructos.
En segundo lugar, disear el instrumento de medida adecuado que habr
de contar con elementos relevantes y representativos de aquellas conduc-
tas que sean manifestaciones especficas y concretas del constructo.
En tercer lugar, obtener datos empricos de las relaciones entre las puntua-
ciones obtenidas al aplicar el test y las variables hipotetizadas (conductas
observables).
Como se puede observar es necesario estudiar, por una parte, la relacin en-
tre el constructo y las conductas observables representativas del constructo; por
otra, la relacin entre el constructo y otros constructos y, finalmente, la relacin
entre esas conductas tomadas como indicadores del constructo y las puntuacio-
nes obtenidas por los sujetos en el test.
Si se confirman las relaciones postuladas en las hiptesis planteadas, tal y
como predice la teora, se puede considerar que tanto el constructo como el test
306
1 PSICOMETRA
4. VALIDACIN DE CONSTRUCTO
Este tipo de validacin es, realmente, el que da significado a las puntuaciones
de los tests, pues permite obtener evidencia de que las conductas observables
que se han elegido como indicadores del constructo (variable latente inobserva-
ble) realmente lo son. Este tipo de estudios de validacin permite responder, en-
tre otras, a las siguientes preguntas: mide realmente el test la variable que in-
tenta medir? y existe en realidad esa variable?
Partiendo de que los tests son instrumentos que permiten describir de forma
indirecta, u operativizar, el grado en que los sujetos poseen alguna caracterstica
postulada a nivel terico denominada constructo, la validacin de constructo
ser el proceso que permitir obtener evidencia acerca de la capacidad del test
para medirle.
Este tipo de estudios de validacin trata de garantizar cientficamente que la
variable que el test pretende medir es, efectivamente, una variable aceptable,
cuyo concepto ofrece suficiente consistencia lgica dentro de un sistema terico
de la Psicologa y descansa en suficientes comprobaciones experimentales que
lo verifican (Yela, 1984).
Para llevar a cabo un estudio de validacin del constructo es necesario:
En primer lugar, definir cuidadosamente el constructo de inters a partir de
las teoras que existan acerca del mismo, y postular una serie de hiptesis
acerca de la naturaleza y grado de relacin entre el constructo (variable la-
tente inobservable) y una serie de variables (conductas directamente ob-
servables) y entre el constructo de inters y otros constructos.
En segundo lugar, disear el instrumento de medida adecuado que habr
de contar con elementos relevantes y representativos de aquellas conduc-
tas que sean manifestaciones especficas y concretas del constructo.
En tercer lugar, obtener datos empricos de las relaciones entre las puntua-
ciones obtenidas al aplicar el test y las variables hipotetizadas (conductas
observables).
Como se puede observar es necesario estudiar, por una parte, la relacin en-
tre el constructo y las conductas observables representativas del constructo; por
otra, la relacin entre el constructo y otros constructos y, finalmente, la relacin
entre esas conductas tomadas como indicadores del constructo y las puntuacio-
nes obtenidas por los sujetos en el test.
Si se confirman las relaciones postuladas en las hiptesis planteadas, tal y
como predice la teora, se puede considerar que tanto el constructo como el test
306
S
t
t r
a
4
a1
C(
t i l
y,
Si
d(
q
C
to
(R
se
(E-
tal
ca
ificado a las puntuaciones
las conductas observables
(variable latente inobserva-
:in permite responder, en-
el test la variable que in-
ermiten describir de forma
oseen alguna caracterstica
1 validacin de constructo
ca de la capacidad del test
izar cientficamente que la
e, una variable aceptable,
de un sistema terico
ciones experimentales que
nstructo es necesario:
:ructo de inters a part r de
ul ar una serie de hiptesis
constructo (variable la-
fnductas directamente ob-
DS constructos.
[dida adecuado que habr
ttivos de aquellas conduc-
retas del constructo.
entre las puntua-
hipotetizadas (conductas
una parte, la relacin en-
tativas del constructo; por
5 y, finalmente, la relacin
onstructo y las puntuacio-
1iptesis planteadas, tal y
el constructo como el test
son tiles, en caso contrario ser necesario hacer una nueva evaluacin del cons-
tructo y/o de las dems variables incluidas en el estudio, o bien estudiar ms de-
tenidamente el marco terico.
Los estudios de validacin de constructo estn centrados, fundamentalmente,
en el anlisis de la estructura del test, tanto interna como externa; es decir, en el
estudio de las interrelaciones entre las puntuaciones obtenidas por los sujetos en
los distintos tems que conforman el test (estructura interna) y en las relaciones
entre las puntuaciones obtenidas en el test y otras medidas del mismo constructo
obtenidas en variables externas al mismo y consideradas relevantes (estructura
externa).
Entre los mtodos ms utilizados para llevar a cabo la validacin del cons-
tructo hemos de destacar el mtodo de la matriz multimtodo-multirrasgo y el
anlisis factorial.
4.1. La matriz multimtodo-multirrasgo
Se trata de un mtodo propuesto por Campbell y Fiske (1959) y permite el
anlisis de la estructura externa del test (o conjunto de tests). La lgica del pro-
cedimiento es la siguiente: Se intenta medir un mismo constructo mediante dis-
tintos procedimientos y distintos constructos mediante el mismo procedimiento
y, una vez obtenidas todas las medidas, calcular las intercorrelaciones entre ellas.
Si las correlaciones entre las medidas obtenidas del mismo constructo a travs
de distintos procedimientos son altas, el constructo quedar validado y se dir
que existe validez convergente. Por otra parte, si estas correlaciones son signifi-
cativamente ms altas que las obtenidas al correlacionar las medidas de distin-
tos constructos con el mismo procedimiento se dir que existe validez discrimi-
nante.
Vamos a poner un ejemplo que clarifique el procedimiento propuesto por
Campbell y Fiske.
EJEMPLO:
Supongamos que se quieren medir tres constructos: Razonamiento numrico
(RN), Factor espacial (FE) y Razonamiento abstracto (RA) y se han elaborado una
serie de pruebas con distinto formato: Verdadero-falso (V-F), Eleccin mltiple
(E-M) y Frases incompletas (F-1) para medir cada uno de ellos. Tenemos, por lo
tanto, tres constructos diferentes y tres procedimientos distintos para llevar a
cabo la
307
1 PSICOMETRA
Para analizar la validez convergente y discriminante, se selecciona una mues-
tra de sujetos a los que se aplican todas las pruebas, obtenindose las puntua-
ciones de los mismos en cada constructo y mediante cada uno de los procedi -
mientos; a partir de esas medidas se calculan todas las intercorrelaciones
posibles, que pueden ordenarse de una forma similar a la matriz que se presenta
a continuacin y facilitar la explicacin de los coeficientes de correlacin ob-
tenidos.
Los valores que se encuentran entre parntesis en la diagonal de la matriz, re-
presentan los distintos coeficientes de fiabilidad. Se trata de la correlacin entre
las puntuaciones obtenidas al medir el mismo constructo mediante el mismo
procedimiento (pueden ser dos tests paralelos, por ejemplo).
Los valores que aparecen en cursiva y subrayados son las correlaciones ob-
tenidas al medir el mismo constructo por distintos procedimientos, la cuanta de
estos valores ofrece informacin acerca de la validez convergente. Finalmente,
los valores que aparecen en negrilla corresponden a las correlaciones obtenidas
al medir distintos constructos con los mismos procedimientos. Para ver si existe
evidencia de validez discriminante es necesario comparar los valores corres-
pondientes a los ndices de validez convergente (cursiva y subrayados) con los
que aparecen en negrilla; dado que realmente los primeros son bastante ms al-
tos que los segundos podemos decir que, en efecto, hay evidencia de validez dis-
criminante.
Tabla 6.1
V-F E-M F-1
RN FE RA RN FE RA RN FE RA
V-F
RN (. 95)
FE .20 (.90)
RA .30 .28 (.92)
E-M
RN .90 .31 .40 (.93)
FE .26 .87 .33 .37 (.94)
RA .43 .20 .84 .26 .37 (.88)
F-1
RN .79 .27 .31 .77 .15 .23 (.89)
FE .11 .68 .22 .24 .67 .31 .19 (.93)
RA .19 .18 .50 .19 .33 .72 .41 .30 (.64)
308
Ur
multi1
nes a
nico
su au
zand<
4.2.
Es
confi
tura i
va me

nos E
L
unid
va a
por 1
e
tabiE

enfo
SUb)
opo
tad
obs
nor
poc
nid
quE
?, se selecciona una mues-
obtenindose las puntua-
cada uno de los procedi-
las las intercorrelaciones
1 la matriz que se presenta
:ientes de correlacin ob-
1 diagonal de la matriz, re-
Ha de la correlacin entre
ructo mediante el mismo
~ m p l o ) .
son las correlaciones ob-
imientos, la cuanta de
nvergente. Finalmente,
correlaciones obtenidas
ientos. Para ver si existe
parar los valores corres-
va y subrayados) con los
ros son bastante ms al-
evidencia de validez dis-
F-1
RN FE RA
(.89)
.19 (.93)
.41 .30 (.64)
Uno de los problemas que plantea el procedimiento de la matriz multirrasgo-
multimtodo, es que no existe un criterio estadstico que permita tomar decisio-
nes acerca de si un test tiene realmente validez convergente y discriminante, lo
nico que se puede decir es que parece haber evidencia de su existencia o de
su ausencia. Actualmente, para poder obtener mayor informacin se est utili-
zando el anlisis factorial confirmatorio.
4.2. El Anlisis Factorial
Es quizs la tcnica ms utilizada, tanto en su vertiente exploratoria como
confirmatoria, para poner a prueba las hiptesis planteadas acerca de la estruc-
tura interna del constructo y de las relaciones del mismo con otras variables. No
vamos a hacer aqu una exposicin exhaustiva de la tcnica puesto que el tema
rebasa los objetivos de este curso; sin embargo, s queremos que nuestros alum-
nos entiendan su utilidad para el estudio de la validacin de constructo.
Las medidas que proporcionan los tests pueden hacer referencia a variables
unidimensionales o multidimensionales y, precisamente, el anlisis factorial nos
va a permitir descubrir la estructura que subyace a las puntuaciones obtenidas
por los sujetos en los distintos tems del test o en un conjunto de tests.
Cuando el anlisis factorial se utiliza desde el enfoque exploratorio, no se es-
tablecen hiptesis previas acerca del nmero de dimensiones que subyacen al
constructo, es la propia tcnica la que nos aportar esta informacin. Desde el
enfoque confirmatorio, se establecen a priori hiptesis acerca de la estructura
subyacente y del nmero de dimensiones existentes, y mediante las tcnicas
oportunas se comprueba si se pueden aceptar las hiptesis propuestas.
Nota: Una exposicin clara del anlisis factorial puede encontrarse en Harman
(1980), Ferrando (1993) y Martnez-Arias (1995) y Martnez Arias, Hernndez y Her-
nndez (2006).
Bajo el epgrafe Anlisis Factorial (AF), se incluyen una serie de tcnicas es-
tadsticas que tienen por objetivo representar y explicar un conjunto de variables
observables (tems de un test, conjunto de tests, escalas, etc,) mediante un me-
nor nmero de variables latentes o inobservables llamadas factores. Cada factor
podra ser considerado como un constructo (variable latente) que vendra defi-
nido por las variables observables que lo conformaran, estas variables son las
que van a permitir dar una interpretacin psicolgica al constructo (factor).
309
1 PSICOMETRA
Para llevar a cabo un anlisis factorial se parte de un conjunto den medidas
tomadas a la misma muestra de sujetos en un conjunto de variables observables
(supongamos que son las puntuaciones obtenidas por una muestra de sujetos en
los n tems de un test) y, a partir de ellas, se obtiene una matriz (n x n) con las
intercorrelaciones entre todas ellas. Es a partir de esta matriz de correlaciones,
cuando aplicando alguna de las tcnicas estadsticas incluidas bajo el epgrafe
de Anlisis Factorial, se intenta identificar un nmero ms reducido de variables
latentes llamadas factores . Cuando en un mismo factor se agrupan mltiples in-
dicadores del constructo, se obtiene evidencia de la validez convergente.
Cuando en el anlisis se han obtenido medidas de otros constructos y stas apa-
recen agrupadas en distintos factores, se obtiene evidencia de la validez discri -
minante.
El ejemplo siguiente puede ayudarnos a comprender lo que queremos decir,
se trata de un ejemplo ficticio y, por lo tanto, los resultados no son reales.
EJEMPLO:
Supongamos que a la matriz de correlaciones obtenida en el ejemplo ante-
rior se la hubiera aplicado alguna de las tcnicas incluidas bajo la denominacin
de Anlisis Factorial y que la estructura factorial encontrada hubiera sido la si-
guiente:
Variables Factor 1 Factor 2
RN (V-F) .86
RN (E-M) .75
RN (F-1) .92
FE (V-F) .82
FE (E-M) .74
FE (F-1) .63
RA (V-F) .42 .33
RA (E-M) .51
RA (F-1) .54
Cmo se interpretan los resultados obtenidos?
Se puede observar que despus de la factorizacin se han obtenido 2 facto-
res. En el primero de ellos se agrupan las medidas correspondientes a las varia-
bles utilizadas como indicadores del constructo razonamiento numrico (RN)
junto a dos correspondientes al constructo razonamiento abstracto (RA). El se-
gundo factor est definido por todas las medidas correspondientes a las variables
utilizadas como indicadores del constructo razonamiento espacial (RE) junto a
310
E
e
t;
er
pE
ya
ce
tra
pa
su
de
di
val
a l.
me
val
n conjunto den medidas
de variables observables
na muestra de su jetos en
na matriz (n x n) con las
matriz de correlaciones,
inclui das bajo el epgrafe
s reducido de variables
se agrupan mltiples in-
la validez convergente.
constructos y stas apa-
ncia de la validez discri-
r lo que queremos decir,
tados no son reales.
nida en el ejemplo ante-
bajo la denominacin
ada hubiera sido la si-
se han obtenido 2 facto-
spondientes a las varia-
amiento numrico (RN)
abstracto (RA). El se-
dientes a las variables
ento espacial (RE) junto a
otras dos correspondientes al razonamiento abstracto. Estos resultados parecen
indicar que en realidad estamos ante dos constructos bien definidos; respecto al
tercer constructo hipotetizado, sera necesario hacer una nueva evaluacin del
mismo, estudiar ms detenidamente su marco terico, o bien revisar los tests uti-
li zados para su medicin.
5. VALIDACIN REFERIDA AL CRITERIO
Este tipo de estudios de validacin permiten obtener evidencia acerca del grado
en que las puntuaciones obtenidas en el test pueden utilizarse eficazmente para ha-
cer inferencias acerca del comportamiento real de los sujetos en un criterio que no
puede ser medido directamente, bien por no estar disponible en el momento de
la investigacin, bien porque su medida pueda resultar difcil o costosa y, por lo
tanto, sea aconsejable obtener informacin del mismo por otros procedimientos.
En los estudios de validacin referida al criterio el objetivo principal es eva-
luar la hiptesis de relacin entre test y criterio; la forma de analizar esta rela-
cin depende de muchos factores entre ellos la complejidad del criterio y la di-
ficultad para definirle claramente. Para Cracker y Algina (1986) se suelen utilizar
dos tipos de ndices o medidas para describir la capacidad de un test o conjunto
de tests para predecir un criterio: medidas correlaciona/es (coeficiente de validez,
de determinacin, de alienacin, de valor predictivo, etc.) y las medidas de error
en la prediccin (errores de estimacin).
Este tipo de estudios se suelen realizar desde dos perspectivas diferentes de-
pendiendo del uso que se vaya a dar al test y del tipo de inferencias que se va-
yan a hacer. Cuando los tests se van a u ti 1 izar para la seleccin, clasificacin o
colocacin de personas en determinados programas de formacin o puestos de
trabajo, lo interesante es analizar la validez predictiva de los tests; es decir, su ca-
pacidad para pronosticar, a partir de las puntuaciones obtenidas por los sujetos,
su posterior rendimiento en el programa de formacin, en el trabajo, en un curso
de formacin, etc. Si, por el contrario, se trata de utilizar los tests para hacer un
diagnstico, es ms adecuado llevar a cabo un estudio de la validez concurrente.
Es necesario recordar que cuando se trata de obtener evidencia acerca de la
validez predictiva de un test, la medida del criterio se obtiene con posterioridad
a la del test; mientras que en los estudios acerca de la validez concurrente la
medida del criterio se obtiene al mismo tiempo que la del test.
A diferencia de lo que ocurra en el proceso de validacin de constructo, la
validacin referida al criterio es un proceso en el que la teora no juega el papel
311
1 PSICOMETRA
principal, se acenta el inters en el aspecto emprico del proceso ms que en
el terico. No obstante, un anlisis cuidadoso y una conceptualizacin teri ca
del criterio facilitan la tarea de aislar las dimensiones y subdimensiones que lo
conforman, de manera que cada una de ellas pueda ser predicha por diferentes
variables (validacin de constructo del criterio). En otras palabras, como sealan
Brogden y Taylor (1950), un estudio de validacin de constructo del criterio ayu-
dar a determinar las dimensiones a medir, cmo se medir cada una de ellas y,
si se desea, cmo combinarlas.
Para disear un estudio de validacin referida al criterio es necesario seguir
una serie de pasos:
1. Definir claramente el criterio que se quiere medir.
2. Identificar el indicador o indicadores que se van a utilizar para obtener la
medida del criterio.
3. Seleccionar una muestra de sujetos que sea representativa de la poblacin
en la que posteriormente se va a u ti 1 izar el test.
4. Aplicar el test a la muestra de sujetos y obtener una puntuacin para cada
uno de ellos.
5. Obtener una medida de cada sujeto en el criterio bien en el mismo mo-
mento de la aplicacin del test (validacin concurrente) o bien al cabo de
un cierto tiempo (validacin predictiva).
6. Determinar el grado de relacin entre las puntuaciones obtenidas por los
sujetos en el test y la medida del criterio.
5.1. El problema de la seleccin y medicin del criterio
Ya se ha comentado anteriormente que cuando los tests se utilizan para la se-
leccin, clasificacin y colocacin de las personas en determinados puestos de
trabajo o programas especficos, los estudios de validacin tienen como objetivo
estudiar la efectividad con la que se puede pronosticar, a partir de las puntua-
ciones que hayan obtenido los sujetos en los tests, la eficiencia o xito alcanzado
en el puesto de trabajo o en el programa al que hayan sido admitidos. Se trata,
por lo tanto, de utilizar los tests para seleccionar aquellas personas que vayan a
tener una mayor probabilidad de realizar el trabajo, o aprovechar el programa
con xito.
Ahora bien, en este punto surge el problema de analizar qu es aquello que
constituye el xito. Este concepto es algo muy complejo (un constructo terico)
312
q
e
R
Ir
tr
a
p
q
11'
d
l
ri
p
SI
q
d
u
q
p
d
o
ir
h.
S(
rr
ir
e ~
le
ci
Cl
IG
h;
) del proceso ms que en
:onceptual izacin terica
y subdimensiones que lo
er predicha por diferentes
palabras, como sealan
nstructo del criterio ayu-
ir cada una de ellas y,
teri o es necesario seguir
IL
a utilizar para obtener la
ntativa de la poblacin
na puntuacin para cada
o bien en el mismo mo-
rrente) o bien al cabo de
ones obtenidas por los
criterio
se utilizan para la se-
rnPTPrrrninados puestos de
'n tienen como objetivo
r, a partir de las puntua-
iencia o xito alcanzado
sido admitidos. Se trata,
las personas que vayan a
aprovechar el programa
1 izar qu es aquello que
o (un constructo terico)
que tiene muchas facetas y, por lo tanto, es muy difcil de definir de forma pre-
cisa, y ms difcil todava obtener una medida adecuada y completa del mismo.
Recordemos que en el ejemplo de la seleccin de vendedores, se utiliz como
indicador del criterio de xito el nmero de ventas realizadas en una semana, se
trata de un indicador de tipo prctico, fcil de obtener, y probablemente de cara
al cliente es un indicador vlido. Supongamos ahora que hay que cubrir una
plaza de profesor de Psicometra, en este caso sera ms complejo determinar
qu es lo que constituira el xito como profesor de Psicometra: su conoci-
miento de la asignatura?, su capacidad de empata con los alumnos?, la cali-
dad de sus publicaciones?, sus proyectos de investigacin?, su habilidad para
la organizacin de las tareas propias de la asignatura?, etc. ,cada una de estas va-
riables podran ser consideradas indicadores del criterio de xito o capacidad del
profesor, pero son ms difciles de operativizar que el nmero de ventas en una
semana. Ahora bien, tanto en un caso como en otro hay que tener en cuenta
que todos los indicadores son parciales y no ofrecen una comprensin completa
del criterio. Entonces, cmo decidir cual es el indicador que se debe elegir?
Thorndike y Hagen (1989), consideran que los indicadores deben cumplir
una serie de requisitos: a) que sean relevantes, b) que estn libres de sesgos, e)
que sean fiables y d) que sean accesibles.
Se considera que un indicador es relevante en la medida en que se corres-
ponde con el criterio. No hay evidencia emprica que nos permita decir si un in-
dicador es relevante o no. Para apreciar la relevancia es necesario tener en cuenta
consideraciones racionales y apoyarse en los juicios de expertos. La presencia de
indicadores irrelevantes puede influir negativamente en las predicciones que se
hagan y en las decisiones que se tomen. Por ejemplo: cuando un profesor est
evaluando un examen de matemticas de un nio, en el juicio que emita acerca
de su capacidad pueden estar influyendo otros factores como la forma de pre-
sentacin, o las faltas de ortografa. Estos factores pueden ser irrelevantes para la
medida de la capacidad matemtica del nio, y su influencia puede atenuar la
importancia del indicador seleccionado como relevante de aquello que se quiere
predecir.
Un segundo requisito deseable es que los indicadores estn libres de sesgos;
es decir, que las medidas del criterio representen la verdadera competencia de
los sujetos y no estn determinadas por factores que acten de manera diferen-
cial en determinados grupos. Supongamos que se quiere evaluar la competen-
cia de las secretarias de una empresa y se pide a sus jefes directos que las eva-
len. El juicio de los jefes ser un indicador libre de sesgos si la evaluacin que
hagan acerca de la competencia de sus secretarias no depende ms que de su
competencia profesional y no de Otros factores.
313
1 PSICOMETRA
El tercer requisito es que sean fiables, las medidas del criterio que proporcio-
nen los indicadores han de ser estables. Una medida de xito en un determi-
nado trabajo no puede variar de un da para otro. Una persona no puede ser
considerada competente para el trabajo que realiza un da y al da siguiente ser
considerado un incompetente. Si esto ocurriera; es decir, si la medida del crite-
rio no fuera fiable, sera imposible encontrar un test capaz de pronosticarla.
Finalmente, los indicadores deben ser accesibles. A la hora de seleccionar los
indicadores se suelen presentar problemas de distinta ndole. Pueden ser pro-
blemas econmicos, problemas debidos a que hay que esperar mucho tiempo
para poder obtener la medida del criterio, etc. Todas estas limitaciones hay que
tenerlas en cuenta a la hora de seleccionar los indicadores y tratar, en la medida
de lo posible, de seleccionar aquellos que sean ms accesibles siempre y cuando
cumplan con los otros requisitos.
5.2. Procedimientos estadsticos utilizados en la validacin
referida al criterio
Para la exposicin de este apartado nos basaremos en la realizada por
Martnez - Arias (1995) y Martnez - Arias, Hernndez y Hernndez (2006).
Cuando se quiere obtener un ndice numrico que evidencie la validez de un test
en relacin con un criterio se pueden utilizar numerosos procedimientos, aunque
los ms utilizados estn basados en correlaciones. No obstante, la utilizacin de
una tcnica u otra depende del diseo de recogida de datos para la validacin y
del nmero de variables implicadas: a) un nico test predictor y un slo indica-
dor del criterio, b) varios predictores y un solo indicador del criterio, e) varios pre-
dictores cuantitativos y varios indicadores del criterio cuantitativos y d) procedi-
mientos basados en la teora de la decisin: validez y utilidad en las decisiones.
a) Un nico test predictor y un solo indicador del criterio
Los procedimientos ms utilizados son la correlacin y el modelo de regre-
sin lineal simple. Segn sea la naturaleza de las variables implicadas se utilizar
un tipo de correlacin u otro (correlacin de Pearson, biserial, biserial puntual,
coeficiente phi, tetracrica, etc.).
b) Varios predictores y un slo indicador del criterio
Hay veces que se utiliza una batera de tests para predecir un nico criterio,
en este caso los procedimientos que se utilizan son la correlacin y la regresin
314
linea
riant1
miCO
e) Va
Er
y la e
cabo
dos e
d) p(i
d e ~
Lo
zar l;:
cialm
N e
de es1
ms i
cabo
Not;
sigu
(19E
Mac
-
Ya
simplE
acerC
puede
cin, f
terio,'
puntu;
del criterio que proporcio-
la de xito en un determi-
Una persona no puede ser
m da y al da siguiente ser
ecir, si la medida del crite-
:apaz de pronosticarla.
l1a hora de seleccionar los
ta ndole. Pueden ser pro-
ue esperar mucho tiempo
estas limitaciones hay que
~ o r e s y tratar, en la medida
cesibles siempre y cuando
la validacin
os en la realizada por
y Hernndez (2006).
ncie la validez de un test
procedimientos, aunque
te, la utilizacin de
para la validacin y
redictor y un slo indica-
del criterio, e) varios pre-
antitativos y d) procedi-
ilidad en las decisiones.
n y el modelo de regre-
es implicadas se utilizar
biserial, biserial puntual,
decir un nico criterio,
rrelacin y la regresin
lineal mltiple. Si el criterio es cualitativo, se suele utilizar otra tcnica multiva-
riante denominada anlisis discriminante y cuando se utilizan criterios dicot-
micos la regresin logstica.
e) Varios predictores cuantitativos y varios indicadores del criterio cuantitativos
En este caso las tcnicas ms adecuadas son la regresin lineal multivariante
y la correlacin cannica. Sin embargo, rara vez se utilizan a la hora de llevar a
cabo un estudio de validacin debido a la dificultad para interpretar los resulta-
dos que proporcionan.
d) Procedimientos basados en la teora de la decisin: validez y utilidad en las
decisiones
Los procedimientos propuestos se basan en diferentes mtodos para optimi-
zar las decisiones realizadas con el test: tcnicas maximin y minimax y espe-
cialmente la Teora de la Utilidad Multiatributo.
No es posible la exposicin de todas las tcnicas por exceder a los objetivos
de estas unidades didcticas. Expondremos aquellas que, a nuestro juicio, son las
ms importantes para que nuestros alumnos comprendan la forma de llevar a
cabo un estudio de validacin.
Nota: El lector interesado en las tcnicas de anlisis multivariante puede consultar los
siguientes textos en castellano: Bisquerra (1989), Cuadras (1981) y Snchez-Carrin
(1984). Una exposicin introductoria a la Teora de la decisin se puede encontrar en
Macia, Barbero, Prez-Liantada y Vi la (1990).
-
6. VALIDACIN CON UN NICO PREDICTOR Y UN SOLO
INDICADOR DEL CRITERIO
Ya hemos comentado anteriormente que la correlacin y la regresin lineal
simple son, en este caso, las tcnicas ms utilizadas para obtener evidencia
acerca del grado en que las puntuaciones obtenidas por los sujetos en el test
pueden ser utilizadas para predecir las que obtendran en el criterio. La correla-
cin, porque nos permitir conocer el grado de asociacin entre el test y el cri-
terio, y el modelo de regresin, porque nos permitir pronosticar, a partir de J;:_s
puntuaciones obtenidas en el predictor, las puntuaciones en el criterio.
315
1'
1 PSICOMETRA
Dado que nuestros alumnos ya han adquirido los conocimientos bsicos
acerca de este modelo, nosotros simplemente vamos a exponer su aplicacin
para estudiar las relaciones entre el test y el criterio.
6.1. El coeficiente de validez
Se define como la correlacin entre las puntuaciones obtenidas por los suje-
tos en el test predictor y las obtenidas en el criterio. A partir de esta definicin
se pone de manifiesto la importancia que tiene el indicador elegido para obte-
ner la medida del criterio ya que, en ltima instancia, a partir de las puntuacio-
nes obtenidas por los sujetos en el test se podrn obtener tantos coeficientes de
validez como indicadores del criterio se elijan para su validacin, y un test puede
ser muy vlido para predecir un criterio cuando se utiliza un determinado indi-
cador y obtener coeficientes de validez prcticamente nulos con respecto a otros.
El tipo de correlacin utilizada para el clculo del coeficiente de validez de-
pender de la naturaleza de las variables implicadas, en el cuadro 6.1 se puede
observar cul es el ndice ms adecuado en cada caso.
Cuadro 6.1
INDICADOR
CRITERIO
Continua Docotomizada Docotmica
Continua Pearson Biserial Biserial puntual
Docotomizada
Biserial Tetracrica
$biserial
Docotmica
Biserial puntual
$biserial
$
Si designamos por X las puntuaciones del test y por Y las del indicador del cri-
terio, la frmula del coeficiente de validez ser:
-Correlacin de Pearson:
Cuando tanto el test (X) como el criterio (Y) son dos variables cuantitativas
continuas:
[6.2]
316
-Cor
Sie1
donde
xP
Xq
Sx =
py
y=
X=
- Co.
Si e
Lo:
la frr
-Ca
La:
dond
a,
ci one
conocimientos bsicos
a exponer su aplicacin
obtenidas por los suje-
partir de esta definicin
dar elegido para obte-
partir de las puntuacio-
er tantos coeficientes de
idacin, y un test puede
un determinado indi-
los con respecto a otros.
ciente de validez de-
el cuadro 6.1 se puede
Docotmica
Biserial puntual

las del indicador del cri-
variables cuantitativas
[6.2]
- Correlacin biserial:
Siendo X la variable cuantitativa e Y la variable dicotomizada:
donde:
XP =media en X de los que obtuvieron un 1 en Y.
Xq =media en X de los que obtuvieron un O en Y.
Sx = desviacin tpica en X de todas las personas de la muestra.
[6.3]
p y q = proporcin de personas que obtuvieron un 1 y un O respectivamente en Y.
y = ordenada que en una distribucin normal corresponde a la abscisa que
divide el rea total en dos partes iguales a p y q.
X= media en X de todas las personas de la muestra.
- Correlacin biserial puntual:
Siendo X la variable cuantitativa e Y la dicotmica:
[6.4]
Los smbolos incluidos en esta frmula tienen el mismo significado que los de
la frmula anterior.
- Coeficiente cp:
Las dos variables son dicotmicas
<j>= cb-ad
b) (e+ d) (a+ e) ( b + d)
[6.5]
donde:
a, b, e y d representan el nmero de personas de la muestra cuyas puntua-
ciones en X y en Y son respectivamente (0, 1 ), (1, 1 ), (0,0), (1,0).
317
1 PSICOMETRA
Para una mejor comprensin se puede construir una tabla de doble entrada:
X
o 1
1 a b
y
o e d
- Coeficiente ifJbiserial
La variable X se ha dicotomizado y la variable Y es dicotmica
be-ad .jpq
<l>biserial = ~ ( a + b )(e+ d) o - y-
[6.6]
donde:
a, b, e y d tienen el mismo significado que en la frmula anterior y p, q e y,
el mismo significado que en la correlacin biserial. Se trata de un hbrido entre
los dos coeficientes.
- Correlacin tetracriea
Tanto la variable X como la Y son variables continuas que se han dicotomi-
zado artificialmente.
El clculo de la correlacin tetracrica requiere la solucin iterativa de una
serie de potencias que incluye las potencias der. Su clculo es muy laborioso,
pero se han ofrecido algunas aproximaciones muy sencillas, la ms utilizada es
calcular la razn befad y consultar la tabla correspondiente que se ofrece al fi-
nal del libro. Si la razn es menor que la unidad se debe usar la recproca ad!bc
para consultar la tabla, en este caso la correlacin ser negativa. El significado
de a, b, e y des el mismo que en las correlaciones anteriores (ver tabla de doble
entrada anterior.)
Sea cual sea el coeficiente utilizado para calcular el coeficiente de validez,
los valores que puede alcanzar van a estar incluidos en el intervalo -1 y 1.
318
6.2.
u
utiliz
Er
cin
tuaci
a ver
obter
en el
M
haga
laci1
dond
a=
6.2.1
El
dez y
en el
. tabla de doble entrada:
[6.6]
ula anterior y p, q e y,
de un hbrido entre
as que se han dicotomi-
olucin iterativa de una
!culo es muy laborioso,
11ias, la ms utilizada es
iente que se ofrece al fi-
usar la recproca ad!bc
negativa. El significado
riores (ver tabla de doble
1 coeficiente de validez,
el intervalo -1 y 1.
6.2. El modelo de regresin lineal
Una vez conocido el grado de asociacin entre el test y el criterio se puede
utilizar el modelo de regresin para hacer pronsticos.
En los temas correspondientes al estudio de la fiabilidad se explic la utiliza-
cin del modelo de regresin lineal para hacer estimaciones acerca de la pun-
tuacin verdadera de los sujetos a partir de su puntuacin emprica. Ahora vamos
a ver de qu forma se va a utilizar el modelo para, a partir de las puntuaciones
obtenidas por los sujetos en el test, hacer estimaciones acerca de su puntuacin
en el criterio.
Mediante el modelo de regresin se intenta buscar una ecuacin lineal que
haga mnimos los errores de pronstico. Esta ecuacin pondr de manifiesto la re-
lacin de dependencia lineal entre el test y el criterio y tomar la siguiente forma:
y'= a+ bX
[6.7]
donde:
a = ordenada en el origen o trmino constante, que representa el valor pro-
nosticado en el criterio (Y') cuando en el test (X) se obtiene un valor cero.
b = pendiente de la recta de regresin, que representa el cambio en los valo-
res del criterio Y por cada cambio unitario en el test X.
Nota: La exposicin detallada del modelo la pueden encontrar nuestros alumnos en
las unidades didcticas correspondientes a la asignatura de Introduccin al Anlisis
de Datos y en las de Diseos de Investigacin.
-- = .... 7 . . ~ ~
6.2. 1. Ecuaciones de regresin
El valor de la pendiente se puede obtener en funcin del coeficiente de vali-
dez y de las desviaciones tpicas de las puntuaciones obtenidas por los sujetos
en el test y en el criterio:
[6.8]
319
1 PSICOMETRA
Una vez calculado el valor de la pendiente se calcula el de la ordenada en
el origen:
a = Y -bX [6.9]
La expresin anterior pone de manifiesto que la recta de regresin debe pa-
sar por el punto (X', Y).
Una vez obtenidos los valores de a y de b se puede obtener la ecuacin de
la recta de regresin. Esta ecuacin puede venir dada en tres tipos de puntua-
ciones: directas, diferenciales y tpicas:
Ecuacin en puntuaciones directas: Y'= (y- rxy Sy xJ+ rxy Sy X=
Sx Sx
S ( -) -
= rxy ___r_ X - X + Y
Sx li
Ecuacin en puntuaciones diferenciales: y'= rxy Sy (X- x)
Sx
Ecuacin en puntuaciones tpicas: Z ~ . = rxyZx
La diferencia entre la ecuacin de regresin en puntuaciones directas y dife-
renciales es que en estas ltimas la ordenada en el origen es cero y, por lo tanto,
la ecuacin pasa por el origen de coordenadas; al tener la misma pendiente se
trata de dos rectas paralelas. Con respecto a la ecuacin de regresin en pun-
tuaciones tpicas, al igual que la de puntuaciones diferenciales pasa por el ori-
gen de coordenadas y, teniendo en cuenta que en la escala de puntuaciones t-
picas la desviacin tpica es la unidad, la pendiente de la recta de regresin ser
el coeficiente de validez.
Hasta aqu, hemos utilizado una muestra de sujetos a la que se les ha aplicado
el test cuya capacidad predictiva respecto al criterio se quiere validar; a estos
mismos sujetos se les ha calificado en el criterio y, con todos esos datos, se han
construido las ecuaciones de regresin. Pues bien, la verdadera utilidad de esas
ecuaciones no est en pronosticar las puntuaciones de estos sujetos en el crite-
rio, no tendra mucho sentido ya que conocemos las puntuaciones que real-
mente han obtenido, la verdadera utilidad est en la posibilidad de pronosticar
320
la 1
m a
cio
di a
pu1
6.2
es ti
es ti
la L
v1e1
COE
ven
de1
el e
Cor
tod
cio1
y SL
don
t
E
suje
rect
pi ce
la el de la ordenada en
[6.9]
de regresin debe pa-
obtener la ecuacin de
tres tipos de puntua-
-) S X +r _r_x=
XY
' x Sx
- X)+ y
(x -x)
aciones directas y dife-
es cero y, por lo tanto,
la misma pendiente se
de regresin en pun-
ciales pasa por el ori-
la de puntuaciones t-
recta de regresin ser
a que se les ha a pi icado
quiere validar; a estos
os esos datos, se han
dera utilidad de esas
sujetos en el crite-
ntuaciones que real-
ibilidad de pronosticar
la puntuacin que obtendrn en el criterio otra muestra de sujetos, de las mis-
mas caractersticas que la muestra u ti 1 izada para la construccin de las ecua-
ciones de regresin, a partir de las puntuaciones que obtengan en el test. Me-
diante la aplicacin de las ecuaciones de regresin obtenemos una estimacin
puntual de las puntuaciones de los sujetos en el criterio.
6.2.2. La varianza residual o varianza error y el error tpico de estimacin
El coeficiente de validez indica la eficacia del test o variable predictora para
estimar el criterio. En la medida en que el coeficiente de validez sea ms alto, la
estimacin ser ms exacta; en el lmite, cuando el coeficiente de validez fuera
la unidad, el valor estimado coincidira con la puntuacin que realmente obtu-
vieran los sujetos en el criterio. Sin embargo, dado que nunca se alcanzan
coeficientes de validez perfectos (iguales a 1 en valor absoluto), la estimacin
vendr afectada por el denominado error de estimacin. As, se denomina error
de estimacin a la diferencia entre la puntuacin que ha obtenido un sujeto en
el criterio y la que se le pronostica mediante la ecuacin de regresin (Y- Y').
Con cada sujeto se comete un determinado error de estimacin. A la varianza de
todos los errores de estimacin cometidos con los sujetos de la muestra sel ec-
cionada se denomina Varianza residual, Varianza error o Error cuadrtico medio
y su frmula es:
[6.1 O]
donde:
Y= puntuaciones obtenidas por cada sujeto en el criterio
Y'= puntuacin pronosticada a cada sujeto mediante la ecuacin de regre-
sin
N= nmero de sujetos de la muestra
Esta varianza error representa la variabilidad media de las puntuaciones de los
sujetos en el criterio respecto a la puntuacin que se les pronostica mediante la
recta de regresin. A la desviacin tpica de estos errores se denomina: Error t-
pico de estimacin y su frmula es:
321
1 PSICOMETRA
[6.11 J
Cuando se utilizan las ecuaciones de regresin para hacer los pronsticos se
cumplen una serie de propiedades fundamentales:
La media de las puntuaciones obtenidas por los sujetos en el criterio es
igual a la media de las puntuaciones pronosticadas.
La suma de todos los errores de estimacin es cero, lo que implica que la
media de los errores cometidos sea cero.
La varianza de las puntuaciones obtenidas por los sujetos en el criterio
(variable dependiente Y) es igual a la varianza de las puntuaciones pro-
nosticadas ms la varianza de los residuos o varianza error.
Y=Y'
l:Y-Y'=O
S ~ = S ~ . + S ~ x
[6.12]
6.2.3. Intervalos de confianza
Debido a los errores de estimacin que se cometen al hacer los pronsticos,
ms que estimaciones puntuales es conveniente hacerlas por intervalos; para
ello, asumiendo que la distribucin de dichos errores se ajusta a una distribucin
normal cuya desviacin tpica viene dada por el error tpico de estimacin, se es-
tablece un intervalo confidencial en torno a la puntuacin pronosticada. Los pa-
sos a seguir son los siguientes:
322
Determinar un nivel de confianza y buscar su puntuacin tpica asociada.
Calcular el error tpico de estimacin.
Calcular el error mximo.
Aplicar la ecuacin de regresin correspondiente y obtener la puntuacin
pronosticada.
Establecer el intervalo de confianza.
[6.11]
acer los pronsticos se
jetos en el criterio es
lo que implica que la
sujetos en el criterio
las puntuaciones pro-
[6.12]
hacer los pronsticos,
s por intervalos; para
sta a una distribucin
de estimacin, se es-
pronosticada. Los pa-
acin tpica asociada.
btener la puntuacin
6.3. Interpretacin de la evidencia obtenida acerca de la
capacidad predictora del test
Ya hemos comentado que la varianza de las puntuaciones obtenidas por los
sujetos en el criter io (varianza de la variable dependiente) se puede expresar
como la suma de la varianza de las puntuaciones pronosticadas a partir de la va-
riable prerlictora y la varianza de los residuos o varianza error.
1 S ~ = ~ , + ~ x 1
[6.13]
A partir de esta ecuacin se puede averiguar la proporcin de la varianza de
las puntuaciones de los sujetos en el criterio que se puede explicar a partir de
la varianza de las puntuaciones en el predictor (varianza de las puntuaciones
pronosticadas) y qu proporcin no se puede explicar y corresponde a los resi-
duos.
Si dividimos todos los trminos de la ecuacin por la varianza de las pun-
tuaciones del criterio tendremos:
[6.14]
Ahora bien, en el segundo miembro de la ecuacin, el primer trmino repre-
senta la proporcin de la varianza del criterio que se puede pronosticar o pre-
decir a partir del test o variable predictora y es igual al coeficiente de validez al
cuadrado. Por lo tanto la expresin anterior se puede poner tambin como:
[6.15]
y, a partir de ah, deducir otra forma de expresin de la varianza error y del error
tpico de estimacin:
S ~ x = S ~ ( 1- r}y)
[6.16]
Sy x = Sy ~ 1 - r}y
323
1 PSICOMETRA
Cuando la escala que se uti l iza es la de puntuaciones tpicas, dado que la
desviacin tpica es la unidad, la frmula del error tpico de estimacin es:
[6.17]
Una vez hecho este pequeo repaso, vamos a interpretar los resultados ob-
tenidos en funcin de tres coeficientes:
6.3.1. Coeficiente de determinacin
C.D.= r}y
[6. 18]
Equivale al coeficiente de validez al cuadrado y representa la proporcin (o
el porcentaje) de la varianza de las puntuaciones de los sujetos en el criterio (va-
riable dependiente) que se puede pronosticar a partir del test (variable predictora
o independiente). Tambin se define como la varianza comn o asociada entre
el test y el criterio.
6.3.2. Coeficiente de alienacin
C.A. = K = Sy x = ~ 1 - r}Y
S y
[6.19]
Aunque la frmula es equivalente a la del error tpico de estimacin en pun-
tuaciones tpicas, de cara a la interpretacin de este coeficiente conviene saber
que, en realidad, indica la proporcin que representa el error tpico de estima-
cin respecto a la desviacin tpica de las puntuaciones en el criterio. En la me-
dida en que el error tpico sea ms pequeo que la desviacin tpica del criterio
el coeficiente K ser menor. El valor del coeficiente K oscila entre O y 1, ser m-
ximo cuando el coeficiente de validez sea O y ser mnimo cuando el coeficiente
de validez valga 1. El coeficiente de alienacin al cuadrada es el complementa-
rio del coeficiente de determinacin y representa, por lo t ~ n t o , la proporci n (o
el porcentaje si se multiplica por 1 00) de la varianza de las puntuaciones de los
sujetos en el criterio que no se puede predecir a partir del test, es la proporcin
324
tpicas, dado que la
de estimacin es:
[6.17]
etar los resultados ob-
[6.18]
ta la proporcin (o
jetos en el criterio (va-
test (variable predictora
omn o asociada entre
[6.19]
de estimacin en pun-
ciente conviene saber
error tpico de estima-
el criterio. En la me-
in tpica del criterio
ila entre O y 1, ser m-
cuando el coeficiente
. do es el complementa-
t:nto, la proporcin (o
as puntuaciones de los
1 test, es la proporcin
de varianza error que hay en la varianza de las puntuaciones de los sujetos en
el criterio.
El coeficiente de alienacin representa la inseguridad, o el azar, que afecta a
los pronsticos.
6.3.3. Coeficiente de valor predictivo
C.V.P = 1- ~ 1 - r}y
[6.20]
Es el complementario del coeficiente de alienacin y es otra forma de expre-
sar la capacidad del test para pronosticar el criterio ya que representa la pro-
porcin (o el porcentaje si se multiplica por cien) de seguridad en los pronsti-
cos.
6.3.4. Ejemplo
Supongamos que se quiere llevar a cabo un estudio de validacin relativa al
criterio de un test de aptitud mecnica (X); para ello, se aplica a una muestra de
sujetos representativa de la poblacin en la que se va a utilizar el test. Estos su-
jetos son evaluados posteriormente por sus supervisores, en una escala de 0-1 O,
utilizando como indicador de su capacidad mecnica el tiempo, medido en ho-
ras, que tarda cada uno en reparar un coche (Y) con la misma avera. Los resul-
tados son los que aparecen en la tabla adjunta. (Tngase en cuenta que se trata
de un ejemplo):
X
y
)(2
y.z
XY Y' (Y-Y') (Y-Y'?
12 9 144 81 108 7,89 1,11 1,23
14 7 196 49 98 8,68 -1,68 2,82
15 10 225 100 150 9,08 0,92 0 ,85
7 8 49 64 56 5,91 2,09 4,37
9 5 81 25 45 6,71 -1,71 2,92
4 4 16 16 16 4,73 -0,73 0,53
61 43 711 335 473 43 o 12,72 Sumas
325
1 PSICOMETRA
Tanto el test como la medida del criterio son variables cuantitativas, por lo
tanto, para calcular el coeficiente de validez el ndice ms adecuado es la co-
rrelacin producto-momento de Pearson.
- El coeficiente de validez:
r _ 6473-4361 _ 2.838-2.623 = 215 =O
73
XY -
-1545161 296,22
1
Dado que el valor mximo del coeficiente de validez es la unidad, se puede
deducir que el test tiene una buena capacidad predictiva. Ms adelante se pro-
fundizar en la interpretacin de los resultados obtenidos.
- Las ecuaciones de regresin:
Una vez obtenido el coeficiente de validez vamos a calcular las ecuaciones
de regresin en puntuaciones directas, diferenciales y tpicas teniendo en cuenta
lo que se ha ido explicando anteriormente y los conocimientos que han de te-
ner nuestros alumnos. Una vez construidas esas ecuaciones de regresin se pue-
den utilizar, posteriormente, para predecir las puntuaciones que obtendrn en el
criterio otros sujetos, de las mismas caractersticas que los de la poblacin sobre
la que se construyeron, a partir de sus puntuaciones en el test. Para ello, basta
sustituir el valor de X en la ecuacin por las puntuaciones obtenidas por los su-
jetos. El resultado se recoge en la columna 6 de la tabla anterior. Comprobar
que la media de las puntuaciones pronosticadas es igual que la de las puntua-
ciones obtenidas por los sujetos en el criterio.
En la columna 7 aparecen recogidos los errores de estimacin cometidos con
cada uno de los sujetos al hacer los pronsticos. Comprobar que la suma de es-
tos errores es igual a cero. Hay que recordar que si el coeficiente de validez hu-
biera sido la unidad, los errores de prediccin o de estimacin hubieran sido
nulos.
Nota: Como ejercicio, los alumnos pueden calcular las puntuaciones pronosticadas
en puntuaciones diferenciales y tpicas.
326
les cuantitativas, por lo
ns adecuado es la co-
B= 215 =
073
296,22 '
~ e s la unidad, se puede
a. Ms adelante se pro-
os.
lcular las ecuaciones
cas teniendo en cuenta
mi entas que han de te-
de regresin se pue-
que obtendrn en el
de la poblacin sobre
el test. Para ello, basta
obtenidas por los su-
la anterior. Comprobar
1 que la de las puntua-
imacin cometidos con
r que la suma de es-
ciente de validez hu-
macin hubieran sido
aciones pronosticadas
Ecuaciones de regresin:
- ~ X 61
X=-L..,;-=-=10 17
N 6 '
- ~ y 43
Y=-L..;-=-=717
N 6 '
s; = I x
2
_ x
2
=
711
_,o,, 7
2
= ,,8, 5 _, o3, 43 = 15, o7
N 6
5
2
= Ly
2
-Y
2
=
335
- 717
2
=55 84-5141=4 43
y N 6 ' ' ' '
Puntuaciones directas: Y= a+ bX =>Y= 3,15 +O, 395X
b = r Sy =O 73
2
'
10
=O 395
XY S ' 3 88 '
X '
a= Y- bX = 7,17 - O, 395 1 O, 17 = 3,15
Puntuaciones diferenciales: y= bx =>y= O, 395x
Puntuaciones tpicas: Zy = rxyZx = 0,73Zx
- Error tpico de estimacin
Sx = 3,88
Sy = 2,1 O
Vamos a comprobar cmo la varianza de las puntuaciones de los sujetos en
el criterio es igual a la varianza de las puntuaciones pronosticadas ms la va-
rianza de los errores, para ello basta calcular las tres varianzas.
s; = 4,43
52, = IY'2 -Y'2 = 322,36 -51 41 = 2 31
Y N 6 ' '
~ ( Y Y')
2
5
2
= _L.,; - o = 2 1 2
YX N '
s; = s; x + s;. => 4, 43 = 2,12 + 2, 31
327
1 PSICOMETRA
Hemos comentado que a la desviacin tpica de los errores de estimacin se
la denomina error tpico de estimacin, su valor en nuestro ejemplo ser:
Syx = ff, = f[12 = 1,46
- Intervalos confidenciales
Ya tenemos todos los datos para poder hacer una estimacin acerca de la
puntuacin que se le pronosticara a un sujeto en el criterio a partir de su pun-
tuacin en el test.
Supongamos que queremos saber qu puntuacin le correspondera en el
criterio a un sujeto que en el test hubiera obtenido una puntuacin X= 13, y va-
mos a hacer una estimacin puntual y por intervalos:
Nivel de confianza 95% Zc = 1,96
El error tpico de estimacin ya estaba calculado: Sy.x = 1,46
Error mximo= Zc Sy.x = 1,96 1,46 = 2,86
Para hacer el pronstico en puntuaciones tpicas hay que tener en cuenta que
el error tpico de estimacin es distinto y hay que calcularlo.
SzyZx

=-J1-0,53 =0,69
El error mximo en puntuaciones tpicas ser: 1, 96 0,69 = 1 ,35
Aplicacin de las ecuaciones de regresin:
Y'= 3,15 + 0,395 (13) = 8,28 (en puntuaciones directas)
y'= 0,395 (13- 1 O, 17) = 1,18 (en puntuaciones diferenciales)
Zy'= 0,73 0,73 = 0,53 (en puntuaciones tpicas)
z = X- X = 13 -1 O, 17 =O
73
X S 3 88 '
X '
Las puntuaciones pronosticadas son la estimacin puntual de las que obten-
dra en el criterio el sujeto que en el test obtuvo una puntuacin de 13 puntos.
Hacemos ahora la estimacin por intervalos:
328
Y/ fmx. = 8,28 2,86 5,42 :S: Y :S: 11,14
Y/ fmx. = 1,18 2,86 -1,68 :S: y/ :S: 4,04
A
crite
afim
babi
-(
-(
-(
cer
bas
pur
var
un
es ,
de
gu
1 PSICOMETRA
Hemos comentado que a la desviacin tpica de los errores de estimacin se
la denomina error tpico de estimacin, su valor en nuestro ejemplo ser:
Syx = f5[; = .:12. = 1,46
- Intervalos confidenciales
Ya tenemos todos los datos para poder hacer una estimacin acerca de la
puntuacin que se le pronosticara a un sujeto en el criterio a partir de su pun-
tuacin en el test.
Supongamos que queremos saber qu puntuacin le correspondera en el
criterio a un sujeto que en el test hubiera obtenido una puntuacin X= 13, y va-
mos a hacer una estimacin puntual y por intervalos:
Nivel de confianza 95% Zc = 1,96
El error tpico de estimacin ya estaba calculado: Sy.x = 1,46
Error mximo = Zc Sy.x = 1, 96 1,46 = 2,86
Para hacer el pronstico en puntuaciones tpicas hay que tener en cuenta que
el error tpico de estimacin es distinto y hay que calcularlo.
SzyZx

=.J1-0,53 =0,69
El error mximo en puntuaciones tpicas ser: 1, 96 0,69 = 1,35
Aplicacin de las ecuaciones de regresin:
Y'= 3,15 + 0,395 (13) = 8,28 (en puntuaciones directas)
y'= 0,395 (13- 1 O, 17) = 1,18 (en puntuaciones diferenciales)
Zy' = 0,73 0,73 = 0,53 (en puntuaciones tpicas)
z = X- X = 13 -1 O, 1 7 =O
73
X S 3 88 '
X '
Las puntuaciones pronosticadas son la estimacin puntual de las que obten-
dra en el criterio el sujeto que en el test obtuvo una puntuacin de 13 puntos.
Hacemos ahora la estimacin por intervalos:
328
Y' fmx. = 8,28 2,86 5,42::; Y::; 11,14
y' fmx. = 1,18 2,86 -1,68::; y'::; 4,04
e
a
b
ce
ba
pu
va1
un
es
de
gur
errores de estimacin se
stro ejemplo ser:
acerca de la
iterio a partir de su pun-
le correspondera en el
puntuacin X= 13, y va-
: Sy.x = 1,46
que tener en cuenta que
larlo.
=0,69
0,69 = 1,35
directas)
diferenciales)
tpicas)
untual de las que obten-
untuacin de 13 puntos.
11 ,14
4,04
Zy' emx. = 0,53 1,35 -0,82 Zy::;; 1,88
A la vista de los resultados obtenidos podemos decir que la puntuacin en el
criterio de este sujeto estar comprendida en los intervalos encontrados y eso lo
afirmamos con un nivel de confianza del 95%, o lo que es lo mismo con una pro-
babilidad igual o menor de 0,05 de equivocarnos.
-Coeficiente de determinacin:
c.o. = r2 = 5;. = 2,31 =o 52
XY 52 4 43 '
y 1
-Coeficiente de alienacin:
C.A.= K= 0,69
- Coeficiente de valor predictivo:
C. V. P. = 0,31
Los valores obtenidos se pueden multiplicar por 100 y expresar como por-
centajes. As pues, hay un porcentaje de varianza comn o asociada entre am-
bas variables de un 52%, o lo que es lo mismo, a partir de la variacin de las
puntuaciones obtenidas por los sujetos en el test se puede predecir el 52% de la
variacin de las puntuaciones de esos mismos sujetos en el criterio, quedando
un 48% de la varianza de las puntuaciones en el criterio sin explicar por el test;
es decir, un 48% de varianza error.
5; x = 2, 1 2 = o 48
5
2
4 43
1
y 1
Que el error tpico de estimacin representa el 69% de la desviacin tpica
de las puntuaciones en el criterio, por lo tanto hay un porcentaje alto de inse-
guridad en los pronsticos frente al 31% de seguridad.
Nota: Las posibles diferencias encontradas pueden ser debidas a errores de redondeo.
329
1 PSICOMETRA
7. EJERCICIOS DE AUTOEVALUACIN
330
1. Se quiere saber si un test de razonamiento abstracto tiene capacidad para
predecir el rendimiento en matemticas de los estudiantes de segundo de
BUP. Para ello, se ha aplicado el test a una muestra de estudiantes obte-
nindose una media y una desviacin tpica de 25 y 6 puntos respectiva-
mente. Al finalizar el curso esos alumnos han sido evaluados por sus pro-
fesores en matemticas obteniendo una media de 7 puntos y una varianza
de 9.
Sabiendo que el 64% de la varianza de las puntuaciones de los sujetos en
el criterio se puede predecir a partir del test. CALCULAR:
a) El coeficiente de validez del test.
b) Interpretar los resultados obtenidos en el punto anterior en funcin de
los coeficientes de determinacin, alienacin y valor predictivo.
e) Varianza de los errores de estimacin y error tpico de estimacin.
d) La varianza de las puntuaciones pronosticadas.
e) La puntuacin directa, diferencial y tpica que se le pronosticara en
matemticas a un alumno que en el test hubiera obtenido una puntua-
cin de 30 puntos.
f) Utilizando un nivel de confianza del 99%, establecer los intervalos con-
fidenciales en torno a las puntuaciones obtenidas en el punto anterior.
2. Supongamos que se han intentado medir tres constructos diferentes a los
que designaremos por A, By C mediante tres mtodos distintos y se quiere
llevar a cabo un estudio de validacin de constructo a travs del anlisis
de la matriz multimtodo-multirrasgo. Supongamos que los resultados ob-
tenidos al calcular las intercorrelaciones entre todas las puntuaciones ob-
tenidas son los que se recogen en la matriz siguiente:
tiene capacidad para
diantes de segundo de
a de estudiantes obte-
5 y 6 puntos respectiva-
evaluados por sus pro-
7 puntos y una varianza
aciones de los sujetos en
CULAR:
anterior en funcin de
y valor predictivo.
pico de estimacin.
e se le pronosticara en
a obtenido una puntua-
ecer los intervalos con-
idas en el punto anterior.
structos diferentes a los
os distintos y se quiere
cto a travs del anlisis
os que los resultados ob-
s las puntuaciones ob-
ente:
MTODO 1 MTOD02 MTOD03
A1 B1 c1 A2 B2 c2 A a Ba Ca
A1
(.89)
MT.1
B1
.49 (.93)
c1
.35 .34 (.80)
A2
.60 .21 .08 (.94)
MT. 2
B2
.22 .65 .11 .56 (.98)
c2
.10 .12 .49 .58 .55 (.88)
A a
.58 .22 .11 .73 .41 .34 (.99)
MT.3
Ba
.20 .58 .10 .40 .68 .23 .66 (.90)
Ca
.13 .13 .61 .36 .29 .64 .55 .59 (.95)
Comentar los resultados obtenidos.
3. Ejercicios conceptuales
Ante cada una de las afirmaciones que se muestran a continuacin, el lec-
tor deber responder si el concepto que contiene es verdadero o falso y
justificar su respuesta.
1. El concepto de validez hace referencia a la estabilidad de las medidas
obtenidas.
2. La validez es una propiedad intrnseca a los tests.
3. Un test puede tener varios coeficientes de validez.
4. La validez de constructo hace referencia al grado en que los elementos
que componen el test miden realmente aquello que se quiere medir.
5. Para que un test tenga validez de contenido sus tems deben ser rele-
vantes y representativos del constructo que se quiere medir.
6. El error de estimacin es la diferencia entre las puntuaciones obtenidas
por los sujetos en el test y las obtenidas en el criterio.
7. El error tpico de estimacin es la varianza de los errores de estimacin.
8. La validez de constructo representa la capacidad del test para pronos-
ticar el criterio.
9. El coeficiente de validez puede ser negativo.
1 O. A medida que aumenta el coeficiente de determinacin disminuye el
coeficiente de alienacin.
331
1 PSICOMETRA
8. SOLUCIONES A LOS EJERCICIOS
DE AUTOEVALUACIN
1.
332
a) A partir del enunciado del problema se puede obtener directamente el
coeficiente de validez, ya que el porcentaje de varianza del criterio que
se puede pronosticar a partir del test equivale al coeficiente de determi-
nacin que, a su vez, es el coeficiente de validez al cuadrado. Por lo tanto:
r}y =0,64:::::}rxy =..}0,64 =0, 80
b) A partir del coeficiente de validez obtenido podemos decir que:
e)
- El coeficiente de determinacin es: C.D. = 0, 64
Indica que un 64% de la varianza de las puntuaciones de los suje-
tos en el criterio se puede pronosticar a partir del test; es decir, hay
un 64% de varianza comn o asociada entre el test y el criterio.
- El coeficiente de alienacin es: C.A = ~ 1 - r}Y = ..}1 - 0,64 = 0, 60
Indica que en la desviacin tpica de las puntuaciones de los suje-
tos en el criterio, el 60% se debe a la desviacin tpica de los erro-
res. Hay un 60% de inseguridad en los pronsticos. Elevado al cua-
drado es el complementario del coeficiente de determinacin e
indica que hay un 36% de la varianza de las puntuaciones del cri-
terio que no se puede pronosticar a partir del test. Se trata de la pro-
porcin (o porcentaje) de varianza error que hay en la varianza de
las puntuaciones en el criterio.
- El coeficiente de valor predictivo es: C.V.P. = 1 - 0,60 = 0,40
Representa la proporcin (o porcentaje) de seguridad en los pro-
nsticos. Es el complementario del coeficiente de alienacin. En
nuestro ejemplo habr un 40% de seguridad en los pronsticos.
s; X = s; ( 1- r}y ) = 9 (1- 0,64) = 3,34
Syx = ff, = ..}3, 24 = 1, 8
El
cin.
tuaci'
obtener directamente el
varianza del criterio que
al coeficiente de determi-
al cuadrado. Por lo tanto:
0,80
puntuaciones de los suje-
, rtir del test; es decir, hay
re el test y el criterio.
ntuaciones de los suje-
iacin tpica de los erro-
cos. Elevado al cua-
las puntuaciones del cri-
el test. Se trata de la pro-
ue hay en la varianza de
. = 1 - 0,60 = 0,40
de seguridad en los pro-
ciente de alienacin. En
ad en los pronsticos.
El error tpico de estimacin es la desviacin tpica de los errores de estima-
cin. Se puede comprobar que si se divide por la desviacin tpica de las pun-
tuaciones del criterio se obtiene el coeficiente de alienacin.
d) Sabemos que la varianza de las puntuaciones de los sujetos en el cri-
terio es igual a la varianza de las puntuaciones pronosticadas ms la
varianza de los errores. Por lo tanto:
s;. = s; -s; x = 9 - 3, 2 4 = 5,7 6
e) Para poder hacer cualquier pronstico es necesario construir, en primer
lugar, las correspondientes ecuaciones de regresin que tomarn la si-
guiente forma:
Y/= a+ bX (en puntuaciones directas)
y/= bx (en puntuaciones diferenciales)
Zy = b* Zx (en puntuaciones tpicas)
b
Sy 3
=rxy -=0,80 -=0,40
Sx 6
a =Y -bX =7 -0, 4025 =-3
Una vez obtenidos los valores de las pendientes y de la ordenada en el
origen se puede ya construir las ecuaciones de regresin:
Y/= -3 + 0,40X (en puntuaciones directas)
y/= 0,40 x (en puntuaciones diferenciales)
Zy = 0,80 Zx (en puntuaciones tpicas)
Ntese que la ecuacin de regresin en puntuaciones diferenciales pasa
por el origen de coordenadas y tiene la misma pendiente que la ecua-
cin en puntuaciones directas. Respecto a la ecuacin de regresin en
puntuaciones tpicas hay que decir que pasa por el origen de coorde-
nadas y su pendiente es igual al coeficiente de validez.
333
1 PSICOMETRA
334
Una vez construidas las ecuaciones de regresin sobre la muestra uti-
lizada, se pueden aplicar para, a partir de las puntuaciones obtenidas
en el test por una muestra de sujetos semejante a la anterior, hacer es-
timaciones de las que obtendran en el criterio. En nuestro ejemplo que-
remos saber qu puntuacin directa, diferencial y tpica se le pronosti-
cara en el criterio a un sujeto que en el test hubiera obtenido 30
puntos. Basta sustituir los valores correspondientes en las ecuaciones de
regresin:
Y'= -3 + 0,40(30) = 9 (puntuacin directa pronosticada)
y'=0,40(30-25)=2 (puntuacin diferencial pronosticada)
Zy'
--0,8o(
30
-
6
25
)--o,67 ( ., , d)
puntuacron trprca pronostrca a
f) Al aplicar las ecuaciones de regresin se obtiene una estimacin pun-
tual de la puntuacin de los sujetos en el criterio. Si se quiere precisar
ms es conveniente hacer una estimacin por intervalos. Para ello, se
escoge un determinado nivel de confianza, que en nuestro ejemplo es
del 99%, y se procede como sigue:
N.C. 99% => Zc = 2,58
-Se calcula el error tpico de estimacin:
Syx = 1, 8 (en puntuaciones directas y diferenciales)
Szy z x = ~ 1 - O, 64 =O, 60 (en puntuaciones tpicas)
- Clculo del error mximo en funcin del nivel de confianza:
fmx. = Zc Sy.x = 2,58 1,8 = 4,64 (en puntuaciones directas
y diferenciales)
emx. = Zc Szy. Zx = 2,58 0,60 = 1,55 (en puntuaciones tpicas)
- Intervalos confidenciales:
9 4' 64 => 4' 3 6 ~ y ~ 1 3' 64 (en puntuaciones directas)
in sobre la muestra uti-
puntuaciones obtenidas
a la anterior, hacer es-
En nuestro ejemplo que-
la! y tpica se le pronosti-
hubiera obtenido 30
irecta pronosticada)
iferencial pronosticada)
pica pronosticada)
ene una estimacin pun-
terio. Si se quiere precisar
intervalos. Para ello, se
e en nuestro ejemplo es
,58
directas y diferenciales)
tpicas)
nivel de confianza:
(en puntuaciones directas
y diferenciales)
(en puntuaciones tpicas)
aciones directas)
2 4,64 => -2,64::::: y::::: 6,64 (en puntuaciones diferenciales)
0,67 1,55 => -0,88::::: Zy::::: 2,22 (en puntuaciones tpicas)
As se han obtenido los intervalos confidenciales dentro de los cua-
les se espera que se encuentren en el criterio las puntuaciones di-
recta, diferencial y tpica de un sujeto que en el test obtuvo una pun-
tuacin directa de 30 puntos. El intervalo se ha establecido con un
nivel de confianza del 99%, o lo que es lo mismo, con una proba-
bilidad igual o menor de 0,01 de error.
2. La matriz se puede analizar para ver si hay validez convergente y discrimi-
nante. La validez convergente vendr dada por los coeficientes obtenidos
al correlacionar las puntuaciones obtenidas al medir el mismo constructo
con distintos mtodos, a estos coeficientes se les denomina tambin coefi-
cientes monorrasgo-multimtodo. En la matriz estos coeficientes aparecen
en negrilla. Los valores que aparecen entre parntesis en la diagonal de la
matriz son los coeficientes de fiabilidad, tambin se les denomina coefi-
cientes monorrasgo-monomtodo porque se han obtenido al correlacionar
las puntuaciones obtenidas al medir el mismo rasgo con el mismo mtodo.
Para ver si hay validez discriminante hay que analizar si los coeficientes de
correlacin obtenidos al medir el mismo rasgo con distintos mtodos son
mayores que los obtenidos al medir distintos rasgos con el mismo mtodo.
En la matriz estos coeficientes aparecen en cursiva y subrayados y reciben
tambin el nombre de coeficientes multirrasgo- monomtodo.
MTODO 1 MTODO 2 MTODO 3
A1 81 c1 A2 82 c2 A3 83 c3
A1
(.89)
MT.1
81
.49 (.93)
c1
.35 .34 (.80)
A2
.60 .21 .08 (.94)
MT. 2
82
.22 .65 .11 .56 (.98)
c2
.10 .12 .49 .58 .55 (.88)
A3
.58 .22 .11 .73 .41 .34 (.99)
MT.3
83
.20 .58 .10 .40 .68 .23 .66 (.90)
c3
.13 .13 .61 .36 .29 .64 .55 .59 (.95)
335
1 PSICOMETRA .
336
Se puede observar que hay validez convergente y discriminante, puesto
que los coeficientes marcados en negrilla (monorrasgo-multimtodo) son
altos y mayores que los marcados en cursiva y subrayados (multirrasgo-
monomtodo). Al resto de los coeficientes se les denomina multirrasgo-
multimtodo.
3. Soluciones a los ejercicios conceptuales
1. La afirmacin es falsa.
Es el concepto de fiabilidad el que hace referencia a la estabilidad de
las medidas. El concepto de validez hace referencia al grado en que el
test mide aquello que pretende medir.
Durante muchos aos se mantuvo la creencia de que la validez era una
propiedad de los tests; sin embargo, hoy da se reconoce que el con-
cepto de validez hace referencia a las inferencias que se hagan a par-
tir de las puntuaciones obtenidas por los sujetos en los tests. De esta ma-
nera, un mismo test ser vlido para hacer determinadas inferencias y
no tendr ninguna validez para hacer otras.
3. La afirmacin es verdadera.
Dado que la validez no es una propiedad intrnseca a los tests, un test
puede tener varios coeficientes de validez. Hemos definido el coefi-
ciente de validez como la correlacin entre las puntuaciones obtenidas
por los sujetos en el test y las obtenidas en el indicador del criterio;
pues bien, el coeficiente de validez depender, entre otros factores, del
indicador seleccionado.
En el tema siguiente se expondrn otros factores que afectan al coefi-
ciente de validez.
Cuando se lleva a cabo un estudio de validacin de constructo se ob-
tiene evidencia acerca de si realmente el test mide la variable que in-
tenta medir, si mide slo esa variable y si realmente esa variable tiene
una consistencia a nivel terico.
La relevancia y la representatividad son dos aspectos que hay que tener
en cuenta cuando se lleva a cabo un estudio de validacin de conte-
nido. La relevancia implica que los elementos que componen el test
miden realmente algn aspecto o faceta del constructo (o rea de co-
2 y discriminante, puesto
Jrrasgo-multimtodo) son
subrayados (m u lti rrasgo-
~ s denomina multirrasgo-
renci a a la estabilidad de
cia al grado en que el
de que la validez era una
se reconoce que el con-
as que se hagan a par-
en los tests. De esta ma-
rminadas inferencias y
r nseca a los tests, un test
emos definido el coef i-
puntuaciones obtenidas
el indi cador del criterio;
entre otros factores, del
res que afectan al coefi -
ci n de constructo se ob-
mide la variable que in-
lmente esa variable tiene
que hay que tener
de validacin de cante-
que componen el test
constructo (o rea de co-
nacimientos) que se quiere medir, y la representatividad implica que
los tems que conforman el test cubran todas las facetas especificadas
del constructo (o rea de conocimientos).
El error de estimacin es la diferencia entre la puntuacin emprica ob-
tenida por los sujetos en el criterio y la que se les pronostica mediante
la ecuacin de regresin.
El error tpico de estimacin es la desviacin tpica de los errores de
estimacin.
8. La afirma,cin es falsa.
Es la validez relativa al criterio la que permite obtener evidencia acerca
de la capacidad de un test para predecir el criterio elegido.
Dado que se trata de un coeficiente de correlacin, los lmites para el
coeficiente de validez estarn entre -1 y 1.
1 O. La afirmacin es verdadera.
El coeficiente de alienacin al cuadrado es el complementario del
coeficiente de determinacin, por lo tanto a medida que aumenta uno
disminuye el otro.
337
1 PSICOMETRA
9. BIBLIOGRAFA COMPLEMENTARIA
Hay bastantes textos a los que podran acudir nuestros alumnos para el estu-
dio de la validez, pero en castellano merecen destacar por orden alfabtico los
siguientes:
MARTNEZ -ARIAS, M. R. (1995). Psicometra: Teora de los tests psicolgicos y
educativos. Madrid: Sntesis. Captulo 18.
MARTNEZ- ARIAS, M.R.;HERNNDEZ LLOREDA, M.j. y HERNNDEZ LLO-
REDA, M. V. (2006) . Psicometra. Madrid: Alianza Editorial. Captulos 8 y 9.
MUIZ, j. (1998; 2002). Teora Clsica de los Tests. Madrid: Pirmide. Captulo
4.
NAVAS, M.j. (2001). Mtodos, diseos y tcnicas de investigacin psicolgica.
Madrid: UNED. Captulo 7.
SANTISTEBAN, C. (1990). Psicometra. Madrid: Norma. Captulo 15.
338

Tema 6 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tema 6 PDF

Uploaded by

Copyright:

Available Formats

jTEMA 6

VALIDEZ DE LAS INFERENCIAS {1}

You might also like