You are on page 1of 8

Papeles del Psiclogo / Psychologist Papers, 2017. Vol. 38(3), pp.

161-168
Artculos
https://doi.org/10.23923/pap.psicol2017.2844
http://www.papelesdelpsicologo.es
http://www.psychologistpapers.com

QUINTA EVALUACIN DE TESTS EDITADOS EN ESPAA:


MIRANDO HACIA ATRS, CONSTRUYENDO EL FUTURO
Eduardo Fonseca-Pedrero1 y Jos Muiz2
1
Universidad de La Rioja. 2Universidad de Oviedo

La psicologa como ciencia necesita de una continua y rigurosa evaluacin tanto de sus mtodos y procedimientos como de sus tcni-
cas e instrumentos. Los tests, una de las principales herramientas que utilizan los psiclogos en su quehacer diario, no pueden ser una
excepcin. Se hace necesario someter a escrutinio los instrumentos de evaluacin psicolgica mediante un proceso de revisin siste-
mtico, riguroso e independiente que garantice su calidad y utilidad. Con este fin, desde el ao 2010 la Comisin Nacional de Tests
del Colegio Oficial de Psiclogos viene revisando anualmente algunos de los tests ms utilizados por los psiclogos espaoles. Tal
proceso de revisin se basa en un modelo europeo de evaluacin de la calidad de los tests adaptado al espaol y que se operativiza
mediante el Cuestionario de Evaluacin de Tests-Revisado. En este trabajo se presenta la quinta evaluacin de tests editados en Espa-
a. Se evaluaron un total de once tests, participaron un total de cuatro casas editoriales y 24 expertos en un proceso de revisin por
pares. En lneas generales puede afirmarse que la calidad de los tests evaluados fue adecuada, si bien se han encontrado algunas
fortalezas y debilidades. Finalmente se comentan las principales conclusiones y se analizan las posibles lneas de futuro en la evalua-
cin de los tests en Espaa.
Palabras clave. Tests, Uso de los tests, Evaluacin de tests, Psicometra, Calidad de los tests, Medicin.

Psychology, as a science, needs a continuous and rigorous evaluation of both its methods and procedures as well as its techniques and
instruments. The test is one of the main tools used by psychologists in their daily work, and cannot be an exception. The measuring
instruments of psychological evaluation must be analyzed through a systematic, rigorous and independent process that guarantees their
quality and usefulness. To this end, since 2010 the National Test Commission of the Spanish Psychological Association has been
reviewing annually some of the tests most used by Spanish psychologists. This review process is based on the European test review
model adapted to Spanish and it is performed through the Tests Review Questionnaire-Revised. In the present work the fifth evaluation
of tests published in Spain is presented. A total of eleven tests were evaluated, with the participation of four publishing houses, and 24
experts in a peer review process. In general terms, the quality of the measurement instruments evaluated in this fifth revision was
adequate, although there are a number of strengths and weaknesses. Finally the main conclusions are discussed and the possible future
research areas in the evaluation of the tests in Spain are analyzed.
Keywords. Tests, Use of tests, Evaluation of tests, Psychometrics, Quality of the tests, Measurement.
a psicologa como ciencia necesita de una continua y etc.), y por otro, de una acertada preparacin tcnica para su

L rigurosa evaluacin de sus mtodos, procedimientos,


tcnicas e instrumentos. Los tests, una de las principales
correcta utilizacin por parte de los profesionales. Los tests de-
ben tener una calidad y rigor empricamente demostrados.
herramientas que utilizan los psiclogos en su prctica profe- Adems, los psicolgicos deben ser competentes y tener infor-
sional, no pueden ser una excepcin. A partir de ellos se to- macin contrastada que les permita seleccionar aquellos tests
man decisiones que afectan a la vida de las personas y a las ms adecuados para su propsito (Hernndez, Ponsoda, Mu-
organizaciones teniendo un claro impacto en la sociedad. Por iz, Prieto, y Elosua, 2016). Todo ello queda recogido en el
ende, los tests se deben someter a escrutinio mediante un pro- Cdigo Deontolgico del Psiclogo y en las distintas directrices
ceso de revisin sistemtico, riguroso e independiente que ga- desarrolladas a tal efecto tanto a nivel nacional como interna-
rantice su calidad y utilidad. Como sealan Muiz et al. cional (Muiz, 1997; Muiz y Bartram, 2007). Por ejemplo, el
(2011), la utilizacin correcta de los tests requiere, por un la- artculo 17 del Cdigo Deontolgico menciona que el psiclo-
do, de instrumentos con adecuadas propiedades psicomtricas go tiene que estar profesionalmente preparado y especializado
(p.ej., fiabilidad de las puntuaciones, evidencias de validez,
en la utilizacin de mtodos, instrumentos, tcnicas y procedi-

Recibido: 10 mayo 2017 - Aceptado: 30 agosto 2017


mientos que adopte en su trabajo y debe reconocer los lmites

Correspondencia: Eduardo Fonseca-Pedrero. Departamento de


de su competencia y las limitaciones de sus tcnicas.
Ciencias de la Educacin. Universidad de La Rioja. C/ Luis de
Ulloa, 2, Edificio VIVES. 26004 Logroo, La Rioja. Espaa.
El Consejo General de la Psicologa de Espaa (COP) desde

E-mail: eduardo.fonseca@unirioja.es
el ao 2010 viene revisando, de forma anual, los tests editados
en Espaa (Elosua y Geisinger, 2016; Hernndez, Toms, Fe-

161
Artculos QUINTA EVALUACIN DE TESTS

rreres, y Lloret, 2015; Muiz et al., 2011; Ponsoda y Hontan- Evers et al., 2017). Para dar respuesta a estas y otras cuestio-
gas, 2013). Hernndez et al. (2016) indican que el objetivo l- nes la Comisin de Tests de la European Federation of Psycho-
timo de la evaluacin de la calidad de los tests utilizados en logists Associations (EFPA, http://www.efpa.eu/) desarroll
Espaa es proporcionar a los usuarios de instrumentos de y un modelo de evaluacin tests que fue adaptado al espaol
evaluacin psicolgica informacin precisa y accesible sobre la por Prieto y Muiz (2000). En el ao 2010 la Comisin Nacio-
calidad de los tests disponibles. Actualmente se acaba de fina- nal de Tests del COP decidi poner en marcha la primera revi-
lizar la quinta edicin. El principal objetivo de este artculo es sin de tests cuyos resultados fueron publicados en el 2011
presentar los principales resultados de esta ltima evaluacin (Muiz et al., 2011). Posteriormente, casi de forma anual, se
de los tests editados en espaa. El primer lugar se realiza un ha venido realizando una nueva revisin de tests. La evolucin
breve recorrido histrico donde se examinan los principales hi- histrica del proceso de evaluacin de tests editados en Espa-
tos del proceso de evaluacin de tests editados en nuestro pas. a as como la informacin relevante de cada evaluacin
Se pretende ofrecer con ello una panormica del estado actual anual se recoge en la Figura 1. Todos los tests evaluados en
de la cuestin. A continuacin se detalla de forma pormenori- las cinco revisiones se presentan en la Figura 2. Asimismo, los
zada el proceso de revisin y los principales resultados de esta resultados de todas y cada una de las evaluaciones realizadas
quinta evaluacin de tests. Finalmente, en tercer lugar, se co- hasta la fecha se encuentran disponibles en la web del COP:
mentan las principales conclusiones as como futuras lneas de https://www.cop.es/index.php?page=evaluacion-tests-
trabajo. editados-en-espana. Se invita a los profesionales a visitar y
analizar los tests evaluados. Como se puede observar en las Fi-
EVALUACIN DE TESTS EN ESPAA: EL CAMINO guras 1 y 2 hasta el momento se han revisado un total de 55
RECORRIDO tests procedentes de diferentes casas editoriales, han participa-
Cuando se les pregunta a los profesionales de la psicologa do ms de 100 revisores y cinco coordinadores. Es digno de
cuales son las principales demandas sobre el uso de tests refie- mencin que el nmero de expertos que revisan las pruebas no
ren, entre otras, la necesidad de disponer informacin tcnica es la suma aritmtica de las cinco evaluaciones, pues algunos
y psicomtrica sobre los mismos que les ayude a tomar deci- de ellos han participado en varias ediciones. Tambin se quie-
siones fundamentadas (Muiz y Fernndez-Hermida, 2010; re mencionar que los profesionales utilizan estos informes dis-

FIGURA 1
EVOLUCIN HISTRICA DEL PROCESO DE EVALUACIN DE TESTS EDITADOS EN ESPAA

Adaptacin del
Modelo europeo modelo de
de evaluacin de evaluacin de Primera Segunda Tercera Cuarta Revisin del Quinta
tests tests evaluacin evaluacin evaluacin evaluacin modelo espaol evaluacin

1999 2000 2011 2013 2015 2016 2016 2017

Prieto y Vicente Ana Paula Hernndez Eduardo


EFPA Jos Muiz
Muiz Ponsoda Hernndez Elosua et al. Fonseca

CET: 10 tests y 12 tests y 11 tests y 11 tests y CET-R: 11 tests y


http://www.
Cuestionario 20 revisores 25 revisores 22 revisores 22 revisores Cuestionario 24 revisores
efpa.eu/
de de
Evaluacin Evaluacin
de Tests de Tests-
http://www. http://www. http://www. http://www. Revisado https://www.
Revisado papelesdelp papelesdelp papelesdelp papelesdelp cop.es/inde
en 2013 sicologo.es/ sicologo.es/ sicologo.es/ sicologo.es/ x.php?page
http://www.pa resumen?pii resumen?pii resumen?pii resumen?pii http://www.co =evaluacion
pelesdelpsico =1947 =2232 =2484 =2693 p.es/uploads/ -tests-
logo.es/resu pdf/CET- editados-
http://www.
men?pii=110 R.pdf en-espana
psicothema.
2
com/psicoth
ema.asp?id
=4112
http://www.pa
pelesdelpsicol
ogo.es/resum
en?pii=2775

162
EDUARDO FONSECA-PEDRERO Y JOS MUIZ
Artculos

ponibles en la pgina web del COP. Un indicador de ello pue- National Council on Measurement in Education, 2014) (p.
de ser el nmero de descargas de estos informes. Con este fin ej., las referidas a la obtencin de evidencias de validez y su
se ha realizado un anlisis del volumen de descargas en el pe- taxonoma) llevaron a la modificacin del CET dando lugar al
riodo comprendido entre los aos 2012 y 2017. De aos ante- CET-Revisado (CET-R). Estos cambios se han introducido en la
riores no se dispone de esta informacin. Los resultados del presente quinta evaluacin de tests. Para una anlisis ms
nmero de descargas es el siguiente: Sistema para la Evalua- detallado de los cambios introducidos se puede consular el
cin de la Conducta Adaptativa n=105, Inventario Breve de 18 excelente trabajo de Hernndez et al. (2016). Adems, el
Sntomas n=101, Escala de Memoria de Wechsler-IV n=65, Test CET-R se puede descargar en el siguiente enlace:
Boehm de Conceptos Bsicos-3 Preescolar n=101, Batera de http://www.cop.es/uploads/pdf/CET-R.pdf. El CET-R, al igual
Evaluacin Cognitiva de la Lectura y Escritura n=97, Cuestiona- que su versin predecesora, incorpora tres grandes apartados:
rio Oviedo para la Evaluacin de la Esquizotipia n=94, Inventa- a) descripcin general del test; b) valoracin de las caractersti-
rio de Ansiedad de Beck n=111, Inventario de Depresin de cas del test (p.ej., fiabilidad, evidencias de validez, etc.); y c)
Beck-II n=104, Cuestionario para la Deteccin de los Trastornos valoracin global del test. Es una herramienta interesante a uti-
del Comportamiento en Nios y Adolescentes n=105, Inventario lizar por todos los profesionales de la psicologa no solo con fi-
Multifsico de la Personalidad de Minnesota-2 Reestructurado nes prcticos o profesionales sino tambin con fines formativos.
n= 164, Escala de inteligencia de Wechsler para nios-IV Ms an, el CET-R puede ser utilizado a modo de gua o estn-
n=134 y 16 Factores de Personalidad, quinta edicin n=119. dar, contribuyendo a mejorar el proceso de construccin y edi-
El modelo desarrollado por la EFPA para la evaluacin de la cin de tests publicados en Espaa, aspecto que redunda a su
calidad de los tests se operativiza en un instrumento de medi- vez en la capacidad de toma de decisiones por parte de los
da denominado Cuestionario de Evaluacin de Tests (CET) profesionales de la psicologa.
(Muiz et al., 2011). El CET permite una evaluacin cualitati- El proceso de revisin de tests comienza por la designacin
va y cuantitativa del test que es objeto de revisin, esto es, tra- por parte de la Comisin Nacional de Tests de COP de un coor-
ta de examinar su calidad y utilidad. El CET se puede dinador para la evaluacin de ese ao. Esta comisin en cola-
consultar en el trabajo de Muiz et al. (2011). Posteriormente, boracin con los editores tambin designa los tests que sern
en el ao 2013, la EFPA revis este modelo de evaluacin revisados en esa anualidad. Una vez seleccionados los tests, en-
(Evers et al., 2013). Los cambios introducidos en el modelo tre 10 o 12 segn el ao, el coordinador selecciona un conjunto
unido a modificaciones sugeridas en las diferentes evaluacio- de expertos en la temtica que revisan las pruebas mediante un
nes anuales por los coordinadores y revisores as como a las proceso de evaluacin por pares (similar al que se utiliza en la
nuevas directrices de los Standards (American Educational Re- revisin de artculos cientficos). La seleccin de estos revisores
search Association, American Psychological Association, y se lleva a cabo siempre de acuerdo a unos criterios y estnda-

FIGURA 2
RELACIN DE TESTS REVISADOS EN LAS CINCO EVALUACIONES

Primera evaluacin Segunda evaluacin Tercera evaluacin Cuarta evaluacin Quinta evaluacin
(2011) (2013) (2015) (2016) (2017)

BAI CSE
WAIS-III ABAS-II
BAS-II BECOLE BADYG-E3
WISC-IV BADyG/M-r
BDI-II BOHEM-3 CAEPO
MCMI-III BETA
CEAM BOHEM-3- EDI-3
MMPI-2-RF BSI-18
CompeTEA Preescolar EVAPROMES
16PF-5 CECAD
EPV-R CESQT LAEA
PROLEC-R EHPAP
ESCOLA ECLE MABC-2
EFAI PAIB-1
ESPERI ESQUIZO-Q NEPSY-II
NEO PI-R PECC
Merrill-Pamer-R ECI PAIB 2 y 3
EVALUA SCIP
PAI SOC PRO 1-2 y 3
IGF WMS-IV
RIAS/RIST TRAUMA TEMT
WPPSI-IV
WNV WAIS-IV WISC-V

163
Artculos QUINTA EVALUACIN DE TESTS

res cientficos, que con puntuales modificaciones, se mantienen quieren comentar de forma breve aquellos aspectos especficos
invariantes a travs de las sucesivas evaluaciones. Se seleccio- concernientes a la quinta evaluacin de tests. Una vez designado
nan dos revisores, siempre que las circunstancias lo permitan, los tests a valorar el coordinador (primer autor de este trabajo)
uno de ellos con un perfil ms tcnico-psicomtrico, y otro con realiz una seleccin de expertos para la revisin de los tests, a
un perfil ms centrado en aspectos sustantivos. Se garantiza su los cuales se les envi una invitacin formal por email (enero
anonimato referido a la prueba que valora, se solicita su parti- 2016). De los seleccionados solo dos de ellos no pudieron parti-
cipacin y la ausencia de conflicto de intereses. En la gran ma- cipar, por motivos totalmente comprensibles, por lo que se selec-
yora de los casos, y salvo causas de fuerza mayor, los cionaron otros dos nuevos revisores. A continuacin se procedi
revisores aceptan gratamente la tarea encomendada. A todos al envo del material que inclua el modelo de evaluacin (CET-
los revisores se les entrega una copia del test que van a evaluar R), las instrucciones de cumplimentacin y el test a evaluar (do-
(cedido de forma gratuita por los editores) as como una gratifi- cumentacin, CD, hojas de correccin, etc.) (marzo/abril 2016).
cacin econmica simblica de 50 euros. Cada revisor realiza Durante todo este proceso se solucionaron todas aquellas posi-
un informe independiente del test que enva al coordinador en bles dificultades y cuestiones que fueron surgiendo. Por ejemplo,
un plazo de tres meses. Obviamente durante todo el proceso el a modo anecdtico una de las pruebas fue enviada a EEUU.
coordinador est abierto a responder a cualquier duda o suge- Cuando revisor recibi el test este lleg abierto ya que haba si-
rencia tanto de los revisores como de los editores. A continua- do inspeccionado en aduanas. Entre los meses de julio y sep-
cin el coordinador analiza los comentarios y puntuaciones tiembre de 2016 los revisores fueron enviando las evaluaciones
procedentes de los dos revisores y confecciona un primer infor- al coordinador. A continuacin el informe preliminar se remiti a
me final. Este informe es enviado a las respectivas casas edito- los editores que respondieron de forma eficaz entre los meses de
riales que, en un plazo de aproximadamente de un mes, noviembre y diciembre de 2016. Finalmente entre diciembre de
responden de forma razonada, si as fuera el caso, a aquellos 2016 y enero del 2017 se confeccionaron los informes finales
comentarios y/o puntuaciones que estimen oportuno. De esta que fueron enviados al COP y fueron colgados en la pgina web
forma todas las partes implicadas forman parte del proceso. Fi- anteriormente citada.
nalmente, con dichos comentarios el coordinador elabora un in-
forme final de cada test que es enviado a la Comisin Nacional Tests y revisores seleccionados
de Tests y que posteriormente es subido a la pgina web para Los tests seleccionados en la quinta evaluacin se recogen en
su consulta (vase el link arriba). Cabe subrayar dos aspectos la Tabla 1. Como se puede observar fueron un total de 11 pro-
importantes, en primer lugar, el proceso de evaluacin de las cedentes de cuatro casas editoriales (CEPE, EOS, PEARSON,
pruebas es totalmente independiente tanto de las editoriales y TEA). La lista original de tests seleccionados por la Comisin
autores de los tests, como del COP, solo depende de los evalua- Nacional de Tests para esta quinta evaluacin sufri dos lige-
dores y del coordinador de la evaluacin. Como todo proceso ras modificaciones que se comentan a continuacin. Primera,
de evaluacin por pares no es perfecto, nada humano lo es, pe- originalmente fueron 12 las pruebas elegidas. Se haba inclui-
ro nos parece el mejor de los posibles. En segundo lugar, la do el Personality and Preference Inventory (PAPI), comercializa-
evaluacin de los tests no constituye una certificacin de las do en Espaa por FACTHUM y cuyo propietario internacional
pruebas por parte de la Comisin de Tests del COP, se trata de es CUBIKS limited, no obstante el director de la casa editorial
una evaluacin en la que se ponen sobre la mesa los puntos CUBIKS limited explic en una carta debidamente razonada al
fuertes y dbiles de las pruebas tal como los estiman los evalua- COP que el PAPI se encontraba en pleno proceso de actualiza-
dores en un momento dado, siguiendo el modelo de evaluacin cin, por lo que sera necesario posponer su evaluacin para
de tests CET-R. La filosofa que gua las evaluaciones de los tests futuras ediciones. Segundo, tambin se seleccion el Test de In-
no es la censura de las pruebas, se trata de ayudar a los edito- teligencia Verbal-E2 (INVE-E2) de CEPE, que por estar tambin
res y autores a mejorar sus tests, aportando las evidencias de en proceso de actualizacin, se acord por unanimidad susti-
validez que garanticen las inferencias hechas a partir de las tuirlo por la batera PAIB 2 y 3. Todos estos cambios fueron
puntuaciones. Como bien sealara el egregio fsico Lord Kelvin, consensuados tanto por la Comisin Nacional de Tests del
aquello que no se evala no se puede mejorar. COP como por los respectivos editores.
En la Tabla 2 se recogen los 24 revisores que participaron en
QUINTA EVALUACIN DE TESTS esta quinta evaluacin de tests. Como se coment anteriormen-
En este apartado se comentan el proceso de evaluacin, los te se seleccionaron dos para cada prueba, si bien en dos casos
tests revisados, los revisores participantes y los principales re- concretos donde se encontraron claras divergencias entre revi-
sultados de la quinta evaluacin de tests editados en Espaa. sores se seleccion un tercero que ayud al coordinador a con-
feccionar el informe final del respectivo test. La seleccin de los
Proceso de evaluacin revisores se llev a cabo considerando, en la medida de lo po-
El proceso de revisin general que se ha seguido en la presente sible y al igual que en evaluaciones previas, los siguientes cri-
evaluacin se ha mencionado anteriormente, si bien aqu se terios: a) ausencia de conflicto de intereses u otras cuestiones

164
EDUARDO FONSECA-PEDRERO Y JOS MUIZ
Artculos

ticas; b) ampliar las instituciones participantes en la evalua- TABLA 1


cin nacional de tests (p. ej., consejeras de sanidad y educa- RELACIN DE INSTRUMENTOS DE MEDIDA ANALIZADOS
cin, psiclogos clnicos, entidades de evaluacin y medicin EN LA QUINTA EVALUACIN DE TESTS
extranjeras, etc.); c) no haber participado en evaluaciones pre-
vias; y d) jvenes investigadores o profesionales de la psicolo- Acrnimo Test Editorial

ga. Se pretendi abrir el abanico de revisores y expertos fuera NEPSY-II NEPSY-II Batera Neuropsicolgica Infantil Pearson Education
de la academia y ms all del contexto espaol, aspecto que
WISC-V Escala de Inteligencia de Wechsler para Pearson Education
pretenda, en esencia, dar a conocer y extender el uso del mo- Nios-V
delo espaol de evaluacin de tests entre los profesionales de
MABC-2 Evaluacin de la Batera de Evaluacin Pearson Education
la psicologa. Queremos mostrar nuestro ms sincero agradeci- del Movimiento para nios-2
miento al buen hacer de todos los revisores y editores que han
TEMT Test de Evaluacin Matemtica Temprana EOS
participado en esta quinta evaluacin, este proceso no hubiese
EVAPROMES Evaluacin de los Procesos Metacognitivos EOS
llegado a buen puerto sin su estimable ayuda y colaboracin.
en Escritura

LAEA Listado de Adjetivos para la Evaluacin TEA ediciones


Resultados
del Autoconcepto
En la Tabla 3 se recogen los principales resultados derivados
EDI-3 Inventario de Trastornos de la Conducta TEA ediciones
de la quinta evaluacin de tests en Espaa. Como se puede ob-
Alimentaria-3
servar las puntuaciones fueron, en la mayora de los casos, su-
CAEPO Cuestionario de Afrontamiento al Estrs TEA ediciones
periores a 3,5 (calificacin de buena a excelente). Del total de para Pacientes Oncolgicos
valoraciones nicamente en cuatro casos las puntuaciones fue-
BADYG-E3 Batera de Aptitudes Diferenciales y CEPE, S.L.
ron inferiores a 3. Como fortalezas se debe mencionar que los Generales Renovado E3
tests revisados presentan, en trminos generales, una excelente
PRO 1-2 y 3 Prueba de Rendimiento Ortogrfico CEPE, S.L.
calidad de sus materiales y documentacin, adecuados niveles Primaria (1-2) y Secundaria (3)
de fiabilidad y excelentes baremos adems de suficientes evi-
PAIB 2 y 3 Prueba de Aspectos Instrumentales Bsicos CEPE, S.L.
dencias de validez. Como limitaciones o debilidades se podr- en Lenguaje y Matemticas (2 y 3)
an mencionar la falta de estudios sobre funcionamiento
diferencial de los tems en algunos de los tests analizados o la
total ausencia de anlisis psicomtricos bajo el prisma de la TABLA 2
Teora de Respuesta a los tems (TRI). REVISORES QUE HAN PARTICIPADO EN LA
Hay dos aspectos que requieren un comentario: a) la dificultad QUINTA EVALUACIN DE TESTS
a la hora de interpretar, analizar y puntuar determinados tems
Nombre Filiacin
del CET-R como, por ejemplo, los referidos al anlisis de tems o
la validez criterial; y b) en dos casos concretos se hallaron dife- Carmen Garca Garca Universidad Autnoma de Madrid
rencias sustanciales entre las puntuaciones y comentarios envia- Javier Surez lvarez Universidad de Oviedo
dos al coordinador por los dos revisores, por lo que hubo que Beatriz Lucas Molina Universidad de Valencia
Alicia Prez de Albniz Universidad de La Rioja
recurrir a una tercera opinin. Referente al primer punto resulta-
Javier Ortuo-Sierra Universidad Loyola Sevilla
dos similares se han encontrado en evaluaciones previas (Elosua Flix Inchausti Gmez Consejera de Salud de Navarra
y Geisinger, 2016; Hernndez Baeza et al., 2015; Muiz et al., Jorge Lpez Puga Universidad Catlica de Murcia
2011; Ponsoda y Hontangas, 2013). En este sentido algunos de Ana Vanesa Valero Universidad de La Rioja
los tems del CET-R parecen ser difciles de valorar por los exper- Irene Solbes Canales Universidad Complutense de Madrid
tos. Ya en evaluaciones previas, y con la finalidad de subsanar Joan Gurdia Olmos Universidad de Barcelona
David lvarez Garca Universidad de Oviedo
esta limitacin, se recurri a incorporar unas pautas generales
Ricardo Olmos Albacete Universidad Autnoma de Madrid
para la utilizacin del CET/CET-R as como una mayor explica- Isabel Bentez Baena Universidad de Loyola Sevilla
cin de algunos de los tems. No obstante, parece ser que esta Susana Al-Halab Daz Universidad de Oviedo
dificultad contina en la quinta evaluacin. Referente al segundo Glora Garca Fernndez Universidad Complutense de Madrid
punto (parcialmente relacionado con el anterior) no cabe duda Susana Sierra Baigrie Universidad de Oviedo
que el proceso de revisin por pares es uno de los muchos posi- Cristina Anguiano Carrasco Educational Testing Service (ETS)
Mercedes Paino Piero Universidad de Oviedo
bles para la evaluacin de la calidad de tests, y tiene pros y con-
Roberto Lozano Herce Consejera de Educacin de La Rioja
tras. En el mundo de revisin por pares, bien sea de artculos Silvia Sastre i Riba Universidad de La Rioja
cientficos, proyectos, contratos, o en nuestro caso tests, es fre- Juana Gmez Benito Universidad de Barcelona
cuente encontrar discrepancias entre los revisores, por lo que Joan Pere Ferrando Universidad Rovira i Virgili
hay que recurrir a un tercer evaluador e incluso a varias rondas Nekane Balluerka Lasa Universidad del Pas Vasco
de evaluacin. Es algo consustancial al proceso de revisin y no Maite Garaigordobil Landazabal Universidad del Pas Vasco

165
Artculos QUINTA EVALUACIN DE TESTS

necesariamente se debe interpretar como algo negativo. En futu- bajo la ptica de la TRI que aadan informacin, entre otros
ras ediciones tal vez sera necesario seguir mejorando la com- aspectos, de las curvas caractersticas de los tems o de las fun-
prensin de algunos de los tems del CET-R, aspecto que se ciones de informacin de los tests. Se debe recordar que el es-
podra solventar, por ejemplo, desarrollando video-tutoriales, tudio del funcionamiento diferencial de los tems, permite
ejemplos concretos o incorporando ms informacin tcnica-psi- garantizar, en cierta medida, la equidad en el proceso de me-
comtrica en el CET-R. dicin. La ausencia de funcionamiento diferencial en un tem
supone que la probabilidad de respuesta correcta depende
ALGUNAS CONCLUSIONES nicamente del nivel del participante en la variable objeto de
Tras un lustro de evaluaciones de tests editados en Espaa se medicin, y no est condicionada por la pertenencia a un gru-
puede decir que el proceso se est consolidando y goza de bue- po o caracterstica (p. ej., gnero, cultura, etnia, etc.). En su-
na salud, no obstante todava nos encontramos en los estadios ma, hay que garantizar que la evaluacin se lleva a cabo con
iniciales, ms an si nos comparamos con otros pases, por equidad y de forma justa. Los autores del presente trabajo son
ejemplo Holanda, que ha evaluado todos los tests editados en plenamente conocedores de que tanto los investigadores y los
ese pas (Evers, 2012), o Estados Unidos, donde la organizacin profesionales de la psicologa como los editores estn traba-
especializada BUROS ya ha evaluado ms de 10.500 tests (Elo- jando intensamente en estas y otras lneas de inters.
sua y Geisinger, 2016). Hasta el momento en Espaa se han re- El CET-R parece ser una herramienta interesante para mejorar
visado un total de 55 tests procedentes de diferentes casas el uso de los tests y la prctica profesional de los psiclogos. Co-
editoriales, han participado ms de 100 revisores y cinco coor- mo bien sealan Elosua y Geisinger (2016) la publicacin de re-
dinadores. Actualmente ya se ha comenzado la sexta revisin, visiones independientes sujetas a procedimientos estandarizados
coordinada por la Catedrtica de la Universidad de Murcia Ma- y criterios cientficos suponen un impulso en el proceso continuo
ra Dolores Hidalgo Montesinos. En trminos generales, la eva- de la mejora de la construccin/edicin/uso de tests. Adems,
luacin de la calidad de los tests mediante el CET/CET-R en las el CET-R es una herramienta que se podra utilizar a modo de
ltimas cinco evaluaciones arrojan unos resultados que demues- gold standard, obviamente reconocimiento sus limitaciones, para
tran que nuestros tests tiene una calidad razonablemente buena, ayudar a la formacin tanto de los futuros profesionales de la
con claras fortalezas pero tambin aspectos a mejorar. psicologa como en los cursos de reciclaje adems de la cons-
La incorporacin del CET-R en esta quinta evaluacin ha sido truccin/edicin de tests. La formacin y concienciacin por par-
totalmente adecuada. Adems, los resultados encontrados tan- te de los profesionales y diferentes organizaciones es necesaria
to a nivel cuantitativo como cualitativa han sido plenamente sa- ya que el uso (in)correcto de los tests tiene claras repercusiones
tisfactorios, si bien es cierto que se tienen que incorporar en la vida de las personas u organizaciones que son objeto de
nuevos datos sobre el estudio del funcionamiento diferencial de evaluacin y medicin. Una correcta utilizacin de los tests, en
los tems o invarianza de medicin, as como nuevos estudios cualquiera de innumerables mbitos donde se usan, mejorar

TABLA 3
RESUMEN DE LAS CALIFICACIONES DE LOS TESTS ANALIZADOS EN LA QUINTA EVALUACIN

Tests

Caractersticas NEPSY-II WISC-V MABC-2 EVAPROMES TEMT LAEA EDI-3 CAEPO BADYG-E3 PRO 1-2 y 3 PAIB 2 y 3
Materiales y documentacin 5 5 5 4 5 4 5 3,5 4,5 4 4
Fundamentacin terica 5 5 5 4,5 5 5 5 3,5 5 5 4
Adaptacin 4 4,5 5 5 5
Anlisis de los tems 4,5 4 4 4,5 4 4 5 4 4
Validez: contenido 4 5 4 4 4 4 4,5 5 3,5 4
Validez: relacin con otras variables 3,5 4,5 4 4,5 3,5 4 4 2,5 3,5 2,5 3
Validez: estructura interna 4,5 4,5 4 3,5 4 5 3 4 3 2
Validez: anlisis del DIF 3 5 4
Fiabilidad: equivalencia 3
Fiabilidad: consistencia interna 4 5 4 5 4,5 4,5 4 4,5 5 4 4
Fiabilidad: estabilidad 3,5 4 3 3 5 3,5
Fiabilidad: TRI
Fiabilidad: inter-jueces 5 5 5
Baremos e interpretacin de puntuaciones 4 5 4,5 4 4,5 5 4,5 2,5 5 3,5 3,5

Nota. Las puntuaciones de la tabla estn hechas en una escala de 1 a 5, y corresponden a las siguientes valoraciones: 1 = inadecuada; 2 = adecuada pero con carencias; a partir de
2,5 = adecuada; a partir de 3,5 = buena; a partir de 4,5 = excelente. Cuando aparece el smbolo (-) significa que no se aporta informacin o no procede.

166
EDUARDO FONSECA-PEDRERO Y JOS MUIZ
Artculos

sin lugar a dudas la prctica profesional, y como no, la visin de luacin emergentes: los tests adaptativos informatizados (TAIs)
la psicologa como ciencia y profesin. y la evaluacin ambulatoria.
El proceso de revisin de tests es laborioso y complejo, ade- Los TAIs, aunque se llevan utilizando bastantes aos, todava
ms de enriquecedor. Este proceso de evaluacin de tests edi- no se ha extendido su uso, por lo que siguen siendo una intere-
tados en Espaa se encuadra dentro de un conjunto ms sante lnea futura de trabajo (Olea, Abad, y Barrada, 2010;
amplio de organizaciones y de directrices internacionales para Zenisky y Luecht, 2016). En Espaa actualmente se est traba-
el buen uso de los tests. Por ejemplo, como bien seala Elosua jando en varios proyectos, por ejemplo, la evaluacin de la in-
(2017), la Comisin Internacional de Tests (ITC, International teligencia desde el modelo de matrices de RAVEN, la
Test Commission) ha desarrollado seis conjuntos de directrices: evaluacin del clima organizacional en contextos laborales o
a) traduccin y adaptacin de tests; b) uso de los tests; c) tests la evaluacin de la personalidad emprendedora en jvenes.
computerizados y tests administrados por internet; d) seguri- La evaluacin ambulatoria es un tema de estudio clsico en
dad de los tests, exmenes y otras evaluaciones; e) control de psicologa, si bien est resurgiendo con nuevos bros en la ac-
calidad de puntuaciones de los tests, su anlisis y los informes tualidad (Trull y Ebner-Priemer, 2009, 2013; van Os, Delespaul,
sobre las puntuaciones; y f) uso profesional de revisiones de los Wigman, Myin-Germeys, y Wichers, 2013). La evaluacin am-
tests, tests obsoletos y retiradas de tests. Muchas de ellas han bulatoria abarca una amplia gama de mtodos de evaluacin
sido traducidas al espaol por los miembros de la Comisin que tratan de estudiar las experiencias de las personas en su en-
Nacional de Tests del COP (Hernndez et al., 2016; Muiz, torno natural y en la vida diaria. Debido a ciertas limitaciones
Elosua, y Hambleton, 2013). Para una informacin ms deta- de los tests tipo autoinforme (p. ej., sesgo retrospectivo, contexto
llada invitamos al lector a visitar la pgina web de la ITC en la de evaluacin artificial, etc.) recientes investigaciones proponen
seccin guidelines (https://www.intestcom.org/) as como ex- desplazarse, o al menos incorporar, nuevas formas de evalua-
celentes trabajos previos (Leong, Bartram, Cheung, Geisinger, cin, que permitan comprender determinadas variables y cons-
y Iliescu, 2016; Wells y Faulkner-Bond, 2016). tructos psicolgicos desde una perspectiva ms dinmica,
personalizada, contextual y ecolgica. Se pretende analizar utili-
CONSTRUYENDO EL FUTURO zando registros estructurados de preguntas las conductas, los
En los ltimos aos los avances en evaluacin y medicin psico- sentimientos, las cogniciones, las emociones y/o los sntomas de
lgica y educativa han sido evidentes (Fonseca-Pedrero y Muiz, las personas mediante dispositivos mviles en su contexto real
2016), y todo hace pensar que el futuro nos deparar muchos diario. Para ello habitualmente se realizan evaluaciones varias
ms. A continuacin se comentan algunas lneas de investigacin veces al da durante un perodo temporal (tpicamente una se-
futuras concernientes a la evaluacin de la calidad de los tests. mana) que permita captar la variabilidad de los fenmenos. Las
Estas lneas se insertan, como no puede ser de otro modo, dentro preguntas se activan mediante un beep en un marco temporal
del marco ms general de la evaluacin psicolgica y educativa. fijado por el investigador, por ejemplo, entre las 10 am y las 10
Primero, habr que evaluar al evaluador, es decir, por un la- pm. Adems, estos beeps pueden presentarse de forma alea-
do tendremos que estimar las propiedades psicomtricas del toria y/o en intervalos de tiempo predeterminados, por ejemplo,
modelo de evaluacin CET-R, y por otro la fiabilidad interjue- cada 90 minutos. A lo largo de cada da se recogen diferentes
ces de los revisores de los tests. Son tareas pendientes. Ade- muestras de comportamiento, aproximadamente 6-8 por da du-
ms, sera muy conveniente desarrollar una versin web del rante 7 das. Todos estos datos se vuelcan a una plataforma pa-
CET-R que pudiera ser utilizada por los profesionales. ra su anlisis posterior. Se trata, pues, de un abordaje
Segundo, y dado que la psicologa como ciencia y profesin complementario a los procedimientos tradicionales de evalua-
se encuentra en continua evolucin, es sumamente importante cin psicomtrica basada en el lpiz y papel en contextos ms o
que el modelo de evaluacin de calidad de tests (CET-R) se menos artificiales y de corte ms bien transversal y retrospectivo.
adapte rpidamente a aquellos hechos ms destacables que Tercero, se tiene que contemplar la posibilidad de incorporar
acontezcan en el rea de la evaluacin y medicin psicolgica al modelo de evaluacin de tests (CET-R) nuevos modelos psi-
y educativa. Por ejemplo, son interesantes las nuevas formas comtricos como el anlisis de redes (Borsboom y Cramer,
de evaluacin que nos llegan de la mano de las nuevas tecno- 2013; Fonseca-Pedrero, 2017), los modelos multidimensiona-
logas. El gran cambio en el mbito de la tecnologa utilizada les dentro de la TRI (Reckase, 2009) u otros modelos matemti-
en la evaluacin es el paso progresivo de las pruebas de papel cos procedentes de la teora de los sistemas dinmicos o la
y lpiz clsicas a la utilizacin de la tecnologa informtica. teora del caos (Nelson, McGorry, Wichers, Wigman, y Hart-
Autores como Drasgow (2016) o Sireci y Faulkner-Bond mann, 2017), por citar algunos.
(2016) indican que las nuevas tecnologas estn influyendo so- Finalmente, la continua formacin de los profesionales de la
bre todos los aspectos de la evaluacin psicolgica, tales como psicologa es la piedra angular para los aos venideros, pues
el diseo de los tests, la construccin de los tems, la presenta- cada vez ser ms frecuente e ineludible poseer un conoci-
cin de los tems, la puntuacin de los tests y la evaluacin a miento en tcnicas y procedimientos de evaluacin que vayan
distancia, por citar algunas. Citaremos solo dos formas de eva- ms all de la mera administracin de pruebas tipo tests o en-

167
Artculos QUINTA EVALUACIN DE TESTS

trevistas. El desarrollo de las neurociencias y de la robtica, as Hernndez Baeza, A., Toms, I., Ferreres, A., y Lloret, S.
como los enfoques traslacionales y multidisciplinares en ciencia (2015). Tercera evaluacin de tests editados en Espaa. Pa-
son un claro ejemplo. peles del Psiclogo, 36, 18.
Se percibe una atmsfera de cambio entre los profesionales Leong, F. T. L., Bartram, D., Cheung, F. M., Geisinger, K. ., y
de la psicologa. Con total seguridad, mucho de las nuevas l- Iliescu, C. (2016). The ITC International Handbook of Testing
neas de investigacin comentadas aqu se irn consolidando and Assessment. New York: Oxford University Press.
en los aos venideros. El camino que queda por recorrer es, Muiz, J. (1997). Aspectos ticos y deontolgicos de la evalua-
sin duda alguna, fascinante. cin psicolgica. En A. Cordero (Coord.), La Evaluacin psi-
colgica en el ao 2000. Madrid: TEA Ediciones. (pgs.
AGRADECIMIENTOS 307-345).
Deseamos expresar nuestro ms sincero agradecimiento a los Muiz, J. y Bartram, D. (2007). Improving international tests
miembros de la Comisin Nacional de Tests y al personal ad- and testing. European Psychologist, 12(3), 206-219.
ministrativo del COP, as como a los revisores y a las distintas Muiz, J., Elosua, P., y Hambleton, R. K. (2013). Directrices
casas editoriales, sin cuya ayuda y colaboracin este trabajo para la traduccin y adaptacin de los tests: segunda edi-
no se hubiese podido realizar. cin. Psicothema, 25, 151157.
Muiz, J., y Fernndez-Hermida, J. R. (2010). La opinin de
CONFLICTO DE INTERESES los psiclogos espaoles sobre el uso de los tests. Papeles
No existe conflicto de intereses del Psiclogo, 31, 108121.
Muiz, J., Fernndez-Hermida, J. R., Fonseca-Pedero, E., Cam-
REFERENCIAS pillo-lvarez, ., y Pea-Surez, E. (2011). Evaluacin de
American Educational Research Association, American Psycho- los tests editados en Espaa. Papeles del Psiclogo, 32,
logical Association, y National Council on Measurement in 113128.
Education. (2014). Standards for Educational and Psycholo- Nelson, B., McGorry, P. D., Wichers, M., Wigman, J. T. W., y
gical Testing. Washington, D.C.: Author. Hartmann, J. A. (2017). Moving from static to dynamic mo-
Borsboom, D., y Cramer, A. O. (2013). Network analysis: an dels of the onset of mental disorder. JAMA Psychiatry, 74,
integrative approach to the structure of psychopathology. 528-534.
Olea, J., Abad, F., y Barrada, J. R. (2010). Tests informatiza-
Annual Review of Clinical Psychology, 9, 91121.
dos y otros nuevos tipos de tests. Papeles del Psiclogo, 31,
Drasgow, F. (Ed.). (2016). Technology and testing. New York:
94-107.
Routledge.
Ponsoda, V., y Hontangas, P. (2013). Segunda evaluacin de
Elosua, P. (2017). Avances, proyectos y retos internacionales
tests editados en Espaa. Papeles del Psiclogo, 34, 8290.
ligados al uso de tests en Psicologa. Estudios de Psicologa,
Prieto, G., y Muiz, J. (2000). Un modelo para evaluar la cali-
34, 201210.
dad de los tests utilizados en Espaa. Papeles del Psiclogo,
Elosua, P., y Geisinger, K. F. (2016). Cuarta evaluacin de
77, 65-77.
tests editados en Espaa: Forma y fondo. Papeles del Psic-
Reckase, M. D. (2009). Multidimensional Item Response The-
logo, 37, 8288.
ory. New York, NY: Springer-Verlag New York.
Evers, A. (2012). The internationalization of test reviewing: Trull, T. J., y Ebner-Priemer, U. W. (2009). Using experience
Trends, differences, and results. International Journal of Tes- sampling methods/ecological momentary assessment
ting, 12, 136156. (ESM/EMA) in clinical assessment and clinical research: In-
Evers, A., McCormick, C., Hawley, L., Muiz, J. et al. (2017). Tes- troduction to the special section. Psychological Assessment,
ting practices and attitudes toward tests and testing: An inter- 21, 457462.
national survey. International Journal of Testing, 17, 158-190. Trull, T. J., y Ebner-Priemer, U. W. (2013). Ambulatory assess-
Evers, A., Muiz, J., Hagemeister, C., Htmlingen, A., Lind- ment. Annual Review of Clinical Psychology, 9, 151176.
ley, P., Sjbergr, A., y Bartram, D. (2013). Assessing the van Os, J., Delespaul, P., Wigman, J., Myin-Germeys, I., y Wi-
quality of tests: revision of the EFPA review model. Psicothe- chers, M. (2013). Beyond DSM and ICD: introducing preci-
ma, 25, 28391. sion diagnosis for psychiatry using momentary assessment
Fonseca-Pedrero, E. (2017). Anlisis de redes: una nueva forma technology. World Psychiatry, 12, 113117.
de comprender la psicopatologa? Revista de Psiquiatria y Sa- Wells, C. S., y Faulkner-Bond, M. (2016). Educational Measu-
lud Mental, https://doi.org/10.1016/j.rpsm.2017.06.004. rement. From Foundations to Future. New York, NY: The
Fonseca-Pedrero, E., y Muiz, J. (2016). Avances en evalua- Guilford Press.
cin psicolgica. Papeles del Psiclogo, 37, 2-2. Zenisky, A. L., y Luecht, R. M. (2016). The future of computer-ba-
Hernndez, A., Ponsoda, V., Muiz, J., Prieto, G., y Elosua, P. sed testing: Some new paradigms. En C. S. Wells and M.
(2016). Revisin del modelo para evaluar la calidad de los tests Faulkner-Bond (Eds.), Educational measurement. From founda-
utilizados en Espaa. Papeles del Psiclogo, 37, 161168. tions to future (pgs. 221-238). New York: Guilford Press.

168

You might also like