Psicometría (UCM - Jesús Privado Zamorano)

Psicometría Apuntes Teoría Alexis Hancevich
Tema 2: La Teoría Clásica de los Test. El modelo de la TCT
Cualquier instrumento científico debe cumplir cuatro criterios:

Fiabilidad: Es la precisión de la medida. Debe ser exacta y constante
Validez: Las inferencias sobre los atributos (rasgos) a partir de las observaciones medidas deben ser validas.
La teoría debe guiar la medida.
Protocolo de medida: Tiene que tener un protocolo de medida (instrucciones de como aplicar la prueba).
Cualquier manual de cualquier test psicológico tiene unas instrucciones que hay que leer a los sujetos.
Rango de aplicación: Debe aplicarse bajo un rango de características. En psicología por lo general el rango
general es la edad. Si mides inteligencia el test puede ser para menores de 16 años o puede ser para personas
de universidad (mas de 18 años), etc.
A veces hay que tener también en cuenta el nivel educativo (si la persona no sabe leer no puedes pasar un
test con contenido verbal escrito). Tampoco puedes pasar un test a un nivel universitario a sujetos que se
hayan quedado en niveles anteriores.
El modelo de medida: Es un modelo teórico que va a relacionar el constructo teórico (la variable
independiente) con el comportamiento o la conducta observable. El MdM asume que el constructo es la
causa y el comportamiento la consecuencia. La persona se comporta de equis manera porque en el
constructo que explica ese comportamiento posee una puntuación determinada.
La TCT se centra en la puntuación total del test
La Teoría de Respuesta al Ítem se centra en la puntuación a un ítem.
Veremos la TCT únicamente, en los temas dos y tres.
El modelo de la TCT se desarrollo por Charles E. Spearman. Era ingeniero pero se centro en hacer desarrollos
en el campo psicológico. Sus aportaciones fueron:
-La TCT (sigue vigente)
-La correlación R de Spearman (v. ordinales y concretas)
-Teoría bifactorial de la inteligencia (factor g y específicos)
-Análisis factorial
La TCT es muy sencilla, se basa en una relación lineal. La relación entre X y V es una recta (relación lineal). La
puntuación observada de una persona (Xi) es igual a la puntuación verdadera (Vi) (puntuación ideal sin error)
más la puntuación del error de medida (Ei).
Modelo lineal TCT  Xi= V + Ei
Vi es una constante, siempre vale lo mismo. Es un valor teórico que siempre toma el mismo valor. V no se
puede calcular nunca, pero puede estimarse. Esto es porque es una puntuación ideal del rasgo evaluado (es
un parámetro, es solo estimable). En cambio, equis y el error se pueden calcular, pero son variables
aleatorias (varían siempre, dependen de la muestra que se analice). En cuanto cambiase la muestra va a
cambiar equis y el error. El error en la grafica es la distancia del punto (puntuación de x y v). Hay error cuando
el punto no coincide con la recta.
Todo esto es el modelo propuesto por Spearman. Es una regresión lineal simple entre X y V. La forma de
calcular X y V es una regresión.
Todo esto, en resumen Xi = Vi + Ei, es el primer supuesto de la TCT.
El error hay que entenderlo como ausencia de precisión (a mas error, menos fiabilidad y menos precisión,
por tanto cuanto menos error, habrá mayor precisión al medir).
El error jamás se va a anular del todo, pero se puede minimizar.
El error de medida tiene en psicología dos causas mayoritarias:
1. No se da independencia: la puntuaciones de una persona en una prueba no están relacionadas con
otras pruebas. Una de las maneras de aumentar la fiabilidad es pasar dos veces la prueba al mismo
sujeto, pero eso anula el supuesto de independencia. La solución es aplicar pruebas diferentes
(aunque midan lo mismo).
2. Los rasgos se miden de forma indirecta, no se puede de forma directa. La persona, queriendo o sin
querer, puede responder mal o no contestar a lo que se requiere, por ello gran parte del error se
debe a la respuesta del sujeto. Este error es insalvable.
Otras causas de error es elegir una muestra no representativa, una muestra sesgada, una muestra
demasiado pequeña, existencia de algún fallo al suministrar las instrucciones, etc.
Segundo supuesto de la TCT: La puntuación verdadera Vi se puede estimar a partir de la media de Xi (la
esperanza matemática de Xi). Aplicamos una prueba a un grupo de sujetos y se asume que la media de X de
la muestra será el valor mas cercano al real de V. Por tanto, la media matemática o la esperanza matemática
de los errores vale CERO. Cada sujeto tiene un error, y la media de todos los errores de todos los sujetos vale
cero (unos serán positivos y otros negativos). Como la media de los errores serán cero, puedes calcular Vi a
partir de la media de equis. Veamos un ejemplo:
APLICACIÓN Xi Vi ERROR
1 4 4 0
2 3 4 -1
3 4 4 0
4 5 4 1
5 2 4 -2
6 6 4 2
MEDIA ->>>>>>>>> 4 4 0
Por tanto, se puede ver el efecto del segundo supuesto de la TCT.
EJERCICIO 7
7.1 Un test se aplica 8 veces a un individuo y se obtienen las puntuaciones Xi 5 8 3 6 4 6 5 7.
a) Cual seria la mejor estimación de su verdadero nivel de rasgo? (Vi es el verdadero nivel de rasgo)
Puntuaciones X Puntuaciones V Error Ei Cuantificación de E

5 5,5 -0,5 Menor error
8 5,5 2,5 Mayor error Tercer supuesto
3 5,5 -2,5 Mayor error de la TCT: Se
asume que no hay
6 5,5 0,5 Menor error
correlación entre
4 5,5 -1.5
Vi y Ei, por lo que
6 5,5 0,5 Menor error
su correlación vale
5 5,5 -0,5 Menor error
cero (solo saber a
7 5,5 1,5
nivel teórico).
Media: 5,5 Supuesto2: V=EXi Columna E= 0
Cuarto supuesto de la TCT: No hay relación entre los errores de dos test diferentes. Si aplicamos dos test a
una misma persona, los errores que comete en los dos test dan como resultado una correlación igual a cero
(solo saber a nivel teórico).
Quinto supuesto de la TCT: No hay relación entre la puntuación verdadera Vi de un test A y el error Ei de
otro test diferente. Mezcla del tercer y cuarto supuesto. Solo saber a nivel teórico
¿Qué concluimos a partir de los cinco supuestos anteriores?
Primera deducción: Como E(E)=0, E(X)=0.

Segunda deducción: Si no hay error (algo que nunca se va a dar) la regresión de X sobre V pasa por el origen
y la pendiente sería 1 en puntuaciones típicas. (todos los puntos estarían sobre la recta, no habría distancia
de los mismos a ella). La correlación seria perfecta.
Tercera deducción: La varianza de Xi es igual a la varianza de Vi mas la varianza de Ei.
2X=2V+2E.
Cuarta deducción: La covarianza entre X y V es igual a la varianza de V.
2XV = 2V
INDICE DE FIABILIDAD: Es la correlación entre X y V, la manera de calcularlo es dividir la desviación típica de

V entre la de X.
Todo ello si se eleva al cuadrado es el coeficiente de fiabilidad, que toma valores entre cero y uno.
El CF es cuanto explica V de X, siendo X la dependiente explicada y V la independiente que explica a X. Si P2XV
valiese 1 (caso imposible), V explicaría la totalidad de X.
Si por el contrario valiese 0, no explica nada de equis.
Si vale, por ejemplo 0,8 entonces se dice que V explica el 80% de X o de la varianza de X (es lo mismo).
¿Qué se deduce de aquí?

La proporción de varianza de los errores es la varianza de lo errores entre la de X. La proporción de varianza
de errores mas la fiabilidad es igual a uno.
P2XV + P2XE = 1
CONCEPTO DE FIABILIDAD: Es hasta qué punto las conductas observadas en las puntuaciones de la prueba
reflejan con precisión V.
Siempre que se aplica una prueba a un grupo de personas o intrasujeto los criterios de respuesta son
diferentes.
El error de medida es cuánto varia la respuesta de una persona de un test a otro.
Aunque se aplique un test varias veces y no se responda igual, si que va a haber una tendencia a responder
de una forma en particular. A esa forma de responder se le denomina consistencia. Se calcula en muestras,
no en intrasujeto, porque te cargas la independencia otra vez.
Cuando la fiabilidad es perfecta, cosa que jamás ocurre, para cualquier valor de V equis tomará exactamente
el mismo valor. La correlación es perfecta.
Cuando la fiabilidad es nula, gráficamente aparecerá una nube de puntos en la cual podremos trazar una
recta pero no habrá correspondencia entre X y V. Dadas varias puntuaciones de V, todas se corresponden a
la misma equis. Eso pasa cuando no hay fiabilidad.
En resumen, si la equis corresponde a varios valores de V, la fiabilidad es una mierda.

¿Cuál es la situación habitual? Aquella en la que el test no tiene fiabilidad completa, pero que aun así tiene
un buen valor de fiabilidad. Es decir, una recta de regresión con una nube de puntos cercana a la misma. Hay
una correlación positiva entre X y V.
Hay ciertas discrepancias, pero todos los puntos están a relativa distancia, y se cumple que:
-Valores altos en V corresponden a valores altos en X
-Valores medios en V corresponden a valores medios en X
-Valores bajos en V corresponden a valores bajos en X
Una prueba se considera fiable cuando el valor de su coeficiente de fiabilidad P 2XV es mayor o igual a 0,7.
Problema 13. La varianza de las Xi de una prueba de discriminación auditiva es de 36. Sabiendo que el 68%
de esa varianza es explicada por puntuaciones verdaderas, calcular:
a) El coeficiente de fiabilidad de la prueba. = 0,68.
b) El error típico de medida, E
Entonces: varianza x * raíz de 1-0,68;

6*0,565=3,39
c) EL índice de fiabilidad de la prueba= Raíz cuadrada del coeficiente de F. 0,824
Problema 14. Cuanto valdría el coeficiente de fiabilidad bajo las siguientes condiciones
Condición 1. La varianza error fuese el doble de la varianza verdadera.
Por tanto varX=VarV+VarE; VarX= 3VarV
Tienes la ecuación del coeficiente y se resuelve asi:
Condición 3. La varianza E y V son iguales: se resuelve igual que el anterior, da 0,5.

Condición 2. La amplitud del intervalo de confianza (el error) es igual a cero.
Solución: Esto quiere decir que el valor del error es cero. Entonces la fiabilidad es de valor 1 porque V no
tiene error.
Problema 17: El error típico de medida de un test representa 1/3 de la desviación típica de las puntuaciones
V. ¿Cuánto vale el coeficiente de fiabilidad del test?
Medidas paralelas: Se propusieron ate la imposibilidad de calcular empíricamente el coeficiente de

fiabilidad. Empíricamente no se puede calcular la varianza de V (obviamente). Y las pruebas paralelas son
solución.
Dos test son paralelos cuando cumplen lo siguiente:

-Tienen la misma puntuación Vi. (X=V+E y X2=V+E2)
-Tienen la misma varianza error (no el error en si, sino su varianza)
Esto significa que se puede aplicar cualquier de las dos pruebas a los sujetos.
Consecuencia del paralelismo, se deduce que la media y la varianza de X y X´ son iguales.
¿Para qué sirve que dos pruebas sean paralelas?

Para calcular la fiabilidad de la prueba total. Se demuestra que la fiabilidad de una prueba equivale a la
correlación entre las medidas paralelas.
El error típico de medida es la desviación típica del error: Se calcula con la fórmula de las fotos de arriba.
Cuanto menos sea el ETM mayor es la fiabilidad. Si no hubiese error o fuese igual a cero, la fiabilidad sería
perfecta. Nuevamente, esto nunca se da.
¿Que pasa si la fiabilidad valiese cero? Que en ese caso el error no valdría cero, sino que tendría el mismo
valor que la desviación típica de X.
P2XV = 0 , P2XE = 1 ; 1 = 2E / 2X , 1X = 2E
El error típico de medida debe interpretarse en comparación con la X, de forma que cuanto más se
parezcan, menos fiabilidad tiene el test, y viceversa.
La X va a ser siempre mayor que el error típico de medida. A nivel teórico jamás se puede tener una
fiabilidad negativa.
¿Cómo conseguimos aumentar la fiabilidad? Aumentando la X.

¿Cómo la manipulamos?
Aumentando la variabilidad de la muestra, empleando muestras grandes y representativas.
En la práctica, es difícil obtener dos test de medidas paralelas. Salvo en inteligencia y alguna dimensión de
personalidad, lo que se suelen tener son medidas equivalentes (es con lo que se suele trabajar).
¿Que son las medidas equivalentes? Son las medidas que aunque no son paralelas, guardan una relación
entre ellas. Distinguimos entre:
-Medidas tauequivalentes: Presentan la misma V y distinta varianza error.

-Medidas esencialmente equivalentes en V: V´ = V + a (a0)
-Medidas linealmente equivalentes en V: V´ = bV + a (b1)
En las pruebas paralelas la correlación entre cualquier par de test va a tener siempre el mismo valor.
De la misma forma, la correlación entre cada test con una variable externa va a tener siempre el mismo
valor.
El valor de fiabilidad en pruebas paralelas es siempre el mismo. Si hay dos pruebas paralelas para un mismo
constructo, esas dos pruebas tendrán el mismo valor de fiabilidad.
En las pruebas equivalentes, esto no sucede asi. Los valores cambian.
Ahora explicamos un poco más detalladamente los tres tipos de pruebas parelelas:
Tauequivalentes: Tienen la misma V pero diferente varianza Error.
Esencialmente equivalentes: Las V y las varianzas error son diferentes, pero las V se parecen bastante. ¿En
qué? En que una V es igual a la otra mas una constante (distinta de cero, porque sino seria tau equivalente).
Linealmente equivalentes: Tienen diferente V y diferente varianza error. En este caso las dos V guardan una
relación lineal (constantes multiplicativa y aditiva). B tiene que ser diferente de uno y a diferente de cero.
¿Qué cosas afectan a la fiabilidad de una prueba?

Estos son los factores que afectan a la fiabilidad:
1.Variabilidad: Restricción de rango y corrección: Es cuando, por las características (n) de la muestra, no
podemos estimar correctamente el parámetro en cuestión. Por ejemplo, si pasamos un test de CI a alumnos
universitarios no veremos aquellas puntuaciones de sujetos que tengan un CI inferior a 90 (aprox. ), aunque
los haya.
Faltan datos porque falta una parte de la distribución.
¿Cómo se puede corregir la restricción de rango?
La fiabilidad de la población es igual a uno menos el cociente de las varianzas de la muestra y de la población
multiplicado por uno menos la fiabilidad de la muestra con restricción de rango. Al haber restricción de
rango, hay menor variabilidad en la muestra, y por ello la precisión de la medida baja. (asi como la fiabilidad)
2. Longitud del test: Es el numero de ítems. Cuanto mas ítems tenga un test mas fiable será, siempre que
los test cumplan propiedades psicométricas. Se incrementa la fiabilidad de una prueba añadiéndole ítems
paralelos de forma que la longitud final sea igual a la inicial por K. (K va de 1 a infinito). La fiabilidad en base
a K aumenta según la grafica que aparece a continuación. Que ocurre al multiplicar la fiabilidad del test por
K?
formula de SB para hallar K, despejá
K: número por el que hay multiplicar la longitud

n: longitud del test
n´= kn: nueva longitud del test
n´- n: número de elementos que hay que añadir
Procedimientos para calcular la fiabilidad:

1. Formas paralelas
2. test-retest
3. aplicación única: consistencia interna
4. fiabilidad interjueces
La fiabilidad de una prueba hemos visto que depende la variabilidad, la longitud del test.. los cuatro
elementos de antes.
Hay cuatro procedimientos para aumentar la fiabilidad del test, que son los que aparecen arriba. El segundo
hay que saberlo solo a nivel teorico.
1.Formas paralelas
Se construyen dos test paralelos X y X´.
Se aplican las dos pruebas a una muestra representativa (LA MISMA)
Se calcula la correlación entre X y X´.
La correlación de las dos formas paralelas es directamente igual a la fiabilidad de la prueba. Este
procedimiento permite obtener la mejor fiabilidad de las cuatro opciones (fiabilidad mas pura).
Estima la fiabilidad cuando ambas formas son paralelas o equivalentes.
La desventaja que tiene es que es muy complicado conseguir dos test paralelos. De ahí que casi siempre se
trabaje con procedimientos equivalentes en la práctica.
2.Test – Retest
Se aplica dos veces una prueba a los mismos sujetos.
Se correlaciona la medida en los mismos sujetos (entre ambas aplicaciones)
Ventaja: Solo hace falta construir una prueba
Desventaja: Te cargas el supuesto de independencia (se puede dar efecto de aprendizaje).
¿Qué se mide con este procedimiento? Se mide la estabilidad temporal Lo estable que es una medida a lo
largo del tiempo. A mayor estabilidad temporal mayor fiabilidad. Es una forma indirecta de obtener la
fiabilidad.
Si el test es de rendimiento óptimo (un examen o un test de inteligencia), se da efecto de aprendizaje, y la

fiabilidad de sobreestima, ya que se infla el coeficiente por encima de lo que debería.
Si el test es de rendimiento típico, los sujetos en la segunda medida pueden cambiar de forma de
pensar/actitud y dar respuestas diferentes a la primera. Por tanto si en un test de rendimiento típico cambian
las respuestas de los sujetos, se puede infraestimar la fiabilidad.
Hay que acudir al manual de la prueba para poder determinar el intervalo de tiempo óptimo para poder
pasar el test de nuevo.
En los de R.O. los periodos de tiempo suelen ser muy largos (años) para poder pasar la prueba de nuevo sin
aprendizaje.
En los de RT hay que pasarlo a muy poco tiempo (2 o 3 meses) para evitar cambios de pensamiento.
3.Aplicación única: Consistencia interna

Sólo se emplea una prueba, y para calcular su fiabilidad se divide en partes y se estudia la correlación entre
ellas. La única forma que hay de calcular la fiabilidad es correlacionar esas dos partes. También puede
analizarse la covarianza entre todos los ítems, considerándolos a todos ello como partes individuales de la
prueba.
Primeramente explicamos cómo se tendría que tratar la fiabilidad si la división fuese en dos partes, y
posteriormente cómo se trata en el caso de que tomemos cada ítem como parte de la prueba.
Es importante tener en cuenta que cuando hablamos de una aplicación única no equivale a dos formas
paralelas de una prueba, solamente es la misma dividida en partes. Por ello, lo que se mide al
correlacionarlas no es la fiabilidad, sino la consistencia interna.
Para estudiar la consistencia interna, entonces, podemos estudiar la covarianza entre todos los ítems de una
prueba o dividirla en dos partes y estudiar su correlación.
División en dos partes: Equivalencia o paralelismo

Una prueba solo se puede dividir en partes si sus ítems son relativamente homogéneos. Es importante tener
en cuenta que no es un procedimiento adecuado para test de velocidad, ya que tiende a sobreestimar la
fiabilidad.
Si hay que usarlo si o si en el test de velocidad, se recomienda quitar del test los ítems que casi nadie
contesta.
¿Cómo se divide la prueba en dos partes?

División en dos partes paralelas: Fórmula de Spearman - Brown.
División en dos partes equivalentes: Hay varias formas o criterios para dividir la prueba:
- Se puede dividir en pares e impares. Esto solamente puede hacerse si el test es muy muy
homogéneo.
- Se puede dividir según el nivel de dificultad, de forma que quede distribuida de forma igualada
entre ambas mitades. Esto es lo adecuado en test de rendimiento optimo.
- Se puede dividir la prueba con cualquier criterio aleatorio: El test tiene que ser muy homogéneo
- Se puede dividir la prueba teniendo en cuenta el contenido de los ítems: Hay que dividir en
función del contenido, de forma que cada una de las partes de la prueba tengan la misma
proporción de cada contenido (optimo para test de RT).
Éstos cuatro procedimientos te dan fiabilidades diferentes, así que hay que elegir muy bien cual se emplea.
Cálculo de la Fiabilidad por Consistencia Interna
Para calcular la fiabilidad, se parte de la covarianza entre los ítems o las partes de la prueba.
En el caso de medidas paralelas, aplicación de Spearman-Brown: Hay que asumir que K=2, ya que cada parte
del test se va a contar como un ítem. Dos medidas paralelas equivalen a K=2. La correlación PXX´ seria la
correlación entre dos mitades, y lo que parece a la izquierda de la fórmula será la fiabilidad final (P2). Esto
es lo del ejercicio 1.
En el caso de medidas equivalentes, aplicación de Ruttman y Flanagan. Para ello nos hará falta conocer las
varianzas de las partes y la varianza total.
En el caso de dividir por cada ítem empleamos los siguientes procedimientos:
Coeficiente Alpha de Cronbach: Estudia la concordancia (grado de acuerdo) entre las respuestas a los ítems.
Cuanto más se parezcan, mayor concordancia y mayor consistencia. Y por ende, mas fiabilidad.
Que un sujeto sea muy consistente: Tiene una tendencia de respuesta definida.
Se emplea la formula del Alpha de Cronbach, para lo cual hacen falta las varianzas de los ítems y la varianza
de toda la prueba (2X).
El alpha es igual al límite inferior del coeficiente de fiabilidad del test (P XX´  ).
Se aplica a todo tipo de ítems, tanto a los conformados por ítems dicotómicos como los que no son
dicotómicos, como las escalas tipo Likert.
No requiere dividir la prueba en partes.
El valor del alpha dependerá de la correlación entre los ítems (a mayor correlación, mayor alpha).
Si el test mide una sola dimensión (p.ej, sólo inteligencia verbal) el alpha de cronbach tiende a valores mas
altos. Depende, además, del numero de ítems (a mayor N, mayor alpha).
Coeficientes KR20: Es la misma fórmula que la anterior, pero únicamente puede utilizarse con ítems
dicotómicos (pueden tener distinta dificultad).
Si el test es totalmente dicotómico, conviene utilizar esto.
Hay que saber que P y Q (de la fórmula) valen 1 entre los dos.
P = probabilidad de acierto y Q = probabilidad de error.
Lambdas de Guttman: Son también limites inferiores del coeficiente de fiabilidad.

Hay que tener claro que:
a) L1 es la mas pequeña (es una parte del alpha de cronbach)
b) L3 es igual a alpha
c) L2 es la mayor
Procedimiento ANOVA
Asume que el test es un proceso de medidas repetidas, cada sujeto pasa por todos los ítems (Modelo de
efectos aleatorios y medidas repetidas).
Trata de explicar la puntuación de un sujeto en un ítem que dependerá de la media del test, el efecto persona
(diferencias individuales de tendencia de respuesta), el efecto ítem (diferencias entre ítems) y el efecto error
(fluctuación del error de medida).
Si se divide la suma de cuadrados persona, entre los grados de libertad, se le llama MEDIA CUADRATICA
PERSONA, siendo N el numero de personas.
La MEDIA CUADRÁTICA ÍTEM, es la suma de cuadrados ítems partido n-1, siendo n el numero de ítems
MEDIA CUADRATICA ERROR.
Asi se calculan las medias cuadráticas para, posteriormente, calcular el cociente de las dos medias
cuadráticas (la de PI y la de PERSONA). Ese resultado, restado a uno es la CORRELACION INTRACLASE. Es la
consistencia o la fiabilidad interna de la prueba, pero obtenida del procedimiento ANOVA. La interpretación:
grado de parecido de todas las puntuaciones a lo largo del ítem. Si responde de forma parecida es muy
consistente a lo largo de la prueba y por tanto es muy fiable la prueba.
4.Fiabilidad interjueces
Se usa cuando vamos a evaluar el comportamiento de unos sujetos.
Un mínimo de dos jueces evalúan la conducta.
Se tiene que calcular el grado de acuerdo de los jueces.
Este cálculo se aplica en estudios de método observacional, no experimental.
Esto tampoco calcularía la fiabilidad sino el grado de acuerdo, pero a mayor fiabilidad interjueces (mayor
correlación entre sus respuestas), mayor fiabilidad tendrá una prueba.
Problema: Hay que entrenar a los jueces en lo que se debe observar, lo cual requiere formación y
entrenamiento.
2.8. Test de velocidad y potencia

Test de velocidad- Items fáciles y que cualquier sujeto puede contestar correctamente si no hubiera tiempo
limite
Test de potencia- ítems difíciles que no todos los sujetos podrían constestar correctamente aunq eu tuvieran
tiempo infinito
Según Gulliksen, se distinguen entre varios tipos de no aciertos:

E: Errores y omisiones
NI: No intentado por falta de tiempo
I: no acierto (índice de Gulliksen)
I = E + NI
Un test de velocidad pura, tiene la propiedad de I = NI, ya que E=0.

Un test de potencia pura, tiene la propiedad de I = E, ya que NI = 0.
Los exámenes son test/pruebas de potencia. Los ítems son dificles pero el tiempo, por norma general, no es
un limitador.
Indice de Stafford
IV = (Sumatorio de NI)/(suma de sumatorios de Errores, Omisiones y NI) *100.

Si un test es de velocidad, no conviene usar la consistencia interna. Sino esto.
Consideraciones finales:
Significación Clínica Significación estadística

Se centra en el resultado de valoración Se centra en el resultado de diferencias
clínica de las diferencias estadísticas
Es un indicador de utilidad clínica No debe interpretarse como un indicador
de utilidad clínica
Debe valorarse por el terapeuta, el La ausencia de significación no indica que
paciente y otras personas no haya efectos
Estudia el cambio relevante en la vida del No informa de dicha variación
grupo intervenido
¿Cómo se calcula la fiabilidad del cambio?

Indicador de cambio fiable: Permite saber si un tratamiento ha sido efectivo. Procedimiento de Jacobson y
Truax (1991):
ICF: (XPOST – XPRE) / SD

H0: El tratamiento no ha funcionado
Procedimiento de Speer (1992): RXX´(XPRE – MEDIAXPRE) + XPRE +- 2SPRE (RAIZ DE 1-RXX´). Si Xpost cae
fuera del intervalo de confianza la intervención ha sido eficaz
Conceptos importantes y síntesis del tema:

Coeficiente de fiabilidad: Muestras representativas de aprox. N=200. Si el test se va a aplicar a diferentes
grupos hay que calcular la fiabilidad en todos los grupos (por ejemplo, si varones y mujeres responden
diferente, hay que calcularlos por separado).
Es necesario calcular la fiabilidad en cada estudio, no basarse únicamente en la fiabilidad del manual. Los
valores adecuados de fiabilidad, para investigación, han de ser mayores a 0,7. Para evaluar o clasificar
sujetos, tiene que tener minimo 0,9.
¿Cómo se hace lo visto hasta ahora en SPSS?
Partimos del menú siguiente: ANALIZAR – ESCALA – FIABILIDAD – MODELO
Para dividir la prueba en partes, seleccionamos el modelo dos mitades, donde tendremos que elegir cómo
se dividirá la prueba.
La tabla de resultados nos dará el alpha de Cronbach de cada mitad y la correlación entre ambas
(consistencia interna) y por otro lado nos muestra el coeficiente de Spearman Brown si las dos partes fueran
paralelas y el de Guttman si fueran equivalentes. Si coinciden es que son paralelas.
Para obtener el alpha de Cronbach de toda la prueba, cambiamos MODELO a ALPHA.

Para obtener las lambdas de Guttman, cambiamos MODELO a GUTTMANN.
Para obtener la correlación intraclase con procedimiento ANOVA se debe marcar en ESTADÍSTICOS.
Podremos elegir entre tres tipos de prueba, siendo las siguientes:
-Prueba F: Para ítems en escalas cuantitativas

-Chi cuadrado Friedman: Para ítems en escalas cuasi cuantitativas
-Chi cuadrado Cochran: Para ítems en escalas cualitativas
El resultado es la tabla de ANOVA, tal y como la imagen siguiente:
En la tabla de los ejercicios comunes, cuando nos dan la varianza total estamos hablando de la varianza
suma, es decir, la suma de la SCP, la SCI, y la SCPI.
FUENTE DE SC g.l MCP F (P2N)

VARIANZA
Personas SCP N-1 SCP/(N-1)
Ítem SCI n-1 SCI/(n-1) 1- (MCPI/MCP)
Residual SCPI (SCP*SCI) (N-1)(n-1) SCPI/(N-1)(n-1)
Total SCP+SCI+SCPI - -
En el procedimiento ANOVA hay que contrastar la H0 y la H1 de la siguiente forma:
H0: ITEMI = ITEMJ (la media de todos los ítems es igual)

H1: ITEMI  ITEMJ (la media de al menos un par de ítems es diferente)
Si sig (p) es menor o igual que alpha, se rechaza H0. Es decir que al menos dos ítems tienen medias diferente.
Hay buena fiabilidad si hay variabilidad, por lo que lo común va a ser rechazar la hipótesis nula, ya que si se
mantuviese la fiabilidad sería una mierda.
El índice de correlación intraclase también lo puede calcular el SPSS. Para ello hay que marcar la casilla de
correlación intra-clase con un modelo de efectos aleatorios, dos factores. En el valor de prueba, pondremos
el valor de la H0.
La correlación intraclase se da en la fila inferior de la tabla que muestra SPSS, junto con el intervalo de
confianza y la prueba teórica que se haya elegido con el valor elegido.
Si en esa prueba teórica sig es menor que alfa, se rechaza la H0.
Tema 3. Teoria Clásica de los Test. Análisis de las puntuaciones de ítems
3.1. Repaso general de conceptos anteriores.
En Tests de Rendimiento Óptimo:
Tests de rendimiento óptimo de Ítems dicotómicos:

Se codifica por convenio acierto =1 y error = 0, y cada ítem tiene una sola respuesta correcta. La puntuación
directa se calcula sumando los aciertos, y la proporción de aciertos se calcula sumando los aciertos y
dividiéndola entre el numero de ítems.
Se aconseja emplear la proporción, ya que su rango de oscilación es pequeño y estable (de cero a uno).
Tests de rendimiento óptimo de ítems politómicos:

Cada ítem puede ser puntuado con mas de dos valores (una pregunta de un examen que vale de cero a tres
puntos). La puntuación directa se obtiene sumando las puntuaciones (igual que la anterior) y la proporción
de aciertos se calcula dividiendo la suma de las puntuaciones al ítem entre la puntuación máxima del test.
Test de rendimiento óptimo de ítems dicotómicos de selección múltiple:

Se estudia el tipo de respuesta en base a la clasificación de Gulliksen, que consiste en:
Aciertos (A)
Errores: (E)
Omisiones: (O) -Ítems no respondidos seguidos por ítems respondidos-
No intentados: (NI) -Ítems no respondidos seguidos por ítems no respondidos-
En este tipo de test puede darse el problema de que los sujetos respondan al azar a uno o varios ítems. Para
ello surge la fórmula de corrección de la adivinación de respuesta. Evita que los evaluados acierten al azar,
de forma que no se sobreestime la puntuación que les corresponde.
La probabilidad de acertar al azar es 1/k, donde k es el numero de alternativas. La probabilidad de fallar es
1 - 1/k. La puntuación corregida (Xc) queda de la siguiente forma:
Xc = (A – E) / (k-1)
También puede corregirse la proporción de aciertos. La proporción corregida queda de la siguiente manera:
Pc = (p – Pe) / (k-1)
Sin embargo, este modelo ha sido bastante criticado por varios motivos:
1. Si se responde por azar, lo que se gana y lo que se pierde se compensa solo a partir de un número
grande de ítems. Es decir, la fórmula favorece a aquellos que se arriesgan más.
2. Si se responde al azar habiendo descartado primero una opción, la fórmula quita menos de lo que
debería.
Esta fórmula no tiene en cuenta, por tanto, que un test puede responderse de varias maneras:
completamente a ciegas, guiado por pistas del ítem o guiado por información que posee el evaluado.
Todo esto quiere decir que la fórmula de corrección de la adivinación está basada en el supuesto falso de
que alguien que no sepa la respuesta responderá completamente al azar.
Hay una alternativa de corrección del azar que soluciona estas críticas y que añade a los aciertos las
omisiones y los no intentados, quedando de la siguiente manera:
Xc = A + (O + NI)/k
En test de velocidad, hay que tener en cuenta dos constantes arbitrarias de la siguiente manera, donde C es
k-2:
Xc = A – E/C – O/D
En Tests de Rendimiento Típico:
Test de rendimiento típico de ítems graduados:

No hay respuestas correctas ni incorrectas, por lo que no hay errores ni aciertos, y la puntuación directa se
calcula sumando las puntuaciones al ítem. Es importante recodificar los ítems inversos.
Hay que destacar también que cada ítem de un test puede tener distinto peso según su conexión con el
constructo teórico. Se pueden calcular, por tanto, puntuaciones ponderadas, quedando de la siguiente
forma:
Xw = (w*Ui) / n
Donde w es el peso o ponderación del ítem, y el numerador es un SUMATORIO de w*Ui.
3.2 Estimación de puntuaciones:

Distinguimos dos tipos de estimación de puntuaciones. La estimación puntual y la estimación por intervalos.
Estimación puntual: Es cuando estimamos un solo valor de V, y es el cálculo de un solo valor de V.
Estimación por intervalos: Calcular más de un valor de V.
En la estimación puntual se asume que la puntuación X es un estimador puntual de la puntuación V (a partir
de X podemos calcular V). Para ello la siguiente regresión lineal:
V´S = PXX* Xs + (1-PXX´)X
En la estimación por intervalos se intenta ver con qué probabilidad (nivel de confianza) un valor desconocido
se encuentra dentro de un intervalo de valores.
En la curva normal, la zona de aceptación es el intervalo de valores, mientras que la zona de rechazo es la
zona que cae fuera del mismo.
Lo que ocupa el intervalo depende del valor de alpha. Si vale 0,01 el intervalo ocupa el 99% de la distribución
yel 95% si vale 0,05. Cuanto mayor sea el intervalo, mayor seguridad de encontrar V. Nunca hay una
seguridad al 100% de encontrar V.
Vamos a asumir para estos cálculos la distribución normal, por lo que todos los cálculos para estimar por
intervalos se harán mediante la tabla Z de la normal. Hay dos posibilidades:
1. Calcular el intervalo de confianza alrededor de V (asumiendo un valor de V para encontrar si X está

dentro o fuera del intervalo)
2. Calcular el intervalo alrededor de X, asumiendo un valor para X para ver si V está dentro o fuera de
intervalo.
1. Se utiliza para calcular puntos de corte en la toma de decisiones, como si una persona es seleccionada
para algo o si llega a un mínimo de puntuación en el test, etc.
Se puede hacer calculando un intervalo de confianza o haciendo un contraste de hipótesis. Para el
intervalo, se decide cuanto vale V a nivel teórico basándonos en la teoría o en el valor más probable
(en general lo da el enunciado).
Después de calcula el intervalo a partir de V, siendo tal que:
Después se mira si X está dentro del intervalo o no.

Para el procedimiento por contraste de hipótesis se formula la hipótesis nula y alternativa. Segundo
se calcula el estadístico de contraste (Z= (X-V) / Se). Si el estadístico cae en la zona de aceptación se
mantiene, en caso contrario se rechaza.
2. Calcular el intervalo en función de X permite ver con que probabilidad la puntuación V se puede
encontrar dentro de un intervalo de valores construido a partir de X. Cuanto mayor sea el IC hay
mayor error, y por ello peor precisión (al final la amplitud del intervalo es el error típico).
Por ello, si el intervalo es muy grande X y V se parecerán poco. Y viceversa.
Se calcula con la misma fórmula de antes (la V prima), pero al construir el intervalo hay un pequeño
cambio: Ahora el error cambia su fórmula y es la siguiente:
Análisis de la diferencia de puntuaciones:

Las diferencias entre puntuaciones pueden analizarse desde diferentes puntos de vista:
a) Entre dos sujetos de un mismo test (mediante construcción de intervalo de confianza o mediante
contraste de hipótesis)
b) Entre dos test para un mismo sujeto (únicamente mediante contraste de hipótesis)
a) Entre dos sujetos de un mismo test:
a. Procedimiento mediante I.C: Se construye el IC para cada puntuación (igual que antes), y se
observan los intervalos. Si se solapan entre sí, concluimos que no hay diferencias significativas
entre ambas puntuaciones.
b. Procedimiento de contraste de hipótesis: Se realiza un contraste bilateral, en el que la
hipótesis nula es XA = XB. El estadístico de contraste y el error típico se calculan de acuerdo a
la imagen siguiente. Aceptaremos que no hay diferencias (mantener H0) cuando Z tenga un
valor perteneciente a la zona de aceptación 1 - .
b) Entre dos test de un mismo sujeto:

a. Procedimiento de contraste de hipótesis: Se realiza un contraste bilateral, en el que la
hipótesis nula es XJ = XH. El estadístico de contraste y el error típico se calculan de acuerdo a
la imagen siguiente. Aceptaremos H0 cuando z tenga un valor perteneciente a la zona de
aceptación 1 - .
3.3. Análisis de los ítems:
Para analizar un ítem y decidir si es adecuado o no, analizamos la frecuencia de respuesta a cada una de sus
opciones. Un ítem adecuado ha de seguir un patrón de frecuencias concreto, que explicaremos un poco más
adelante. Este patrón varía según el tipo de test al que pertenezca.
a) Analisis de ítems en test de rendimiento óptimo:

Como en este tipo de test hay aciertos y distractores, el patrón de respuesta de este tipo de ítems
está marcado por ese criterio. La respuesta correcta ha de ser siempre la más elegida con diferencia,
y de forma directamente proporcional a la capacidad de los sujetos. Los distractores han de ser los
menos elegidos, y tener frecuencias similares. Veamos un ejemplo de un ítem en condiciones:
Por el contrario, un mal ítem se caracteriza porque la frecuencia de la alternativa correcta no

evoluciona de acuerdo a la capacidad de los sujetos y los distractores no se eligen por igual. Es el caso
del ítem siguiente:
Hay que eliminar los items que tienen muchos fallos, y los distractores que nunca son elegidos.
b) Análisis de ítems en test de rendimiento típico:

Analiza igualmente la frecuencia de respuesta, pero sin seguir un patrón basado en lo correcto o
incorrecto, pues ya se sabe que en tests de rendimiento típico no hay errores ni aciertos. Para analizar
estos items, hay que tener en cuenta las características de la muestra que se analiza, de forma que
podamos comprobar que se adecúa a la misma y responde correctamente.
Veamos un ejemplo de una muestra en la que sospechamos que hay un nivel elevado de ansiedad:
Hasta aquí es la teoría del análisis de ítems. Pero, ¿Cómo lo hacemos en la práctica?
Podemos utilizar muchos índices para poder analizar lo que acabamos de ver, y son los siguientes:
1. Índices univariantes: Se emplean cuando nos estamos basando en un ítem.

1.1) Índices de dificultad
1.2) Índices de dificultad corregida
1.3) Varianza del ítem
1.4) Índices de dificultad normalizados
1.5) Índices de tendencia central y variabilidad para ítems no dicotómicos
2. Índices de discriminación:
2.1) Proporciones de aciertos
2.2) Correlaciones
3. Índices de fiabilidad y validez del ítem
1.1. Índices de dificultad:

Se aplican a ítems que tienen una respuesta correcta (dicotómicos), y son adecuados para test de
potencia. Se calculan mediante la siguiente fórmula:
El índice de dificultad indica la proporción de aciertos, y toma valores entre cero y uno, siendo 1
extremadamente fácil y 0 extremadamente difícil.
En un test de rendimiento óptimo se aconseja que al principio se sitúen los ítems con un Pi de 0´7, en el
medio con 0´50 y al final con 0´30.
1.2. Índices de dificultad corregida:

Se aplica a ítems dicotómicos para evitar el acierto por azar. Se aplica cuando los distractores tienen la
misma probabilidad de ser elegidos si no se sabe la respuesta correcta. La fórmula es la siguiente:
1.3. Varianza de los ítems:

En ítems dicotómicos depende de la dificultad (Pi). La varianza del ítem es igual a p*q, donde p es la
probabilidad de acertar y q la de fallar.
La varianza de un ítem será máxima cuando p tenga un valor de 0,5.
1.4. No entiendo para qué sirve este apartado (índices de tendencia central), tengo que preguntárselo al
profesor.
2.1. Proporción de aciertos: Kelley propone comparar los grupos extremos (percentiles 27y 73). El índice de
proporción de aciertos se calcula de la siguiente manera:
Di es el índice.
Ps es la proporción de aciertos del grupo superior
Pi es la proporción de aciertos del grupo inferior
Di toma valores entre -1 y 1. Si es mayor que cero hay discriminación a favor del grupo superior. Si es menor
que cero hay discriminación a favor del grupo inferior.
Como ya sabemos, se toma el criterio de 0´2,0´3,0´4.. etc.
2.2. Correlaciones.
Las correlaciones estudian la discriminación externa. Elegimos el método de correlación según el tipo de
ítem y tipo de criterio, siendo tal que:
a) Ítem dicotómico y criterio cuantitativo: Biserial, biserial puntual
b) ítem y criterio dicotómicos: Correlación tetracórica
c) Ítem y criterio cuantitativos: Correlación de Pearson
Correlación biserial puntual: Matemáticamente equivale a la correlación de Pearson. Se recomienda

utilizarla cuando la dificultad (p) tenga un valor cercano a 0,5, ya que para valores que no sean iguales o
cercanos a 0,5 produce sesgos.
Correlación biserial: Es idéntica a la biserial puntual, la diferencia está en cómo es el ítem. La biserial puntual
se utiliza cuando el inicialmente el ítem ya es dicotómico, y la biserial a secas se utiliza cuando el ítem al
principio es cuantitativo y se convierte en dicotómico.
Vamos, cuando se convierten las opciones incorrectas a cero y la única correcta a uno. De igual forma, las
puntuaciones inferiores a cinco se recodifican en 0 e iguales y superiores a 5 son 1.
IMPORTANTE: Las ecuaciones de las correlaciones biserial y puntual dan DOS opciones cada una, no son
derivaciones.
La relación entre la correlación biserial y la puntual es la siguiente:
La correlación biserial va a tomar valores iguales o mayores que la puntual, nunca menores.
Cuando la dificultad vale 0,5, el resultado es similar en las dos.
Hay diferencia cuando la p se separa mucho de 0,5 (0,25 o 0,75).
La biserial a veces toma mayores que 1, cuando no debería ser así. Esto indica que el ítem es muy asimétrico
y que no sigue una distribución normal. Es decir, cuando un ítem sea muy asimétrico, la biserial puede tomar
valores superiores a 1.
Correlación tetracórica: Al tener una matriz con las frecuencias de respuesta del ítem y el criterio, hay que
denominar:
- A a la frecuencia conjunta del valor mas bajo del criterio y los aciertos del ítem
- B a la frecuencia conjunta del valor mas bajo del criterio y los errores del ítem
- C a la frecuencia conjunta del valor mas alto del criterio y los aciertos del ítem
- D a la frecuencia conjunta del valor mas alto del criterio y los errores del ítem
Una vez asignados los valores A, B, C y D, se calcula BC/AD.

Ese valor se busca en la tabla de la E, en la cual aparecen intervalos de confianza. Hay que buscar el intervalo
al que pertenece el valor obtenido, y el valor de la correlación tetracórica es el situado inmediatamente a la
derecha del intervalo de confianza (y).
Es preferible emplear correlaciones a proporciones, aunque con dificultades medias los resultados son
similares.
Conviene utilizar la correlación biserial cuando los ítems son de una dificultad extrema y se aprecian grandes
diferencias de aptitud en la muestra.
Conviene utilizar la correlación biserial-puntual cuando hay semejanzas en la aptitud entre muestras y los
ítems tienen alta consistencia interna (dificultad de 0,5).
Conviene utilizar la correlación tetracórica cuando el ítem y el criterio son dicotómicos.
La discriminación: Consideraciones finales
a) Valores cercanos a uno: Mayor discriminación

b) Valores cercanos a cero y negativos: Menor discriminación (si es negativa va al revés de los esperado).
Repaso de la interpretación de la discriminación:

Si toma un valor mayor que 0,4, la discriminación es satisfactoria (muy buena)
Si toma un valor entre 0´30 y 0´39, la discriminación es buena (aceptable)
Si toma un valor entre 0´20 y 0´29, no presenta una buena discriminación (revisar ítem)
Si toma un valor menor de 0´20, hay que eliminar el ítem.
PROBLEMAS DE LA TCT. Parte final del tema 3.
-Los estadísticos del ítem dependen de la muestra con la que se calculan. Los índices de dificultad y
discriminación varían en cada muestra. Por ello, hay que elegir la muestra mas representativa posible.
-Los estadísticos del test dependen de la muestra también (hay que tener ojo con la restricción de rango).
-El problema de demostrar que dos medidas son paralelas (misma media y misma varianza error) es que es
complicado. El estado ideal de la TCT (paralelismo) es difícil de obtener.
-En la TCT no hablamos de diferentes tipos de error (X=V+E). El error puede tener muchas causas
(distracciones, faltas de comprensión, fatiga, dificultad, efecto práctica..), pero para la TCT el error es único.
-La fiabilidad depende también de los ítems (el numero), ya que si tiene muchos ítems, la fiabilidad va a
tender a aumentar.
-La estimación de V depende de la muestra. En cualquiera de los casos en los que se calcula, depende de la
muestra. En la teoría es el valor poblacional y no debería depender de la muestra, pero por la forma de
estimarlo en la practica si depende.
-El modelo de la TCT es un modelo para el total del test, pero no explica a nivel de ítem que pasa, porque se
centra en el total de la prueba.
La TRI es la que se encarga de explicar qué ocurre en los ítems uno por uno.
-Se asume que hay homocedasticidad de los errores (todos los errores tienen la misma varianza). Para que
se cumpla eso debe haber paralelismo, y si no se da pues no se cumple lo anterior.
-La TCT funciona muy bien para sujetos medios del rasgo, pero no tan bien para los extremos (bien para
medios de la campana de Gauss). La TRI funciona mejor en los extremos. Se complementan las dos.
Tema 4. Validez
La validez se refiere al grado en que la evidencia y la teoría soportan la interpretación de las puntuaciones
de los test. Es el aspecto más importante de un test, más incluso que la fiabilidad.
Según Messick (1990), la validez es un juicio evaluativo global del grado en que la evidencia empírica y las
bases teóricas soportan la adecuación y aprobación de las interpretaciones y acciones basadas sobre las
puntuaciones de los test.
Es un concepto unitario, y es un proceso (es dinámico), no algo puntual.
No depende del tipo de test, depende de la interpretación de las puntuaciones en el mismo.
Para situar la validez dentro de la estructura de la medición de la conducta, veamos la siguiente imagen:
Como se puede apreciar en la imagen, la validez es el último paso para medir el constructo. Es la relación
entre el valor verdadero del rasgo (V) y el constructo teórico como tal.
Estudiamos la validez como un proceso:

En primer lugar hay que definir la matriz de especificaciones, es decir, decidir cuántos componentes vamos
a medir (por ejemplo al evaluar la ansiedad, ver si medimos la ansiedad general u otros tipos).
Posteriormente se establece siempre una red nomológica, que es una red teórica de cómo se relacionan los
diferentes constructos entre sí. Veremos un ejemplo más abajo.
Luego se generan las hipótesis rivales para ver si el constructo está bien medido por medio del test, con el
objetivo de evitar:
- La infrarrepresentación del constructo: El test que he construido no recoge todos los aspectos de
un constructo.
- La varianza irrelevante del constructo: El test se ve afectado por variables extrañas ajenas al
constructo.
Hay que hacer una continua revisión de la validez del constructo ya que, como hemos explicado, es algo
dinámico.
EVIDENCIAS DE VALIDEZ (o tipos de la misma):
Evidencias de contenido: Se refiere hasta qué punto el test refleja el dominio del constructo, o hasta qué
punto el contenido del test es una muestra representativa del constructo. Lo suelen analizar expertos
siguiendo un proceso determinado, y se deben especificar bien los límites del dominio del constructo y cómo
se puede evaluar.
El procedimiento es el siguiente: en un primer lugar se debe definir el dominio de contenido, siendo éste las
áreas de contenido que debe recoger el test, los procesos que se evaluarán, y la relevancia
Evidencias de validez sustantiva: Evalúa hasta qué punto los ítems reflejan a nivel teórico el constructo.
Evidencias de validez estructural o interna: Evalúa la estructura del constructo: la dimensionalidad. Se
calcula mediante técnicas de análisis factorial, y veremos esta evidencia dentro de dos temas.
Generalizabilidad: Hasta qué punto se pueden generalizar o replicar los resultados de una muestra, en un
tiempo y una cultura, en otra muestra. En ciencia es muy importante que se repliquen los resultados.
Validez externa: Hay dos tipos:
1. Convergente: Hasta qué punto la prueba correlaciona con otras pruebas que midan lo mismo o
constructos relacionados, puede ser positiva o negativa.
2. Discriminante: Ausencia de relación entre la prueba y otras pruebas con las que NO debería
correlacionar.
Evidencias de valides consecuencial: Evalúa las consecuencias potenciales del test
Volviendo a la introducción del tema, éste sería un ejemplo de red nomológica (pasarlo a limpio):
La del tiempo (contenido)

La de verbales y numéricos (la de divergente, etc)
La del examen
Para analizar la relación entre los constructos y elaborar así la red nomológica, se pasa un test que mida cada
uno de los rasgos que correlacionan de cualquier forma con el constructo que está siendo objeto de estudio.
Rasgo – Método: Un test es la unión de:

El rasgo que se pretende medir (inteligencia, personalidad, etc.)
El método empleado para medir
Hay que separar el efecto del método del efecto del rasgo cuando se consideran dos o mas rasgos diferentes
y evaluando cada rasgo con dos o más métodos.
Para ello se establece la matriz multirrasgo-multimétodo.
La matriz representa las correlaciones entre todos los rasgos y métodos.

La primera diagonal es la fiabilidad, la relación de cada constructo en el mismo método. La segunda diagonal
es la diagonal de la validez convergente, da las correlaciones entre cada constructo con diferente método.
El primer triángulo es las correlaciones heterorasgo y monométodo.

El segundo triangulo son las correlaciones heterorasgo y heterometodo
Si se comparan la diagonal con los triángulos adyacentes, se considera que hay evidencia de validez
convergente cuando la diagonal secundaria presenta correlaciones superiores que los triángulos adyacentes.
Se trata de validez convergente alta.
Para la validez discriminante, se comparan los valores de la diagonal de validez convergente con los
triángulos marcados en la imagen. Si es mayor que ellos en promedio, se considera que hay alta validez
discriminante.
Para estudiar la estabilidad de las relaciones, se comparan los cuatro triángulos. Si se parecen relativamente
mucho, podríamos afirmar que son estables las relaciones independientemente del método (los rasgos se
relacionan igual entre ellos independientemente del método). En este ejemplo, se parecen dos a dos, pero
no entre todos, por lo que hay diferencias en la medida. El rasgo en concreto está relacionado con el método
que se utiliza para medirlo.
Validez referida al criterio: ESTO ES TEMA 5
Tema 5: Validez referida al criterio.
Es la validez cuyo objetivo es, a partir de un test que hace de variable independiente o predictor, predecir
una conducta (variable dependiente) de la mejor forma posible. Hay que destacar que no se refiere a la
conducta que mide el test originalmente, es decir, si el test es de ansiedad la validez de criterio tendría que
mirarse con constructos cercanos y externos, como depresión. Los más habituales son:
-Rendimiento académico
-Rendimiento laboral
-Éxito en la terapia
Este es el tipo de validez más importante. La relación esperada entre el criterio y el constructo original se
basa en la red nomológica. ¿Cómo se analiza? Con la correlación entre el test y el criterio o la regresión lineal
entre ellos, y este último apartado es el que veremos en este tema.
Vamos a ver en este tema la correlación, la regresión lineal simple y la múltiple. En otras palabras,
estudiaremos las relaciones de regresión lineal entre el test y el constructo externo o criterio. Comenzamos:
Regresión lineal simple.

La variable independiente se denomina Predictor. Es el test.
La variable dependiente se denomina Criterio. Es la conducta externa relevante.
El modelo de regresión proviene del modelo lineal general, el cual asume que las variables se relacionan con
una recta
La puntuación en un criterio es igual a la ordenada en el origen (alfa), la puntuación en un test predictor por
un coeficiente de regresión (beta) y un error.
Para predecir una variable criterio hay que conocer el valor de los siguientes componentes:
- Y es la dependiente (o variable criterio)
- Alfa, que es el origen de la recta (o coeficiente de regresión)
- Beta, que es la pendiente (o coeficiente de regresión)*
- La X, que es la puntuación en el predictor
- La E, que es el error de medida o residuo
*El coeficiente Beta puede tomar tres tipos de valores:

a) Mayores que cero: La pendiente es positiva, por tanto la correlación entre X e Y también lo es.
b) Menores que cero: La pendiente es negativa, por tanto la correlación entre X e Y también lo es.
c) Igual a cero: La pendiente vale cero, por tanto la recta es paralela al eje horizontal. La correlación X
e Y es igual a cero, es decir, no hay correlación.
Para poder aplicar la regresión lineal simple hay que cumplir cuatro supuestos:
1. Linealidad (tiene que haber una relación lineal entre ambas). Si no se cumple, los coeficientes son
estimadores sesgados y hay que emplear una regresión no lineal. Se comprueba dibujando la grafica.
2. Independencia: Cada puntuación de cada sujeto es independiente de las del resto. Se comprueba de
dos formas: Analizando los residuos (si no están correlacionados o su media es cero) u obteniendo
los datos aleatoriamente de la población.
3. Normalidad: La variable dependiente se tiene que distribuir normalmente para cada valor de la
variable independiente. Se comprueba mediante la media de los errores, es decir, si se distribuyen
normalmente se cumple este supuesto.
4. Homocedasticidad: La varianza de la variable dependiente es igual para todos los valores que puede
tomar la variable independiente. Si eso se cumple, hay homocedasticidad. Se verifica analizando la
varianza de los errores, que debe ser igual a la varianza poblacional.
La ecuación de regresión que hemos explicado antes corresponde a puntuaciones directas, pero también
está la ecuación de regresión tipificada.
A partir de una nube de puntos de X e Y, hay que tratar de determinar que recta es la que mejor se ajusta a
esa nube. Se parte de que hay infinitas rectas, de las cuales hay que quedarse con una (la mejor). Para decidir
la mejor recta se sigue el criterio de mínimos cuadrados.
Se elige un punto al azar y se mira el valor de la altura (Y). Tras ello, se proyecta el punto sobre la recta de
regresión, dando como resultado Y´. Y´ es un valor teórico que no existe, es el valor pronosticado. La
diferencia entre Y´ e Y es el error de predicción o residuo.
La recta de regresión es la que menor error o mayor aproximación tiene para todos los sujetos (la que hace
mínimos todos los errores). Los errores se elevan al cuadrado (ya que si no se anularían) y se suman, y la
suma de menor valor es la más adecuada para predecir el criterio.
Al final obtendremos una recta que trabajará bien con puntuaciones directas (la superior, en la imagen) y en
típicas (la de abajo).
Vamos a ver una serie de aspectos concretos de ambas rectas:

- Puntuaciones directas: A y B tienen valores desconocidos pero calculables mediante las
ecuaciones de la imagen de arriba.
- Puntuaciones típicas: A y B tienen valores conocidos, cumpliéndose siempre que A = 0, y que B =
RXY. Por tanto, el valor de B equivale a la correlación entre las variables predictor y criterio.
Bondad de ajuste: Coeficiente de determinación
Si elevamos al cuadrado la correlación RXY entre predictor y criterio, obtenemos un valor. Ese valor se
denomina coeficiente de determinación, y es el valor de referencia para ver cuánto se relacionan las
variables entre si. Dicho de otra forma el coeficiente de determinación calcula la bondad de ajuste de una
variable sobre la otra.
El coeficiente de determinación RXY2 se interpreta de la siguiente manera:

- Si R2 es igual a cero, el ajuste es nulo. Las variables son linealmente independientes.
- Si R2 es igual a uno, el ajuste es perfecto. Las variables son linealmente dependientes.
Se puede interpretar de dos formas: En un tanto por ciento de reducción de los errores de predicción, y
porcentaje de varianza común de X e Y explicada. Pongamos como ejemplo que RXY2 = 0,80. Entonces:
a) Se han reducido los errores en un 80%
b) Las variables X e Y comparten un 80% de su varianza
c) El ajuste entre el modelo y los datos es el 80%
d) El predictor predice el criterio con una exactitud del 80%
Tratamiento de los coeficientes de regresión
Lo complicado de la regresión es saber si un valor determinado de B es estadísticamente significativo o no.

Aunque B tenga un valor, hay que comprobar que estadísticamente es distinto de cero. Vamos a ver como
se comprueba si el coeficiente B se la ecuación de regresión vale cero o no. La forma de comprobarlo es el
formato ANOVA. El modelo del formato ANOVA parte de que la varianza total es igual a la varianza de la
regresión más una varianza error:
La varianza se calcula para cada sujeto, por lo que luego se debe sumar la varianza de todos los sujetos, y
esto equivaldría a la suma de cuadrados total que equivale a la suma de cuadrados de la regresión más la
del error. (Preguntar esto)
Dentro del formato ANOVA, el coeficiente de determinación RXY2 se puede calcular también de la siguiente
forma:
El formato ANOVA. Representación en tabla.

Para resumir y comprender mejor lo que acabamos de ver, veámoslo en una pequeña tabla – resumen.
Factores que afectan a la validez.
El coeficiente de validez es la correlación entre el test y el criterio externo (conducta relevante). El coeficiente
de validez puede verse afectado por una serie de factores:
- Error muestral (diferencia entre RXY y PXY)

- Error de medida (falta de fiabilidad en el predictor)
- Criterios o predictores muy simples. Hay que evitar los que están reducidos a dos o tres valores
(éxito/fracaso, acierto/error).
- Variación del rango en el criterio o predictor: cambios en la variabilidad por restricción de rango,
que puede afectar tanto al criterio como al predictor.
- Definición del constructo incorrecta (no tengamos claro aquello que estamos intentando medir).
- Errores de codificación o de cálculo (al manipular la base de datos, calcular mal una correlación,
etc.)
- Factores extraños asociados a la muestra: experiencia previa, falta de entrenamiento, etc.
La validez, además, tiene una relación muy estrecha con la fiabilidad. Si la fiabilidad es mala, la validez (o
correlación XY) puede verse amenazada. Para asegurarnos de que la validez de una prueba no está limitada
por un factor de fiabilidad, podemos fijarnos en la diferencia entre la máxima correlación que sería posible
para un valor de fiabilidad concreto y la validez que hemos obtenido en nuestra prueba. La correlación
máxima para un valor concreto de fiabilidad se calcula de la siguiente forma:
Una vez tengo el valor de la validez máxima (por ejemplo 0,60), hay que calcular la correlación entre la
variable predictora y la variable criterio (por ejemplo 0,20). Si hay mucha diferencia entre la máxima y la
obtenida, podemos asumir que ha habido algún error.
Hay que señalar que la correlación entre X e Y puede tener determinado error. Para compensarlo, existe un
índice de correlación desatenuada. Este indica el valor de la validez eliminando todo error posible. Se calcula
de la siguiente forma:
Cuanto mayor sea la fiabilidad, mayor será la validez en términos generales. Si cambia alguna fiabilidad, hay
que ver qué efectos ha producido en la validez mediante la ecuación que aparece a continuación:
Apunte aparte: La restricción de tango suele ocurrir en el test. Imaginemos que se presentan mil personas
para un puesto de trabajo, y a modo de filtro se pasa un test de personalidad de los cuales te quedas con
diez.
Esos diez, si los evalúas al año siguiente, seguramente presentarán restricción de rango, tanto en cuanto
quieras saber si esos diez candidatos que se seleccionaron se han presentado como esos diez mejores
candidatos que eran supuestamente en un principio con respecto a la muestra original.
5.4. La generalización de la validez o la validez de generalización.
Estudio del grado de generalización de los resultados del test. Se mide el grado de replicabilidad. Como dato,
debería curiosear algo acerca del efecto Mozart.
En cualquier caso, la replicabilidad se estudia mediante los meta – análisis, que estudian hasta qué punto los
datos encontrados en una investigación son generalizables a otras investigaciones y campos.
Un meta – análisis es un reanálisis de los resultados y procedimientos de estudios previos. Sirve además para
estudiar los errores encontrados en cada estudio.
Como fase final, se calcula un tamaño del efecto para el meta-análisis. Cuanto mayor sea el tamaño del
efecto más relevantes son los resultados.
5.5. La correlación parcial.
La correlación parcial es la correlación de dos variables controlando el efecto de una tercera, es decir, la
correlación limpia entre dos variables. Supongamos que tenemos tres variables: El nivel de vocabulario de
una persona, el rendimiento en Lengua y el Coeficiente Intelectual. Supongamos también que la correlación
entre Lengua y CI es de 0,70. 0,70 sería el valor de la correlación de Pearson, a la que también se le llama
correlación sin controlar, porque no tiene en cuenta efectos externos (no discrimina la influencia de la
variable vocabulario).
En este ejemplo, la correlación controlada (o parcial) sería de 0,60. Es decir, ya no incluimos en la correlación
entre lengua y el CI el efecto causado por vocabulario, por ello eliminamos el sesgo que dejaba la correlación
de Pearson normal.
La correlación parcial es siempre menor que la original, porque elimina el peso de factores ajenos a la
correlación en si misma.
La correlación inicial o no controlada recibe el nombre de correlación de orden cero.
La correlación semiparcial elimina la relación de vocabulario solo con una de las variables, por ejemplo con
Lengua, dando un valor de 0,5. Siempre es menor que la parcial porque hay más cantidad de similitud entre
dos variables que entre tres.
5.6. Regresión lineal múltiple.
La regresión lineal múltiple intenta predecir una VD a partir de varias VVII. El modelo general de la regresión
lineal múltiple es el siguiente:
 La Yi es la puntuación del sujeto en la VD

 B0 es el origen del plano de regresión (ordenada en el origen)
 Bi son los coeficientes de regresión parciales
 Xi son las variables predictoras
 Ei es el error de medida
¿Qué ventajas tiene emplear varias variables independientes?

- La VD depende de varios factores
- Mejor explicación de la VD
- Se eliminan efectos comunes entre variables
- Permite saber el efecto neto de cada VI sobre la VD
Los supuestos son los mismos que en la regresión lineal simple, excepto uno extra:
La no colinealidad. La colinealidad es la presencia de correlación alta entre al menos dos de las VVII. No debe
haberla, pero si la hay, tenemos varias soluciones: eliminar una de las VVII, combinarlas, o utilizar una
regresión no lineal.
¿Qué patrón de correlaciones sería el ideal? Aquel en el que las VVII no correlacionan de forma elevada entre
si, pero si que correlacionan alto con la VD.
Al igual que en la regresión simple, se trata de ver todas las combinaciones posibles que hay entre todas las
variables, y quedarse con el mejor plano. Tenemos infinitos planos, y para quedarnos con el mejor
elegiremos el que haga mínimos los errores (criterio de mínimos cuadrados).
Lo de arriba es un ejemplo de ecuación de regresión múltiple en puntuaciones directas, y lo inferior es la

ecuación en típicas.
Cuando la tenemos en típicas podemos comparar los coeficientes de regresión, tal que el mayor coeficiente
marcará cuál será la variable más influyente en el criterio y el menor la que menos influye.
La interpretación en puntuaciones directas es la siguiente: para unos valores de motivación y ansiedad

dados, un aumento de un punto de CI produce un incremento de 0,4 en el rendimiento. Para un CI y
motivación dadas, un aumento de un punto de ansiedad produce un decremento de 0,20 en el rendimiento.
La interpretación en puntuaciones típicas es exactamente igual, pero hablando en términos de desviaciones

típicas y no de puntuaciones directas, de forma que para una ansiedad y motivación dadas, un aumento de
una desviación típica en CI produce un incremento de 0,7 desviaciones típicas en el rendimiento.
El coeficiente de determinación se calcula de la misma manera que el anterior, solo que en este caso es
múltiple, y se interpreta igual, de cero a uno.
El estadístico de contraste F se calcula como:
Y se distribuye según Fp, n-p-1
Será siempre constaste unilateral derecho, manteniendo la H0 si F cae en la zona de aceptación, y

rechazándola en caso contrario.
Regresión jerárquica: Buscar la ecuación de regresión que ofrece el mejor ajuste con el menor número de
VVII. ¿Cómo sabemos cuáles son? Viendo las que tengan mayor coeficiente de determinación semiparcial
con Y.
Para obtener las diferentes posibilidades, podemos utilizar tres métodos:
 Método hacia adelante: Por pasos.

1. Se incluye en la ecuación la VI que más correlacion absoluta tiene con la V.D.
2. Se incluyen una a una las VVII que más correlacion parcial tienen con la VD
3. Se detiene el proceso cuando se llega a una variable que no explica nada del proceso.
 Método hacia atrás: Por pasos

1. Formula un modelo formado por todas las VVII que hay
2. Elimina la VVII que no es estadísticamente significativa
3. Se detiene el proceso cuando se llega a una variable que sí es relevante.
Ambos procedimientos suelen dar resultados parecidos, no deberían presentar diferencia.
 Método de pasos sucesivos: Es una combinación de los dos anteriores.

1. Formula un modelo en el que incluye únicamente a la vvii más relevante
2. Añadir otra variable. Se añade la que más coeficiente de determinación tenga entre la variable inicial
y la nueva. El spss calcula todos los modelos posibles y se elige el mejor de todos según su R2. Lo
característico de este modelo es, además, que en el paso dos puede salirse del modelo la vvii inicial
del paso 1.
3. Es igual que al anterior, solo que ahora se calculan los modelos de tres en tres y se elige el mejor.
Pueden salirse las dos del modelo anterior de la ecuación.
4. Este procedimiento se va a detener cuando ninguno de los R2 calculados sea significativo.
Este procedimiento tiene la ventaja de que, al ser una combinación de los dos anteriores, va a producir
mejores resultados.
Regresión jerárquica en SPSS. Revisión por tablas.

En SPSS, la primera tabla que aparece es la de la bondad de ajuste, que permite comprobar si la regresión
lineal (simple o múltiple) se ajusta a los datos o no.
El modelo 1 es una sola variable predictora.
El modelo 2 son dos variables predictoras.
La R es la correlación entre la variable/s predictora/s y el criterio. Es la correlación de orden cero o de

Pearson.
R cuadrado es el coeficiente de determinación (porcentaje de varianza compartido entre ambas variables
predictora y criterio, sería lo mismo que decir que las dos variables se parecen un tanto por ciento, o que el
predictor predice un tanto por ciento del criterio, o que los errores se han reducido en un tanto por ciento).
R cuadrado corregido no lo calculamos, pero hay que saber que siempre es mas pequeño porque penaliza el
numero de variables independientes. Se interpreta exactamente igual que el R cuadrado normal.
Para comprobar que ese R cuadrado es estadísticamente significativo se compara el cambio en R cuadrado
con el nivel de significación.
Por tanto, la H0 es que es menor o igual que cero, y la H1 que es mayor que cero.
El estadístico de contraste es lo que pone en cambio en F.
Ahora interpretamos el modelo 2. Incluye dos variables predictoras (dos VVII).

El R es la correlación múltiple entre las dos predictoras y el criterio simultáneamente.
El R cuadrado es la varianza que comparten las tres variables a la vez, y se interpreta igual que el anterior.
El cambio en R cuadrado en el modelo 2 hace referencia a la proporción de varianza que comparten
exclusivamente la segunda VVII y el criterio. Hay que comprobar que sea significativo (mayor que cero) y se
hace igual que en el modelo 1.
Si nos preguntan por el ajuste o por una variable en particular, se mira la tabla de la regresión.
Si nos preguntan por el ajuste total, se mira la tabla de ANOVA:

La H0 en ANOVA es distinta a la anterior: R cuadrado es igual que cero. Para el modelo 1, los grados de
libertad son siempre 1 en regresión ya que solo hay una VVII. Los gl en residual son el tamaño muestral
menos dos*
*Es importante tener en cuenta una cosa. En la RLM los grados de libertad del modelo cualquiera es n-p-1.
En el modelo uno coincide con N-2 porque el modelo 1 de la RLM y el modelo de la RLS coinciden en número
de variables, pero hay que saber que realmente es igual a n-p-1, siendo p el numero de variables
independientes.
Al hacer el contraste, recordemos que el contraste en ANOVA es exclusivamente unilateral, por lo que H1
ha de ser mayor que cero.
En el modelo dos la H0 es igual que antes. El modelo uno de la tabla ANOVA y la tabla de regresión coinciden,
pero el modelo dos NO.
Ecuación de regresión: La ecuación de regresión se construye mirando otra tabla de SPSS, que se adjunta
debajo del párrafo. Encontramos los coeficientes beta en puntuaciones directas y tipificados, pudiendo
además ver si son significativamente mayores o menores que cero.
Por último, tenemos una última tabla que muestra las correlaciones de orden cero, parcial y semiparcial del
modelo. Es la siguiente:
Además de las correlaciones, a la derecha de la tabla encontramos los estadísticos de colinealidad. Son dos
pruebas que comprueban si se cumple el supuesto de no colinealidad o si no: Tolerancia y Factores de
Inflación de Varianza (FIV).
 Tolerancia: Toma valores de cero a uno, y se calcula como 1 – R2j. Cuanto más se acerca a uno, menos
colinealidad hay en el modelo. Si es menor a 0,10 se asume que sí que hay colinealidad, por lo que
habría que tomar medidas para eliminarla (son las que hemos visto antes)
 Factores de Inflación de Varianza (FIV): Se calcula como 1/Tolerancia. Si es mayor que diez, se asume
que hay colinealidad.
Tema 6. Validez de la estructura interna
Análisis factorial (AF): Como se vió en los temas anteriores (aunque solo mencionado), la validez de la
estructura interna se mide mediante técnicas de análisis factorial. Por tanto, podemos definir el análisis
factorial como un conjunto de técnicas estadísticas empleadas para representar o resumir un conjunto de
variables observadas en un menor número de variables latentes (no observadas). Se reducen las
puntuaciones de un sujeto en muchas variables en un factor (factor latente). Se utiliza para ver cuántas
dimensiones tiene una prueba. El análisis factorial fue ideado por Galton (1883) que planteó que la idea de
la estadística debería descubrir métodos para resumir los hemos similares para una mejor ejecución, y fue
desarrollado por Spearman (1904). Este desarrolló el AF para validar su teoría bifactorial de la inteligencia
(Factor G y específicos). Por último, su discípulo Thurstone (1931) amplió el AF en su teoría de Aptitudes
Mentales Primarias.
Las utilidades del análisis factorial son las siguientes:

- Validar un instrumento de medida.
- Desarrollar teorías sobre los constructos a partir de múltiples medidas observadas: Teorías de
inteligencia, personalidad, etc.
- Reducir el numero de variables observables a variables o factores latentes.
El análisis factorial analiza la varianza común de un conjunto de variables. Con él se obtienen factores
latentes. Es adecuado para validar una teoría y parte de un modelo estadístico.
Existe otro método oponente al AF; el Análisis de Componentes Principales:

- Analiza la varianza común y la específica de un conjunto de variables.
- Resume las variables observadas en otras variables observadas.
- No es adecuado para validar una teoría.
- No parte de un modelo estadístico.
El análisis factorial sigue en la actualidad dos aproximaciones, denominadas análisis factorial exploratorio
(AFE) y análisis factorial confirmatorio (AFC). Aunque existen muchas diferencias entre ellos, ambos se basan
en el Modelo Lineal General. Sin embargo, y dada la relevancia de sus diferencias, vamos a estudiarlos por
separado.
Análisis Factorial Exploratorio (AFE). Notas generales:

Tiene como propósito fundamental la búsqueda de una estructura de dimensiones o constructos latentes, a
partir de las correlaciones entre las variables observadas. En el AFE no se presupone a priori un número
determinado de factores (de ahí que FK, según la imagen que aparecerá más adelante). No se establecen
relaciones a priori entre las variables y los correspondientes factores, considerando simplemente que la
conducta en las variables observadas (los ítems) depende de ese número indeterminado de factores, que
pueden afectar a priori a cualquiera de las variables, como se ve en las fechas que unen a todos los factores
con todas las variables. En un AFE no se establecen relaciones precisas entre factores, pudiendo
correlacionar todos entre sí. Por otra parte, se considera que los factores error son independientes. Al no
disponer de un modelo a priori, no se establecen hipótesis previas que puedan ser sometidas a confirmación
o refutación, lo que lleva a decisiones subjetivas. Por ende, ante la ausencia de modelos, se dificulta el
tratamiento de los factores para grupos múltiples, tales como invarianza, replicabilidad de los factores, etc.,
ya que no permite establecer hipótesis.
El AFE se divide en cuatro etapas o fases: preparación inicial de los datos, extracción de los factores, rotación
de los factores, e interpretación de los factores.
a) Preparación inicial de los datos: Se seleccionan las variables que se pretenden analizar y se recogen
las muestras de tamaño adecuado, teniendo en cuenta todas y cada una de las consideraciones vistas
desde el comienzo de la asignatura hasta ahora. La elección debe estar guiada por la teoría. Esta fase
concluye con la matriz de correlaciones o la matriz de covarianza, a elección del investigador. En el
AFE en general se emplea la de correlaciones. Se denomina R y es una matriz de orden p (donde p es
el número de variables). Un análisis preliminar de esta matriz permite saber si vale la pena o no
realizar un AFE o no: Si las correlaciones son muy bajas, no tiene sentido pensar en la existencia de
factores comunes. Hay estadísticos que ayudan en esta toma de decisiones, como los de Kayser-
Meyer-Olkin y la prueba de esfericidad de Barlett.
b) Extracción de los factores: En esta fase se determina el número de factores que permiten explicar las
correlaciones entre las variables. Es también conocida como solución directa.
Tema 7. Interpretación de las puntuaciones
Transformaciones: Permiten comparar las puntuaciones de una persona en diferentes test, de diferentes
personas en un mismo test, o de diferentes personas en diferentes test. Distinguimos dos tipos:
Interpretación referida a las normas: Las P.D. se interpretan en función de grupos normativos (percentiles,
promedios, etc.)
Interpretación referida a un criterio: Las P.D. no se comparan con un grupo normativo sino con un criterio
(rendimiento laboral o académico, o recuperación de una determinada terapia).
Una misma prueba puede interpretarse de las dos formas.
Interpretación referida a normas (grupo normativo o grupo de referencia -grupos de edad o nivel educativo,
o incluso sexo- formado por un criterio relevante). La escala primaria es la puntuación directa que ha
obtenido el sujeto (la puntuación total del test). Es una puntuación sin transformar nada. La escala
transformada es una transformación de la primaria para comparar a un sujeto con el grupo normativo (por
ejemplo, escalas de CI). Hay dos tipos de transformaciones:
- Lineales: No alteran la forma de la distribución
o Estandarizadas: Tipificación de las puntuaciones (PD – Media) / DT. La ventaja es que todas
las PT tienen de Media = 0 y DT=1. Se interpretan como “Cuántas DTs se aleja la PD de la
media”. Por tanto, si un sujeto obtiene una Z=1, su PD está a una DT de la media.
o Estandarizadas derivadas: Es la puntuación T. Se calcula mediante la ecuación
fundamental del escalamiento lineal:
La T es producto de una regresión lineal simple, donde los coeficientes se calculan asi (T=
a + bX)
 A= Media de T menos la Media de X
 B= DT T entre DT X.
Esto es el caso, por ejemplo, del CI (en típicas).
- No lineales: Transforman la distribución

o Percentiles: Valor numérico que deja por debajo de sí un porcentaje determinado de los
casos del grupo normativo. También se les llama centiles. Para hallarlo hay que calcular la
fórmula:
Los centiles hay que redondearlos porque no tienen decimales. El centil más bajo no se
interpreta porque da error.
Los centiles no son una escala de intervalo, no corresponden con la misma distancia en
PD. No se pueden usar con estadísticos que requieran operaciones aritméticas. Son menos
estables para los valores medios de la distribución que para los valores extremos. Los que
están en la parte central difieren entre sí mucho más que los extremos entre sí. Entonces,
lo que sucede es que la parte central tiene mucha variabilidad y los extremos poca.
o Puntuaciones Z normalizadas: Es una puntuación típica (Z) pero que se distribuye

normalmente (la anterior no lo hace). Para calcularla, se calculan todos los percentiles
para cada DT. Buscar en la tabla Z las puntuaciones correspondientes a cada percentil en
porcentaje, y luego se suavizan las puntuaciones obtenidas para que no presenten muchas
fluctuaciones. La Z normalizada es desaconsejable cuando la P.D. presenta una
distribución muy alejada de la normal.
o Normalizadas derivadas: Son transformaciones de las Z normalizadas.
 Decatipos: Media de 5,5 y DT 2
 Delta: Media de 13 y D.T. 4.
 Escala T: 50 + 10Zn.
Como requisito, es obligatorio elegir correctamente el grupo normativo, para no acabar comparando a la
persona con quienes no se debe.
Tipos de normas:
- Nacionales: Muestras representativas nacionales. Edad, raza, sexo, estatus socioeconómico,
comunidad autónoma.
- Locales: Basados en comunidades más restringidas. Suelen ser el test educativos. Se refiren a la
población con las que el evaluado tiene experiencia directa. Funcionan muy bien para una
comunidad concreta pero no se pueden generalizar fuera de esa comunidad.
- De usuario: Evalúas a un numero de personas y haces los baremos en función de esos sujetos
únicamente. Se aplican por ejemplo en selección de personal al aplicar el test a los que acuden
en el proceso de selección. No son representativos. Es mucho menos útil que un baremo nacional
o local.
- De conveniencia. El peor de todos. Es casi igual que el de usuario. El de conveniencia es el que tu
realizas para baremar una prueba para unos sujetos concretos. Por ejemplo, los que hemos hecho
en clase.
¿Cómo se calculan los baremos?

- Identificar la población objetivo
- Indicar los etadistiocs a calcular
- Determinar la cantidad de error admisible
- Realizar el diseño muestral
- Determinar el N de la muestra para el error fijado
- Extraer la muestra y aplicar el test.
- Calcular estadísticos de en la muestra y el test
- Calcular la puntuación normalizada
- Escribes el manual interpretando las puntuaciones del grupo normativo
- Las normas deben revisarse cada cierto tiempo, un test de hace diez años puede ser que en la
actualidad no funcinoen bien. Conviene revisarlos cada 10 años aproximadamente.
Equivalencia de puntuaciones.
Formas alternativas: Diferentes formas de un mismo test que miden el mismo constructo, por ejemplo tests
adaptativos, en los que cada sujeto responde a un conjunto diferente de ítems. Para ello se utiliza la
equiparación, que son técnicas estadísticas que permiten ajustar o comparar las puntuaciones obtenidas en
diferentes formas de un mismo test. Esto es especialmente útil en diseños de medidas repetidas pre – post.
Únicamente lo veremos a nivel descriptivo. ¿Qué deben cumplir dos medidas para ser equiparables?
- Las dos formas deben medir el mismo constructo teórico
- Las dos formas deben tener la misma fiabilidad
- Indiferencia: Para cada grupo con la misma aptitud, la distribución de frecuencias condicional
sobre una forma es la misma que la otra, es decir, no se debería dar que una forma sea más fácil
y otra más difícil (rendimiento óptimo) ni que los criterios de respuesta cambien (rendimiento
típico)
- Invarianza poblacional: Los resultados con las dos formas deben ser iguales en cualquier grupo
seleccionado. Es decir, que si evalúas a dos grupos con formas distintas el total de sus
puntuaciones no puede diferir de uno a otro (ambos grupos han de tener la misma puntuación).
- Simetría: Se aplica cuando una forma tiene una escala de medida diferente a la otra, sea en rango
de valores o en tipo de escala. Los resultados en una forma han de ser equivalentes a la otra
(guardar una proporción en ambas formas), es decir, que el mismo sujeto no saque una
puntuación alta en una forma y media en la otra.
El problema de estas condiciones es que no suelen cumplirse las cinco. Por ello, en la práctica, si se cumplen
la de invarianza poblacional y la de simetría se asume que son equiparables.
Formas de comparabilidad. Procedimientos para comprobar la equiparabilidad.

- Equiparación (método estadístico): Solo se puede aplicar si las dos formas son equivalentes,
mejor dicho, solo funciona bien cuando las formas son equivalentes. Es el mejor procedimiento.
Para poder emplearlo debe cumplirse:
o Debe tener el mismo numero de ítems

o Debe tener el mismo formato (dicotómico, Likert)
o Tienen que evaluar las mismas habilidades
o Tienen que implicar las mismas demandas cognitivas
o Tienen que tener dificultad similar
o Se deben aplicar en las mismas condiciones.
Este procedimiento genera formas simétricas, permite que las puntuaciones de las dos formas
sean equiparables. Obtiene dos formas completamente equiparables. Es el ideal.
- Calibración: Permite unir y vincular dos test más diversos mediante un procedimiento
matemático. Es decir, es menos restrictivo. El problema que tiene es que el cálculo es muy
complejo, lo que implica una muestra de sujetos enorme (entre 1000 y 2000 sujetos). Ha de
cumplirse:
o Han de medir el mismo rasgo
o Han de tener mismo formato de ítems
La ventaja es que las formas pueden no ser iguales en longitud y dificultad. Obtiene dos fórmulas
equiparables.
- Modelación estadística: Se emplea con diferentes Tests que miden el mismo constructo. Este
procedimiento se emplea cuando dos formas miden el mismo rasgo pero son diferentes Tests (no
son equiparables las puntuaciones). No cumple el supuesto de invarianza poblacional, por lo que
no genera formas equiparables.
- Predicción: Se utiliza una forma para predecir la otra mediante la regresión lineal entre ellas. Se
necesita que el grupo haya respondido a las dos formas. Es el peor, pero es el menos restrictivo.
No cumple los dos supuestos principales, por lo que no obtiene formas equiparables. Pero es
mejor que nada.
Todo esto era para igualar dos formas a nivel matemático. Ahora veremos los diseños:
- Grupo único: Es el diseño ideal. A un grupo de sujetos se le aplican las dos formas. Asumiendo
que no hay efecto de aprendizaje, familiaridad o fatiga. Es el menos usado.
- Grupo único con contrabalanceo: Dividimos el grupo en dos y a la mitad se le aplica primero la
forma A y luego la B y a la otra mitad del grupo al revés. Es el mejor.
- Grupos aleatorios equivalentes: Cada forma del test se la aplicamos a un grupo diferente. Los
grupo deben ser equivalentes en el rasgo que mide el test. Cuanto mas grande sea el grupo, más
probable es por azar que estén equoarados.
- Grupos ni equivalentes con ítems de anclaje: Hay dos grupos no equivalentes y dos formas del
test, pero que incluyen ítems de anclaje (ítems comunes a las dos partes).
o Anclaje interno: Los ítems forman parte de las dos formas. La puntuación de cada forma
se calcula con los ítems de anclaje (todos los anclajes forman parte del cálculo del total).
o Anclaje externo: Los ítems no forman parte de las formas. La puntuación total de cada una
no se calcula con los ítems de anclaje.
Si los dos grupos puntuan igual en los ítems de anclaje, se asume que son equivalentes.
Métodos de equiparación:
1. Transformaciones lineales:
a. Equiparación en la media. Las dos formas difieren en una constante: la diferencia de medias.
Se asume que las puntuaciones diferenciales de la forma A (X - XMEDIA) y B (Y-YMEDIA) son
iguales, y se igualan.
b. Equiparación en típicas. Se igualan las diferencias de medias entre las desviaciones típicas.
2. No lineales:
a. Equiparación equipercentil. Produce mejores resultados que la media y la lineal (es mejor
procedimiento). Hace la equiparación basándose en los percentiles de las dos formas. Asume
distribuciones continuas de las puntuaciones. Se hace asi:
Las columnas rojas son copias de las azules recolocadas. Se mira el percentil rojo. ¿dónde cae
en el percentil X?. Què puntuación Y le corresponde? Se garantiza lo máximo posible que las
dos formas sean muy parecidas en puntuaciones. Las puntuaciones X e Y tienen misma media,
D.T, asimetría y curtosis, se encuentran en el rango de la escala inicial.
Tema 8. Introducción a la TRI.
Limitaciones de la TCT:
- En la TCT hay varianza de los parámetros. La estimación de V depende de la muestra, y no debería
ser así. En la TRI no ocurre esto, pues no depende de los ítems aplicados ni de la muestra.
- En la TCT la precisión del test es la misma para el mismo nivel de rasgo o para todos los sujetos,
es decir, un test es igual de fiable para cualquier sujeto de la muestra sin tener en cuenta sus
condiciones individuales. La precisión depende, además, de la dificultad y discriminación del ítem.
La TRI, por su parte, calcula la fiabilidad para cada sujeto y cada ítem. Es mucho más precisa
porque se adapta a cada uno de los sujetos.
- En la TCT no se ofrecen indicadores de la bondad de ajuste del modelo a los datos. En la TRI
pueden calcular índices de bondad de ajuste.
En la TRI hay modelos para ítems dicotómicos y politómicos, pero en este tema veremos únicamente modeos
test de rendimiento óptimo dicotómicos.
- Curva característica del ítem: El eje vertical es la probabilidad de acertar el ítem para un nivel de
rasgo concreto. La escala del nivel de rasgo va de menos infinito a infinito, pero se representa de
-3 a 3.
En la TRI se emplea el modelo logístico, no lineal, para establecer estas curvas. La regresión lineal
no funciona bien porque tiene peor ajuste.
En la TRI se trabaja con tres modelos logísticos:
- Modelo logístico de un parámetro: Asume que los ítems varían sólo en un parámetro de
dificultad. Modelo de Rasch (no hay que sabérselo).
 Theta es el nivel de rasgo de la persona.

 BJ es el parámetro de dificultad del item j.
 A es el parámetro de discriminación.
 D es una constante que vale 1 para el modelo de métrica logística y 1,702 para el modelo normal.
Cuanto más esté desplazada la curva hacia la derecha más difícil será el ítem (para la misma p de
acierto necesitas más nivel de rasgo), por tanto mayor valor tendrá la B. La B se calcula como el
equivalente al nivel de rasgo que tiene una probabilidad de acertar de 0,5. Se mira en la curva
característica del ítem.
- Modelo logístico de dos parámetros: Asume que los ítems varian en dificultad y discriminación.
- Modelo logístico de tres parámetros: Asume que los ítems varian en dificultad, discriminación, y
azar. A menor nivel de rasgo, más difícil es acertar al azar.
El modelo tres es el mas completo, pero requiere de tamaños muestrales bastante grandes (mas de 1000
sujetos). Los modelos 1 y 2 ajustan peor a ítems de opción multiple
El de 1 parametro se austa mal a los datos
Supuestos que debe cumplir la TRI:

- Unidimensionalidad: El test debe medir un único rasgo, por tanto los ítems también. Se
comprueba con un AF y se comprueba si todos los datos se agrupan en torno a un mismo factor.
Esto significa que no va a haber covarianza entre los ítems para diferentes muestras, es decir, que
te da igual qué ítems emplear para medir el rasgo.Si seleccionamos una muestra que tenga un
mismo nivel de rasgo, la correlacion entre dos ítems debería ser cero. Debe obtenerse un solo
factor en al AF que explique al menos un 25% la varianza total. Tambien se denomina
independencia local débil.
- Independencia local fuerte: Las respuestas de una persona a un ítem no depende de las
respuestas a otro ítem. Las respuestas al ítem solo dependen del nivel de rasgo. Las respuestas
tampoco dependen del orden de presentación. La probabilidad de acertar un ítems es
independiente de la probabilidad de acertar otro. Se se da independencia local, se cumple que
no hay correlación entre ítems para un mismo nivel de rasgo (unidimensionalidad). Si se da
dependencia local positiva (no se cumple el supuesto), los ítems presentan correlacion positiva,
entonces miden todos lo mismo pero no lo que se quiere medir. Problema teorico. Si se da
dependencia negativa (correlacion negaetiva) los ítems miden dimensiones diferentes que no
tienen nada ue ver con el objetivo del todo, esto no tiene solución. Asumento que hay i.l.f, la
probabilidad de acertar un numero de ítems es igual al producto de las probabilidades de
acertarlos por separado, y la p de acertar el primero y fallar el segundo es P1 * Q2, y viceversa.
Estimación de parámetros en la TRI.
Cómo estimamos el valor que toma el nivel de rasgo, la a, la c y la b. Procedimiento:

- Elegir en qué modelo de la TRI nos vamos a basar
- Aplicamos el test a una muestra amplia (miles de sujetos)
- A partir de las respuestas al test, estimas el valor poblacional de a, b y c de -3 a 3.
- Se emplea el procedimiento de máxima verosimilitud: Busca los parámetros más posibles a los
valores muestrales. Se exige una muestra enorme porque sino se comete mucho error. Fases:
o Estimamos el nivel de rasgo con MV: Dados dos ítems con dificultades de -0,7 y 1, y
suponiendo que una persona acierta el primero y falla el segundo. Se construye la CCI del
ítem 1.
o Calculan los ítems
Bondad de ajuste:
La TRI solo se puede aplicar si los datos se ajustan a un modelo. Procedimineto:
- Estudiar el ajuste apra cada ítem entre la probabildad teorica y empírica de escoger cada opcoin
de respuesta según un nivel de rasgo
- Comparar la CCI teorica con la empírica
Metodos:
G2: Agrupa a las personas en intervalos según el nivel de rasgo estimado. Se cimpara la propabilidad
obercada en cada intervalo con la espr<da teóricamente.
Chi2: Es una shitporque tiende a rechazar la H0 y po ell invalidar la vomparacion, igual que el anterior.
Inspección visual CCI: Se inspecciona si la CCI observada se ajusta a la esperada. Es un procedimiento

complementario a los anteriores de contraste. Puede ser que se rechace la H0 por un numero elevado de
sujetos, pero si visualmente se ve que las curvas son iguales (se solapan), asumimos que no hay diferenci y
le dan por culo a las anteriores.

Psicometría (UCM - Jesús Privado Zamorano)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Psicometría (UCM - Jesús Privado Zamorano)

Uploaded by

Copyright:

Available Formats

Psicometría Apuntes Teoría Alexis Hancevich

Tema 2: La Teoría Clásica de los Test. El modelo de la TCT

Cualquier instrumento científico debe cumplir cuatro criterios:

Modelo lineal TCT  Xi= V + Ei

Por tanto, se puede ver el efecto del segundo supuesto de la TCT.

Puntuaciones X Puntuaciones V Error Ei Cuantificación de E

¿Qué concluimos a partir de los cinco supuestos anteriores?

Primera deducción: Como E(E)=0, E(X)=0.

INDICE DE FIABILIDAD: Es la correlación entre X y V, la manera de calcularlo es dividir la desviación típica de

¿Qué se deduce de aquí?

En resumen, si la equis corresponde a varios valores de V, la fiabilidad es una mierda.

Entonces: varianza x * raíz de 1-0,68;

Condición 3. La varianza E y V son iguales: se resuelve igual que el anterior, da 0,5.

Medidas paralelas: Se propusieron ate la imposibilidad de calcular empíricamente el coeficiente de

Dos test son paralelos cuando cumplen lo siguiente:

Consecuencia del paralelismo, se deduce que la media y la varianza de X y X´ son iguales.

¿Para qué sirve que dos pruebas sean paralelas?

P2XV = 0 , P2XE = 1 ; 1 = 2E / 2X , 1X = 2E

¿Cómo conseguimos aumentar la fiabilidad? Aumentando la X.

-Medidas tauequivalentes: Presentan la misma V y distinta varianza error.

¿Qué cosas afectan a la fiabilidad de una prueba?

¿Cómo se puede corregir la restricción de rango?

formula de SB para hallar K, despejá

K: número por el que hay multiplicar la longitud

Procedimientos para calcular la fiabilidad:

Si el test es de rendimiento óptimo (un examen o un test de inteligencia), se da efecto de aprendizaje, y la

3.Aplicación única: Consistencia interna

División en dos partes: Equivalencia o paralelismo

¿Cómo se divide la prueba en dos partes?

En el caso de dividir por cada ítem empleamos los siguientes procedimientos:

Lambdas de Guttman: Son también limites inferiores del coeficiente de fiabilidad.

2.8. Test de velocidad y potencia

Según Gulliksen, se distinguen entre varios tipos de no aciertos:

Un test de velocidad pura, tiene la propiedad de I = NI, ya que E=0.

IV = (Sumatorio de NI)/(suma de sumatorios de Errores, Omisiones y NI) *100.

Significación Clínica Significación estadística

¿Cómo se calcula la fiabilidad del cambio?

ICF: (XPOST – XPRE) / SD

Conceptos importantes y síntesis del tema:

Partimos del menú siguiente: ANALIZAR – ESCALA – FIABILIDAD – MODELO

Para obtener el alpha de Cronbach de toda la prueba, cambiamos MODELO a ALPHA.

-Prueba F: Para ítems en escalas cuantitativas

El resultado es la tabla de ANOVA, tal y como la imagen siguiente:

FUENTE DE SC g.l MCP F (P2N)

En el procedimiento ANOVA hay que contrastar la H0 y la H1 de la siguiente forma:

H0: ITEMI = ITEMJ (la media de todos los ítems es igual)

Tema 3. Teoria Clásica de los Test. Análisis de las puntuaciones de ítems

3.1. Repaso general de conceptos anteriores.

En Tests de Rendimiento Óptimo:

Tests de rendimiento óptimo de Ítems dicotómicos:

Tests de rendimiento óptimo de ítems politómicos:

Test de rendimiento óptimo de ítems dicotómicos de selección múltiple:

En Tests de Rendimiento Típico:

Test de rendimiento típico de ítems graduados:

Donde w es el peso o ponderación del ítem, y el numerador es un SUMATORIO de w*Ui.

3.2 Estimación de puntuaciones:

V´S = PXX* Xs + (1-PXX´)X

1. Calcular el intervalo de confianza alrededor de V (asumiendo un valor de V para encontrar si X está

Después se mira si X está dentro del intervalo o no.

Análisis de la diferencia de puntuaciones:

b) Entre dos test de un mismo sujeto:

3.3. Análisis de los ítems:

a) Analisis de ítems en test de rendimiento óptimo:

Por el contrario, un mal ítem se caracteriza porque la frecuencia de la alternativa correcta no