You are on page 1of 9

En lenguaje cotidiano confiabilidad es sinnimo de seguridad o consistencia.

En
sentido amplio, en el lenguaje de la psicometra, confiabilidad se refiere al
atributo de consistencia en la medicin. Mientras que en la conversacin
cotidiana confiabilidad siempre denota algo que es valorado en forma positiva,
en sentido psicomtrico tan solo denota algo que es consistente, sin que sea
de modo necesario bueno o malo, tan solo consistente.
La confiabilidad no es una cuestin de todo o nada. En cierto contexto,
podemos tener confianza en una prueba y en otro, desconfiar de ella. Hay
diferentes tipos y grados de confiabilidad. Un coeficiente de confiabilidad es un
ndice de confianza, una proporcin que indica la razn entre la varianza de la
puntuacin verdadera en una prueba y la varianza total.
Concepto de confiabilidad
En un sentido ms amplio, error se refiere al componente mismo de la
puntuacin en la prueba que no tiene nada que ver con la aptitud de quien la
responde. Si utilizamos X para representar una puntuacin observada, T para
una puntuacin verdadera y E para el error, entonces el hecho de que una
puntuacin observada ser igual a la puntuacin verdadera ms el error, puede
expresarse como siguiente:
X=T+E
Una estadstica til para describir fuentes de variabilidad en las puntuaciones

de una prueba es la varianza ( ), la desviacin estndar al cuadrado. Esta


estadstica es til debido a que puede fragmentarse en sus componentes. La
varianza de las diferencias reales es la varianza verdadera y la varianza de

fuentes aleatorias irrelevantes es la varianza de error. Si ( ) representala

varianza total,( ) representa la varianza verdadera y ( ) representa la


varianza de error, entonces la relacione de las varianzas puede expresarse
como:

En esta ecuacinel termino confiabilidad se refiere a la proporcin de la


varianza total atribuida a la varianza verdadera. Entre mayor es la proporcin
de la varianza total atribuida a la varianza verdadera. Entre mayor es la
proporcin de la varianza total atribuida a la varianza verdadera, ms confiable
es la prueba. Debido a que se supone que las diferencias reales son estables,
se presume que producen puntuaciones consistentes en aplicaciones repetidas
de la misma prueba al igual que en formas equivalentes de sta. Debido a que
la varianza de error puede incrementar o disminuir en cantidades variables una
puntuacin de alguna prueba, se vera afectada la consistencia en la
puntuacin ypor tanto en la confiabilidad.
Estimacin de confiabilidad
Estimaciones de confiabilidad test - retest
Una regla hecha con el acero de la mejor calidad puede ser un instrumento de
medicin muy confiable. Tambin puede decirse que la confiabilidad de este
instrumento de medicin es estable en el tiempo. Una forma de estimar la
confiabilidad de un instrumento de medicin es usar ese mismo instrumento
para medir lo mismo en dos momentos aislados. En el lenguaje psicomtrico,
este enfoque de la valoracin de la confiabilidad se llama mtodo test retest
y el resultado de dicha evaluacin es una estimacin de la confiabilidad test
retest.
La confiabilidad test retest es una estimacin de la confiabilidad obtenida al
correlacionar pares de puntuaciones de las mismas personas en dos
aplicaciones diferentes de la misma prueba. La medida test retest es
apropiada cuando se valora la confiabilidad de una prueba que pretende medir
algo relativamente estable a lo largo del tiempo, como un rasgo de
personalidad. Si se supone que la caracterstica que se est midiendo flucta
con el tiempo, tendra poco sentido evaluar la confiabilidad de una prueba
usando el mtodo test retest.
Conforme pasa el tiempo, las personas cambian, pueden, por ejemplo,
aprender cosas nuevas, olvidar otras y adquirir nuevas habilidades. Por lo
general, aunque hay excepciones, conforme se incrementa el intervalo de
tiempo entre las aplicaciones de las mismas pruebas, disminuye la correlacin
entre las puntuaciones obtenidas en cada una. El paso del tiempo puede ser
una causa de la varianza error. Entre ms tiempo pase, es ms probable que el
coeficiente de confiabilidad sea menor. Cuando el intervalo entre las pruebas
es mayor a seis meses, a menudo se hace referencia a la estimacin de la
confiabilidad test retest como coeficiente de estabilidad.
Una evaluacin de un coeficiente de confiabilidad test retest debe extenderse
ms all de la significacin del coeficiente obtenido. Si lo que se pretende es
obtener conclusiones propias sobre la confiabilidad de un instrumento de
medicin, el evaluar la estimacin de la confiabilidad test retest debe
ampliarse a una consideracin de los posibles factores que intervienen.
Estimaciones de confiabilidad de formas paralelas y formas alternas
El grado de relacin entre varias formas de una prueba puede evaluarse por
medio de un coeficiente de confiabilidad de formas alternadas o equivalentes,
al cual a menudo se le denomina coeficiente de equivalencia.
Aunque con frecuencia se usan de manera indistinta los trminos formas
alternadas y formas paralelas, existe una diferencia entre ellos. Existen formas
paralelas de una prueba cuando, para cada forma del examen, las medidas de
las puntuaciones obtenidas en forma paralelas se correlacionan de manera
igual con la puntuacin verdadera. De manera ms prctica, las puntuaciones
obtenidas en pruebas paralelas se correlacionan de modo igual con otras
medidas.
Las formas alternas, de modo simple, son versiones diferentes de una prueba
que se han construido para que sean paralelas. Aunque no cumplen con los
requisitos para la designacin legtima de paralelas, las formas alternas de
una prueba generalmente estn diseadas para ser equivalente s con respecto
a variables como contenido y nivel de dificultad.
La obtencin de las estimaciones de confiabilidad de las formas paralelas y de
las alternas es similar en dos formas a la obtencin de un estimado de la
confiabilidad test rest:
1) Se requieren dos aplicaciones de la prueba con el mismo grupo
2) Las puntuaciones obtenidas pueden ser afectadas por factores como la
motivacin, la fatiga o eventos que intervienen en el manejo personal
como la prctica, el aprendizaje o la terapia.
El desarrollo de formas alternas de pruebas puede consumir mucho tiempo y
ser muy costoso.
Se puede obtener un estimado de la confiabilidad de una prueba sin elaborar
una forma alterna de la misma sin tener que administrarla dos veces a las
mismas personas. La derivacin de este tipo de estimado implica una
evaluacin de la consistencia interna de las preguntas de la prueba. De manera
lgica, se le conoce como una estimacin de la confiabilidad de la consistencia
interna o como una estimacin de la consistencia entre reactivos. Existen
diferentes mtodos para obtener estimaciones de confiabilidad de la
consistencia interna. Uno de dichos mtodos es la estimacin de dividir en
mitades.
Estimaciones de la confiabilidad de dividir en mitades
Una estimacin de la confiabilidad de dividir en mitades se obtiene
correlacionando dos pares de puntuaciones obtenidas de mitades equivalentes
de una sola prueba aplicada una sola vez. Es una til medida de confiabilidad
cuando es poco prctico o indeseable evaluar confiabilidad con dos pruebas o
hacer dos aplicaciones de una misma prueba. El clculo de un coeficiente de
confiabilidad de dividir en mitades por lo general implica tres pasos:
1) Dividir la prueba en mitades equivalentes.
2) Calcular una r de Pearson entre las puntuaciones en las dos mitades de
la prueba.
3) Ajustar la confiabilidad de una mitad de la prueba usando la frmula de
Spearman Brown.
Cuando se trata de calcular los coeficientes de confiabilidad de divisin por
mitades, existe ms de una forma de dividir una prueba, pero hay varias
formas en las que sta nunca se debe dividir. No se recomienda tan solo dividir
la prueba en mitades, debido a la probabilidad de que este procedimiento
eleve o disminuya en forma falsa el coeficiente de confiabilidad. Deben
considerarse factores como diferentes grados de fatiga en la primera pare de la
prueba, en contraposicin a la segunda parte, cantidades diferentes de
ansiedad y diferencias en la dificultad de los reactivos como una funcin de su
ubicacin dentro de la prueba.
La frmula de Spearman Brow
Permite a quien elabora la prueba o al usuario de la misma, estimar la
confiabilidad de su consistencia interna a partir de la correlacin de las dos
mitades. Es una aplicacin especfica de una frmula ms general para estimar
la confiabilidad de una prueba que se ha alargado o acortado en cualquier
cantidad de reactivos. Debido a que la confiabilidad de una prueba es afectada
por su longitud, es necesaria una frmula para estimar la confiabilidad de un
examen que se ha acortado o alargado. La frmula general de Spearman

Brown ( ) es:

Donde es igual a la confiabilidad ajuistada por la formula de Spearman


Brown, Es igual a la r de Pearson en la prueba con la longitud original y

n es igual al nmero de reactivos en la versin revisada dividido entre el


nmero de reactivos en la versin original.
Para determinar la confiabilidad de la prueba, se puede entonces usar la
frmula de Spearman Brown para estimar la confiabilidad de la prueba
completa. Cuando sea el doble de largo que su mitad, n se convierte en 2 en la
frmula de Spearman Bown para el ajuste de la confiabilidad de dividir en
mitades. El smbolo de significa la r de Pearson de las puntuaciones en
las dos mitades de la prueba:

Otros mtodos de estimacin de la consistencia interna


Adems de la frmula de Spearman Brown, otros mtodos que se usan para
estimar la confiabilidad de la consistencia interna incluyen frmulas
desarrolladas por Kuder y Richardson (1937) y Cronbach (1951). Consistencia
entre reactivos es un trmino que se refiere al grado de correlacin entre todas
las preguntas en una escala. Una medida de consistencia entre reactivos se
calcula a partir de la sola aplicacin de una forma nica de una prueba. Un
ndice de consistencia entre reactivos es til. A su vez, para evaluar la
homogeneidad de la prueba. Se dice que las pruebas son homogneas si
contienen reactivos que midan un solo rango. Como un adjetivo usado para
describir reactivos de prueba, homogeneidad es el grado en que una prueba
mide un solo factor, o sea, el grado en que los reactivos en una escala son
unifactoriales.
En contraste con la homogeneidad de la prueba, la heterogeneidad describe el
grado en que una prueba mide factores diferentes. Una prueba no homognea
o heterognea se compone de activos que miden ms de un rasgo.
Entre ms homognea sea una prueba, ms consistentes se esperan que sean
las preguntas. Debido a que una prueba homognea ejemplifique un rea de
contenido relativamente reducida, tendr ms consistencia entre reactivos que
una heterognea. La homogeneidad de la prueba es deseable debido a que
permite una interpretacin relativamente directa de la puntuacin de la
prueba. Es probable que aquellos que obtengan la misma puntuacin en una
prueba homognea posean capacidades parecidas en el rea examinada.
Aquellos que obtienen la misma puntuacin en una prueba ms heterognea
pueden tener capacidades bastante diferentes.
Aunque una prueba homognea sea deseable debido a que se presta
fcilmente a una clara interpretacin, a menudo es una herramienta
insuficiente para medir variables psicolgicas multifacticas como inteligencia
o personalidad. Una forma de evitar esta fuente potencial de dificultades ha
sido la aplicacin de una serie de pruebas homogneas, cada una diseada
para medir algn componente de una variable heterognea.
Las frmulas de Kuder Richardson
La insatisfaccin con los mtodos existentes de dividir en mitades para estimar
la confiabilidad llev a G. Frederic Kuder y M. W. Richardson (1937) a
desarrollar sus propias medidas para estimar la confiabilidad. La ms conocida
de muchas frmulas en las que colaboraron es su frmula 20 Kuder
Richardson o KR -20. En caso de que los reactivos de la prueba sean demasiado
homogneos, la KR 20 y la estimacin de la confiabilidad de dividir en
mitades sern similares. Sin embargo, la KR 20 es la estadstica a elegir para
determinar la consistencia entre reactivos de tipo docotmicos, sobre todo
aquellos que pueden ser calificados como correctos o incorrectos. Si los
reactivos de la prueba son ms heterogneos, la KR 20 producir
estimaciones de confiabilidad inferiores al mtodo de dividir en mitades. Se
utiliza la siguiente formula:

Donde representa el coeficiente de confiabilidad de la frmula 20 de


Kuder Richardson, k es el numero de reactivos de la prueba es la
varianza del total de las puntuaciones de la prueba, p es la proporcin de
evaluados que aprobaron, q es la proporcin de reprobados y es la suma
de los productos pq de todos los reactivos. Para este ejemplo particular, k es
igual a 18.
Podemos obtener una aproximacin de la KR 20 usando la vigsima primera
frmula de las series desarrolladas por Kuder y Richardson, una frmula
conocida como KR 21.
La KR 21 puede utilizarse si hay razn para suponer que todos los reactivos
de la prueba tienen aproximadamente el mismo grado de dificultad. Es
necesario agregar que esta suposicin rara vez es justificada. La frmula KR
21 tiende a ser anticuada en una poca de calculadoras y computadoras.
Se han propuesto numerosas modificaciones a las frmulas de Kuder
Richardson a lo largo de los aos. La unica variante de la frmula KR 20 que
ha tenido mayor aceptacin y hoy en da est en su ms amplio uso es una
estadstica llamada: coeficiente alfa.
Coeficiente alfa
Desarrollado por Cronbach (1951), el coeficiente alfa puede considerarse como
la media de todas la correlaciones posibles al dividir en mitades, corregida con
la formula de Spearman Brown. En contraste con la KR -20, la cual se usa en
forma apropiada slo en pruebas con reactivos dicotmicos, el coeficiente alfa
tambien puede utilizarse en pruebas con reactivos no dicotmicos. La formula
para el coeficiente alfa es:

Donde es el coeficiente alfa, k es el numero de reactivos, es la

varianza de un reactivo es la suma de las varianzas de cada reactivo y

es la varianza del total de las puntuaciones de la prueba.


El coeficiente alfa es la estadstiva preferida para obtener una estimacion de la
confiabilidad de la consistencia interna. Se ha desarrollado una variacion para
ser usada en la obtencipon de una estimacion de la confiabilidad test retest
(green, 2003). De manera esencial, esta frmula produce una estimacin de la
media de todos los posibles coeficientes test -.. retest y de divisiones por
mitades. El coeficiente alda se utiliza de manera amplia como una medida de
confiabilidad, debido, en parte, al hecho de que requeire slo una
administracin de la prueba.
A diferencia de una r de pearson, que puede fluctuar en su valor de -1 a +1, el
coeficiente alfa de manera tpica vara en valor de 0 a 1. Esto se debe a que de
manera conceptual, el coeficiente alfa, igual que otros coeficientes de
confiabilidad, se calcula para ayudar a responder preguntas sobre que tan
similares son los conjutnos de reactivos. Aqu, em esencia, la similitud se
estima en una escala de 0 (no similar en absoluto) hasta 1 (perfectamente
idntico). Sin embargo, es posible concebir un conjunto de datos que podra
producir un valor negativo de alfa (Streiner, 2003). Aun as, debido a que los
valores negativos de alfa son imposibles de manera terica, se recomienda que
bajo circunstancias especiales, el coeficiente alfa se reporte como 0 (henson,
2001). Adems, un mito sobre alda es que dice: ms grande siempre es
mejor. como seal Steriner, un valor de alfa mayor que .90 puede ser
demasiado alto e indicar redundancia en los reactivos.
En contraste con el coneficiente alfa, una r de Perason puede ser imaginada
como tratando de manera concptual con lo semejante y lo desmil. As, una r
con un valor de -1 puede concebirse como un indicativo de la perfecta
desigualdad. En la practica la mayora de los coeficientes de confiabilidad, sin
importar el tipoespecfico de confiabilidad que est midiendo, se encuentra
dentro de un rangode valor de 0 a 1. Por lo general esto es cierto, aunqeu es
posible concebir casos excepcionales, cuyos conjuntos de datos produciran
una r con un valor en el rango negativo.
Medidad de confiabilidad entre evaluadores
Cuando estamos siendo evaluados, nos gustara creer que seremos evaluados
en la misma forma, sin importar quien est haciendo la evaluacin.
Denominada en forma diversa como confiabilidad del evaluador, confiabilidad
del juez, confiabilidad del observador y confiabilidad entre evaluadores. Las
referencias a los niveles de confiabilidad entre evaluadores para una prueba
particular pueden publicarse en el manual de la prueba o en alguna otra
prueba. Si el coeficiente de confiabilidad es muy alto, el futuro usurario de la
prueba sabe que la puntuaciones pueden ser derivadas en forma consistente y
sistemtica por varios evaluadores con capacidad suficiente. Un creador de
pruebas responsable que sea incapaz de crear un examen que pueda ser
calificado con un grado razonable de consistencia por evaluadores capacitados
regresrpa al pizarron para descubir la razn de este problema.
Quiza la forma ms simple de determinar el grado de consistencia que existe
entre evaluadores en cuanto a la calificacion de una prueba sea mediante el
clculo de un coneficiente de correlacin. A este coeficiente se le denomina
coeficiente de confiabilidad entre evaluadores.
Uso e interpretacin de un coeficiente de confiabilidad
La confiabilidad es un atributo imperativo en todas las pruebas que utilizamos.
Sin embargo, en algunas pruebas necesitaremos ms confiabilidad y en otras
admitiremos menos. Si la puntuacin de una prueba tiene implicaciones de
vida o muerte debemos tener esa prueba de un estndar alto, as como
estndares relativamente altos respecto a los coeficientes de confiabilidad. Si
la puntuacin de una prueba se usa de manera rutinaria en combinaciones con
muchas otras puntuaciones de una prueba podra no tener los estndares ms
altos de confiabilidad.
El propsito del coeficiente de confiabilidad
Si se disea una prueba especfica que serpa usada varias veces en el
transcurso del pedido laboral de una persona con el fin de evaluar su
desempeo, sera razonable esperar que muestre confiabilidad a lo largo del
tiempo. Sera deseable tener una estimacin de la confiabilidad de la prueba y
la postprueba del instrumento. En una prueba diseada para una sola
aplicacin, un estimacin de la confiabilidad es analiza la varianza de error en
sus partes.

You might also like