Professional Documents
Culture Documents
es el 05-03-2017
RESUMEN: Los test estadsticos se utilizan de forma generalizada como criterio de evaluacin de escalas
de medida de constructos latentes en organizacin de empresas y marketing. Sin embargo, la utilizacin de
stos puede llevar a conclusiones errneas sobre la validez de las escalas de medida, si no se consideran las
divergencias en cuanto al contenido terico que los conceptos susceptibles de ser medidos poseen. Este
trabajo muestra a travs de un ejemplo real como, en el caso de los anlisis encaminados a estudiar la
validez discriminante entre conceptos, existen varios procedimientos estadsticos que ofrecen resultados
confrontados. Por tanto, la validez de contenido debe de ser el principal argumento para concluir que dos
escalas que miden conceptos dispares, realmente divergen.
ABSTRACT: There is a widespread use of statistical tests to evaluate measurement scales of latent
constructs in the business arena. However, the results of these tests can yield misleading conclusions
regarding the validity of measurement scales. Therefore, content validity has to be considered in order to
avoid misleading outcomes. Through an empirical example, this paper shows how different statistical tests
used to analyse discriminant validity yield ambiguous findings. Consequently, discriminant validity should
be theoretically established.
KEYWORDS: Discriminant validity, Structural equation modelling, Content validity, Measurement scales
1. INTRODUCCIN
La validez de las mediciones de los constructos o variables utilizados en marketing es una
condicin indispensable para el desarrollo y contraste de teoras cientficas. No es de extraar, por
tanto, la gran importancia que se le otorga a los mtodos de validacin en la literatura de las ciencias
sociales, sobre todo a raz de los trabajos de Cattel (1946), Cronbach y Meehl (1955) o Campbell y
Fiske (1959).
Tradicionalmente, se afirma que la forma de medir un constructo es vlida si las medidas
implementadas miden realmente lo que pretenden medir (Cook y Campbell, 1979). A lo largo de la
literatura se han propuesto diversos criterios para llevar a cabo ese proceso de validacin (ej.
Steenkamp y van Trijp, 1991), siendo la validez convergente y discriminante dos de los ms
utilizados, y que posiblemente ms estrechamente se han ligado a la idea de validez de constructo.
De este modo, y a partir de los argumentos de Campbell y Fiske (1959), se afirma que, para que
unas medidas sean vlidas, las medidas de un mismo constructo deben correlacionar altamente entre
ellas (validez convergente), y que esa correlacin debe ser mayor que la que exista con respecto a
las medidas propuestas para otro constructo distinto (validez discriminante).
No obstante, existe un amplio debate en la literatura sobre el propio concepto de validez y
las diferentes visiones acerca de la importancia de la red nomolgica en la validacin de
Documento descargado de http://www.elsevier.es el 05-03-2017
mediciones, as como sobre la prevalencia de la perspectiva causal y las implicaciones que ello
conlleva en la metodologa utilizada por el investigador (ej. Bagozzi et al., 1991; Markus, 1998;
Hayduk y Glaser, 2000; Hancock y Mueller, 2001; Borsboom et al., 2004). El objetivo de nuestro
artculo no es, sin embargo, participar de esa discusin ni deliberar acerca de las diferentes posturas,
sino reflexionar sobre las diferentes formas que habitualmente se utilizan para estudiar la validez
discriminante de las mediciones; es decir, una vez que el investigador se posiciona por una de las
corrientes en disputa, establece una forma de actuar, y es precisamente esa forma de proceder la que
ponemos bajo anlisis, y no la filosofa subyacente.
2. ESCENARIO DE ANLISIS
Vamos a centrar el anlisis en las situaciones en las que el investigador plantea varias
mediciones por variable utilizando un mtodo comn. Asimismo suponemos un marco conceptual
que requiere una interpretacin realista sobre causalidad (Borsboom et al., 2003), es decir, que
cambios en el valor de la variable de inters deben reflejarse en cambios en las mediciones
implementadas, y que adems, esas mediciones son agregadas finalmente para hallar el valor del
constructo subyacente. Este escenario es el ms comn en los estudios en los que se recoge
informacin del mercado (consumidores, empresas, etc.), aunque lgicamente no refleja todas las
situaciones, quedando excluidos, por ejemplo, los estudios que utilizan matrices multi-rasgo multi-
mtodo o los que defienden una concepcin formativa sobre la medicin.
Para ilustrar nuestro razonamiento vamos a considerar que el investigador est interesado en
estudiar el efecto de la calidad percibida por el consumidor de un producto (X), sobre las intenciones
futuras de mantener una relacin comercial con la empresa (Y) (ej. Zeithaml et al., 1996; Brady et al.
2002). Para ello tomamos como referencia el estudio de Martnez et al. (2006) en el contexto de
servicios financieros, y donde se analiza una muestra de 207 consumidores. En este estudio se
utilizan cuatro indicadores para el constructo calidad y tres para la variable lealtad, medidos en
una escala de intervalo (mtodo comn), siendo la media de esos indicadores el valor de referencia
de ambas variables. De esta forma podemos plantear un enfoque sencillo de ecuaciones
estructurales (Figura 1).
X Y
x1 x 2 x 3 x 4 y1 y 2 y3
x1 x2 x3 x4 y1 y2 y3
x1 x 2 x3 x 4 y1 y 2 y 3
siendo:
i coeficiente de regresin entre el constructo y cada indicador
i varianza de error de cada indicador
coeficiente de regresin entre las variables latentes
varianza de error de la variable dependiente
Tabla 1. Intervalos de confianza al 95% para las correlaciones entre los indicadores
X1 X2 X3 X4 Y1 Y2 Y3
X1 1
X2 (0.56; 0.72) 1
X3 (0.58; 0.73) (0.64; 0.78) 1
X4 (0.44; 0.63) (0.63; 0.77) (0.60; 0.75) 1
Rpidamente se constata, que aunque todas las correlaciones intravariables (Rxx;Ryy) son
ampliamente diferentes de cero, los intervalos de confianza se solapan con los de las
correlaciones intervariables (Rxy) en un gran nmero de casos. Sin embargo, y dado que entran
en juego comparaciones entre correlaciones dependientes, en este caso deberan analizarse 72
comparaciones (6 x 12) entre Rxx y Rxy , y 36 comparaciones (3 x 12) entre Ryy y Rxy. Para ello,
habra que calcular la significacin de las comparaciones a travs de la Z de Steiger (Steiger,
1980) para el caso de correlaciones superpuestas, o del estadstico ZPF (Steiger, 1980) para el
caso de correlaciones no superpuestas. Dado el tedioso procedimiento de clculo (108
comparaciones), nos limitamos a mostrar cuatro ocasiones en las que las correlaciones no
pueden considerarse diferentes y cuatro en que s lo son (Tabla 2).
Por tanto, segn este criterio, los indicadores de ambas variables no cumplen de manera
plena con uno de los criterios de validez discriminante exigidos.
p
2
i
+ Var ( )
i =1
vc ( constructo ) = p p
2
i i
i =1 i =1
X Y
x1 x2 x3 x4 y1 y2 y3
MTODO
El anlisis del modelo con la presencia de un efecto mtodo latente mostr un ajuste
adecuado: S-B 2: 7.088; gl: 6; p: 0.313. Como puede observarse en la Tabla 4, la mayor
parte de la variacin de los tems se debe al efecto del mtodo comn, lo que hace cuestionar
la validez de la informacin obtenida (sobre todo la fiabilidad de los indicadores). Es ms,
tras esta correccin por mtodo, los resultados muestran que la correlacin entre la calidad
percibida y la lealtad es no significativa (0.07), por lo que ambas variables son
completamente independientes, aunque el clculo del valor contranulo de la correlacin
(Rosenthal y Rubin, 1994) nos indica que la evidencia de que la correlacin sea cero es la
misma de que sea de 0.137, por lo que podemos afirmar que a nivel de tamao de efecto
existe una pequea asociacin no explicada por el mtodo comn de medicin. Por tanto, los
resultados son totalmente contradictorios a los obtenidos en los epgrafes anteriores.
* p< 0.05
Tabla 5. Tamaos de efecto entre los valores medios de las variables dependientes
Valor medio
Valor medio (Calidad) d d*
(Lealtad)
3.05 3.28 0.21a 0.48
5. LA VALIDEZ DE COTENIDO
La respuesta a los problemas derivados de los anlisis estadsticos es la apropiada
solidez terica de las escalas propuestas. La validez de contenido hace referencia a la adecuada
seleccin de las medidas de la variable de inters. Esa seleccin tiene que ser realizada de
forma deductiva (Cronbach y Meehl, 1955) y requiere un profundo conocimiento de la materia
en cuestin. Es decir, la definicin de las variables del estudio condiciona la eleccin de sus
indicadores en el cuestionario (Hayduk, 1996). Por tanto, si dos variables son conceptualmente
diferentes y sus respectivas escalas de medicin estn justificadas suficientemente bien a nivel
terico, los anlisis estadsticos basados en covarianzas o correlaciones no deben desembocar
en conclusiones ambiguas. Si ambos conceptos son diferentes en su definicin y las medidas
propuestas son capaces de ser sensibles a las variaciones en esos conceptos, no importa la
magnitud de la correlacin entre ellos. sta es la una de las aseveraciones que perfectamente
discuten Borsboom et al. (2004), y que plantea un nuevo camino en la metodologa sobre
validacin de escalas.
En el caso de nuestro ejemplo, la calidad es definida como la evaluacin que realiza el
consumidor sobre la excelencia o superioridad de un servicio (Zeithaml, 1988), y la lealtad es
entendida como una actitud de favorabilidad hacia el servicio que puede manifestarse en
recomendar y hablar positivamente del servicio y tener la intencin de mantenerse fiel a la
compaa (Zeithaml et al., 1996). Ambos son conceptos claramente diferenciados, y las escalas
propuestas reflejan tericamente esa divergencia (Tabla 6). Adems, los indicadores de la
escala de lealtad hacen referencia a comportamientos futuros, es decir, en un tiempo t+1, en
oposicin a los indicadores de calidad donde la evaluacin es realizada por el encuestado en
un momento t, y en cuyo juicio intervienen las experiencias en t-1. Esta condicin es crucial a la
hora de diseo de estudios causales con datos de corte transversal (Kline, 2005), y evita los
problemas filosficos y metodolgicos derivados del planteamiento de relaciones no recursivas
(Kaplan et al., 2000; Kline, 2006).
Por tanto, la validez divergente no debe ser, bajo nuestro punto de vista, evaluada de forma
estadstica, o al menos, la estadstica no debera pesar ms que la propia definicin de los conceptos
y sus mediciones. As, por ejemplo, en determinadas investigaciones que analizan los gastos
familiares en funcin de los ingresos podramos encontrarnos con patrones de correlaciones muy
parecidos a los mostrados en nuestro estudio. Pero a ninguno de nosotros se nos ocurrira cuestionar
la validez de las medidas porque no existiera divergencia a nivel de covarianzas entre ingresos y
gastos; ya que ingresos y gastos son dos variables conceptualmente opuestas. Lo mismo ocurre, por
ejemplo, entre el peso y la altura de los individuos, cuya correlacin ronda el valor 0.80 en la
poblacin (Borsboom et al., 2004), y que representan realidades totalmente diferentes, pudiendo ser
planteadas en un mismo modelo, y por tanto, siendo susceptibles de estar sujetas a los criterios
descritos anteriormente sobre la validez discriminante.
6. CONCLUSIN
Hemos tratado de mostrar con un ejemplo real, cmo los criterios ms utilizados para
analizar la validez discriminante de las escalas de medida propuestas para conceptos latentes,
pueden llevar a conclusiones engaosas sobre la idoneidad de esas escalas. Operativamente los
investigadores suelen realizar, muchas veces de forma mecnica, los anlisis estadsticos para
testar la validez discriminante una vez justificada la definicin de los conceptas y eleccin de los
indicadores. Adems, resulta muy complicado encontrar (nosotros no lo hemos hecho) algn
investigador que se replantee su estudio porque estadsticamente exista poca evidencia de
divergencia entre escalas. Normalmente, se suele continuar la investigacin reconocie4o que las
medidas tienen poca validez discriminante pero que otros criterios de validez y la propia
definicin de los conceptos justifican esa debilidad estadstica. Pero entonces, por qu se siguen
realizando esos anlisis estadsticos?. Bajo nuestro punto de vista, no es necesario embarcarse en
esos procedimientos estadsticos para defender la validez discriminante de las escalas,
simplemente basta con la correcta delimitacin de las variables.
Los problemas de sesgo por mtodo comn son una realidad en la investigacin sobre
comportamiento del consumidor, aunque se han propuesto diferentes procedimientos para paliar
esa deficiencia (Podsakoff et al., 2003). Sin embargo, a nivel operativo el investigador muchas
veces no tiene los recursos suficientes para implementar esos mtodos y nicamente puede
plantear diseos de investigacin como el ilustrado en este artculo. A este respecto, tampoco los
resultados estadsticos que devienen de tener en cuenta el mtodo comn deben interpretarse sin
estar sujetos a crtica. En el ejemplo propuesto Rxx ,Ryy y Rxy son muy similares. Pero hay que
plantearse en qu medida se debe ello al efecto del mtodo comn o a la propia relacin real entre
indicadores. No es muy lgico pensar que dos variables como la calidad y la lealtad, que
tericamente estn en mayor o menor medida asociadas, no correlacionen casi nada cuando se
tiene en cuenta los efectos del mtodo comn. De este modo, como argumentan Podsakoff et al.
(2003), el investigador se enfrenta a un verdadero desafo metodolgico a la hora de analizar si
las asociaciones obtenidas entre las variables estn contaminadas por el sesgo de mtodo comn.
Procedimientos metodolgicos avanzados basados en ecuaciones estructurales, como las matrices
multirasgo-multimtodo, anlisis factorial confirmatorio de segundo orden, anlisis factorial
confirmatorio jerrquico, modelo de primer orden mltiple informante mlti-tem, o el modelo de
producto directo pueden ser herramientas que ayuden a tomar decisiones sobre la validez de constructo
(Bagozzi et al., 1991), aunque estn sujetos a diferentes limitaciones (Podsakoff et al., 2003).
Muchos de los inconvenientes estadsticos derivados de los procesos de validacin de las
escalas multi-tem podran en parte subsanarse reduciendo el nmero de indicadores a uno o dos
por concepto (Hayduk, 1996). Nuestra recomendacin es que si el investigador est interesado en
analizar relaciones causales, se plantee entonces la reduccin de indicadores, y de esta forma se
evitaran coeficientes de fiabilidad artificialmente engordados, y disminuiran los problemas de
presencia de efectos halo y sesgo de mtodo comn. Adems, habra muchas menos restricciones
de covarianza que explicar, por lo que sera ms fcil obtener modelos con buen ajuste.
Determinar la validez de las medidas propuestas sigue siendo un debate candente en la
literatura de las ciencias sociales. Como se indic al comienzo, el investigador debe posicionarse
por una de las diferentes corrientes metodolgicas. Pero sea cual sea su decisin, creemos ms
oportuno justificar de forma terica la divergencia entre escalas que representan conceptos, y no
apoyarse en procedimientos estadsticos, que tal y como hemos mostrado, pueden desembocar en
resultados contradictorios. Finalmente, las asunciones de linealidad y simetra entre las relaciones
de este tipo de conceptos de marketing es muchas veces cuestionable (Mittal et al., 1998), lo que
refuerza an ms la defensa de la justificacin terica frente a la estadstica.
BIBLIOGRAFA
ANDERSON, J. C., y GERBING, D. W. (1988): Structural Equation Modeling in Practice: A review and
recommended two-step approach. Psychological Bulletin, vol. 103, n3, pp. 411-423.
BAGOZZI, R. P., Yi, Y., y PHILLIPS, L. W. (1991): Assessing construct validity in organizational research.
Administrative Science Quarterly, vol. 36, n3, pp. 421-458.
BORSBOOM, D., MELLENBERGH, G. J., y VAN HEERDEN, J. (2003): The theoretical status of latent variables.
Psychological Review, vol. 110, n2, pp. 203-219.
BORSBOOM, D., MELLENBERGH, G. J., y VAN HEERDEN, J. (2004): The concept of validity. Psychological
Review, vol. 111, n4, pp. 1061-1071.
BRADY, M. K., CRONIN, J. J., y BRAND, R. R. (2002): Performance-Only Measurement of Service Quality: A
Replication and Extension. Journal of Business Research, n55, pp. 17-31.
BRADY, M. K., y CRONIN, J. J. Jr. (2001): Some New Thoughts on Conceptualizing Perceived Service Quality: A
Hierarchical Approach. Journal of Marketing, vol. 65 (July), pp. 34-49.
CAMPBELl, D.T., y FISKE, D. W. (1959): Convergent and discriminant validation by the multitrait-multimethod
matrix. Psychological Bulletin. N56, pp. 81-105.
CATTEL, R. B. (1946): Description and measurement of personality. Ed. World Book Company, New York.
COHEN, J. (1977): Statistical Power Analysis for the Behavioral Sciences. Academic Press, New York.
COHEN, J. (1988): Statistical Power Analysis for The Behavioural Sciences (2nd edition). Ed. Erlbaum, Hillsdale, NJ.
COHEN, J. (1994): The earth is round (p < .05). American Psychologist, vol. 49, n 12, pp. 997-1003.
COOK, T., y CAMPBELL, D. (1979): Quasi-experimentation: Design and analysis issues for field settings. Boston:
Houghton Mifflin.
CRONBACH, L. J., y MEEHL, P. E. (1955): Construct validity in psychological test. Pyschological Bulletin, n52, pp. 218-302.
CRONIN, J. J., BRADY, M. K., y HULT, G. T. M. (2000): Assessing the effects of quality, value, and customer
satisfaction on consumer behavioral intentions in service environments. Journal of Retailing, vol.76, n2, pp. 193-218.
DUNLAP, W. P., CORTINA, J. M., VASLOW, J. B., y BURKE, M. J. (1996): Meta-analysis of experiments with
matched groups or repeated measures designs. Psychological Methods, n1, pp. 170177.
FORNELL, C., y LARCKER, D. F. (1981): Evaluating structural equation models with unobservable variables and
measurement error. Journal of Marketing Research, vol. 27 (Febrero), pp. 39-50.
HANCOCK, G. R., y MUELLER, R. 0. (2001): Rethinking construct reliability within latent variable systems, en
Cudeck, R., du Toit, S., y Srbom, D. (Eds.), Structural Equation Modeling: Present and Future - A Festschrift in honor of
Karl Jreskog. Ed. Scientific Software International, Inc Lincolnwood, IL.
HAYDUK, L. A. (1996): LISREL Issues, Debates and Strategies. Ed. Johns Hopkins University Press, Baltimore, MD.
HAYDUK, L. A., y GLASER, D. N. (2000): Jiving the four-step, waltzing around factor analysis, and other serious
fun. Structural Equation Modeling, n7, pp. 1-35.
KAPLAN, D., HARIK, P., y HOTCHKISS, L. (2000): Cross-sectional estimation of dynamic structural equation
models in disequilibrium, en Cudeck, R., du Toit, S. H. C., y Sorbom, D. (Eds.), Structural Equation Modeling:
Present and Future. A Festschrift in Honor of Karl G. Joreskog. Ed. Scientific Software International, Lincolnville.
KLINE, R. B. (2005): Principles and practice of structural equation modelling (2nd ed.). Ed. The Guildford Press, New York.
KLINE, R. B. (2006): Reverse arrow dynamics, en Hancock, G. R., y Mueller, R. O. (Eds.), A second course in
structural equation modeling. Ed. Information Age Publishing, Greenwich: CT.
MARKUS, K. A. (1998): Science, measurement, and validity: Is completion of Samuel Messick's synthesis
possible?. Social Indicators Research, n45, pp. 7-34.
MARTNEZ, J. A. (2009): Discriminant distance: A new form of evaluating the distance between variables.
Methodology. Aceptado.
MARTNEZ, J. A., FLORES, E., y MARTNEZ, L. (2006): La relacin causal entre la calidad percibida, satisfaccin e imagen
corporativa en la determinacin de la lealtad. XVIII Encuentro de Profesores Universitarios de Marketing. Almera, Espaa.
MITTAL, V., ROSS Jr., W. T., y BALDASER, P. M. (1998): The asymmetric impact of negative and positive attribute-
level performance on overall satisfaction and repurchase intentions. Journal of Marketing, vol. 62 (January), pp. 33-47.
NGUYEN N., y LEBLANC G. (1998): The mediating role of corporate image on customers retention decisions: An
investigation in financial services. International Journal of Bank Marketing, vol.16, n2, pp. 52-65.
OLSEN, S. O. (2002): Comparative Evaluation and the Relationship between Quality, Satisfaction, and Repurchase
Loyalty. Journal of the Academy of Marketing Science, vol. 30, n3, pp. 240-249.
PODSAKOFF, P. M., MACKENZIE, S. B., LEE, J. Y., y PODSAKOFF, N. P. (2003): Common method biases in
behavioral research: A critical review of the literature and recommended remedies. Journal of Applied Psychology,
vol. 88, n5, pp. 879-903.
RODRGUEZ, S., CAMARERO C., y GUTIRREZ J. (2002): Lealtad y valor en la relacin del consumidor. Una aplicacin
al caso de los servicios financieros. XIV Encuentro de Profesores Universitarios de Marketing. Granada, Espaa.
ROSENTHAL, R., y RUBIN, D.B. (1994): The counternull value of an effect size: A new statistic. Psychological
Science, n5, pp. 329-334.
ROSNOW, R. L., y ROSENTHAl, R. (1996): Computing contrasts, effect sizes, and counternulls on other peoples published
data: General procedures for research consumers. Psychological Methods, n1, pp. 331-340.
STEENKAMP, J. B. E. M., y VAN TRIJP, H. C. M. (1991): The Use of LISREL in Validating Marketing
Constructs. International Journal of Research in Marketing, n8, pp. 283-99.
STEIGER, J. H. (1980): Test for Comparing Elements of a Correlation Matrix. Psychological Bulletin, n87, pp. 245-281.
STEIGER, J. H., y FOULADI, R. T. (1992): R2: A Computer Program for Interval Estimation, Power Calculation,
and Hypothesis Testing for the Squared Multiple Correlation. Behavior Research Methods, Instruments, and
Computers, n4, pp. 581-582.
TEAS, R. (1993): Expectations, performance evaluation, and consumer's perceptions of quality. Journal of
Marketing, vol.57 (Octubre), pp. 18-31.
ZEITHAML, V. A. (1988): Consumer Perceptions of Price, Quality, and Value: A Means-End Model and Synthesis
of Evidence. Journal of Marketing, vol. 52 (July), pp. 2-22.
ZEITHAML, V., BERRY, L., y PARASURAMAN, A. (1996): The behavioral consequences of service quality.
Journal of Marketing, vol. 60 (Abril), pp. 31-4