You are on page 1of 32

Captulo 2

Diagnosis y validacin del modelo


2.1. Introduccin
En el Captulo 1 se ha construido el modelo completamente aleatorizado y el
constraste de hiptesis de igualdad de medias mediante el test F. En el Captulo 2 se
han estudiado diversos procedimientos para comparar entre s las medias de los efectos
de los tratamientos. Todo ello se ha hecho en el supuesto de que las hiptesis bsicas del
modelo dadas en la seccin ?? del Captulo 1 sean ciertas. !or ello surge de inmediato
la cuestin de cmo comprobar que dichas hiptesis se veri"can y en caso de no veri"carse
cmo actuar ante esa situacin.
Cuando se selecciona un modelo para un con#unto de datos frecuentemente no se
puede estar seguro a priori de que ese modelo sea adecuado. En el caso del $%&'$ puede
suceder que alguna o varias caractersticas del modelo tales como la normalidad de los
t(rminos de error o la independencia en los datos investigados no se veri"quen. !or lo
tanto es importante e)aminar la adecuacin del modelo a los datos antes de realizar un
anlisis de los mismos basado en dicho modelo* sin embargo por razones metodolgicas
se han estudiado antes los procedimientos de inferencia en los captulos 1 y 2.
En este captulo se trata la diagnosis y la validacin del modelo que consiste en estudi+
ar si las hiptesis bsicas del modelo estn o no en contradiccin con los datos observados.
!ara ello se discuten algunos m(todos gr"cos sencillos y procedimientos estadsticos.
Tambi(n se estudian los efectos que produce el incumplimiento de las suposiciones funda+
mentales.
Como sabemos las principales hiptesis sobre el modelo se e)presan en t(rminos de las
perturbaciones aleatorias u
ij
, i = 1, , I; j = 1, , n
i
que seg,n dichas hiptesis deben
ser variables aleatorias independientes con distribucin %ormal de media - y varianza
constante
2
. !ara veri"car tales hiptesis tendremos que hacer uso de estimadores de las
1
2 Diagnosis y validacin del modelo
perturbaciones. .ecordemos que tombamos como estimadores de las perturbaciones los
residuos de"nidos como
e
ij
= y
ij
y
ij
= y
ij
y
i.
.
/os m(todos gr"cos y los contrastes estadsticos que se describen en este captulo para
diagnosticar la adecuacin del modelo de anlisis de la varianza son respectivamente las
grcas de residuos y los constrastes de igualdad de varianzas. Tambi(n se aborda el uso de
transformaciones como m(todo para me#orar la validez del modelo de anlisis de la varianza
y se considera la in0uencia que tienen las desviaciones de las hiptesis del modelo $%&'$
en la inferencia. !odemos por tanto considerar que en el estudio de un e)perimento se
debe seguir un proceso secuencial formado por los pasos siguientes1
1
o
2 !lantear un modelo que e)plique los datos.
2
o
2 E)aminar la adecuacin del modelo planteado. 3i el modelo no es adecuado tomar las
medidas correctoras tales como empleo de transformaciones de los datos o modi"car
el modelo.
4
o
2 3i el modelo es adecuado se realiza el anlisis estadstico de los datos. $ continuacin
se eval,a su efectividad o el grado de a#uste del modelo y se estudia su sensibilidad
ante diversas situaciones.
Como se dir posteriormente los modelos $%&'$ son razonablemente robustos frente
a ciertos tipos de desviaciones del modelo tales como que los t(rminos de error no es+
t(n e)actamente normalmente distribuidos. !or lo tanto podemos decir que el principal
ob#etivo del e)amen de la adecuacin del modelo es detectar graves desviaciones de las
condiciones supuestas en el modelo.
2.2. Comprobacin de la idoneidad del modelo
5emos dicho en el Captulo 1 que el anlisis de la varianza de una va se basa en
las siguientes suposiciones1
/as observaciones vienen descritas por el modelo
y
ij
= +
i
+u
ij
, i = 1, 2, , I ; j = 1, 2, , n
i
. 62.12
/os errores u
ij
son variables aleatorias independientes y normalmente distribuidas
con media cero y varianza constante
2
.
2.2 Comprobacin de la idoneidad del modelo 3
3i el modelo es de efectos aleatorios se hace la suposicin adicional de que
i
son
variables aleatorias independientes con distribucin %ormal de media cero y varianza

. $dems se e)ige que


i
y u
ij
sean independientes entre s.
En esta seccin se analizan e ilustran m(todos para comprobar estas suposiciones y se
presentan algunas soluciones que a menudo resultan ,tiles cuando no se veri"can estas
condiciones.
Como se hizo notar en la introduccin de este captulo los residuos constituyen la
principal herramienta para el diagnstico del modelo puesto que son los estimadores de
las perturbaciones.
7eneralmente como se mostrar ms adelante la comprobacin de la idoneidad 6o
adecuacin2 del modelo se puede realizar representando los residuos. 5ay que decir no
obstante que estos procedimientos no garantizan de forma inequvoca la veri"cacin del
cumplimiento de las hiptesis si bien pueden ser de mucha utilidad para detectar posibles
anomalas en las hiptesis del modelo que afecten seriamente a los resultados obtenidos.
3i el modelo 62.12 es apropiado para los datos los residuos observados e
ij
re0e#arn
las propiedades e)igidas a las perturbaciones u
ij
. Esta es la idea bsica en el anlisis
de los residuos. $s si las hiptesis relativas al modelo son ciertas los residuos variarn
aleatoriamente. 3i por el contrario descubrimos que los residuos presentan tendencias
sistemticas ine)plicadas tendremos que sospechar de la validez del modelo.
!ara comprobar la hiptesis de homocedasticidad adems del anlisis de los residuos
estudiaremos algunos contrastes estadsticos como los tests de 8arlett Cochran y 5artley.
3eguiremos la metodologa empleada en los captulos anteriores en los cuales hemos
concretado toda la e)plicacin sobre un determinado e#emplo. En primer lugar mostramos
una tabla con las observaciones y los residuos del E#emplo 1+1.
Tabla 3-1. 9atos y residuos para el E#emplo 1+1
7rupos
1 2 4 : ;
y
ij
= y
i.
;- ;< := :< :;
y
1j
e
1j
y
2j
e
2j
y
3j
e
3j
y
4j
e
4j
y
5j
e
5j
51 +1 56 1 48 0 47 0 43 2
49 1 60 +3 50 +2 48 +1 43 2
50 0 56 1 53 +5 49 +2 46 +1
49 1 56 1 44 4 44 3 47 +2
51 +1 57 0 45 3 45 0
50 0 46 +1
4 Diagnosis y validacin del modelo
>ediante el anlisis de los residuos se puede comprobar entre otras cosas la presencia
de observaciones anmalas. !ara poder identi"car dichas observaciones como veremos
ms adelante se pueden emplear los residuos estandarizados que pasamos a de"nir a
continuacin.
esiduos estandari!ados
3e llaman residuos estandarizados y se denotan por d
ij
al cociente entre los residuos
e
ij
y la desviacin tpica poblacional es decir
d
ij
=
e
ij

. 62.22
!uesto que suele ser desconocida se modi"ca la de"nicin de d
ij
sustituyendo por
la raiz cuadrada de la varianza residual
d
ij
=
e
ij
_

S
2
R
. 62.42
El anlisis de los residuos tiene por ob#eto contrastar a posteriori las hiptesis del
modelo. $s pues este anlisis va encaminado a comprobar1
a2 3i e)iste su"ciente evidencia para no aceptar la incorrelacin de los errores.
b2 3i la distribucin de los errores es apro)imadamente normal.
c2 3i e)iste alguna observacin anmala que altere gravemente la estimacin del modelo
y que tal vez debera ser eliminada del estudio.
d2 3i la varianza de los errores es constante 6homocedasticidad2.
$ continuacin iniciamos el estudio del anlisis de los residuos. !ara ello estudiamos
en primer lugar su independencia estadstica.
2.2.1. Independencia entre los residuos
?no de los problemas que puede surgir en el estudio de un modelo de anlisis de
la varianza es la e)istencia de autocorrelacin entre los residuos. !ara el estudio de dicha
autocorrelacin se utiliza el gr"co de residuos frente al n,mero de orden o de e)periencia.
$simismo se puede utilizar el test de 9urbin+@atson.
2.2 Comprobacin de la idoneidad del modelo "
5ay que tener en cuenta que los residuos e
ij
no son variables aleatorias independientes
ya que como sabemos la suma de los residuos dentro de cada tratamiento es siempre igual
a cero. !or lo tanto ,nicamente NI de los N residuos son independientes. 3in embargo
si el tamaAo muestral es grande en comparacin con el n,mero de tratamientos en el
modelo el efecto de dependencia entre los residuos es relativamente poco importante y
se puede ignorar. En consecuencia se pueden considerar los residuos como prcticamente
independientes. /a veri"cacin del cumplimiento de esta hiptesis la abordaremos slo
gr"camente.
#r$%co de residuos en &uncin del tiempo.
?n procedimiento gr"co para analizar la e)istencia de autocorrelacin entre datos
secuenciales es su representacin a lo largo del tiempo. En el caso de los residuos dicho
procedimiento consiste en la representacin de los residuos frente al orden en que se re+
copilaron los datos y buscar en dicho gr"co rachas de residuos de igual signo as como
cualquier tendencia creciente o decreciente en los mismos lo cual sera un claro indicio de
correlacin entre los t(rminos de error y el tiempo. Esto implica que la suposicin de inde+
pendencia de los residuos ha sido violada. En las "guras 4+1a y 4+1b se muestran e#emplos
de esta situacin
Bigura 4+1a Bigura 4+1b
El efecto de la dependencia puede ser un un problema muy grave y difcil de corregir
por ello es importante prevenirlo cuando los datos se estn recopilando. El m(todo ms e"+
caz para prevenir la dependencia es realizar un procedimiento apropiado de aleatorizacin.
/os efectos relacionados con el tiempo tambi(n pueden conducir a crecimientos o de+
crecimientos de la varianza del error. !or e#emplo la destreza del investigador puede
cambiar a medida que el e)perimento se desarrolla as el e)perimentador puede obtener
medidas ms e)actas dando lugar a una disminucin de la varianza del error al transcurrir
' Diagnosis y validacin del modelo
el tiempo. /as tendencias de este tipo se mani"estan en un gr"co de los residuos frente
al tiempo en el que hay mayor dispersin en un e)tremo que en el otro. ?n e#emplo de
esta situacin se muestra en la siguiente "gura
Bigura 4+2
$ continuacin se muestra el gr"co de los residuos en funcin del tiempo para el
e#emplo de referencia.
2.2 Comprobacin de la idoneidad del modelo (
Bigura 4+4
En esta gr"ca no observamos ninguna tendencia sistemtica que haga sospechar del
incumplimiento de la suposicin de independencia.
9espu(s de analizar la independencia de los residuos pasamos a estudiar la distribucin
de los mismos.
2.2.2. )ormalidad de los residuos
Continuaremos el anlisis de los residuos estudiando su distribucin. !ara ello en
primer lugar se debe hacer una inspeccin general dibu#ando los residuos en un diagrama
de puntos como el realizado para el e#emplo de referencia en la Bigura 4+:
Bigura 4+:1 9iagrama de puntos de los residuos
* Diagnosis y validacin del modelo
Cuando el n,mero de residuos es grande 6 202 se suelen agrupar los datos y construir
un histograma como el que muestra la siguiente "gura para el e#emplo de referencia.
Bigura 4+;
3i las hiptesis bsicas del modelo son ciertas ambas gr"cas "guras 4+: y 4+; tendrn
en general la apariencia de una distribucin normal centrada en cero. 9esafortunadamente
cuando las muestras son pequeAas con frecuencia aparecen 0uctuaciones considerables por
lo que la apariencia de no normalidad moderada no indica necesariamente la violacin de
la hiptesis de normalidad. Cuando hay grandes desviaciones se debe hacer un anli+
sis ms profundo y si es posible realizar algunas transformaciones para corregir dichas
desviaciones.
/as formas de discrepancias ms frecuentes que se observan en estos gr"cos ocurren
cuando algunos residuos tienen un valor muy distanciado de los dems. Estos valores suelen
corresponder a datos anmalos 6outliers en terminologa inglesa2 que estudiaremos en la
subseccin 2.2.4.
Tambi(n se puede representar un diagrama de puntos para cada tratamiento. En dicha
gr"ca podemos comprobar si hay un comportamiento anormal de los residuos en alguno
de los tratamientos as como e)aminar si hay muchas discrepancias entre las varianzas del
2.2 Comprobacin de la idoneidad del modelo +
error. En las "guras 4+Ca * 4+Ce se muestran dichos gr"cos para el e#emplo de referencia.
Bigura 4+Ca1 9iagrama de residuos para el tratamiento 1
Bigura 4+Cb1 9iagrama de residuos para el tratamiento 2
Bigura 4+Cc1 9iagrama de residuos para el tratamiento 4
Bigura 4+Cd1 9iagrama de residuos para el tratamiento :
1, Diagnosis y validacin del modelo
Bigura 4+Ce1 9iagrama de residuos para el tratamiento ;
&tro procedimiento gr"co muy utilizado en la prctica para detectar el posible in+
cumplimiento de la hiptesis de normalidad es el grco probabilstico normal tambi(n
denominado grco gaussiano o representacin en papel probabilstico normal
1
. /a idea
en que se basa este gr"co consiste en representar la funcin de distribucin de una vari+
able aleatoria X N(, ) en una escala transformada apropiada de forma que la gr"ca
quede linealizada. 9e esta manera si se disponen de datos e)traidos aleatoriamente de
esa distribucin la representacin en la escala transformada de la funcin de distribucin
emprica o muestral no debe separarse gr"camente de la linea recta terica.
!ara la construccin prctica del gr"co probabilstico normal se procede de la siguiente
forma
1
o
2 3e ordenan las observaciones muestrales en orden creciente
x
[1]
x
[2]
. . . x
[n]
2
o
2 3e obtienen las proporciones acumuladas corregidas
i
que se pueden determinar de
diversas formas como por e#emplo

i
=
i
n + 1
,
i
=
i
1
2
n
y
i
=
i
n
62.:2
Tambi(n se suelen utilizar las e)presiones sugeridas por 8ernard D 8os+/evenbach
61E;42 y 8lom 61E;=2 respectivamente

i
=
i 0,3
n + 0,4
, 62.;2

i
=
i
3
8
n +
1
4
, 62.C2
1
Este gr"co es un caso particular de los gr"cos de cuantiles tericos frente a observados que en
terminologa inglesa se conocen como Q-Q-Plot.
2.2 Comprobacin de la idoneidad del modelo 11
siendo esta ,ltima la e)presin que utiliza S1.1on.iiic para elaborar el grco
probabilstico normal.
4
o
2 $ partir de los valores
i
se determinan los cuantiles tericos q
i
de la distribucin
normal mediante la frmula
q
i
=
1
(
i
) ,
donde es la funcin de distribucin de la normal tipi"cada.
:
o
2 3e representa q
i
frente a x
[i]
Cuanto me#or se a#uste la nube de puntos representada a una recta menos evidencia
tendremos para suponer la violacin de la hiptesis de normalidad de los residuos. Este
gr"co obviamente se puede realizar para los valores de los residuos o para sus valores
estandarizados.
El gr"co de q
i
frente a los valores x
[i]
ser una recta de ecuacin
x
[i]
= +q
i
,
cuya ordenada en el origen estimar el valor de y la pendiente estimar el valor de .
Este procedimiento est automatizado utilizando el papel probabilstico normal en el
que se representa [i] o
i
frente a x
[i]
.
En la tabla 4+2 se muestran los residuos organizados en orden ascendente correspon+
dientes a los datos del e#emplo de referencia y los valores
i
dados por la e)presin 62.C2.
Tabla 3-2. .esiduos y valores
i
para el E#emplo 1+1
&rden .esid.
i
&rden .esid.
i
&rden .esid.
i
i e
ij
i3/8
n+1/4
i e
ij
i3/8
n+1/4
i e
ij
i3/8
n+1/4
1 4 0,023 10 1 0,366 19 1 0,709
2 3 0,061 11 0 0,404 20 1 0,747
3 3 0,085 12 0 0,442 21 1 0,785
4 2 0,138 13 0 0,480 22 2 0,823
5 2 0,176 14 0 0,519 23 2 0,861
6 1 0,214 15 0 0,557 24 2 0,900
7 1 0,252 16 0 0,595 25 3 0,938
8 1 0,290 17 1 0,633 26 5 0,976
9 1 0,328 18 1 0,671
En la Bigura 4+< se muestra la gr"ca en papel probabilstico normal para estos residu+
os. En esta gr"ca los residuos estn representados frente a
i
100 en el e#e de ordenadas.
12 Diagnosis y validacin del modelo
Bigura 4+<
/os puntos en la Bigura 4+< estn razonablemente pr)imos a la lnea recta e)cepto
una observacin que parece apartada de dicha lnea y que estudiaremos en la subseccin
siguiente como posible valor anmalo.
El anlisis de las desviaciones del modelo con respecto a la normalidad es en muchos
aspectos ms di"cultoso que el correspondiente a los otros tipos de desviaciones. !or
e#emplo los residuos pueden parecer que no estn normalmente distribuidos porque el
modelo no sea el adecuado o porque la varianza del error no sea constante.
2.2.3. esiduos y datos anmalos
/os residuos e)tremos pueden identi"carse en las gr"cas de residuos 6preferible+
mente basadas en residuos estandarizados2 y en la gr"ca en papel probabilstico nor+
mal que tambi(n detecta observaciones atpicas. ?na observacin de tal naturaleza no es
detectable durante el proceso de estimacin del modelo y su presencia se puede hacer
relevante cuando se e)aminan los residuos.
/a presencia de uno o ms residuos anmalos puede afectar FgravementeG el anlisis de
la varianza en tales circunstancias es recomendable realizar una investigacin minuciosa.
2.2 Comprobacin de la idoneidad del modelo 13
/o primero que debe hacerse es revisar detenidamente los datos originales por si dicha
discrepancia se debe a un error en la codi"cacin de los datos en los clculos realizados.
3i se detecta cualquiera de estas causas se debe corregir el dato y se seguir con el e)per+
imento. 3i no se puede corregir entonces debe eliminarse del anlisis.
!or otra parte puede suceder que el residuo anmalo corresponda a un valor par+
ticular deseable en el e)perimento* por e#emplo dicho dato puede contener informacin
importante como puede ser1 alto rendimiento de la semilla de algodn ba#a cali"cacin
del alumno etc. En este caso este residuo anmalo puede proporcionar ms informacin
que el resto de los datos. ?na norma segura frecuentemente sugerida es descartar un
residuo atpico slo si hay su"ciente evidencia de que representa un error de clculo de
mal funcionamiento del equipo o una circunstancia de tipo similar.
$ continuacin pasamos a comprobar si hay alg,n residuo atpico por e#emplo en
la gr"ca en papel probabilstico normal correspondiente al e#emplo de referencia. !ara
ello recordemos que los residuos son las estimaciones de los errores aleatorios los cuales
son variables aleatorias N(0, ) y que por lo tanto los residuos estandarizados deben ser
apro)imadamente normales con media cero y varianza igual a uno. $s debe cumplirse que
apro)imadamente el 68 % de los residuos estandarizados se encuentran entre los lmites
1 alrededor del 95 % entre 2 y ms del 99 % entre 3. Entonces podemos considerar
como residuo potencialmente anmalo aquel cuya distancia del origen sea superior en
valor absoluto a 4 o : desviaciones estndar.
Comprobamos que el residuo estandarizado m)imo del e#emplo de referencia es
d
3,3
=
e
3,3
_

S
2
R
=
5

4,66
= 2,316 ,
que no se puede considerar de ning,n modo como un posible residuo anmalo.
$lgunos autores como 8arnett D /eHis 61E<=2 Iohn D !rescott 61E<;2 y 3tefansJy
61E<22 sugieren procedimientos estadsticos ms comple#os para detectar residuos anma+
los.
2.2.4. Diagnosis de -eterocedasticidad
/a deteccin de la heterocedasticidad es decir de la violacin de la hiptesis de
igualdad de varianzas en el modelo es bastante complicada y ms a,n su tratamiento.
E)isten m,ltiples pruebas conducentes a comprobar la presencia de heterocedasticidad.
Entre los procedimientos gr"cos mostraremos las representaciones de los resifuos frente a
los valores a#ustados y frente a ciertas variables de inter(s. Con dichas gr"cas se puede ob+
servar por e#emplo en la ,ltima mencionada si dichas variables estn in0uyendo en alg,n
sentido en la variabilidad de las observaciones haciendo que (sta aumente o disminuya.
14 Diagnosis y validacin del modelo
Tambi(n estudiaremos como hemos dicho anteriormente algunos contrastes estadsti+
cos como los tests de 8arlett Cochran y 5artley.
#r$%co de los residuos &rente a los valores a.ustados.
En esta gr"ca se representan los residuos e
ij
= y
ij
y
ij
, frente a los valores
previstos por el modelo para cada tratamiento y
ij
. 9icha gr"ca puede poner de mani+
"esto la violacin de la hiptesis de homocedasticidad si por e#emplo se observa que la
variabilidad de los residuos depende de la respuesta media en cada nivel del factor. Esto se
mani"esta en que el gr"co de los residuos frente a y
ij
tiene forma de embudo. ?na gr"ca
de esta forma pone de mani"esto un aumento o disminucin de los errores en funcin de
los niveles del factor y entonces podemos concluir que el modelo no es el adecuado.
/as "guras 4+=a y 4+=b representan tipos de gr"cas en las que la varianza del error
no es constante
Bigura 4+=a Bigura 4+=b
En la Bigura 4+=a se muestra un gr"co de residuos en forma de embudo donde puede
observarse que la variabilidad de los residuos aumenta con los niveles del factor.
En la Bigura 4+=b se observa que la variabilidad de los residuos es mayor en el nivel 2.
$ continuacin se presenta la gr"ca de los residuos frente a los valores estimados
realizada con S1.1on.iiic para el e#emplo de referencia.
2.2 Comprobacin de la idoneidad del modelo 1"
Bigura 4+E
En dicha gr"ca comprobamos que los residuos 0uct,an en forma ms o menos aleatoria
alrededor de la lnea base* es decir no revelan ning,n patrn obvio y (sto es indicativo de
que los t(rminos de error tienen varianza constante y los residuos son independientes de
los valores a#ustados.
#r$%co de los residuos en &uncin de variables de inter/s
&tra representacin importante es la gr"ca de los residuos en funcin de otras
variables que se crean de inter(s en cada e)perimento. Esta gr"ca como la anterior no
es slo ,til para comprobar si los residuos son independientes de estas variables de inter(s
sino tambi(n para e)aminar si la varianza de los t(rminos de error es constante.
/a siguiente gr"ca muestra la representacin de los residuos frente a los niveles del
factor para el e#emplo de referencia.
1' Diagnosis y validacin del modelo
Bigura 4+1-
/as conclusiones que se obtienen de esta gr"ca son las mismas que las obtenidas en
la gr"ca 4+E.
$dems de las gr"cas de los residuos que frecuentemente se utilizan para diagnos+
ticar la igualdad de las varianzas e)isten contrastes para comprobar la homocedasticidad.
$lgunos de estos se estudian a continuacin
Contrastes para la igualdad de las varian!as
Entre los contrastes que se utilizan para estudiar si las varianzas son iguales en los
distintos tratamientos como requiere el modelo $%&'$ es decir para decidir entre las
hiptesis
H
0
:
2
1
=
2
2
= =
2
I
H
1
:
2
i
=
2
j
para alg,n par (i, j) ,
62.<2
consideramos los tests de 8arlett Cochran y 5artley. Estos contrastes suponen que y
ij
son variables aleatorias independientes con distribucin normal.
El test de 8arlett puede usarse para tamaAos de muestra iguales o desiguales mientras
que los tests de Cochran y 5artley se aplican slo cuando los tamaAos de las muestras son
2.2 Comprobacin de la idoneidad del modelo 1(
iguales.
En primer lugar estudiamos el test de 8arlett.
Test de 0arlett
/a idea bsica del test de 8arlett es sencilla. Consiste en utilizar las medias aritm(ti+
ca y geom(trica de las varianzas muestrales para construir un estadstico cuya distribucin
sea apro)imdamente una
2
.
3upongamos que s
2
1
, s
2
2
, , s
2
I
son las varianzas
2
muestrales de I poblaciones normales
y gl
i
son los grados de libertad asociados a s
2
i
. !or lo tanto las medias aritm(tica y
geom(trica de dichas varianzas ponderadas por el n,mero de grados de libertad son
respectivamente
MA =
1
gl
T
I

i=1
gl
i
s
2
i
, 62.=2
MG =
_
_
s
2
1
_
gl
1
.
_
s
2
2
_
gl
2

_
s
2
I
_
gl
I
_
1/gl
T
, 62.E2
donde gl
T
=

i
gl
i
.
Es bien conocido que para cualquier con#unto de valores la media geom(trica es siem+
pre menor que la aritm(tica* es decir MG MA veri"cndose la igualdad ,nicamente
cuando todos los valores son iguales entre s. $plicando dicha propiedad1
a2 3i el cociente MA/MG est pr)imo a 1 tenemos evidencia de que las varianzas
poblacionales son iguales.
b2 3i el cociente MA/MG es grande indica que las varianzas poblacionales son de+
siguales.
3e puede razonar de forma similar si aplicamos logaritmos en el cociente MA/MG
ln(MA/MG) = lnMAlnMG .
8arlett demostr que si las I muestras aleatorias provienen de poblaciones normales
independientes el estadstico
B =
gl
T
C
(ln(MA) ln(MG)) , 62.1-2
se distribuye ba#o la hiptesis nula y para tamaAos de muestras grandes apro)imadamente
como una
2
con I 1 grados de libertad donde
2
$unque nos referimos a s
2
i
como varianzas muestrales en realidad represetan cuasivarianzas muestrales.
1* Diagnosis y validacin del modelo
C = 1 +
1
3(I 1)
__
I

i=1
1
gl
i
_

1
gl
T
_
. 62.112
Como se comprueba fcilmente el t(rmino C es siempre mayor que 1.
!ara una mayor simplicidad en los clculos este estadstico de contraste tambi(n se
puede e)presar como
B =
1
C
_
(gl
T
) ln(MA)
I

i=1
(gl
i
) lns
2
i
_
. 62.122
Cuando el test de 8arlett se utiliza en un modelo unifactorial entonces
gl
i
= n
i
1 y gl
T
=

i
(n
i
1) = N I .
!or lo tanto el estadstico de contraste del test de 8arlett en este caso tiene la siguiente
e)presin1
B =
1
C
_
(N I) ln(MA)
I

i=1
(n
i
1) lns
2
i
_
, 62.142
donde
C = 1 +
1
3(I 1)
_
I

i=1
(n
i
1)
1
(N I)
1
_
62.1:2
y
MA =
I

i=1
(n
i
1)s
2
i
N I
.
!uesto que B se distribuye apro)imdamente como una
2
I1
cuando H
0
es cierta el
criterio de decisin "#ado un nivel de signi"cacin es el siguiente
Si B
exp

2
,I1
, se acepta H
0
Si B
exp
!
2
,I1
, se rechaza H
0
, 62.1;2
2.2 Comprobacin de la idoneidad del modelo 1+
donde
2
,I1
es el valor crtico de la distribucin
2
con I 1 grados de libertad. /os
percentiles de la distribucin
2
estn dados en la Tabla K' del $p(ndice C
5emos dicho que el estadstico B se distribuye apro)imadamente como una
2
dicha
apro)imacin puede considerarse apropiada cuando los grados de libertad gl
i
de cada
una de las varianzas muestrales sean mayores o iguales a :.
!ara ilustrar este contraste utilizamos el E#emplo 1+1. ?na vez que se ha comprobado
que las observaciones proceden de una distribucin normal se estudia si las varianzas
2
i
correspondientes a los cincos fertilizantes son iguales. !ara ello aplicamos la prueba de
8arlett. Concretamente en este e#emplo los tratamientos incumplen la condicin impuesta
a los grados de libertad por dicho test ya que el fertilizante : tiene 4 grados de libertad.
!osteriormente volveremos a realizar el test utilizando la transformacin de Co) para
solventar este problema.
!ara aplicar el test de 8arlett lo primero que hay que hacer es calcular las varianzas
muestrales de cada tratamiento. 9ichas varianzas valen1
s
2
1
= 0,8 , s
2
2
= 3 , s
2
3
= 13,5 , s
2
4
= 4,67 , s
2
5
= 2,8 .
$ continuacin para determinar el estadstico de contraste se puede construir la Tabla
4+4 organizando los datos de la siguiente manera1
Tabla 4+4
Bertilizantes n
i
y
i.
s
2
i
(n
i
1)s
2
i
(n
i
1) lns
2
i
(n
i
1)
1
1 6 50 0,80 4 1,11 1/5
2 5 57 3,00 12 4,39 1/4
4 5 48 13,5 54 10,41 1/4
: 4 47 4,67 14 4,62 1/3
; 6 45 2,80 14 5,14 1/5
26 98 23,45 37/30
$ fn de determinar el valor de B se calculan la media aritm(tica de las varianzas
muestrales y el t(rmino C obteni(ndose los siguientes resultados1
MA =
5

i=1
(n
i
1)s
2
i
N I
=
98
21
= 4,67
2, Diagnosis y validacin del modelo
C = 1 +
1
3(I 1)
_
5

i=1
(n
i
1)
1
(N I)
1
_
= 1 +
1
3(4)
_
3
7
30
1
21
_
= 1,102 ,
sustituyendo los valores de MA y C en la e)presin de B se obtiene
B
exp
=
1
C
_
(N I) ln(MA)
5

i=1
(n
i
1) lns
2
i
_
=
1
1,102
(21 ln4,67 23,45]) = 8,089 .
3i realizamos el contraste al ; % y comparamos B
exp
= 8,089 con el valor de la
2
terica 6
2
0,05,4
= 9,492 se concluye que no puede rechazarse la hiptesis nula. !or lo
tanto se acepta que las varianzas de los cinco fertilizantes son iguales. El "+valor del
contraste es "{
2
4
! 8,089} = 0,088.
3i el numerador de B 6sin calcular C2 es menor que
2
,I1
como el valor de la constante
C es siempre mayor que 1 entonces al dividir por C el valor de B disminuir por lo tanto
en este caso no hace falta calcular el valor de C. $s lo primero que se debe calcular es el
numerador de B y slo si (ste es mayor que
2
,I1
se determinar el valor de C.
En el E#emplo 1+1 el numerador de B que denotamos por B
1
, es
B
1
= (N I) ln(MA)
I

i=1
(n
i
1) lns
2
i
= 21 ln4,67 23,45 = 8,914 .
!or lo tanto en este caso no es necesario determinar la constante C.
5emos dicho que la prueba de 8arlett no se debe aplicar cuando los grados de libertad
de algunas o de todas las varianzas son menores que :. En este caso para aplicar dicho
contraste se debe utilizar una tranformacin del estadstico de contraste que mostramos
a continuacin.
Trans&ormacin de 0o1
?na transformacin del estadstico de contraste de 8arlett fu( desarrollada por
8o) con el ob#etivo de contrastar la igualdad de varianzas cuando los grados de libertad
tienen un valor pequeAo. 9icho estadstico tiene la siguiente e)presin
B

=
#
2
BC
#
1
(ABC)
, 62.1C2
donde
B est de"nido en 62.142
2.2 Comprobacin de la idoneidad del modelo 21
C est de"nido en 62.1:2
#
1
= I 1
#
2
=
I + 1
(C 1)
2
A =
#
2
2 C +
2
#
2
.
8o) demostr que este estadstico ba#o la hiptesis nula sigue una distribucin F de
3nedecor con #
1
y #
2
grados de libertad.
En este caso para decidir entre las hiptesis planteadas en 62.<2 la regla de decisin
apropiada al nivel de signi"cacin es1
3i B

exp
F
;f
1
,f
2
, se acepta H
0
3i B

exp
! F
,f
1
,f
2
, se rechaza H
0
, 62.1<2
donde F
,f
1
,f
2
es el valor de la distribucin F de 3nedecor con #
1
y #
2
grados de libertad
que de#a a su derecha un rea igual a . El valor de #
2
generalmente no ser un n,mero
entero por lo que ser necesario interpolar en la Tabla ' del $p(ndice C.
!ara ilustar este procedimiento aplicamos la prueba de 8arlett modi"cada a los datos
del E#emplo 1+1. Empezaremos calculando los valores de #
1
#
2
y A.
1
o
2 #
1
= I 1 = 4
2
o
2 #
2
=
I + 1
(C 1)
2
=
6
0,010
= 576,70
4
o
2 A =
#
2
2 C +
2
#
2
=
576,70
2 1,102 +
2
576,70
=
576,70
0,901
= 640,06
!or lo tanto el valor del estadstico B

es1
B

exp
=
#
2
B
exp
C
#
1
(AB
exp
C)
=
(576,70)(8,089)(1,102)
4(640,06 (8,089)(1,102))
=
5140,74
2524,58
= 2,036 .
3i se realiza el contraste a un nivel de signi"cacin = 0,05 el valor de la F terica
correspondiente a : y ;<C.<- grados de libertad es 2.4<1 6F
0,05;4,576,70
= 2,3712. !uesto
que B

exp
= 2,036 $ 2,371 se concluye que los rendimientos de los cinco fertilizantes
tienen varianzas iguales. Esta es la misma conclusin que obtuvimos con el estadstico de
contraste de 8arlett y la apro)imacin a la distribucin
2
.
22 Diagnosis y validacin del modelo
Comentarios 2.1
C1) El test de Barlett es bastante sensible a las desviaciones de la normalidad. i la
poblacin se aparta bastante de esta !iptesis" no es recomendable aplicar dic!o test
para contrastar la igualdad de varianzas.
C#) Como !emos dic!o anteriormente" el test F para la igualdad de medias es robusto
$rente a las desviaciones de la !iptesis de !omocedasticidad cuando los tama%os de
las muestras son apro&imadamente iguales. Por tanto" si las poblaciones son razon-
ablemente normales de $orma 'ue el test de Barlet puede emplearse ( los tama%os de
las muestras no dieren muc!o" slamente cuando se detectan grandes di$erencias
entre las varianzas se considera 'ue el modelo )*+,) no es el adeacuado.
Test de Coc-ran
Cuando los tamaAos muestrales son iguales Cochran determin la distribucin
ba#o la hiptesis nula del siguiente estadstico de contraste
C =
max(s
2
i
)
I

i=1
s
2
i
. 62.1=2
/os percentiles ms importantes de esta distribucin vienen recogidos en la Tabla LKL
del $p(ndice C.
/a regla de decisin para controlar el riesgo de cometer un error de tipo K igual a ,
es1
3i C
exp
C
1;I,gl
, se acepta H
0
3i C
exp
! C
1;I,gl
, se rechaza H
0
, 62.1E2
donde C
1;I,gl
es el percentil (1 )1-- de la distribucin de C para I poblaciones y gl
son los grados de libertad de cada varianza muestral. En el modelo unifactorial equilibrado
gl = n 1.
$plicamos el test de Cochran al E#emplo 1+2. .ecordemos que en dicho e#emplo las
varianzas muestrales son1
s
2
1
= 5,31 * s
2
2
= 4,16 * s
2
3
= 12,47 * s
2
4
= 4,44 .
2.2 Comprobacin de la idoneidad del modelo 23
?na vez veri"cado que las observaciones se apro)iman a una normal utilizamos el test
de Cochran para comporobar si los : tratamientos tienen o no la misma varianza* es decir
H
0
:
2
1
=
2
2
=
2
3
=
2
4
H
1
:
2
i
=
2
j
por lo menos para un par(i, j) .
!ara I = 4 y gl = n 1 = 11 si realizamos el contraste por e#emplo al 1 % y
comparamos el cociente
C
exp
=
max(s
2
i
)
I

i=1
s
2
i
=
12,47
26,392
= 0,4724 ,
con el valor correspondiente de la C terica C
0,99;4,11
0,5 se concluye que no hay
su"ciente evidencia para rechazar la hiptesis de igualdad de las varianzas de los cuatro
tratamientos.
Test de 2artley
3i cada una de las I varianzas muestrales s
2
i
tienen el mismo n,mero de grados de
libertad gl
i
= gl un test sencillo para decidir entre
H
0
:
2
1
=
2
2
= =
2
I
H
1
:
2
i
=
2
j
para alg,n par(i, j) ,
se debe a 5artley. 9icho contraste est basado ,nicamente en la varianza muestral ms
grande denotada por max(s
2
i
) y la varianza muestral ms pequeAa denotada por mn(s
2
i
)
siendo el estadstico de contraste correspondiente1
H =
max(s
2
i
)
mn(s
2
i
)
. 62.2-2
Claramente valores de H pr)imos a 1 apoyan la hiptesis nula y valores grandes de
H estn a favor de la hiptesis alternativa.
Como en el test de Cochran y al tratarse de un modelo unifactorial equilibrado gl =
n 1.
/a distribucin de H depende del n,mero de tratamientos I y de los grados de libertad
gl. 9icha distribucin cuando H
0
es cierta ha sido tabulada por 5artley y los percentiles
ms usuales se incluyen en la Tabla L del $p(ndice C.
24 Diagnosis y validacin del modelo
/a regla de decisin como en los tests anteriores es1
3i H
exp
H
1;I,gl
, se acepta H
0
3i H
exp
! H
1;I,gl
, se rechaza H
0
, 62.212
donde H
1;I,gl
es el percentil (1 )1-- de la distribucin de H para I poblaciones y gl
grados de libertad.
$ continuacin para ilustrar este contraste vamos a aplicarlo a los datos del E#emplo
1+2 en cuyo caso el estadstico de contraste H toma el siguiente valor
H
exp
=
max(s
2
i
)
mn(s
2
i
)
=
12,47
4,16
= 2,99 .
3i realizamos el contraste al ; % el valor correspondiente de la H terica es H
0,95;4,11

5. !uesto que H
1
= 5 ! H
exp
= 2,99 se decide H
0
* en otras palabras concluimos que
a un nivel de signi"cacin del ; % las varianzas de los cuatro tratamientos son iguales.
Comentarios de los contrastes de Coc-ran y 2artley
C12 -os tests de Coc!ran ( .artle( e&igen 'ue los tama%os de las muestras sean iguales"
n
1
= n
2
= = n
I
. i los tama%os de muestras no son iguales pero no dieren
muc!o" ambos tests pueden utilizarse como contrastes apro&imados. En este caso" se
toma como valor de los grados de libertad la media de los tama%os muestrales.
C#) -os tests de Coc!ran ( .arltle( como el de Barlett" son bastante sensibles a las
desviaciones de la suposicin de normalidad ( no se utilizan cuando las desviaciones
de esta suposicin son importantes.
3upongamos que se ha comprobado tanto gr"camente como mediante alg,n contraste
que las varianzas de los distintos niveles no son iguales. En esta situacin se debe inten+
tar estabilizar las varianzas aplicando transformaciones apropiadas a los datos y una vez
aplicadas dichas transformaciones se debe hacer un anlisis de la varianza a los datos
transformados. En la seccin siguiente trataremos el problema de seleccionar la forma de
la transformacin adecuada.
2.3. Trans&ormaciones de los datos
En el caso de que las gr"cas de los residuos u otros diagnsticos indiquen que el
modelo $%&'$ no es apropiado para los datos se requieren posibles medidas correctoras.
2.3 Trans&ormaciones de los datos 2"
?na de tales medidas es modi"car el modelo. Esta opcin puede tener el incoveniente de
anlisis ms comple#os. &tra medida es utilizar transformaciones en los datos. M una
tercera medida cuando la di"cultad bsica es la falta de normalidad es emplear alg,n
test no param(trico tal como el test de la mediana o el test de NrusJal+@allis. $mbos
tests se vern en el Captulo C.
3eguidamente se estudian las transformaciones que se pueden realizar en los datos
para intentar estabilizar las varianzas de los grupos.
2.3.1. Trans&ormaciones para estabili!ar la varian!a
3e ha investigado bastante en el tema de la seleccin de la transformacin apropiada
de los datos en el caso de que las varianzas de los t(rminos de error de cada nivel no sean
iguales. 5ay varios tipos de situaciones en las cuales dichas varianzas no son constantes y
cada una de estas situaciones requiere diferente tipo de transformacin de los datos. $s
por e#emplo si el e)perimentador conoce la relacin entre la varianza de las observaciones
y la media de las mismas poda usar esta informacin como gua para seleccionar la
transformacin adecuada de los datos dando lugar a distintas situaciones que analizamos
a continuacin.
3ea y una variable aleatoria con media y varianza
2
y
. 3upongamos que la varianza
2
y
est relacionada con la media mediante la funcin
2
y
= g(). 3ea y

una transformacin
cualquiera de y de"nida por y

= %(y). Entonces utilizando el desarrollo de Taylor se


puede demostrar que la varianza
2
y
veri"ca

2
y
[%

()]
2
g() 62.222
donde %

() es la primera derivada de %(y) valuada en . !or tanto si queremos hacer


constante
2
y
podemos elegir %(y) tal que 62.222 sea constante. !or conveniencia elegimos
esa constante igual a 1
2
y
= 1 . !or consiguiente
[%

()]
2
g() = 1 o %

() =
1
_
g()
, 62.242
cuya solucin salvo la constante arbitraria es
%() =
_
d
_
g()
. 62.2:2
'amos a enumerar algunos casos inportantes y obtener la correspondiente transforma+
cin estabilizadora.
3upongamos que se cumplen las siguientes relaciones entre la varianza
2
y
y la media
1
2' Diagnosis y validacin del modelo
a2 /a varianza
2
y
es proporcional a .
3i
2
y
= & = g(). Entonces de 62.2:2 se obtiene
%() =
_
d

&
=
2

&

. 62.2;2
9e esta forma una transformacin raz cuadrada
y

y ,
producir una varianza constante en la variable transformada.
b2 /a desviacin estndar
y
es proporcional a . 3ea
y
= &. Entonces g() = &
2

2
.
!or lo tanto de 62.2:2 se obtiene
%() =
_
d
&
=
1
&
ln() . 62.2C2
9e esta forma una transformacin logartmica
y

= ln(y) ,
producir una varianza constante en la variable transformada.
c2 /a desviacin estndar
y
es proporcional a
2
. 3ea
y
= &
2
. Entonces g() = &
2

4
.
!or lo tanto de 62.2:2 se obtiene
%() =
_
d
&
2
=
1
&
_
1

_
. 62.2<2
9e esta forma una transformacin inversa
y

=
1
y
,
producir una varianza constante en la variable transformada.
2.3 Trans&ormaciones de los datos 2(
En general si
y
= &

entonces g() = &


2

2
. !or lo tanto de 62.2:2 se obtiene
%() =
_
d
&

=
1
&
_

1
1
_
. 62.2=2
!or lo tanto si la relacin observada es del tipo
y

transformando los datos


y

= %(y) = y
1
se obtienen nuevas variables con varianza constante.
!ara todos estos casos mencionados eligiendo & adecuadamente se puede alcanzar la
varianza unidad.
9e la e)presin 62.222 se deduce que la transformacin obtenida por este procedimiento
slo estabiliza las varianzas apro)imadamente. !or lo tanto es importante inspeccionar
los residuos de la variable transformada para comprobar si efectivamente las varianzas se
han estabilizado.
Como las transformaciones resultantes %(y) son del tipo potencial en las subsecciones
siguientes vamos a estudiar una de las familias de transformaciones potenciales ms im+
portantes la familia de trans$ormaciones de Bo&-Co&.
8o) y Co) 61EC:2 desarrollaron un procedimiento que estudiaremos en la subseccin
2.4.2 para elegir una transformacin de la familia de transformaciones potenciales de la
forma y

= y
()
y
()
=
_

_
(y +')

1
(
si ( = 0
ln(y +') si ( = 0
62.2E2
donde la constante ' se elige de forma que y +' sea positivo. Esta familia de transfor+
maciones incluye como casos particulares salvo t(rminos constantes las estudiadas en los
apartados anteriores.
3eguidamente se muestra en la Tabla 4+: un resumen de algunos casos tpicos para
2* Diagnosis y validacin del modelo
conseguir varianza constante.
Tabla 3-4. Transformaciones para estabilizar las varianzas
.elacin entre

i
y ( = 1 Transformacin Comentario

i
= &
2
i
2 1 .ecproca

i
= &
3/2
i
3/2 1/2 Knversa de la raz

i
= &
i
1 0 /ogartmica 9atos log+normal

i
= &
1/2
i
1/2 1/2 .az cuadrada 9atos de !oisson

i
= & 0 1 %o transformar
2.3.2. Trans&ormaciones para corregir la &alta de normalidad
$nte la violacin de la hiptesis de normalidad surge de inmediato la cuestin
de qu( hacer en tal situacin. Evidentemente una de las alternativas sera ignorar este
hecho y proceder con el estudio como si la hiptesis fuera cierta. .esolver la situacin de
esta forma no es recomendable puesto que puede conducir a conclusiones incorrectas. ?na
segunda alternativa sera intentar trans$ormar dichos datos para conseguir la normalidad.
$s por e#emplo en situaciones en las que se conoce la distribucin de la variable respues+
ta el anlisis de la varianza se puede abordar utilizando las siguientes transformaciones
normalizadoras
!ara datos binomiales y
ij
B(n
i
, )
i
) la transformacin a utilizar es el arcoseno
cuya e)presin ptima viene dada por
y

ij
= arc!n
_
y
ij
+ 3/8
_
n
i
+ 3/4
.
!ara datos que siguen la distribucin de !oisson la transformacin ptima es la raiz
cuadrada
y

ij
=

y
ij
o bien y

ij
=
_
1 +y
ij
!ara datos que tienen una distribucin log+normal la transformacin apropiada es
la logartmica
y

ij
= l"# y
ij
/os procedimientos que se han utilizado para conseguir la normalidad de los datos
mediante transformaciones de los mismos son m,ltiples siendo uno de los ms empleados
en la prctica el uso de la familia 8o)+Co).
2.3 Trans&ormaciones de los datos 2+
Trans&ormaciones de 0o1-Co1.
Consideremos la familia de transformaciones dada por 62.2E2 para ' = 0
y
()
=
_

_
y

1
(
si ( = 0
lny si ( = 0
62.4-2
8o) y Co) desarrollaron un procedimiento donde el parmetro ( se estima a partir de
los datos. 9icho procedimiento consiste en suponer que las variables transformadas y
()
siguen una distribucin N(, ) para alg,n ( adecuado.
$ partir de la relacin entre la funcin de densidad de los datos originales y y de los
datos transformados y
()
se obtiene la log+verosimilitud L((, ,
2
) dada por
L((, ,
2
) =
N
2
ln
2

N
2
ln2* + (( 1)

i
lny
i

1
2
2

i
_
y

i
1
(

_
2
. 62.412
3ustituyendo los valores de y
2
que ma)imizan la funcin 62.412 se obtiene la
siguiente e)presin para L(()
L(() =
N
2
ln
_

_
1
N

i
_
y
()
i
y
()
_
2
$ y
(1)
2
_

_
62.422
donde $ y =
_

N
i=1
y
i
_
1/N
es la media geom(trica de las observaciones.
9e"niendo por simplicidad una nueva variable +(() como
+(() =
y

1
($ y
1
, 62.442
la ecuacin 62.422 se transforma en
L(() =
N
2
ln

i
[+
i
(() +(()]
2
, 62.4:2
salvo t(rminos constantes.
3, Diagnosis y validacin del modelo
El valor de ( que ma)imice la ecuacin 62.4:2 ser el estimador de m)ima verosimil+
itud. 9icho valor de ( tambi(n se puede obtener por procedimientos gr"cos.
4
Cuando los t(rminos de error se distribuyen normalmente pero tienen las varianzas
desiguales una transformacin de las observaciones para estabilizar las varianzas puede
afectar a la normalidad. $fortunadamente en la prctica la falta de normalidad y hetero+
cedasticidad suelen ir unidos. $dems la transformacin que ayuda a corregir la desigual+
dad de varianzas generalmente tambi(n es efectiva para conseguir que la distribucin de los
t(rminos de error se apro)ime ms a la distribucin %ormal. 3e recomienda sin embargo
estudiar los residuos de los datos transformados para estar seguros de que la transforma+
cin aplicada ha sido efectiva estabilizando las varianzas y haciendo que la distribucin de
los t(rminos de error sea razonablemente normal.
2.4. 3&ectos de la violacin de las -iptesis del modelo
En las subsecciones precedentes hemos mostrado como el anlisis de los residuos
y otras t(cnicas de diagnstico pueden ser ,tiles para asegurar la adecuacin del modelo
$%&'$ a los datos que se investigan. Tambi(n discutimos el uso de transformaciones
principalmente para estabilizar las varianzas y obtener distribuciones del t(rmino error
ms pr)imas a la %ormal. /a cuestin que ahora surge es qu( efectos produce la violacin
de las hiptesis establecidas en el modelo unifactorial es decir la violacin de las hiptesis1
i2 Kndependencia de los errores.
ii2 %ormalidad de los errores.
iii2 Kgualdad de varianzas de tratamientos.
?na revisin minuciosa de los estudios realizados sobre el efecto de la violacin de las
hiptesis del modelo se debe a 3cheO( 1E;E. $ continuacin e)ponemos las conclusiones
ms importantes de dicho traba#o.
Dependencia entre los t/rminos de error
/a falta de independencia entre los t(rminos de error puede producir graves efectos
en la inferencia tanto en el modelo de efectos "#os como en el de efectos aleatorios. !uesto
que este incumplimiento es a menudo difcil de corregir es importante evitarlo cuando sea
factible. ?na forma de conseguirlo es mediante el uso de la aleatorizacin y otra forma es
modi"cando el modelo.
4
!ara un desarrollo ms detallado vease !eAa 61E=E2
2.4 3&ectos de la violacin de las -iptesis del modelo 31
Desviacin de los errores de la normalidad
$ntes de tratar el efecto de la no+normalidad del t(rmino de error vamos a es+
tablecer una distincin entre los dos tipos de inferencias que se realizan sobre un modelo
de anlisis de la varianza1
a2 /n$erencias sobre las medias0 presente en los modelos de efectos "#os y que concierne
,nicamente a los efectos del factor 6estimacin puntual o por intervalos para medias
contraste de igualdad de medias contrastes m,ltiples de medias etc.2
b2 /n$erencias sobre las varianzas0 presente tanto en el modelo de efectos "#os como
en el de efectos aleatorios y que incluye entre otras la estimacin puntual o por
intervalos de la varianza o de componentes de la varianza e inferencia sobre cociente
de varianzas.
El efecto de la desviacin de la normalidad afecta de manera desigual a estos tipos
de inferencias. En general si la desviacin de la normalidad no es muy grave es poco
importante en la inferencia sobre medias y ms grave en la inferencia sobre varianzas.
$dems en ambos casos las estimaciones puntuales contin,an siendo insesgadas y en
los contrastes de hiptesis se alteran el error de tipo K y su potencia. 7eneralmente dicho
error es ligeramente mayor que el nominal y la potencia menor que la terica.
2eterocedasticidad del t/rmino error
Cuando las varianzas de los t(rminos de error de cada nivel son desiguales el test
F para la igualdad de medias de los tratamientos en el modelo de efectos "#os unifactorial
est poco afectado si todos los tamaAos muestrales de los niveles del factor son iguales o
di"eren muy poco pero no ocurre lo mismo cuando hay grandes diferencias entre dichos
tamaAos muestrales o cuando una varianza es mucho mayor que las otras.
En el caso de dos grupos de igual tamaAo la violacin de la hiptesis de homocedasti+
cidad para n grande es a,n menos importante que en el caso general as por e#emplo la
potencia del test F ser la terica si y slo si los tamaAos de cada grupo son iguales. 3in
embargo cuando consideramos el caso de I grupos con I ! 2 la violacin de la hiptesis
de igualdad de varianzas tiene alg,n efecto incluso cuando los modelos son equilibrados
si bien los efectos parecen poco importantes.
Concretamente cuando las varianzas son desiguales y los tamaAos de las muestras son
iguales o apro)imadamente iguales entonces1
El verdadero error de tipo K aumenta. Es un poco ms grande que el nivel nominal
.
32 Diagnosis y validacin del modelo
/a potencia del test F es apro)imadamente la terica ba#o la suposicin de varianzas
iguales.
El procedimiento de comparaciones m,ltiples de 3cheO( basado en la distribucin
F est poco afectado.
El test F y los anlisis relacionados son robustos frente a la desigualdad de las
varianzas de los t(rminos de error de cada nivel.
!ara el modelo unifactorial de efectos aleatorios aunque el modelo sea equilibrado
la no homogeneidad de las varianzas del error puede afectar a las inferencias sobre las
componentes de la varianza.
Conclusiones
-o e&presado en esta subseccin se pueden resumir brevemente como
i 2 El e$ecto de la correlacin en las observaciones puede ser grave en las in$erencias
sobre medias.
ii 2 -a no-normalidad tiene e$ecto pe'ue%o en las in$erencias sobre las medias pero
e$ectos graves en las in$erencias sobre varianzas.
iii 2 -a desigualdad de varianzas tiene e$ecto pe'ue%o en las in$erencias sobre medias si
los grupos son del mismo tama%o ( grave si los grupos dieren muc!o de tama%o.
0ibliogra&a utili!ada
#arca 4eal5 6. 7 4ara 8orras5 9.:. 61EE=2. 12ise%o Estadstico de E&perimentos.
)nlisis de la ,arianza.3 7rupo Editorial ?niversitario.
4ara 8orras5 9.:. 62---2. 12ise%o Estadstico de E&perimentos" )nlisis de la ,ari-
anza ( 4emas 5elacionados0 4ratamiento /n$ormtico mediante P3 !royecto 3ur
de Ediciones.