Professional Documents
Culture Documents
LCE 5861-3
MODELOS LINEARES
Material preparado
pelo Prof. Dr. Csar Gonalves de Lima
CONTEDO
1. INTRODUO .................................................................................................. 1
1.1. Modelo de Regresso Linear Simples ........................................................... 1
1.2. Modelo de Regresso Linear Mltipla .......................................................... 1
1.3. Modelos de Anlise de Varincia .................................................................. 3
2. LGEBRA DE MATRIZES ............................................................................. 4
2.1 Matrizes e vetores ........................................................................................... 4
2.1.1. Matrizes, vetores e escalares .................................................................. 4
2.1.2. Igualdade de matrizes ............................................................................. 5
2.1.3. Matriz transposta .................................................................................... 5
2.1.4. Alguns tipos especiais de matrizes ......................................................... 6
2.2. Operaes com matrizes ................................................................................ 7
2.2.1. Adio de duas matrizes ......................................................................... 7
2.2.2. Produto de duas matrizes ........................................................................ 8
2.2.3. Soma direta ........................................................................................... 14
2.2.4. Produto direto ou de Kronecker ........................................................... 15
2.2.5. Potncia de matriz quadrada ................................................................ 16
2.3. Matrizes particionadas ................................................................................. 17
2.4. Posto (rank) de uma matriz ......................................................................... 19
2.5. Inversa de uma matriz ................................................................................. 23
2.6. Matrizes positivas definidas ........................................................................ 25
2.7. Sistemas de equaes .................................................................................. 29
2.8. Inversas Generalizadas ................................................................................ 32
2.8.1. Definio e propriedades ...................................................................... 32
2.8.2. Inversas generalizadas e sistemas de equaes .................................... 36
2.9. Determinantes .............................................................................................. 37
2.10. Vetores ortogonais e matrizes ................................................................... 39
2.11. Trao de uma matriz .................................................................................. 41
2.12. Autovalores e autovetores ......................................................................... 42
2.12.2. Funes de uma matriz ....................................................................... 43
2.12.3. Produtos .............................................................................................. 44
ii
ix
CAPTULO 1 INTRODUO
Os mtodos estatsticos (modelos lineares) so amplamente usados como parte do
processo de aprendizagem do mtodo cientfico. Na biologia, fsica e cincias sociais,
como tambm nos negcios e engenharia, os modelos lineares so teis nos estgios
de planejamento da pesquisa e na anlise dos dados resultantes. Nas sees 1.1, 1.2 e
1.3 ns daremos uma breve introduo aos modelos de regresso linear simples, modelos de regresso linear mltipla e modelos de anlise de varincia.
1.1.
(1.1)
1.2.
Muitas vezes a resposta y influenciada por mais de uma varivel preditora. Por
exemplo, a produo de uma colheita pode depender das quantidades de nitrognio,
potssio e fosfato usadas. Essas variveis so controladas pelo experimentador, mas a
produo tambm pode depender de variveis no controladas como aquelas associadas com o tempo.
Um modelo linear relacionando y a diversas variveis preditoras tem a forma
Material elaborado pelo Prof. Csar Gonalves de Lima
2
y = 0 + 1x1 + 2x2 + + kxk +
(1.2)
y = 0 + 1 e 2 ( x x 0 ) +
no linear (nos parmetros).
Um modelo fornece uma estrutura terica para um melhor entendimento de um
fenmeno de interesse. Assim um modelo uma construo matemtica que ns
acreditamos poder representar o mecanismo que gerou as observaes que temos em
mos. O modelo postulado pode ser uma simplificao idealizada de uma situao
real e complexa mas, em muitos desses casos, esses modelos empricos fornecem
aproximaes teis das relaes entre as variveis. Essas relaes podem ser associativas ou causais.
Modelos de regresso tais como em (1.2) so usados para vrios propsitos, incluindo os seguintes:
1. Predio. Estimativas dos parmetros individuais 0, 1, 2, , k so de
menor importncia para a predio que a influncia total dos xs sobre y.
Entretanto, boas estimativas so necessrias para conseguirmos uma boa
performance na predio.
2. Descrio ou Explorao dos Dados. O cientista ou engenheiro usa o modelo
estimado para resumir ou descrever os dados observados.
3. Estimao dos Parmetros. Os valores das estimativas dos parmetros podem
ter implicaes tericas para um modelo postulado.
4. Seleo de variveis. A nfase est na determinao da importncia de cada
varivel preditora em modelar a variao em y. As variveis preditoras que esto associadas com uma importante quantidade de variao em y so mantidas;
aquelas que contribuem pouco podem ser deletadas.
5. Controle da sada. Se uma relao de causa-efeito entre y e x assumida, o
modelo estimado deve ento ser usado para controlar as sadas de um processo
variando as entradas. Por experimentao sistemtica, pode ser possvel conseguir a sada tima.
Existe uma diferena fundamental entre os propsitos 1 e 5. Para a predio,
ns necessitamos somente que as mesmas correlaes que prevaleceram quando os
dados foram coletados, continuem no lugar quando as predies forem feitas. Mostrar
Material elaborado pelo Prof. Csar Gonalves de Lima
3
que existe uma relao significativa entre y e os xs em (1.2) no necessariamente
prova que a relao causal. Para estabelecer causalidade a fim de controlar a sada,
o pesquisador deve escolher os valores dos xs no modelo e usar aleatorizao para
evitar os efeitos de outras possveis variveis no explicativas. Isto , para verificar o
efeito dos xs sobre y quando os xs so mudados, necessrio mud-los.
Estimao e procedimentos inferenciais que contribuem para os cinco propsitos apresentados anteriormente so discutidos nos Captulos 7-10.
1.3.
j = 1, 2, 3,
(1.5)
k = 1, 2, , n
A=
B=
X=
;
;
21
39
10
12
15
13
14
16
1
0
1
1 0 1
Para representar os elementos da matriz X como variveis, ns usamos:
x11
x
X = (xij) = 21
x31
x41
x12
x22
x32
x42
x13
x23
x33
x43
y2
y3 ]
5
(ii) a distncia (d) entre dois pontos (vetores), ou
(iii) o ngulo () entre as linhas formadas da origem at os dois pontos.
3 2 4 3 2 4
=
1
3 7 1
3 7
mas
2 9 5
3 9
5
8 4
6 8 4
6
3 2 4
Por exemplo: Se A =
A =
3 7
1
3 1
2 3 a sua transposta.
4 7
A notao (aji) indica que o elemento da i-sima linha e j-sima coluna de A encontrado na j-sima linha e i-sima coluna de A. Se A nxp ento A pxn.
Teorema 2.1.A. Se A uma matriz qualquer, ento
(A) = A
(2.4)
6
2.1.4 Alguns tipos especiais de matrizes
6 7
9
simtrica. evidente que toda matriz simtrica quadrada.
A diagonal de uma matriz quadrada pAp= (aij) consiste dos elementos a11, a22,
, app, ou seja, diag(A) = (aii). No exemplo anterior, a diagonal da matriz A formada pelos elementos 3, 10 e 9.
Se a matriz nAn contm zeros em todas as posies fora da diagonal ela uma
matriz diagonal, como por exemplo,
0 0
8
0 3 0
D=
0
0 0
0
0 0
0
0
Ns usamos a notao diag(A) para indicar a matriz diagonal com os mesmos elementos da diagonal de A, como por exemplo,
2
6
3
A = 2 10 7
6 7
9
3 0 0
diag(A) = 0 10 0
0 0 9
Uma matriz diagonal com o nmero 1 em cada posio da sua diagonal chamada de matriz identidade e denotada por I, como por exemplo,
1 0 0
I(3) = diag(1, 1, 1) = 0 1 0
0 0 1
7
Uma matriz triangular superior uma matriz quadrada com zeros abaixo da
diagonal, como por exemplo,
7
0
T=
0
2 3 5
0 2 6
0 4
1
0 0
8
1
Uma matriz quadrada de 1s denotada por J, como por exemplo,
1 1 1
J(3x3) = 1 1 1
1 1 1
Ns denotamos um vetor de zeros por 0 e uma matriz de zeros por ou ,
por exemplo,
0
0 = 0 ,
0
0 0 0
= = 0 0 0 .
0 0 0
Se duas matrizes tm a mesma dimenso, sua soma encontrada adicionando os elementos correspondentes. Assim, se A(nxp) e B(nxp), ento C = A + B tambm nxp e
encontrada como C = (cij) = (aij + bij). Por exemplo,
4 11 5 6 18 2 2
7 3
2
+3 4
= 5 12 3
8
5
2
8
A diferena D = A B entre as matrizes A e B definida similarmente: D = (dij) =
(aij bij). Duas propriedades importantes da adio de matrizes so dadas a seguir:
Teorema 2.2A. Se A e B so nxp, ento:
(i) A + B = B + A
(2.9)
(ii) (A + B) = A + B
(2.10)
Para que o produto AB de duas matrizes seja possvel, o nmero de colunas da matriz
A deve ser igual ao nmero de linhas de B. Neste caso, dizemos que as matrizes A e
B so conformes. Ento, o (ij)-simo elemento do produto C = AB definido como:
cij =
aik bkj
(2.11)
que igual soma dos produtos dos elementos da i-sima linha de A pelos elementos
da j-sima coluna de B. Assim, ns multiplicamos todas as linhas de A por todas as
colunas de B. Se A (nxm) e B (mxp) ento C = AB (nxp). Por exemplo,
2 1 3
A(2x3) =
e B(3x2) =
4 6 5
1 4
2 6
3 8
Ento
2AB2
18 25 23
3BA3 = 3D3 = 28 38 36
38 51 49
Se A nxm e B mxp, onde n p, ento o produto AB definido, mas BA no
definido. Se A nxp e B pxn, ento AB nxn e BA pxp. Neste caso, certamente, AB BA, como ilustrado no exemplo anterior. Se A e B so nxn ento AB e BA
tm o mesmo tamanho, mas, em geral:
AB BA
(2.12)
9
A(B C) = AB AC
(2.13)
(A B)C = AC BC
(2.14)
(2.15)
A multiplicao envolvendo vetores segue as mesmas regras das matrizes. Suponha A(nxp), b(px1), c(px1) e d(nx1). Ento:
Desde que bc uma soma de produtos (um escalar!) tem-se que bc = cb:
bc = b1c1 + b2c2 + + bpcp
cb = c1b1 + c2b2 + + cpbp
bc = cb
(2.16)
c1d1 c1d 2
c d c d
2 2
2 1
M
M
c p d 1 c p d 2
L c1d n
L c2 d n
O
M
L c pdn
(2.17)
Similarmente:
b1
b
2
bb = [b1 b2 bp] = b12 + b22 + + b 2p =
M
b p
b1
b
2
bb = [b1 b2 bp] =
M
b p
b12 b1b2
2
b2b1 b2
M
M
b p b1 b p b2
bi2
(2.18)
i =1
L b1b p
L b2b p
O
M
L b 2p
(2.19)
10
A raiz quadrada da soma de quadrados dos elementos de um vetor bpx1 igual
distncia da origem ao ponto b e referida como norma euclidiana, ou comprimento
do vetor b:
p
comprimento de b = || b || =
b' b =
bi2
(2.20)
i =1
jj = n,
1
1
jj =
M
1 L 1
1 L 1
= J(nxn)
M O M
1 L 1
(2.21)
onde Jnxn uma matriz quadrada de 1s como ilustrada em (2.7), Se a um vetor nx1
e A uma matriz nxp, ento
aj = ja =
ai
(2.22)
i =1
jA =
[i ai1 i ai 2
i aip ]
j a1 j
2
j
e Aj = j
M
j anj
(2.23)
5 4 0
2
1 2 3 4
i) j'A = [1 1 1] 5
1 6 4 = [8 4 13 8]
2
5 4 0
1
1 2 3 4 6
1
ii) Aj = 5
1 6 4 = 16
1
2
5 4 0 11
1
2
5
ento:
1
8
11
1
2
1
5
iii) aj = [2 5 1 8] = ja = [1 1 1 1] = 16 (total dos elementos de a)
1
1
1
8
O produto de um escalar por uma matriz obtido multiplicando-se cada elemento da matriz pelo escalar:
ca11 ca12
ca
ca22
cA = (caij) = 21
M
M
can1 can 2
L ca1m
L ca2m
.
O
M
L canm
(2.24)
Desde que caij = aijc o produto de um escalar por uma matriz comutativo:
cA = Ac
(2.25)
(2.26)
Prova: Seja C = AB. Ento por (2.11), temos que C = (cij) = aik bkj
k =1
Para ilustrar os passos dessa prova, vamos usar as matrizes A2x3 e B3x2:
a
a
AB = 11 12
a21 a22
a13
a23
b11 b12
b
b
21 22
b31 b32
12
a b + a b + a b
(AB) = 11 11 12 21 13 31
a11b12 + a12b22 + a13b32
b12 a11 + b22 a12 + b32 a13 b12 a21 + b22 a22 + b32 a23
a11
b11 b21 b31
(AB) =
a12
b12 b22 b32 a
13
a21
a22 = BA
a23
n i =1
n 1 i =1
1
Matricialmente, a mdia pode ser calculada por y = jy, onde j um vetor nx1 de
n
1s e n = jj. Para calcularmos a varincia precisamos, primeiramente, calcular o
vetor de desvios:
1
1
1
1
y y = y y j = y j jy = y jjy = y Jy = I J y
n
n
n
n
Onde I a matriz identidade nxn e J uma matriz nxn de 1s. Para calcularmos a
soma de quadrados de desvios fazemos:
n
( yi y )
i =1
1
= I J y
n
1
I J y
n
1
1
1
1 1
Mas J = J, II = I, IJ = J; JI = J = J e jj = n, ento:
n
( yi y )2
i =1
1
1
2
n
1
2
1
= y I J + J y = y I J y
n
n
n
s2 =
1 n
( yi y )2 = 1 y' I 1 J y
n 1 i =1
n 1
n
Material elaborado pelo Prof. Csar Gonalves de Lima
13
Supondo que A nxm e B mxp, seja a ti a i-sima linha da matriz A e bj, a jsima coluna da matriz B, de tal forma que:
a11
a
A = 21
M
a n1
a12
a 22
M
an 2
L a1m a1t
L a 2 m a t2
=
, B=
O M M
L a nm a tn
b11 b12
b
b22
21
M
M
bm1 bm 2
L b1 p
L b2 p
= [b1, b2, , bp]
O M
L bmp
AB =
M
M
t
t
a nb1 a nb 2
L a1t b p
L a t2b p
O
M
L a tnb p
a1t (b1 , b 2 , L, b p )
t
a
(
b
,
b
,
L
,
b
)
p
= 2 1 2
=
M
t
a n (b1 , b 2 , L , b p )
a1t B a1t
t t
a 2 B = a 2 B
M M
t t
a n B a n
(2.27)
De forma anloga, a segunda coluna de AB Ab2 e assim por diante. Assim AB pode
ser escrita em termos das colunas de B:
AB = A[b1, b2, , bp] = [Ab1, Ab2, , Abp]
(2.28)
Qualquer matriz A pode ser multiplicada pela sua transposta para formar AA
ou AA. Algumas propriedades desses produtos so dadas no prximo Teorema.
Teorema 2.2C. Seja A uma matriz nxp. Ento AA e AA tm as seguintes propriedades:
(i) AA pxp e obtida como produto das colunas de A.
(ii) AA nxn e obtida como produto das linhas de A.
(iii) Ambas as matrizes AA e AA so simtricas.
(iv) Se AA = ento A = .
Material elaborado pelo Prof. Csar Gonalves de Lima
14
Seja A uma matriz quadrada n x n e D = diag(d1, d2, , dn). No produto DA, a
i-sima linha de A multiplicada por di e em AD, a j-sima coluna de A multiplicada por dj. Por exemplo, se n = 3, ns temos:
DA
d1 0
= 0 d2
0 0
0 a11 a12
0 a21 a22
d 3 a31 a32
AD
a11 a12
= a21 a22
a31 a32
a13
a23
a33
a13
a23 =
a33
d1 0
0 d
2
0 0
d1a11 d1a12
d a
d 2 a22
2 21
d 3a31 d 3a32
d1a13
d 2 a23
d 3a33
(2.29)
0 d1a11 d 2 a12
0 = d1a21 d 2 a22
d 3 d1a31 d 2 a32
d 3a13
d 3a23
d 3a33
(2.30)
d1d 3a13
d 2 d 3a23
d 32 a33
(2.31)
Vale notar que DA AD. Entretanto, no caso especial onde a matriz diagonal
a matriz identidade, (2.29) e (2.30) temos:
IA = AI = A
(2.32)
aii yi2
+ 2 aij yi y j
(2.33)
i j
aij xi y j
(2.34)
ij
15
Algumas propriedades da soma direta de matrizes:
(i) A (A)
(ii) Se as dimenses so favorveis, ento:
(A B) + (C D) = (A + C) (B + D)
(A B)(C D) = AC BD
Ento,
10 11 15 0 0
A B = 0 0 0 3 5
0 0 0 4 1
0
0
0
10 11 15
AC=
0 0 0 10 11 15
am1B am 2B
L a1 n B
L a2 n B
O
M
L amn B
(A B)(C D) = AC BD
16
Exemplo: Sejam as matrizes:
1 2
A(2x2) =
,
3
4
0
1 1
B(2x3) =
,
3
5
1
y(3x1) = 1 .
0
Ento
0 2 2
0
1 1
3 5 6 6 10 12
,
AB=
3 3
0 4 4
0
9 15 18 12 20 24
2
1
1 2
0
0
Ay=
4
3
3 4
0
0
0
0
1 2 1 2
3 4 3 4
0
0
BA=
3 6 5 10 6 12
9 12 15 20 18 24
2
1
3
4
1 2
yA=
3 4
0
0
0
0
Em relao sua segunda potncia, uma matriz quadrada A, ser chamada de:
(i) idempotente, se A 2 = A.
(ii) nilpotente, se A 2 = .
(iii) unipotente, se A 2 = I.
Teorema. Se P(n) uma matriz idempotente e se I(n) a matriz identidade de ordem n,
ento a matriz I P idempotente.
17
2.3. MATRIZES PARTICIONADAS
A12
A 22
2 5 8
4 0 2
4
7
A
= 11
3 6 5 2
A 21
1 2 1
6
A12
A 22
Onde:
7 2 5
8 4
9 3 6
A11 =
,
A
=
,
A
=
12
21
2 7
3 1 2 e A22 =
3 4 0
5 2
1
6
Se duas matrizes A e B so conformes, e se A e B so particionadas de tal forma que as submatrizes sejam apropriadamente conformes, ento o produto AB pode
ser encontrado usando a maneira usual de multiplicao (linha-por-coluna) tendo as
submatrizes como se fossem elementos nicos; por exemplo:
A
AB = 11
A 21
A B + A12B 21
= 11 11
A 21B11 + A 22B 21
A11B12 + A12B 22
A 21B12 + A 22B 22
(2.35)
18
b1
b
2
Ab = [a1, a2, , ap] = b1a1 + b2a2 + + bpap
M
b p
(2.37)
Assim, Ab pode ser expressa como uma combinao linear de colunas de A, na qual
os coeficientes so os elementos de b. Ns ilustramos (2.37) no seguinte exemplo:
Exemplo 2.3. Sejam:
6 2 3
A = 2
1 0 , b =
4
3 2
4
2
1
17
Ab = 10
20
6
2
3 24 4 3 17
= 4 2 + 2 1 + (1) 0 = 8 + 2 0 = 10
4
3
2 16 6 2 20
Por (2.28) e (2.29), as colunas do produto AB so combinaes lineares das colunas de A. Os coeficientes para a j-sima coluna de AB so os elementos da j-sima
coluna de B.
O produto de um vetor linha por uma matriz, aB, pode ser expresso como uma
combinao linear das linhas de B, na qual os coeficientes so os elementos de a:
b1t
t
b
aB = [a1, a2, , an] 2 = a1 b1t + a2 b t2 + + an b tn
M
t
b n
(2.38)
(2.39)
19
2.4 POSTO (RANK) DE UMA MATRIZ
(2.40)
Se no encontrarmos um conjunto de escalares c1, c2, , cp (nem todos nulos) que satisfaam (2.40), o conjunto de vetores {a1, a2, , ap} dito linearmente independente
(l.i.). Por (2.37), podemos reescrever essa definio da seguinte forma:
Pode-se mostrar que o nmero de colunas l.i. de qualquer matriz igual ao nmero de
linhas l.i. dessa matriz.
Se a matriz A tem um nico elemento diferente de zero, com todos os demais
elementos iguais a zero, ento rank(A) = 1. O vetor 0 e a matriz tm posto zero.
Se a matriz retangular A(nxp) de posto p, onde p < n, ento A tem o maior posto
possvel e dito ter posto coluna completo.
Em geral, o maior posto possvel de uma matriz A(nxp) o min(n, p). Assim, em
uma matriz retangular, as linhas, as colunas ou ambas so linearmente dependentes.
Ns ilustramos esse fato no prximo exemplo.
Exemplo 2.4(a). A matriz
1 2 3
A=
2 4
5
tem posto 2, porque as duas linhas so linearmente independentes, pois nenhuma
linha mltipla da outra. Conseqentemente, pela definio de posto, o nmero de
colunas l.i. tambm 2. Portanto, as trs colunas de A so l.d. e por (2.40) existem
constantes c1, c2 e c3 (nem todas nulas) tais que:
20
1
2
3 0
c1 + c2 + c3 =
5
2
4 0
(2.41)
c3
(2.42)
14
A soluo (no trivial) para (2.42) dada por qualquer mltiplo de c = 11 . Neste
12
caso o produto Ac = 0, mesmo com A 0 e c 0. Isso s possvel por causa da dependncia linear dos vetores-colunas de A.
Nem sempre fcil perceber que uma linha (ou coluna) uma combinao linear de outras linhas (ou colunas). Nesses casos pode ser difcil calcular o posto de
uma matriz. Entretanto, se conseguirmos obter a forma escalonada cannica (f.e.c.)
da matriz, o seu posto corresponder ao nmero de linhas (ou colunas) que tenham o
nmero 1 como lder. A obteno da f.e.c. de uma matriz feita atravs de operaes
elementares em suas linhas (ou colunas).
Definio: So chamadas de operaes elementares nas linhas da matriz A (e de
modo similar nas suas colunas):
(i) trocar a posio de duas linhas da matriz.
(ii) multiplicar uma linha da matriz por um escalar k 0 (li = kli).
(iii) somar a uma linha da matriz um mltiplo de outra linha (li = li + klj).
Teorema: Uma matriz A equivalente por linhas a uma matriz B se B pode ser obtida de A aplicando-se uma seqncia de operaes elementares sobre as suas linhas.
Definio: Dizemos que uma matriz A(nxm) est na sua forma escalonada cannica ou
reduzida se ocorrer simultaneamente que:
(a) o primeiro elemento no nulo de cada linha no nula o nmero 1 (piv);
(b) toda coluna que tem um piv, tem todos os outros elementos nulos;
(c) o piv da linha i +1 ocorre direita do piv da linha i (i = 1, 2, , n1).
(d) todas as linhas nulas (formadas inteiramente por zeros) ocorrem abaixo das
linhas no nulas.
21
Definio: Dizemos que uma matriz est na forma escalonada se ela satisfaz as propriedades (c) e (d), mas no necessariamente as propriedades (a) e (b).
Das matrizes apresentadas a seguir, B no est na forma escalonada, A e C esto nas suas formas escalonadas cannicas e D, na forma escalonada.
1 0 0
A = 0 1 0 , B =
0 0 0
1
0
0 0 0
0 0 1
1 2 1 2
, C =
, D=
0 1 0
0 0 0 0
1 0 0
4 0 3
0 3 0
0 0 1
Teorema. Dada uma matriz real A(nxp) sempre possvel obtermos a sua forma escalonada cannica (f.e.c.) atravs de operaes elementares.
1 2 3
A=
2 4
5
(i) Fazendo l2 = l2 5l1, ns obtemos:
3
1 2 3 1 2
~
5
.
2
4
0
12
11
11
/
12
7 / 6
1 0
Ento a f.e.c. de A a matriz
e o rank(A) = 2.
0 1 11 / 12
Definio: Dizemos que uma matriz quadrada est na forma de Hermite (Graybill
1969, p.120) se satisfaz as seguintes condies:
(a) uma matriz triangular superior;
Material elaborado pelo Prof. Csar Gonalves de Lima
22
(b) tem apenas valores zero ou um na sua diagonal;
(c) se tem o valor zero na diagonal, os elementos restantes na linha so zeros;
(d) se tem o valor um na diagonal, os elementos restantes da coluna em que aparece o nmero um, so nulos.
Definio: Dizemos que uma matriz quadrada est na forma de Echelon (Graybill,
1969, p.286) se ela satisfaz as condies de uma forma de Hermite e apresenta as
linhas de zeros abaixo das linhas que no so nulas.
Ns tambm podemos explorar a dependncia linear das linhas ou colunas de
uma matriz para criar expresses tais como AB = CB, onde A C. Assim em uma
equao matricial, ns no podemos, em geral, cancelar uma matriz de ambos os
lados da equao. Uma exceo a essa regra ocorre quando as matrizes envolvidas
so quadradas e B uma matriz no-singular (ser definida na Seo 2.5).
Exemplo 2.4(b). Ns ilustramos a existncia de matrizes A, B e C tais que AB = CB,
onde A C. Sejam as matrizes:
1 2
1
1
1 3 2
2
3 5
A =
AB = CB =
, B = 0 1 , C =
2
0
1
5
4
1
4
1 0
O teorema seguinte d um caso geral e dois casos especiais para o posto do produto
de duas matrizes.
Teorema 2.4A.
(i) Se as matrizes A e B so conformes, ento rank(AB) rank(A) e rank(AB)
rank(B).
(ii) A multiplicao por uma matriz no-singular (ver Seo 2.5) no altera o posto
da matriz, isto , se B e C so no-singulares rank(AB) = rank(CA) = rank(A).
(iii) Para qualquer matriz A, rank(AA) = rank(AA) = rank(A) = rank(A).
23
Prova:
(i) Todas as colunas de AB so combinaes lineares das colunas de A (ver um comentrio no Exemplo 2.3) conseqentemente, o nmero de colunas l.i. de AB
menor ou igual ao nmero de colunas l.i. de A, e rank(AB) rank(A). Similarmente, todas as linhas de AB so combinaes lineares das linhas de B [ver
comentrio em (2.38)] e da, rank(AB) rank(B).
(ii) Se B no singular, existe uma matriz B -1 tal que B B -1 = I [ver (2.45) a seguir].
Ento, de (i) ns temos que:
AA =A A=I
(2.45)
[A | I ] ~ ~ [I | A ]
Exemplo 2.5. Seja a matriz quadrada:
4 7
A=
.
2 6
(1) Fazendo l2 = l2 (1/2) l1:
7
1 0
4 7 1 0 4
2 6 0 1 ~ 0 5 / 2 1 / 2 1
24
1
0 4 0 12 / 5 14 / 5
4 7
0 1 1 / 5 2 / 5 ~ 0 1 1 / 5
2 / 5
(4) Fazendo l1 = (1/4) l1:
3 / 5 7 / 10
4 0 12 / 5 14 / 5 1 0
~
0 1 1 / 5
2 / 5 0 1 1 / 5
2 / 5
Ento
3 / 5 7 / 10
4 7 1 0
1 0
0.6 0.7
1
A =
2 6 0 1 ~ ~ 0 1 1 / 5
2 / 5
0.4
0.2
Se a matriz B no-singular e AB = CB, ento ns podemos multiplicar direita por
1
B os dois lados da igualdade, obtendo:
1
AB = CB ABB = CBB A = C
Importante: Se a matriz B singular ou retangular, ela no pode ser cancelada nos
dois lados da igualdade AB = CB.
x=A c
(2.47)
(AB) = B A
(2.49)
A 21 A 22
1
-1
B 1A 21A11
B 1
25
Como um caso especial de (2.50), consideremos a matriz no singular:
A
A = 11 t
(a12 )
a12
a22
1
A =
-1
-1
-1
-1
a12 (a12 )t A11
a12
+ A11
A11
1 bA11
-1
b
(a12 )t A11
1
existe, a
(2.51)
onde b = a22 (a12)t(A11) a12. Como um outro caso especial de (2.50) ns temos:
A
A = 11
A 22
A 221
(2.52)
y1
y = y2 ,
y3
3 4 5
A = 0 1 6 .
0 0 2
Entretanto, essa forma quadrtica pode ser expressa em termos da matriz simtrica:
2 5 / 2
3
1
(A + A) = 2
1 3.
2
5 / 2 3 2
26
Em geral, qualquer forma quadrtica yAy pode ser expressa como:
A + A'
yAy = y
y
2
(2.54)
Assim a matriz-ncleo da forma quadrtica pode sempre ser escolhida como uma
matriz simtrica (e nica!).
1
1
1 n
n
n n
1
1
1 1
1 L
A=
n
n
n = n(n 1)
n 1
M
M
M M
1
1 1
1
L 1
n
n
n n(n 1)
1
1
L
n(n 1)
n(n 1)
1
1
L
n(n 1)
n
M
M
1
1
L
n(n 1)
n
2 1
A=
1 3
27
Para ilustrar uma matriz positiva semidefinida, considere:
(2 y1 y2 )2 + (3 y1 y3 )2 + (3 y2 2 y3 )2
que pode ser expresso como yAy, com
13 2 3
A = 2 10 6
3 6
5
Se 2 y1 = y2 , 3 y1 = y3 e 3 y2 = 2 y3 , ento (2 y1 y2 )2 + (3 y1 y3 )2 + (3 y2 2 y3 )2
= 0. Assim yAy = 0 para qualquer mltiplo de y = [1, 2, 3]. Para todos os outros
casos, yAy > 0 (com exceo de y = 0).
Teorema 2.6A.
(i) Se A positiva definida, ento todos os elementos aii da sua diagonal so positivos.
(ii) Se A positiva semidefinida, ento todos aii 0.
28
Um mtodo de fatorar uma matriz positiva definida A em um produto PP
chamado de decomposio de Cholesky [ver Seber (1977, pg.304-305)], pelo qual A
pode ser fatorado de modo nico em A = TT, onde T uma matriz no singular e
triangular superior.
Para qualquer matriz quadrada ou retangular B, a matriz BB positiva definida ou positiva semidefinida.
Teorema 2.6D. Seja a matriz B(nxp).
(i) Se rank(B) = p, ento BB positiva definida.
(ii) Se rank(B) < p, ento BB positiva semidefinida.
Prova:
(i) Para mostrar que yBBy > 0 para y 0, ns notamos que yBBy = (By)(By)
uma soma de quadrados e portanto, positiva definida, a menos que By = 0. Por
(2.37) ns podemos expressar By na forma:
By = y1b1 + y2b2 + + ypbp
1 2
Ento:
1 2
2 4
,
B2 =
BB
=
4
8
1 2
Prova: Pelo Teorema 2.6C, A = PP, onde P no singular. Pelos Teoremas 2.5A e
1
1
1
1
1 1
2.5B, A = (PP) = P (P) = P (P ), que positiva definida pelo Teorema 2.6C.
Material elaborado pelo Prof. Csar Gonalves de Lima
29
Teorema 2.6F. Se A positiva definida e particionada na forma
A
A = 11
A 21
A12
A 22
(2.56)
Se n > p, tal que A tenha mais linhas que colunas (mais equaes do que incgnitas), ento, geralmente, o sistema Ax = c no tem soluo.
Se n < p, tal que A tenha menos linhas que colunas, ento o sistema Ax = c tem
um nmero infinito de solues.
Se o sistema (2.56) tem uma ou mais vetores solues, ele chamado de sistema
consistente. Se no tem soluo, ele chamado de sistema inconsistente.
30
Ento, ns tambm podemos ter bc = b1c1 + b2 c2+ + bp cp = 0, porque a multiplicao de Ax = c por b (de ambos os lados) d:
bAx = bc
0x = bc.
ou
Por outro lado, se bc 0, no existe x tal que Ax = c. Portanto, para que Ax = c seja
consistente, a mesma relao (qualquer que seja) que existe entre as linhas de A deve
existir entre os elementos (linhas) de c. Isso formalizado comparando o posto de A
com o posto da matriz aumentada [A, c]. A notao [A, c] indica que c foi justaposta
matriz A como uma coluna adicional.
Teorema 2.7A O sistema de equaes Ax = c consistente (tem no mnimo uma
soluo) se e somente se rank(A) = rank[A, c].
Prova: Suponha que rank(A) = rank[A, c], de tal forma que justapor no altera o
posto da matriz A. Ento c uma combinao linear das colunas de A; isto ,
existe pelo menos um x tal que
x1a1 + x2a2 + + xpap = c
que, por (2.38) pode ser escrito como Ax = c. Assim, x uma soluo do sistema Ax = c.
Por outro lado, suponha que existe um vetor soluo x tal que Ax = c. Em geral,
tem-se que rank(A) rank[A, c] [ver Harville (1997, p.41)]. Mas desde que
existe um x tal que Ax = c, ns temos:
[Teorema 2.4A(i)]
Por isso,
x1 + 2x2 = 4
x1 x2 = 1
x1 + x2 = 3
ou
1 2
4
1 1 x1 = 1
x2
1 1
3
Material elaborado pelo Prof. Csar Gonalves de Lima
31
A matriz aumentada :
1 2 4
[A, c] = 1 1 1
1 1 3
que tem rank[A, c] = 2 porque a terceira coluna igual soma de duas vezes a primeira coluna com a segunda coluna. Desde que rank[A, c] = 2 = rank(A), existe ao
menos uma soluo para o sistema.
Se adicionarmos duas vezes a primeira equao segunda equao, o resultado
um mltiplo da terceira equao. Assim, a terceira equao redundante e as duas
primeiras podem ser resolvidas para obter a soluo nica x = [2, 1].
4
x2
3
2
1
0
0
x1
A Figura 2.1 mostra as trs linhas que representam as trs equaes do sistema.
Note que as trs linhas cruzam no ponto de coordenadas (2, 1), que a soluo nica
do sistema de trs equaes.
Exemplo 2.7(b). Se trocarmos o nmero 3 por 2 na terceira equao do Exemplo
2.7(a), a matriz aumentada fica
1 2 4
[A, c] = 1 1 1
1 1 2
que tem posto 3, j que nenhuma combinao linear das colunas 0. Como rank[A,c]
= 3 rank(A) = 2, o sistema inconsistente.
As trs linhas que representam as trs equaes so apresentadas na Figura 2.2,
onde ns percebemos que as trs linhas no tm um ponto comum de interseo. Para
encontrar a melhor soluo aproximada, uma abordagem consiste em usar o mtodo
dos mnimos quadrados, que consiste em buscar os valores de x1 e x2 que minimizam
2
2
2
(x1 + 2x2 4) + (x1 x2 1) + (x1 + x2 2) = 0.
Material elaborado pelo Prof. Csar Gonalves de Lima
32
4
x2
3
2
1
0
0
x1
x1 + x2 + x3 = 1
2x1 + x2 + 3x3 = 5
3x1 + 2x2 + 4x3 = 6
A terceira equao a soma das duas primeiras, mas a segunda no um mltiplo da
primeira. Assim rank(A) = 2 = rank[A, c] e o sistema consistente. Resolvendo as
duas primeiras equaes para x1 e x2 em termos de x3, ns obtemos:
x1 = 2x3 + 4,
x2 = x3 3
x3
1 0
onde x3 uma constante arbitrria. Geometricamente, x uma linha representando a
interseo dos dois planos correspondentes s duas primeiras equaes.
Uma inversa generalizada de uma matriz A nxp qualquer matriz A , que satisfaz:
AA A = A
(2.57)
33
Toda matriz (quadrada ou retangular) tem uma inversa condicional. Isso garantido mesmo para vetores. Por exemplo:
1
2
x=
3
4
i = 1, 2, 3.
Nessa ilustrao, x um vetor coluna e x i um vetor linha. Esse modelo generalizado no seguinte teorema.
2 2 3
A = 1 0 1
3 2 4
(2.58)
Como a terceira linha de A a soma das duas primeiras linhas, e a segunda linha no
um mltiplo da primeira, o rank(A) = 2. Sejam
A1
1 0
0
= 1 / 2 1 0 ,
0 0 0
A 2
1
0
0
= 0 3 / 2 1 / 2
0
0
0
(2.59)
A
A = 11
A 21
A12
A 22
A = 11
Onde as trs matrizes nulas 0 tm dimenses apropriadas para que A seja pxn.
34
Corolrio 1. Suponha A (nxp) de posto r e que A particionado como no Teorema
2.8B, onde A22 rxr de posto r. Ento a inversa generalizada de A dada por
0 0
A =
1
0 A 22
algoritmo para encontrar uma inversa condicional A , para qualquer matriz A (nxp)
de posto r [ver Searle, 1982, p.218]:
1. Encontre qualquer submatriz no-singular C(rxr). No necessrio que os elementos de C ocupem posies (linhas e colunas) adjacentes em A.
1
1 0 1
Usando o algoritmo de Searle (e lembrando que o posto da matriz X 2), escolhemos
convenientemente:
1 0
1
C=
C =
0 1
0
0
0 0
1 0
X =
0 1
0 0
1 0
1
0 1 (C ) =
1 0
0 1
0 0 0 0
0 1 0 0 uma inversa condicional de X
0 0 1 0
Vale lembrar que escolhendo outras matrizes C e usando o algoritmo, podemos encontrar outras inversas condicionais de X.
35
Uma inversa generalizada de uma matriz simtrica no necessariamente simtrica. Entretanto, tambm verdade que uma inversa generalizada simtrica de
uma matriz simtrica, sempre pode ser encontrada; ver Problema 2.45. Neste livro,
ns assumimos que as inversas generalizadas de matrizes simtricas tambm so
simtricas.
Alm da inversa generalizada (condicional) definida em (2.57) existem outras,
mq
+
como a inversa de mnimos quadrados (A ) e a inversa de Moore-Penrose (A ) que
muito til em demonstraes envolvendo modelos lineares.
Definio: Dada a matriz A(nxp) ento toda matriz A mq (pxn) que satisfaz as duas
condies seguintes, uma inversa de mnimos quadrados da matriz A:
mq
(a) AA A = A
mq
(b) AA
1
1
Exemplo. Obter uma inversa de mnimos quadrados de X =
1
1 0
1 0
0 1
0 1
4 2 2
2 0
Primeiramente calculamos XX = 2 2 0 . Escolhendo C =
e usando o al
0 2
2 0 2
goritmo de Searle, obtemos:
0
0 0
(XX) = 0 0,5 0
0 0 0,5
36
Ento uma inversa de mnimos quadrados de X igual a:
mq
0
0
0
0
= (XX) X = 0,5 0,5 0
0
0
0 0,5 0,5
Vale observar que escolhendo outras matrizes C e, correspondentemente, calculando outras inversas condicionais de XX, podemos encontrar outras inversas de
mnimos quadrados da matriz X.
+
Definio: Dada a matriz A (nxp) de posto r, ento a matriz A (pxn), de posto r, que
satisfaz s quatro condies seguintes, definida como a inversa generalizada de
Moore-Penrose da matriz A:
+
(a) AA A = A
+
(b) A AA = A
+
(c) A A simtrica
+
(d) A A simtrica
+
Teorema 2. Para cada matriz A (nxp) existe sempre uma e s uma matriz A que
satisfaz as condies de Moore-Penrose.
Uma soluo para um sistema de equaes pode ser expressa em termos de uma inversa generalizada.
Vale lembrar mais uma vez que diferentes escolhas de A , resultaro em diferentes
solues para Ax = c.
37
Teorema 2.8E. Se o sistema de equaes Ax = c consistente, ento todas as possveis solues podem ser obtidas das duas seguintes maneiras:
(i) Use uma A especfica em x = A c + (I A A)h e use todos os possveis valores para o vetor arbitrrio h.
(ii) Use todas as possveis inversas A em x = A c.
AA c = c.
(A) = | A | = det(A) =
n!
pi
i =1
Cada produto elementar do tipo pi = a1_ a2_ a3_ an_ em que, nos espaos
(ndices) so colocados os nmeros de alguma permutao simples do conjunto
{1, 2, , n}.
Em cada produto pi existe um e um s elemento de cada linha e coluna.
Cada produto elementar recebe o sinal + ou , conforme o nmero de inverses
envolvidas em pi seja par ou mpar, respectivamente.
Essa definio no muito til para calcular o determinante de uma matriz, exceto
para o caso de matrizes 2x2 ou 3x3. Para matrizes maiores, existem programas especficos (proc iml do SAS, Mapple e MathCad por exemplo) para calcular os determinantes.
38
a11
Exemplo. Seja a matriz A = a 21
a31
a12
a 22
a32
a13 2 0 1
a 23 = 3 1 4
a33 5 6 7
pi
Permutao
No de inverses
Sinal
Valor de pi
123
+p1 = 14
132
p2 = 48
213
p3 = 0
231
+p 4 = 0
312
+p5 = 18
321
p6 = 5
det(A) =
pi
= 49
i =1
Teorema 2.9A.
(i) Se D = diag(d1, d2, , dn) ento det(D) =
di
i =1
A
A = 11
A 21
A12
,
A 22
(2.71)
Note a analogia de (2.70) e (2.71) com o caso do determinante de uma matriz A, 2x2:
det(A) = a11 a22 a21 a12 = a11 (a22 a21 a12/ a11) = a22 (a11 a12 a21/ a22)
Material elaborado pelo Prof. Csar Gonalves de Lima
39
(ver os Corolrios 1 a 4 nas pginas 35 e 36 do livro do Rencher)
Teorema 2.9C. Se A e B so quadradas e de mesmo tamanho, ento o determinante
do produto igual ao produto dos determinantes:
(2.76)
|AB| = |BA|
(2.77)
Corolrio 1.
Corolrio 2.
2
|A | = |A|
(2.77)
(2.79)
Note que o termo ortogonal se aplica aos dois vetores e no a um nico vetor.
Geometricamente, dois vetores ortogonais so perpendiculares um ao outro.
Para mostrar que os vetores a e b so perpendiculares podemos calcular o ngulo
formado entre eles.
cos() =
a' b
(a' a)(b' b)
(2.80)
Se aa = 1, dizemos que o vetor a est normalizado. Um vetor b pode ser normalizado dividindo-o pelo seu comprimento (ou norma), b' b . Assim
c=
b
b' b
(2.81)
40
Um conjunto de vetores c1, c2,, cp de dimenses px1 que so normalizados
(cici = 1, para toto i) e mutuamente ortogonais (cicj = 0, para todo i j) dito ser um
conjunto ortonormal de vetores. Se a matriz C = [c1, c2,, cp] pxp tem colunas ortogonais e normalizadas, C chamada matriz ortonormal. Desde que os elementos de
CC so produtos de colunas de C [ver Teorema 2.2C(i)], uma matriz ortonormal C
tem a propriedade:
CC = I
(2.82)
(2.83)
Assim, uma matriz ortonormal C tem linhas ortonormais como tambm colunas
1
ortonormais. evidente que de (2.82) e (2.83), C = C , se C ortonormal.
Exemplo 2.10. Para ilustrar uma matriz ortonormal, partimos de:
1 1
1
A = 1 2 0
1
1 1
Que tem colunas mutuamente ortogonais, mas que no so ortonormais. Para normalizar as trs colunas, ns as dividimos pelos seus respectivos comprimentos, 3 , 6
e 2 , obtendo assim a matriz:
1 3
1 6
1 2
C = 1 3 2 6
0
1 3
1 6 1 2
(2.84)
41
2.11. TRAO DE UMA MATRIZ
O trao de uma matriz (nxn) A = (aij) uma funo escalar definida como a soma dos
elementos da diagonal de A; isto ,
tr(A) =
i=1 aii
n
8 4 2
Por exemplo, se A = 2 3 6 tr(A) = 8 + (3) + 9 = 14.
3 5 9
Teorema 2.11A.
(i) Se A e B so (nxn) ento
(2.85)
tr(AB) = tr(BA)
(2.86)
tr(AA) =
a tj a j
(2.87)
j =1
tr(AA) =
a i a ti
(2.88)
i =1
aij2
tr(AA) = tr(AA) =
(2.89)
i =1 j =1
(2.90)
(2.91)
tr(A A) = tr(A A ) = r
(2.92)
42
2.12 AUTOVALORES E AUTOVETORES
Definio: Para qualquer matriz quadrada A, um escalar e um vetor no-nulo x
podem ser encontrados, de tal forma que:
Ax = x
(2.93)
(2.94)
Por (2.37), (A I)x uma combinao das colunas de A I e por (2.40) e (2.94)
essas colunas so linearmente dependentes. Assim a matriz quadrada A I singular, e pelo Teorema 2.9A(iii) ns podemos resolver para usando
|A I| = 0
(2.95)
1 4
Por (2.95), a equao caracterstica :
2
1
|A I| =
= (1 )(4 ) + 2 = 0
1 4
ou seja
2 5 + 6 = ( 3)( 2) = 0
Material elaborado pelo Prof. Csar Gonalves de Lima
43
que tem razes 1 = 3 e 2 = 2. Para encontrar o autovetor x1 correspondente a 1 = 3,
ns usamos (2.94),
2 x1 0
(1 3)
(A 3I)x = 0
x = 0
(
)
1
4
2
que pode ser escrito como:
2x1 + 2x2 = 0
x1 + x2 = 0
Como a segunda equao um mltiplo da primeira, ento x1 = x2. Um vetor soluo
pode ser escrito com x1 = c como uma constante arbitrria.
x x
1
1
x 1 = 1 = 1 = x1 = c
x2 x1
1
1
1 / 2
1 / 5
(2.96)
(2.97)
44
2
3. Se um autovalor de A, ento um autovalor de A . Isto pode ser demonstrado, multiplicando-se a relao de definio Ax = x por A:
2
AAx = Ax A x = Ax = (x) = x
2
(2.98)
2
Ax =x
(2.99)
1
A Ax = A x x = A x A x = (1/)x
1
(2.100)
1
(A + 4A 3A + 5I)x = A x + 4A x 3Ax + 5x
3
= x + 4 x 3x + 5x
3
= ( + 4 3 + 5)x
3
(I A) = I + A + A + A +
(2.101)
2.12.3. Produtos
45
Teorema 2.12B. Seja A uma matriz nxn.
1
(2.102)
i x i x ti
(2.103)
i =1
(2.105)
(2.106)
i
i =1
(ii) tr(A) =
(2.107
i =1
46
Teorema 2.12F. Se A uma matriz com autovalores 1, 2, ,n ento
(i) Se A positiva definida ento i > 0 para i = 1, 2, , n
(ii) Se A positiva semidefinida ento i 0 para i = 1, 2, , n. O nmero de
autovalores i para os quais i > 0 igual ao posto de A.
Teorema A.5.2 Seja A uma matriz real e simtrica, n x n, e D = diag(1, 2, ...,n) a
matriz diagonal que exibe as razes caractersticas de A. Ento:
onde D
dade:
= diag( 1 , 2 , ,
1/2
1/2
n ). A matriz A
1/2
1/2
1/2
CD CCD C= A
(2.109)
Uma matriz quadrada A dita idempotente se A = A. Neste texto, muitas das matrizes idempotentes so quadradas. Muitas das somas de quadrados nas anlises de regresso e de varincia (Captulos 11-14) podem ser expressas como formas quadrticas yAy. A idempotncia de A ou de um produto envolvendo A ser usada para estabelecer que yAy (ou um mltiplo de yAy) tem distribuio de qui-quadrado.
Teorema 2.13A. A nica matriz no-singular idempotente a matriz identidade.
Teorema 2.13B. Se A singular, simtrica e idempotente ento A positiva semidefinida.
Material elaborado pelo Prof. Csar Gonalves de Lima
47
Teorema 2.13C. Se A uma matriz nxn, simtrica, idempotente e de posto r, ento
A tem r autovalores iguais a 1 e n r autovalores iguais a 0.
Teorema 2.13D. Se A uma matriz nxn, simtrica, idempotente e de posto r, ento
posto(A) = tr(A) = r.
Teorema 2.13E. Se A uma matriz nxn idempotente, P uma matriz nxn no
singular e C uma matriz nxn ortogonal, ento:
(i) I A idempotente.
(ii) A(I A) = 0 e (I A)A = 0
-1
(iii) P AP idempotente
(iv) CAC idempotente (se A simtrica, CAC uma matriz simtrica e idempotente).
Teorema 2.13F. Seja A uma matriz nxp de posto r, seja A qualquer inversa genera
i=1 A i para algum k, onde cada Ai uma matriz simtrica nxn. Ento, quaisquer
k
se n =
Seja u = f(x) uma funo das variveis x1, x2, , xp em x = [x1, x2, , xp] e sejam
u / x1 , u / x2 , , u / x p as derivadas parciais.
Material elaborado pelo Prof. Csar Gonalves de Lima
48
Ns definimos u / x como:
u / x1
u u / x2
=
x M
u
/
x
p
(2.110)
u
(a' x) (x' a)
=
=
=a
x
x
x
(2.111)
u
(x' Ax)
=
= 2Ax
x
x
(2.112)
2
2
0
=
+ 2
M M M 1 M
y n 1 x n
n
Procuraremos os estimadores de 0 e 1 que minimizam a soma de quadrados dos
desvios dos n valores observados de y em relao aos valores preditos y :
n
i2 =
( yi y i )2 =
(yi 0 1 xi )
i =1
i =1
i =1
i2 = = (y X ) (y X ) = yy 2 Xy + XX
i =1
49
(yy) = 0
(2 Xy) = 2Xy,
(
XX ) = 2XX ,
por (2.111)
por (2.112)
Da tem-se que:
'
= 2Xy + 2XX
XX = Xy
(7.8)
5.27 1
5.68 1
6.25 1
7.21 = 1
8.02 1
8.71 1
8.42 1
12
18
24
30
36
42
48
1
2
3
0
+ 4
1
5
6
7
7 210 0 49.56
210 7308 = 1590.48
49.56
1590.48
3.9943
0 =
1 0.1029
E a reta de mnimos quadrados ajustada fica:
y i = 3.9943 + 0.1029xi
Material elaborado pelo Prof. Csar Gonalves de Lima
50
EXERCCIOS
Ver exerccios das pginas 52-61 do livro texto.
1 0
B = 2 1 ,
3 2
1 2 3
A=
,
2
1
4
3 1 3
C = 4
1 5 ,
2
1 3
2 4 5
1 4
E = 0
3
2 1
3 2
D=
,
2
4
4 5
F=
2 3
(b) AB e BA
(c)
1
2
D F
3
5
(b) A(C + E) = AC + AE
(b) (C + E) = C + E
(c) (AB) = BA
a + b c + d 4 6
4) Se
=
, calcule os valores de a, b, c e d.
c d a b 10 2
(d) ABA X = A
(b) (A + B)X = B
(c) ABX = B
(e) (AX) = B
a12
1
1
a
6) Provar que se A no singular ento (A) = (A ), admitindo A = 11
.
a
a
21
`22
Material elaborado pelo Prof. Csar Gonalves de Lima
51
7) Sejam
2
b = 4
3
Escreva AB como uma combinao linear das colunas de A como em (2.37) e
verifique o resultado calculando Ab na maneira usual.
5 2 3
A=
,
3 1
7
x + y = 2
(b) y z = 3
z + x = 4
2x + 3y = 1
(a)
4 x + 5 y = 12
4a + 2b + 2c = 20
(d)
2a + 2b = 12
2a + 2c = 8
x + 2 y + 4z = 5
(c) 3 x y 2 z = 7
5 x 3 y + 6 z = 11
2x + 3y = 1
(e)
4 x + 6 y = 3
4 2 2 x1 20
9) Seja o sistema escrito na forma matricial Ax = b, ou 2 2 0 x2 = 12 .
2 0 2 x3 8
(a) Encontre uma inversa generalizada simtrica de A.
(b) Encontre uma inversa generalizada no simtrica de A.
1 1 1
(a) Normalize as colunas de A e denote a matriz resultante por C
(b) Mostre que CC = CC =I.
Material elaborado pelo Prof. Csar Gonalves de Lima
52
4 2 2
11) Seja a matriz singular A = 2 2 0 .
2 0 2
(a) Encontre os autovalores (1, 2 e 3) e os autovetores normalizados (c1, c2 e c3).
(b) A matriz A positiva definida? Por qu?
(c) Mostre que tr(A) = 1 + 2 + 3 e que det(A) = (1)(2)(3)
(d) Mostre que a matriz diagonal que exibe os autovalores de A pode ser obtida por
D = diag(1, 2, 3) = CAC, onde C = [c1, c2, c3] a matriz formada pelos
autovetores normalizados de A.
(e) Se a matriz A for positiva definida ou positiva semidefinida, obtenha a sua raiz
1/2
1/2
quadrada que calculada como A = CD C, onde D = diag(1, 2, 3) a
matriz diagonal que exibe os autovalores de A e C = [c1, c2, c3] a matriz
formada pelos autovetores normalizados de A.
12
18
24
30
36
42
48
5,27
5,68
6,25
7,21
8,02
8,71
8,42
a
1
(e) Calcule = = (XX) Xy, y = X e = y y .
b
(f) Verifique que fazendo X = [x1, x2] y = a x1 + b x2.
(g) Verifique que o vetor ortogonal a y e a cada uma das colunas da matriz X.
(h) Verifique que || y ||2 = || y ||2 + || ||2.
53
13. Suponhamos um experimento fictcio de alimentao de sunos em que foram utilizadas 4 raes (1, 2, 3 e 4) num delineamento inteiramente casualizado com 5 repeties (leites). Os ganhos de peso observados, em quilogramas, constam do
quadro seguinte:
Tratamentos (raes)
1
35
40
39
27
19
35
27
12
31
46
20
13
15
41
29
28
30
33
45
30
SQTotal = y I J y,
20
54
Os valores de x so dicotmicos (valem 0 ou 1). Neste caso, x uma varivel indicadora da presena (x = 1) ou ausncia (x = 0) de um determinado parmetro para
aquela observao. Exemplo: matriz de um delineamento experimental.
Os valores de x so estabelecidos (fixados) pelo pesquisador que observa os valores de y. Exemplo: doses de um nutriente qumico ou biolgico.
i = 1, 2, ..., n
55
y1
y
y = 2 e =
M
yn
1
2
M
n
(3.1)
= E(y) = y f(y) dy
-
(3.2)
(3.3)
(3.4)
(3.5)
2 = var(y) = E(y )2
(3.6)
var(y) =
E ( y )2
(3.7)
56
Usando (3.4) e (3.5), a varincia de y pode ser expressa na forma:
2 = var(y) = E(y2) 2
(3.8)
(3.9)
(3.10)
onde i = E(yi) e j = E(yj). Usando (3.4) e (3.5), ij pode ser expressa na forma:
(3.11)
Duas variveis aleatrias yi e yj so ditas independentes se a sua densidade conjunta puder ser fatorada no produto de suas densidades marginais:
(3.12)
- f(yi ,y j ) dy j .
(3.13)
(3.14)
No primeiro tipo de vetor aleatrio definido na Seo 3.1, as variveis y1, y2, ...,
yn so tipicamente independentes se obtidas de uma amostra aleatria, que implica em
ij = 0 para todo i j. Para as variveis do segundo tipo de vetor aleatrio, geralmente
temos ij 0 para, no mnimo, alguns valores de i e j. importante salientar que
cov(yi, yj) = 0 no implica em independncia! [ver Exemplo 3.2, pg. 64-67]
A esperana condicional de y para um dado valor de x definida como:
E(y | x) =
y f(y | x) dy ,
57
A covarincia ij depende da escala de medida das duas variveis yi e yj. Para
padronizar ij, ns dividimos o seu valor pelo produto dos desvios padres de yi e yj,
obtendo assim a correlao (populacional):
ij = corr(yi , yj) =
ij
i j
(3.17)
y1 E(y1 ) 1
y E(y )
2
2
2
E(y) = E =
= =
M M M
y p E(y p ) p
(3.18)
onde E(yi) = i obtido como E(yi) = y i f i (yi ) dyi usando fi(yi), que a densidade
-
marginal de yi.
Se x e y so dois vetores aleatrios de dimenses (p x 1) , segue de (3.18) que o
valor esperado de sua soma a soma de seus valores esperados:
(3.19)
12 12
22
= cov(y) = 21
M
M
p1 p 2
L 1 p 11 12
L 2 p 21 22
=
M
O
M M
L 2p p1 p 2
L 1p
L 2p
O
M
L pp
(3.20)
58
A i-sima linha de contem a varincia de yi e as covarincias de yi com cada uma
das outras variveis aleatrias. As varincias esto na diagonal principal de e as
covarincias ocupam as posies fora da diagonal.
A matriz de covarincias simtrica porque ij = ji. Em muitas aplicaes
assumimos que seja positiva definida. Isso realmente acontece quando as ys so
variveis aleatrias contnuas e no existe qualquer relao linear entre elas. Se existe
alguma relao linear entre as ys, assumimos que seja positiva semidefinida.
Por analogia com (3.18), ns definimos o valor esperado de uma matriz aleatria Z como a matriz de valores esperados:
z11
z
21
E(Z) = E
M
zn1
L E ( z1p )
L E ( z 2p )
O
M
L E ( z np )
(3.21)
21 22 L 2p
E[(y)(y)] =
=
(3.22)
M
M O M
p1 p 2 L pp
Vamos ilustrar (3.22) para p = 3:
y1 1
= E[(y)(y)] = E y 2 2
y 3 3
( y1 1 ,
y2 2 ,
y 3 3 )
( y1 1 )2
( y1 1 )( y 2 2 ) ( y1 1 )( y 3 3 )
( y 2 2 )2
( y 2 2 )( y 3 3 )
= E ( y 2 2 )( y1 1 )
( y )( y ) ( y )( y )
( y 3 3 )2
3
1
3
2
1
3
2
3
E ( y1 1 )2
E ( y1 1 )( y 2 2 ) E ( y1 1 )( y 3 3 )
E ( y 2 2 )2
E ( y 2 2 )( y 3 3 )
= E ( y 2 2 )( y1 1 )
E ( y )( y ) E ( y )( y )
E ( y 3 3 )2
3
1
3
2
3
1
3
2
11 12 13
= 21 22 23
31 32 33
Material elaborado pelo Prof. Csar Gonalves de Lima
59
Podemos escrever (3.22) na forma
= E[(y)(y)] = E(yy)
(3.23)
Uma medida de variabilidade geral na populao dos ys pode ser definida como o
determinante de :
Varincia generalizada = det( ) = | |
(3.24)
Para obter uma medida til de distncia entre y e , precisamos levar em conta as varincias e covarincias dos yis em y. Por analogia ao caso univariado [(y )/ tem
mdia 0 e varincia 1], a distncia padronizada definida como
Distncia padronizada = (y ) 1 (y )
(3.25)
O uso de 1 padroniza as variveis yis de tal modo que passam a ter mdia igual a
zero e varincia igual a 1 e tambm sejam no correlacionados. Essa distncia muitas vezes chamada de Distncia de Mahalanobis.
21
= (ij) =
M
p1
12 L 1p
1 L 2p
p2
O
L
(3.26)
60
Definindo:
D = [diag ( )]1 / 2 = diag(1, 2, ...., p)
(3.27)
(3.28)
= D D
(3.29)
yy
= cov(v) = cov =
x xy
yx
xx
(3.30)
(3.31)
( )t
yy
y2
1
= y 2 y1
M
y p y1
y1 y 2
y22
M
yp
y2
L y1 y p
L y2 y p
O
M
L y2 p
61
Similarmente, xx = cov(x) uma matriz q x q de covarincias de x1, x2, ..., xp. A
matriz y x um uma matriz p x q que contem as covarincias entre yi com cada xj:
y1 x1
y x
yx = cov(y,x) = E[(y y)(x x)] = 2 1
M
y p x1
y1 x2
y 2 x2
M
y p x2
L y1 x q
L y2 xq
O
M
L y p xq
(3.32)
y
Note a diferena entre cov em (3.31) e cov(y, x) = yx em (3.32). Usamos a notax
o cov de trs maneiras distintas: (1) cov(yi, yj); (2) cov(y) e (3) cov(y, x). A
primeira delas um escalar, a segunda uma matriz simtrica (positiva definida) e a
terceira uma matriz retangular.
Muitas vezes ns usaremos combinaes das variveis y1, y2, ..., yp de um vetor
aleatrio. Seja [a1, a2, ..., ap] um vetor de constantes. Ento pela expresso (2.16), a
combinao linear usando os as como coeficientes pode ser escrito
z = a1 y1 + a2 y2 + ... + ap yp
(3.33)
z = E(ay) = aE(y) = a
(3.34)
onde a ti = [ai1, ai2, ..., aip] e y = [y1, y2, ..., yp]. Essas k funes lineares podem ser
escritas na forma:
z = Ay
(3.35)
Material elaborado pelo Prof. Csar Gonalves de Lima
62
onde
z1
z
z = 2 ,
M
zk
a1t a11
t
a 21
a
A = 2 =
M M
t
a k a k1
a12
a 22
M
ak 2
L a1p
L a 2 p
O M
L a kp
possvel termos k > p, mas geralmente k p e as linhas de A so linearmente independentes, de modo que A tem posto completo. Desde que y um vetor aleatrio,
cada zi = a it y uma varivel aleatria, z = [z1, z2, ..., zk] tambm um vetor aleatrio.
(3.36)
(3.37)
(3.38)
(3.39)
(3.40)
= a12 12 + a 22 22 + a32 32 + 2 a1 a 2 12 + 2 a1 a3 13 + 2 a2 a3 23
Assim, var(ay) = aa envolve todas as varincias e covarincias de y1, y2 e y3.
(3.41)
63
Cada varivel zi no vetor aleatrio z = [z1, z2, ..., zk] = Ay em (3.35) tem uma
varincia e cada par (zi, zj), com i j, tem uma covarincia. Essas varincias e covarincias so encontradas na matriz de covarincias de z, que dada no seguinte teorema, como tambm cov(z, w), onde w = By um outro conjunto de funes lineares.
(3.42)
(3.43)
(3.44)
EXERCCIOS:
Ver exerccios das pginas 75-76 do livro-texto.
64
1 ( z 2 / 2)
, - < z <
e
2
(4.1)
com E(z) = 0 e var(z) = 1. Quando z tem a densidade (4.1), dizemos que z distribuda como N(0, 1) ou, simplesmente, z ~ N(0, 1).
Para obtermos uma varivel aleatria y com mdia arbitrria e varincia 2,
usaremos a transformao z = (y )/ ou y = z + , de tal forma que E(y) = e
var(y) = 2. Para uma funo contnua e crescente (como y = z + ) ou para uma
funo contnua e decrescente, a tcnica de troca de varivel para integral definida d
f(y) = g(z)
dz
dy
(4.2)
onde |dz/dy| o valor absoluto de dz/dy (ver Hogg & Craig, 1995, p.169). Para usar
(4.2) para encontrar a densidade de y, z e dz/dy devem estar expressos em termos de
y. A densidade g(z) dada em (4.1) e para z = (y )/, temos |dz/dy| = 1/. Assim
f(y) = g(z)
dz
dy
2
2
1
y 1
= g
e ( y ) / 2
=
2
(4.3)
Iniciaremos com as variveis normais padronizadas independentes z1, z2, ..., zp com i
= 0 e var(zi) = i2 = 1 para todo i e ij = 0 para i j, e as transformaremos em variveis normais multivariadas y1, y2, ..., yp, com mdias, varincias e covarincias arbitrrias.
Material elaborado pelo Prof. Csar Gonalves de Lima
65
Comearemos com um vetor aleatrio z = [z1, z2, ..., zp] onde E(z) = 0 e cov(z) = I e
cada zi ~ N(0,1). Desejamos transformar z em um vetor aleatrio normal multivariado
y = [y1, y2, ..., yp], com E(y) = e cov(y) = , onde um vetor px1 e uma
matriz pxp, positiva definida.
Por (4.1) e uma extenso de (3.12) temos que
g(z1, z2, ..., zp) = g(z ) = g(z1) g(z2) g(zp)
1 ( z12 / 2) 1 ( z22 / 2) 1 ( z 2p / 2)
=
e
e
e
2
2
2
1
2
zi2 / 2
i =1
e z'z/ 2
(4.4)
Se z tem a densidade (4.4) dizemos que z tem uma densidade normal multivariada com vetor de mdias 0 e matriz de covarincias I, ou que z ~ Np(0, I), onde p
a dimenso da distribuio e corresponde ao nmero de variveis em z. Para transformar z em y, com E(y) = e cov(y) = , arbitrrias, definimos
y = 1/2 z +
(4.5)
( )
onde 1/ 2 = 1 / 2
e abs 1/ 2
(4.6)
1/ 2
Como a matriz 1/ 2 positiva definida, podemos dispensar o valor absoluto da expresso (4.6) e reescrev-la como
f (y) = g(z) 1/ 2
= g(z)
1/ 2
(4.7)
(4.8)
66
Expressando z = 1/ 2 (y ) e usando (4.4) e (4.8), podemos escrever a densidade
de y como
1
( y )' 1 ( y )/2
e
f( y ) =
(4.9)
( 2 ) p | |1/ 2
que a funo densidade normal multivariada com vetor de mdias e matriz de covarincias . Quando y tem a densidade (4.9) dizemos que y distribuda como
Np(, ), ou simplesmente que y ~ Np(, ). O ndice p a dimenso da distribuio
normal p-variada e indica o nmero de variveis envolvidas, isto , indica que y um
vetor p x 1, um vetor p x 1 e uma matriz p x p.
Comparando (4.9) e (4.3) podemos perceber que a distncia padronizada, definida como (y ) 1 (y ), aparece no lugar de (y )2/2 no expoente e que a
raiz quadrada da varincia generalizada || aparece no lugar da raiz quadrada de 2,
no denominador.
(4.10)
desde que E( e ty ) exista para um nmero t na vizinhana h < t < h para algum h
R, positivo. A funo geradora de momentos de y ~N(, 2) dada por
My(t) = e t + t
2/2
(4.11)
My(t) = E( e ) =
ty
e f ( y )dy
= M 'y (t ) =
ty
y e f ( y )dy
(4.12)
67
Fazendo t = 0 temos o primeiro momento ou a mdia da distribuio
M y(1) (t = 0 ) = M y(1) (0 ) =
y f ( y )dy = E(y)
(4.13)
De modo anlogo, o k-simo momento pode ser obtido usando a derivada de ordem k,
avaliada em t = 0:
M y(k ) (t = 0 ) = E( y k )
(4.14)
t y1 +t2 y2 +L+t p y p
My(t) = E e 1
) = E( e
t'y
(4.15)
M y (0 )
t
= E(y)
(4.16)
2 M y (t )
Similarmente,
(4.18)
(4.22)
(4.23)
68
4.4 PROPRIEDADES DA DISTRIBUIO NORMAL MULTIVARIADA
Teorema 4.4A. Seja y ~ Np(, ), seja a um vetor p x 1 de constantes e A uma matriz
k x p de constantes, de posto k p. Ento
(i) z = ay ~ N(a, aa)
(ii) z = Ay ~ Nk(A, AA)
Corolrio 1. Se b um vetor k x 1 de constantes ento
z = Ay + b ~ Nk(A + b, AA)
Teorema 4.4B. Se y ~ Np(, ) ento qualquer subvetor rx1 de y tem uma distribuio normal r-variada com mdias, varincias e covarincias iguais s da distribuio
normal p-variada original.
Corolrio 1. Se y ~ Np(, ) ento qualquer varivel individual yi em y distribuda
como N(i, ii).
= E(v) = y
x
yy
xy
= cov(v) =
yx
xx
69
Teorema 4.4D. Se y e x tm distribuio conjunta normal multivariada com yx 0
ento a distribuio condicional de y dado x, f(y | x), normal multivariada com
vetor de mdia e matriz de covarincias dados por:
1
E(y | x) = y + yx xx
(x x )
(4.26)
cov(y | x) = yy yx xx1 xy
(4.27)
x
yx xx
y | x tem distribuio normal (univariada) com
1
E(y | x) = y + tyx xx
(x x )
(4.33)
(4.34)
var(y | x) var(y)
(4.35)
Exemplo 4.4(a). Para ilustrar os Teoremas 4.4.A, 4.4B e 4.4C, seja y ~ N3(, ) com
3
= 1 e =
2
4 0 2
0
1 1
2 1 3
70
ii) As funes lineares z1 = y1 y2 + y3 e z2 = 3y1 + y2 2y3 podem ser escritas
y1
1
z1 1 1
z= =
y 2 = Ay
z
3
1
2
2
y3
Ento, pelos Teoremas 3.6B(i) e 3.6D(i),
4
14 4
A = e AA =
6
4 29
4 14 4
e pelo Teorema 4.4A(ii), temos que z ~ N2
.
6
4
29
iii) Para ilustrar a distribuio marginal no Teorema 4.4B, vale notar que y1 ~ N(3, 4),
y2 ~ N(1, 1) e y3 ~ N(2, 3), e que
3 4 0
y1
y ~ N2 1 0 1
3 4 2
y1
y ~ N2 2 2 3
3
3
9 0
0
1 1
2
=
3 1
6 3
7
3 2 3
9 0
0 1 , yx =
3 3
1 2 e xx =
6 3
3
7
E(y | x) = y + yx xx1 (x x )
2 3 3 6 3
= +
7
5 1 2 3
10
9
+
+
3
x
x2
1
x1 + 2
11
11
x 1 = 14 1
2 x1 + 3 x 2
11
3 33
Material elaborado pelo Prof. Csar Gonalves de Lima
71
cov(y | x) = yy yx xx1 xy
9 0 3 3 6 3
=
1 2 3
7
0
1
3 1
1 126 24
3 2 = 33 24
14
10
9
3 + x1 + x2 1 126 24
11
11
Assim, y | x ~ N2
,
14
1
x + 3 x 33 24 14
1
2
11
3 33
2
5
=
2
1
3
3
9 0
0
1 1
2
=
3 1
6 3
7
3 2 3
,
yx
1
xx
(x x )
2
1 1
= 2 + [0 3 3] 1
6 3
2 3
7
x1 5
x + 2
2
x3 1
95 12
6
9
x1 + x 2 + x3
7
7
7
7
6 3
= 9 [0 3 3] 1
2 3
7
0
3 = 18
7
3
6
9
18
95 12
Assim, temos que y| x1, x2, x3 ~ N x1 + x 2 + x3 , . Note ainda que
7
7
7
7 7
18
var(y | x1, x2, x3) =
< var(y) = 9, o que ilustra (4.35).
7
Material elaborado pelo Prof. Csar Gonalves de Lima
72
4.5 CORRELAO PARCIAL
4.4D:
v = ,
x
yy yx
= y e =
x
xy xx
ij.rs...q =
ij.rs...q
ii.rs...q jj.rs...q
(4.36)
(4.37)
Para mostrar isso, vamos expressar ij.rs...q em termos de ij. Primeiramente, vamos
escrever yx em termos de suas linhas,
Material elaborado pelo Prof. Csar Gonalves de Lima
73
yx
y1x1 y1x2
y x y2 x2
= cov(y, x) = 2 1
M
M
y p x1 y p x2
t
L y1xq 1x
t
L y2 xq 2x
O M
t
L y p xq px
(4.38)
onde it x = [ yi x1 , yi x2 , ..., yi xq ] a i-sima linha de yx . Ento, ij.rs...q o (ij)simo elemento de y.x = yy yx xx1 xy que pode ser escrito como
ij.rs...q = ij itx xx1 jx
(4.39)
Supondo que ij seja positivo, ento ij.rs...q < 0 se it x xx1 jx > ij . Desde que xx1
positiva definida, (4.39) mostra que ii.rs...q = ii it x xx1 jx ii .
Exemplo 4.5. Vamos comparar 12 com 12.34 usando e do Exemplo 4.4(b). De
temos que
12 =
12
=
11 22
12.34 =
0
=0
(9)(1)
1 126 24
, obtemos
14
33 24
12.34
=
11.34 22.34
24 / 33
=
(126 / 33)(14 / 33)
24
= 0,571
(126)(14)
EXERCCIOS
74
n 2
2
y
=
i yi ny 2 + ny 2 =
i =1
i =1
( yi y ) 2 + ny 2
(5.1)
i =1
A soma de quadrados total pode ser expressa como uma forma quadrtica:
n
yi2
= yy = yI y
i =1
ny
1
1
1
= n j' y = n j' y j' y = n (y' jj' y ) =
n
n
n
2
1
1
= n (y' J y ) = y' J y
n
n
Podemos ainda escrever
( yi y ) 2 como
i =1
( yi y ) 2 =
i =1
1
1
yI y y' J y = y' I J y
n
n
(5.2)
75
A expresso (5.1) pode ser escrita em termos de formas quadrticas como
1
1
yI y = y' I J y + y' J y
n
(5.3)
1. I = I J + J
n n
1 1
2. I, I J e J so idempotentes
n n
1 1
3. I J J = 0
n n
Usando teoremas que ainda sero apresentados neste captulo, assumindo normalidade dos ys e essas trs propriedades, concluiremos que
i=1( y i y )2
n
2 e
(5.4)
(5.5)
Desde que yAy um escalar, ele igual a seu trao. Assim ns temos:
E(yAy) = E[tr(yAy)]
= E[tr(Ayy)]
[por (2.86)]
= tr[E(Ayy)]
[ por (3.5)]
= tr[AE(yy)]
[ por (3.38)]
= tr[A( + )]
[por (5.5)]
= tr[A + A]
[por (2.13)]
= tr(A ) + tr(A)
[por (2.85)]
= tr(A ) + A
Note que como yAy no uma funo linear de y, E(yAy) E(y)AE(y).
Material elaborado pelo Prof. Csar Gonalves de Lima
76
Exemplo 5.2(a) Considere a varincia amostral
s2 =
1 n
( yi y )2
n 1 i =1
(5.6)
1
1
1
2
E ( yi y ) = E y' I J y = tr I J ( 2 I ) + j I J j
n
n
n
i =1
n
1
2
E ( yi y ) = 2 tr I J + 2 j' j n j' j j' j
n
i =1
1
1
= 2 n n + 2 n n 2 = 2 (n 1) + 0
n
n
E( s 2 ) = E
y
y
=
E
( y i y )
i
n 1 i =1
n 1 i =1
1
(n 1) 2 = 2
n 1
(5.7)
(5.8)
1/ 2
1
' I (I 2t A )1 1
e 2
(5.9)
77
(5.11)
(5.13)
y
y
Teorema 5.2E Seja v = um vetor aleatrio particionado com E = y e
x
x
x
yy yx
y
cov =
, onde y px1, x qx1, e yx pxq. Seja A uma matriz qxp de
x
xy
xx
constantes. Ento
(5.14)
1 n
(xi x )( yi y )
n 1 i =1
(5.15)
onde (x1, y1), (x2, y2), ..., (xn, yn) uma amostra aleatria bivariada de uma populao
com mdias x e y, varincias x2 e y2 e covarincia xy . Da
s xy =
1 n
(xi x )( yi y ) = 1 x' I 1 J y
n 1
n 1 i =1
n
(5.16)
onde x = [x1, x2, ..., xn] e y = [y1, y2, ..., yn]. Desde que (xi, yi) independente de
(xj, yj) para i j, o vetor v tem vetor mdia e matriz de covarincias
y j
E = y = y
x x x j
y yy yx
cov =
x xy xx
y2 I xy I
, onde I uma matriz identidade n x n.
2
xy I x I
Material elaborado pelo Prof. Csar Gonalves de Lima
78
1
1
1
1
E x' I J y = tr I J xy I + xj I J yj
n
n
n
1
1
Ento:
1 n
(xi x )( yi y ) = 1 xy (n 1) = xy
E
n 1 i =1
n 1
(5.17)
Seja z1, z2, ..., zn uma amostra aleatria de uma distribuio normal padro. Como os
zs so independentes e zi ~ N(0, 1), o vetor z = [z1, z2, ..., zn] tem distribuio
Nn(0, I). Por definio
n
zi2
= zz ~ 2 (n)
(5.18)
i =1
isto , a soma de quadrados de n variveis aleatrias independentes e com distribuio normal padro tem distribuio quiquadrado (central) com n graus de liberdade.
Teorema 5.3A Se u ~ 2 (n), ento
E(u) = n
(5.19)
var(u) = 2n
(5.20)
Mu(t) =
(5.21)
(1 2t )n / 2
Supondo que y1, y2, ..., yn sejam independentemente distribudos e cada yi ~ N(i,1),
de tal forma que y ~ Nn(, I), onde = [1, 2, ..., n]. A soma de quadrados
yi2
i =1
( yi i )
i =1
79
A densidade de v =
yi2
i =1
dos como N(i, 1), chamada distribuio quiquadrado no central e denotada como
2 (n, ). O parmetro de no centralidade definido como
1 n 2
1
= i =
2 i =1
2
n
yi2
n
2
E(u) = E ( yi i ) =
i =1
i =1
E(v) = E yi2 =
i =1
i =1
( )
( yi i )
, pois
i =1
E ( yi i ) =
E yi2 =
i =1
(5.22)
(
n
i =1
2
i
var ( yi ) =
i =1
1 = n
i =1
+ i2 = 1 + i2 = n + i2 = n + 2
i =1
i =1
E(v) = n + 2
(5.19)
var(v) = 2n + 8
(5.20)
Mv(t) =
(1 2t )
n/2
e [11 (12t )]
(5.21)
v
~
n
,
(5.27)
i
i
i
i =1
i =1 i =1
Corolrio 1. Se u1, u2, ..., uk so independentemente distribudas como 2 (ni), ento
k
ui ~ ni
i =1
i =1
k
80
5.4 DISTRIBUIES t E F NO CENTRAIS
5.4.1 Distribuio F no central
W=
u/ p
~ F(p, q)
v/q
(5.28)
q
q2
(5.29)
u/ p
~ F(p, q, )
v/q
(5.30)
tem distribuio F no central com parmetro de no centralidade , onde o mesmo parmetro de no centralidade da distribuio de u ~ 2 (p, ). A mdia da varivel z igual a
q 2
1 +
(5.31)
E(z) =
q 2
p
que maior que E(w) em (5.29).
Quando uma estatstica F usada para testar uma hiptese H0, a distribuio
ser central se a hiptese da nulidade for verdadeira e no central se essa hiptese for
falsa. Assim, a distribuio F no central pode ser usada para avaliar o poder de um
teste F. O poder de um teste a probabilidade de rejeitar H0 para um dado valor de .
Se F o percentil superior de ordem de uma distribuio F central, ento o poder
P(p, q, , ) pode ser definido como
P(p, q, , ) = Prob(z > F)
(5.32)
81
5.4.2 Distribuio t no central
z
~ t( p )
u p
(5.33)
y
~ t(p, )
u p
(5.33)
(y ) 1 (y ) = (y ) ( 1/ 2 ) 1/ 2 (y )
= [ 1/ 2 (y )][ 1/ 2 (y )] = zz
onde z = 1/ 2 (y ) ~ Nn(0, I). Ento, de (5.18) segue que (y) 1 (y) = zz
~ 2 (n). Vale notar a analogia de (y ) 1 (y ) com a varivel univariada (y
82
Corolrio 2. Se y ~ Np(, 2I) ento yA y/2 ~ 2 (r, A/22) se e somente se A
idempotente de posto r.
Exemplo 5.5. Vamos estudar a distribuio de (n 1) s 2 / 2 =
( yi y )2 / 2 onde
i =1
( yi y ) 2 = y' I J y e A = I J idempotente.
n
n
i =1
1
1
' A
2 2
=0
83
1 n
1 n
2
( yi y )2 , com y ~ Nn(j, 2I).
Exemplo 5.6(a). Sejam y = yi e s =
n i =1
n 1 i =1
podemos escrever: y =
identificando: B =
1
1
1
j' y e s 2 =
y' I J y .
n
n 1
n
1
1
1
j' e A =
I J pelo Corolrio 1, temos que y e
n
n 1
n
1
1 1
s 2 so independentes porque BA = j'
I J = 0
n
n n 1
( yi y )2
i =1
1
ela pode ser expressa como: yy = y' I J y + y' J y
n
identificando: A = I J e B =
n
+ ny 2 . Sabemos que:
1
J
n
( yi y )2 e
ny 2 so
i =1
1 1
independentes se e somente se AB = I J J = 0.
n n
Teorema 5.6C Seja y ~ Nn(, 2I), Ai simtrica de posto ri para i = 1, 2, ..., k e seja
yAy = yA1y + yA2y + ... + yAky, onde A =
84
Ai
(c) A =
idempotente
i =1
ri
i =1
k e yy =
y' A i y . Ento
i =1
ri
i =1
EXERCCIOS
Ver exerccios das pginas 108-111 do livro- texto.
85
APNDICE A.5. CLASSIFICAO DE FORMAS QUADRTICAS
Definio A.5.2. Seja Q(y) = yAy uma forma quadrtica. Ento, quanto sua classificao, temos que:
a) Q(y) > 0, y 0 Q(y) positiva definida (p.d.)
b) Q(y) 0, y 0 e y: Q(y) = 0 Q(y) positiva semidefinida (p.s.d.)
c) Q(y) < 0, y 0 Q(y) negativa definida (n.d.)
d) Q(y) 0, y 0 e y: Q(y) = 0 Q(y) negativa semidefinida (n.s.d.)
e) Q(y) muda de sinal conforme a escolha de y Q(y) no definida (N.D.)
Teorema A.5.1 A classificao de uma forma quadrtica Q(y) = yAy a mesma de
sua matriz ncleo A.
Teorema A.5.2 Seja A uma matriz real e simtrica n x n e = diag(1, 2, ...,n) a
matriz diagonal que exibe as razes caractersticas de A. Ento:
a) i > 0, i A p.d.
b) i 0, i, i = 0 A p.s.d.
c) i < 0, i A n.d.
d) i 0, i, i = 0 A n.s.d.
e) i muda de sinal A N.D.
Teorema A.5.2 A classificao de uma forma quadrtica Q(y) = yAy no se altera
por transformao no singular.
Exemplo A.5.2. Classifique a forma quadrtica Q(y) = yAy, onde
4 2 2
a) A = 2 2 0
2 0 2
4 0 0
b) A = 0 2 0
0 0 2
1 0 0
c) A = 0 1 0
0 0 2
86
(6.1)
87
Na abordagem de mnimos quadrados ns buscamos estimadores 0 e 1 que
minimizem a soma de quadrados dos desvios yi yi , entre os n valores yi observados
e seus valores preditos, y = + xi:
i
' =
i =1
i2
( yi yi )
i =1
(yi 0 1 xi )
n
(6.2)
i =1
(6.3)
(6.4)
n
'
= 2 yi 0 1 xi = 0
0
i =1
n
'
= 2 yi 0 1 xi xi = 0
1
i =1
1 =
(xi x )( yi y )
xi y i nx y
i =1
n
i =1
xi2 nx 2
i =1
(6.5)
(xi x )2
i =1
0 = y 1 x
(6.6)
x
96
77
0
0
78
64
y
72
66
98
90
0
95
x
89
47
90
93
18
86
y
35
50
72
55
75
66
x
0
30
59
77
74
67
88
n
1 =
xi y i nx y
i =1
n
xi2 nx 2
81195 18(58,056)(61,389)
80199 18(58,056) 2
= 0,8726
i =1
100
y: Prova
80
60
40
20
0
0
20
40
60
80
100
x: Tarefa
Figura 6.1. Grfico de disperso dos escores em tarefa e prova, com linha de
regresso.
Note que as trs suposies apresentadas na seo (6.1) no foram usadas na
derivao dos estimadores de mnimos quadrados 0 e 1 . No necessrio que yi
= + xi esteja baseado em E(yi) = 0 + 1 xi; isto , y = + xi pode at ser
0
89
Usando as trs suposies, obtemos:
E( 0 ) = 0
(6.7)
E( 1 ) = 1
(6.8)
var( 1 ) =
2
n
(6.9)
( xi x )
i =1
x2
2 1
+ n
var( 0 ) =
n
( x i x )2
i =1
(6.10)
Note que na discusso de E( 1 ) e var( 1 ), por exemplo, ns consideramos uma variao aleatria dos s de amostra para amostra. Foi assumido que os n valores x1,
1
i=1 (xi x )2
n
i=1 (xi x )2
n
maxi-
maximizada
se metade dos xi for igual a a e a outra metade for igual a b (assumindo que n par).
Em (6.10), fica evidente que var( 0 ) minimizada quando a mdia x = 0.
O mtodo dos mnimos quadrados no fornece um estimador para var(yi) = 2;
a minimizao de ' s produz 0 e 1 . Em (3.6), 2 = E[yi E(yi)]2 e pela suposio 2 na seo 6.2, a varincia 2 a mesma para cada yi, i = 1, 2, ..., n. Assim,
usando yi como um estimador de E(yi), ns estimamos 2 por:
i=1 ( yi yi )2
n
s =
n 2
i=1 (yi 0 1 xi )
n 2
SQRes
n2
(6.11)
i=1 ( yi yi )2 . O desvio yi
n
y i
de E(yi) que y .
90
Esperamos que SQRes =
SQRes =
i=1 ( yi yi )2 = i=1 ( yi y )2
n
( xi x )( yi y )
i =1 n
(xi x )2
(6.13)
i =1
i=1 ( yi yi )2
n
i=1 ( yi y )2 .
n
1. 1 ~ N 1 , 2
i=1 (xi x )2 )
n
1 1
t=
i (xi x )2
(6.14)
tem distribuio t(n2, ), isto , tem distribuio t-Student com n2 graus de liberdade e parmetro de no centralidade , definido como
( ) =
1
( 1 ) i (xi x )2
E 1
var
Se 1 = 0, ento por (5.33), t ~ t(n 2). Para uma hiptese alternativa bilateral
H1: 1 0, ns rejeitamos H0: 1 = 0 se | t | t / 2 ,n 2 , onde t / 2 ,n 2 o percentil de
ordem (100 /2) da distribuio t e o nvel de significncia do teste.
91
Alternativamente, rejeitamos H0: 1 = 0 se p , onde p o p-valor (p-value)
ou nvel descritivo do teste, que neste caso (hiptese alternativa bilateral), calculado
como o dobro da probabilidade de t(n 2) exceda o valor de t observado.
Um I.C.[1, 100(1)%] intervalo de confiana para 1 com 100(1)% de
confiana, dado por:
s
1 t / 2 ,n 2
(6.15)
i (xi x )2
Intervalos de confiana sero definidos e discutidos com detalhes mais tarde na seo
8.6. Um I.C. para yi dado em (8.58) e um intervalo de predio para y dado em
(8.63).
[Ver Exemplo 6.3 na pg.117 do livro do Rencher]
i=1 ( y i yi )2
n
i=1 ( yi y )2
n
(6.16)
onde SQReg a soma de quadrados da regresso, SQRes a soma de quadrados residual e SQTotal, a soma de quadrados total. A SQTotal pode ser particionada como
SQTotal = SQReg + SQRes , isto ,
(6.17)
Assim, r2 fornece a proporo da variao em y que explicada pelo modelo ou, equivalentemente, devida regresso em x.
Ns usamos a notao r2 em (6.16) porque o coeficiente de determinao
igual ao quadrado do coeficiente de correlao amostral, r, entre y e x,
n
r=
s xy
s x2 s 2y
(xi x )( yi y )
=
i =1
(6.18)
( xi x ) ( y i y )
i =1
i =1
onde sxy dado por (5.15). Quando x uma varivel aleatria, r estima a correlao
populacional.
92
A estatstica t usada para testar H0: 1 = 0, em (6.14), pode ser expressa em termos de
r como segue:
1
t =
(6.19)
2
s i ( xi x )
=
r n 2
1 r
(6.20)
EXERCCIOS
Ver exerccios das pginas 119-120 do livro-texto.
93
(7.1)
Os s podem ser estimados pelo mtodo dos mnimos quadrados (Seo 7.3.1)
porque o modelo linear nos s. Um modelo que linear nos s mas no linear
nos xs o modelo de superfcie de resposta de segunda ordem
y = 0 + 1x1 + 2x2 + 3 x12 + 4 x22 + 5x1x2+
(7.2)
(7.3)
94
A suposio 1 estabelece que o modelo (7.1) correto, isto , todos os xs
relevantes esto includos no modelo de forma linear; a suposio 2, que a varincia
de y constante e no depende dos xs e a suposio 3, que os ys no so correlacionados com cada outro, o que geralmente acontece em amostras aleatrias (numa
srie temporal ou quando so feitas medidas repetidas numa mesma planta ou animal,
as observaes so, em princpio, correlacionadas). A suposio de normalidade aparecer somente na Seo 7.6.
Quando as trs suposies esto satisfeitas, os estimadores de mnimos quadrados dos s apresentam excelentes propriedades; o que tambm acontece com os
estimadores de mxima verossimilhana, quando assumimos que os ys tm distribuio normal. Qualquer uma dessas trs suposies pode falhar com dados reais. Tcnicas de diagnstico sero discutidas no Captulo 9.
Escrevendo (7.3) para cada uma das n observaes temos
y1 1 x11
y 1 x
21
2 =
M M M
y n 1 x n1
x12 L x1k 0 1
x 22 L x 2 k 1 2
+
M
M M M
x n 2 L x nk k n
ou
y = X +
(7.4)
E as suposies anteriores sobre i (ou yi) podem ser expressas em termos do modelo
(7.4) como:
1. E() = 0 ou E(y) = X.
2. cov() = 2I ou cov(y) = 2I.
95
mo parcial engloba os sentidos matemtico e estatstico. Matematicamente, a derivada parcial de E(y) com respeito a x1, por exemplo, igual a 1, que indica a mudana
em E(y) com uma unidade acrescida em x1, quando x2, ..., xk so mantidas constantes.
Estatisticamente, 1 mostra o efeito de x1 sobre E(y), na presena dos outros xs. Este
efeito pode ser diferente do efeito de x1 sobre E(y) se os outros xs no estiverem no
modelo. Por exemplo, os valores de 0 e 1 em:
y = 0 + 1x1 + 2x2 +
sero diferentes de 0 e 1 em
y = 0 + 1 x1 + *
Vale notar que, se x1 e x2 forem ortogonais, isto , se x1x2 = 0 ou (x1 x1 j)(x2 x2 j) =
0, onde x1 e x2 so duas colunas de X, ento 0 = 0 e 1 = 1 .
Exemplo 7.2 (Freund & Minton, 1979, pg.36-39) Considere os dados apresentados
na Tabela 7.1. Usando (6.5) e (6.6) da Seo 6.2 e (7.6) da Seo 7.3, obtemos as
equaes de predio de y sobre x1 sozinho, sobre x2 sozinho e sobre x1 e x2:
y = 1.86 + 1.30x1
y = 0.86 + 0.78x2
y
2
3
2
7
6
8
10
7
8
12
11
14
x1
0
2
2
2
4
4
4
6
6
6
8
8
x2
2
6
7
5
9
8
7
10
11
9
15
13
96
Na Figura 7.2 temos o mesmo grfico da Figura 7.1, exceto que em cada ponto aparece o valor de x1. Um exame dos valores de y e x2 para cada valor de x1 (2, 4, 6 e 8)
mostra uma inclinao negativa para a relao. Essas relaes negativas so mostradas como regresses parciais de y sobre x2 para cada valor de x1. O coeficiente de
regresso 2 = 1.29 reflete as inclinaes negativas dessas quatro regresses parciais. Outros detalhes sobre os coeficientes de regresso parcial so apresentados na
Seo 7.10.
97
7.3. ESTIMAO DE E DE 2
7.3.1. ESTIMADOR DE MNIMOS QUADRADOS DE
( yi y i )
i2 =
i =1
i =1
(7.5)
i =1
i2
i =1
duzir (k+1) equaes que podem ser resolvidas simultaneamente para os j s. Entretanto o procedimento pode ser bastante simplificado usando a notao matricial.
Teorema 7.3A. Se y = X + , onde X n x (k+1) de posto k +1 < n, ento o valor de
= [ 0 , 1 , , k ] que minimiza (7.5) igual a
-1
= (XX) Xy
(7.6)
i2 = =
i =1
(y
n
i =1
x i '
= (y X ) (y X )
= yy 2yX + XX
onde xi a i-sima linha da matriz X.
Material elaborado pelo Prof. Csar Gonalves de Lima
98
Para encontrarmos que minimiza , calculamos a diferencial em relao
a :
'
= 0 2Xy + 2XX
(7.8)
mo linear em estimador linear diferente daquele em modelo linear, que indica que
o modelo (7.1) linear nos s.
-1
J mostramos que = (XX) Xy minimiza . Seja b um outro estimador
de que pode ser melhor que , de tal modo que = (y Xb)(y Xb). Agora,
adicionando e subtraindo X , obtemos
= (y X + X Xb) (y X + X Xb)
(7.9)
= (y X ) (y X ) + ( b)XX( b)
+ 2( b)(Xy XX )
(7.10)
xi1
XX = i
M
i xik
i xi1
i xi21
i xi 2
i xi1 xi 2
M
i xi1 xik
M
i xi 2 xik
L
L
L
i xik
i xi1 xik ,
i xik2
i yi
x y
i i1 i
Xy =
i xik yi
99
1
Se = (XX) Xy ento
= y X = y y
(7.11)
o vetor de resduos, 1 = y y1 , 2 = y y 2 , ..., n = y y n , que estima no modelo y = X + e pode ser usado para checar a validade do modelo, com respeito s
suposies j apresentadas.
Exemplo 7.3.1(a) Usando os dados da Tabela 7.1 para ilustrar o clculo de , temos
y = [2 3 2 7 6 8 10 7 8 12 11 14]
1 1 1 1 1 1 1 1 1 1 1 1
X = 0 2 2 2 4 4 4 6 6 6 8 8
2 6 7 5 9 8 7 10 11 9 15 13
12 52 102
XX= 52 296 536 , Xy =
90
482
872
0 5.3754
0.24290 0.22871
0.97476
1
(XX) = 0.24290
0.16207 0.11120 = 1 = 3.0118
2 1.2855
0.22871 0.11120
0.08360
100
Exemplo 7.3.1(b) O modelo de regresso linear simples do Captulo 6 pode tambm
ser expresso em termos matriciais:
y1
y
y = 2 , X =
M
yn
1 x1
1 x
2
, =
M M
1 x n
yi
1
-1
Xy = i , (XX) =
2
ni xi
i xi yi
1
= 0 =
2
1 ni xi
( x )
i xi
i xi2
n
0
,
XX
=
1
i xi
( x )
)(
i xi2
i xi
i xi
) ( )(
)( ) (
i xi2 i yi i xi i xi yi
i xi i yi + n i xi yi
1
1
1
E( ) = E[XX) Xy] = (XX) XE(y) = (XX) XX =
1
Teorema 7.3C. Se cov(y) = 2I, a matriz de covarincias de 2(XX) .
Prova:
1
= (XX) 2
Exemplo 7.3.2(a). Usando a matriz (XX) do Exemplo 7.3.1(b) para regresso linear simples, obtemos:
( )
var 0
cov( ) = cov 0 =
1 cov 0 , 1
cov 0 , 1
-1
= 2(XX)
var 1
( )
101
cov( ) =
2
ni xi2
( x )
i (xi x )
i xi2
i xi
i xi
i xi2 n x
1
x
Assim
var( 0 ) =
2 i xi2 n
i (xi x )
, var( 1 ) =
i (xi x )
e cov( 0 , 1 ) =
2x
i (xi x )
Exemplo 7.3.2(b). Para os dados da Tabela 7.1, (XX) dada no Exemplo 7.3.1(a).
Assim cov( ) dada por
0.24290 0.22871
0.97476
1
2
2
0.24290
0.16207 0.11120
cov( ) = (XX) =
0.22871 0.11120
0.08360
O valor cov( 1 , 2 ) < 0,111202 indica que em amostragens repetidas (usando os
mesmos valores de x1 e x2), e tenderiam a se mover em direes opostas; isto
1
Teorema 7.3D. (Teorema de Gauss Markov) Se E(y) = X e cov(y) = 2I, os estimadores de mnimos quadrados j , para j = 0, 1, ..., k, tm varincia mnima dentre
todos os estimadores lineares no viesados.
Prova: Consideremos um estimador linear Ay de e vamos procurar a matriz A para
a qual Ay um estimador linear no viesado de varincia mnima de . Para que
Ay seja um estimador no viesado de , devemos ter E(Ay) = . Usando a suposio E(y) = X, podemos escrever que
E(Ay) = A E(y) = AX =
que d como condio para que Ay seja um estimador linear no viesado de
AX = I
porque a relao AX = deve ser verdadeira para qualquer valor possvel de .
Material elaborado pelo Prof. Csar Gonalves de Lima
102
A matriz de covarincias de Ay dada por
(7.17)
Como a matriz [A (XX) X][A (XX) X] positiva semi-definida (Teoremas 2.6A(ii) e 2.6D), os elementos da sua diagonal so maiores ou iguais a zero.
1
Os elementos da diagonal podem ser iguais a zero se escolhermos A = (XX) X.
O estimador de varincia mnima de resultante
1
Ay = (XX) Xy
(7.18)
103
Essas vantagens incluem minimizar a varincia dos j s e maximizar o poder dos testes sobre os js.
Uma quarta propriedade de que y = 0 + 1 x1 + + k x k = x invariante a mudanas lineares simples de escala dos xs, onde x = [1 x1 x2 ... xk].
Sejam as novas variveis zj = cj xj, para j = 1, 2, ..., k, onde os cjs so constantes.
Assim x transformada em z = [1 c1x1 c2x2 ckxk]. O prximo teorema mostra que
y baseado em z o mesmo que y baseado em x.
Prova: Podemos escrever z = Dx, onde D = diag(1, c1, c2, ..., ck). Ento, a matriz X
transformada em Z = XD. Substituindo no estimador de mnimos quadrados:
-1
-1
z = (ZZ) Zy = [(XD) (XD)] (XD)y
-1
-1
-1
= D (XX) Xy = D
(7.18)
X1 =
M
M
M
x n1 x n 2 L x nk
(7.19)
(7.20)
104
Da temos:
y = ( z )z = x
(7.21)
onde z = Hx.
Tambm so invariantes s mudanas da escala dos xs: a varincia amostral s2
(Problema 7.10), a estatstica t-Student (Seo 8.5), a estatstica F (Captulo 8) e o
coeficiente de determinao R2 (Sees 7.7 e 10.3).
7.3.3. Um estimador para 2
O mtodo de mnimos quadrados no produz uma funo dos ys e xs na amostra que
possamos minimizar para obter um estimador de 2. Entretanto ns podemos criar um
estimador no viesado para 2, baseado no estimador de mnimos quadrados . J
sabemos que 2 = E[yi E(yi)]2 e pela suposio 1,
n
1
s =
yi (x i )'
n k 1 i =1
2
(7.22)
onde n o tamanho amostral e k o nmero de xs. Note que, pelo Corolrio do Teorema 7.3D, (xi) o BLUE de (xi). Usando (7.7) podemos escrever a expresso
(7.22) como
s2 =
=
1
(y X )(y X )
n k 1
(7.23)
(7.24)
Prova: Usando (7.24) e (7.6) podemos escrever SQRes como uma forma quadrtica
1
SQRes = yy Xy = yy yX(XX) Xy
1
= y[I X(XX) X]y
(7.26)
105
Pelo Teorema 5.2A temos que
1
2
SQRes
e ento, E(s ) = E
(n k 1) = 2.
=
n k 1 n k 1
2
(7.27)
( )
Prova: ver Graybill (1954), Graybill & Wortham (1956) ou Wang & Chow (1994,
pg. 161-163)
Exemplo 7.3.3. Para os dados da Tabela 7.1, temos que:
90
SQRes = yy Xy = 840 [5.3754 3.0118 1.2855] 482
872
= 25.459 s2 = SQRes/(n k 1) = 25.459/(12 2 1) = 2.829
106
7.4. GEOMETRIA DE MNIMOS QUADRADOS
Existem duas abordagens bsicas para o grfico de disperso dos pontos na regresso.
Na Figura 6.1, por exemplo, plotamos os pontos (x1, y1), (x2, y2), , (xn, yn). Esta
uma abordagem natural e ns chamaremos o espao resultante de espao das variveis, porque os eixos correspondem s variveis x e y.
Uma outra opo plotar o vetor y = [y1, y2, , yn] como um ponto no espao
n-dimensional com os eixos correspondendo a y1, y2, , yn. Este espao pode ser
chamado espao das observaes y ou espao amostral. Nele ns podemos plotar as
colunas da matriz X. Se existe um nico x, por exemplo, ns podemos plotar os trs
pontos y = [y1, y2, , yn], j = [1, 1, , 1] e x = [x1, x2, , xn].
Se existe um x, ento no espao de variveis, ns podemos facilmente plotar os pontos (x1, y1), (x2, y2), ..., (xn, yn) e a linha de regresso y = 0 + 1 x. Como ilustrao
veja a Figura 6.1, onde podemos checar visualmente as suposies do modelo de regresso.
Se existem dois xs, o espao de variveis tridimensional e a equao de regresso y = 0 + 1 x1 + 2 x2 um plano, que ilustrado na Figura 7.3 (ver Rencher,
pg. 137), onde ns plotamos n pontos (x1, y1), (x2, y2), , (xn, yn) e o plano de regresso.
Portanto, no espao de variveis ns plotamos os n pontos em um espao
(k+1)-dimensional com eixos correspondendo a y, x1, x2, , xk. Se k > 1 isso conceitualmente fcil de visualizar, mas difcil ou impossvel de plotar.
y n 1 x n1 x n 2 L x nk
que resulta em k + 2 pontos em um espao amostral n-dimensional.
Agora vamos considerar uma abordagem geomtrica para a estimao de .
Por (2.37), sabemos que y = X uma combinao linear das colunas de X:
Material elaborado pelo Prof. Csar Gonalves de Lima
107
y = X = 0 j + 1 x1 + 2 x2 + , + k xk
(7.29)
Na Figura 7.4 ilustramos um espao amostral tridimensional e um espao estimao bidimensional. O plano indicado pelas linhas tracejadas o espao estimao,
gerado pelos dois vetores x (que no aparecem na figura). Note que o espao estimao no o plano formado pelos eixos y1 e y2 e sim, por uma combinao linear de y1,
y2 e y3. Nessa figura fica evidente que o ponto X do espao estimao est bem prximo de y (menor distncia de y), sendo obtido projetando uma linha perpendicular
de y at o espao estimao. O ponto X estar no p da linha perpendicular de y
ao plano do espao estimao se o vetor y X for ortogonal ao espao estimao
formado pelas combinaes lineares Xb das colunas de X. Da, y X ortogonal a
X, o que pode ser expresso como:
X(y X ) = 0
(7.30)
108
Da equao (7.30), ns obtemos as equaes normais: Xy = XX , como em
1
(7.8). Esta a prova geomtrica de que = (XX) Xy minimiza o quadrado da distncia de y a X , que pode ser escrita como (y X )(y X ).
O modelo (7.3) para cada yi pode ser escrito em termos das variveis xs centradas
como:
yi = 0 + 1xi1 + 2xi2 + + kxik + i
= + 1(xi1 x1 ) + 2(xi2 x 2 ) + + k(xik x k ) + i
(7.31)
= 0 + 1 x1 + 2 x 2 + + k xk
(7.32)
onde
e x j = i =1 xij / n , j = 1, 2, , k. Essa forma centrada do modelo til em certas expresses envolvidas em testes de hipteses (Seo 8.1), em pesquisas de pontos influentes (Seo 9.2) e na comparao de resultados deste captulo com os do Captulo
10. Na forma matricial, o modelo centrado (7.31) para y1, y2, , yn fica:
n
y = [j, Xc] +
1
(7.33)
x11 x1
x x
1
Xc = I J X1 = 21 1
M
n
xn1 x1
x12 x2
x22 x 2
M
xn 2 x2
L x1k xk
L x2 k xk
L x nk x k
(7.34)
[j, Xc][j, Xc] = [j, Xc]y
1
que pode ser simplificado em
0'
n
0 ( X )' X
c
c
(7.35)
ny
= ( X )' y
1 c
0'
n
=
0 ( X )' X
c
c
1
0'
ny 1 / n
ny
=
( X )' y 0 [( X )' X ] 1 ( X )' y
c
c
c
c
Material elaborado pelo Prof. Csar Gonalves de Lima
109
y
=
[( X )' X ] 1 ( X )' y
c
c
1 c
ou
e
= y
(7.37)
1
1 = [(Xc) Xc] (Xc)y
(7.38)
Esses estimadores so iguais aos dos mnimos quadrados em (7.6) com o ajuste:
0 = 1 x1 + 2 x 2 + ... + k x k = y ( 1 )' x
(7.39)
( yi y )
i =1
( 1 )'(Xc)y
(7.40)
S xx
s12
s
= 21
M
s k1
s12
s 22
M
sk 2
L s1k
L s2k
,
M
L s k2
s yx
s y1
s
y2
=
M
s yk
(7.41)
i =1 ( xi 2 x2 ) 2
n
s 22
n 1
i =1 ( xi1 x1 )( xi 2 x2 )
(7.42)
s12 =
n 1
i =1 ( xi 2 x2 )( yi y )
(7.43)
s y2 =
n 1
(7.44)
110
Entretanto, como os xs so fixados, essas varincias e covarincias amostrais no estimam as varincias e covarincias populacionais. Para expressar 1 e 0 em termos
de S xx e s yx , ns precisamos primeiramente escrev-las em termos da matriz centrada Xc, como segue:
S xx =
( X c )' X c
n 1
(7.45)
s yx =
( X c )' y
n 1
(7.46)
n 1
n 1
= (S xx )1 s yx
(7.47)
0 = ( 1 )' x = y ( s yx ) (S xx )1 x
8.3636
1
1 = (S xx ) s yx =
=
8.5455 12.4545 9.7273
(7.48)
1 e 0 usando (7.47) e
3.0118
1.2855
4.3333
8.5000
111
7.6. O MODELO NORMAL
7.6.1. Suposies
A partir de agora vamos adicionar s suposies j apresentadas na Seo 7.2, a seguinte suposio:
y ~ Nn(X, 2I) ou ~ Nn(0, 2I)
2 =
1
(y X )(y X )
n
(7.49)
(7.50)
112
Prova:
-1
(i) Desde que uma combinao linear de y da forma = Ay, A= (XX) X
-1
uma matriz de constantes, pelo Teorema 4.4A(ii), ~ Nk+1[, 2(XX) ].
( yi y )
, pode
i =1
( yi y )
i =1
= ( 1 )'(Xc)y + SQRes
(7.54)
(7.55)
113
Nesta forma fica evidente que SQReg devida a 1 = [1, ..., k] (sem o 0). A proporo da soma de quadrados total devida regresso :
R2 =
( X c 1 )' ( X c 1 )
( yi y )2
n
i =1
SQReg
SQT
(7.56)
que conhecida como coeficiente de determinao ou quadrado da correlao mltipla. Esse quociente uma medida da qualidade de ajuste do modelo e indica quo
bem os xs predizem os ys. Uma forma alternativa para a expresso (7.56) :
R2 =
' X' y n y 2
y' y n y 2
(7.57)
E(R2) =
k
n 1
(7.58)
n
i =1
114
Para ser calculado, devemos subtrair k/(n 1) de R2, para corrigir o vis quando 0
= = k = 0. Como esta correo pode fazer Raj2 muito pequeno quando os s
forem grandes, uma modificao feita para que Raj2 = 1 quando R2 = 1. Assim Ra2
definido como:
k
2
(n 1)
R
(n 1)R 2 k
n 1
2
Raj =
=
n k 1
n k 1
(7.59)
Exemplo 7.7. Para os dados da Tabela 7.1 no Exemplo 7.2, obtemos R2 por (7.57) e
Raj2 por (7.59).
' X' y n y 2
814.5410 12(7.5) 2
= 0.8457
=
R2 =
y' y n y 2
840 12(7.5) 2
Raj2 =
(n 1)R 2 k
n k 1
11(0.8457) 2
= 0.8114
9
Usando (7.45) e (7.47), podemos expressar R2 em termos das varincias e covarincias amostrais:
-1
-1
(s y x )' S -1
( X c 1 )' ( X c 1 ) (s y x )' S xx (n 1)S xx S xx s y x
xx s y x
2
=
R = n
=
(7.60)
n
2
2
2
s
(
)
y
y
y
i =1 i
( yi y )
i =1
Esta forma de R vai facilitar uma comparao com o R2 para o caso de x-aleatrio na
Seo 10.3.
Geometricamente, R o co-seno do ngulo formado entre y e y corrigido
para suas mdias. A mdia de y1 , y 2 ..., y n y , que mesma mdia de y1, y2, ..., yn.
Assim, as formas centradas de y e y so y y j e y y j, respectivamente. O ngulo
entre eles mostrado na Figura 7.5 [Vale notar que y j est no espao estimao porque um mltiplo da primeira coluna de X].
O co-seno do ngulo igual raiz quadrada de R2, visto que o co-seno entre
y e y dado por:
cos =
(y y j)' (y y j)
[(y y j)' (y y j)][(y y j)' (y y j)]
(y y j)' (y y j)
[(y y j)' (y y j)]
=R
(7.61)
(7.62)
115
cov(y) = = 2V
E(y) = X,
(7.63)
Onde X tem posto coluna completo e V uma matriz positiva definida conhecida. O
uso da notao = 2V, permite a estimao de 2 em alguns contextos convenientes. A matriz V tem n(n1)/2 + n elementos distintos. Se a matriz V desconhecida
os seus elementos no podem ser estimados por uma amostra de n observaes. Em
certas situaes, assumimos uma estrutura mais simples para V, para permitir a sua
estimao.
7.8.1. Estimao de e 2 quando cov(y) = = 2V
Teorema 7.8A. Seja y = X + , E(y) = X e cov(y) = cov() = = 2V, onde X de
posto completo e V uma matriz positiva definida conhecida. Para este modelo, obtemos os seguintes resultados:
(i) O melhor estimador no viesado (BLUE) de dado por
= X' V 1X
X' V 1 y
(7.64)
cov( ) = 2 X' V 1X
(7.65)
116
(iii) Um estimador no viesado de 2
s2 =
(y X )' V -1 (y X )
n k 1
(7.66)
(7.67)
= X' V 1X
X' V 1 y
(y X )' V -1 (y X )
=
n
2
= 2 M M
M
L 1
(7.68)
= = X' V 1X
1
X' V 1 y
117
j' V -1 j
j' V -1 X c
X' V X =
-1
-1
( X c )' V j ( X c )' V X c
1
V 1 = a(I bJ)
(7.69)
0'
bn
X' V 1X =
0 a( X c )' X c
(7.70)
bn y
X' V 1y =
a ( X c )' y
(7.71)
= = X' V 1X
1
X' V 1 y =
-1
[( X c )' ( X c )] ( X c )' y
1.2855
*
0.6871 0.6470
2.7574
0.6871
0.4584 0.3146
0.6470 0.3146
0.2365
Usando os resultados do Teorema 7.8A para ajustar o modelo com estrutura de covarincias cov(y) = 2[(1 )I + J] = 2V, obtemos:
5.3754
= 3.0118 e cov ( ) =
1.2855
0.6871 0.6470
3.4646
0.6871
0.4584 0.3146
0.6470 0.3146
0.2365
118
E( *) =
(7.72)
1
(7.73)
Podemos perceber que os estimadores de mnimos quadrados ordinrios so no viesados, mas a matriz de covarincias difere de (7.65). Geralmente, as varincias dos
j s calculadas em (7.73) so maiores que as varincias calculadas em cov( ) =
1
2
2
5
5
6
5
7
8
7
6
8
9
9
7
9
11
10
7
11
15
13
10
15
17
Avaliando o grfico de disperso (Figura 7.3) podemos perceber que uma reta
parece explicar bem o comportamento da resposta y em funo de x. Percebe-se tambm que a variabilidade das respostas aumenta com o valor dos xs.
Ajustando o modelo de regresso linear yi = 0 + 1xi + i, com cov(y) = 2I,
obtemos os seguintes resultados:
0.4343
* =
e cov ( *) =
1.0511
3.0317 0.3080
0.3080
0.0362
119
0.1787
=
e cov ( ) =
1
.
0210
1.1286 0.1328
0.1328
0.0203
18
16
14
12
10
8
6
4
2
0
0
10
12
14
16
x
Figura 7.3. Grfico de disperso dos dados do Exemplo 7.8.2a.
(7.81)
Se deixarmos X22 fora do modelo quando ele deveria estar includo (isto ,
quando 2 0), ns estaremos subestimando (underfitting) o modelo. Agora, se incluirmos X22 quando ele deveria ser excludo (isto , quando 2 = 0), estaremos superestimando (overfitting) o modelo.
120
1
(ii) cov( 1 ) = 2(X1X1)
(7.84)
1
Teorema 7.9B. Seja y 01 = (x01) 1 , onde 1 = (X1 X1) X1y. Ento se 2 0 (subestimao), ns podemos expressar E( y 01 ) em termos de (x01)1 ou (x0):
E( y ) = E[(x01) ] = (x01)(1 + A2) (x01)1
(7.85)
01
(7.86)
Ou seja, quando est presente a subestimao, (x01) 1 viesado para estimar (x01)1
e (x0). Quando o ocorre a superestimao, (x0) s um estimador no viesado
desde que E[(x0) ] = (x0) = (x01)1 + (x02)2, que igual a (x01)1 se 2 = 0.
1
Teorema 7.9C Seja = (XX) Xy para o modelo completo particionado como
= 1
2
1
e seja 1 = (X1X1) X1y o estimador para o modelo reduzido. Ento:
121
1
Resumindo:
(i) var( j ) no modelo completo maior que var( j ) no modelo reduzido. A subestimao reduz a varincia dos s mas introduz um vis nas estimativas. Por
j
(ii) var( y 01 ) baseada no modelo reduzido (subestimao) menor que aquela estimada por (x01) 1 , onde 1 vem do modelo completo.
(iii) var( y 0 ) baseada no modelo completo (superestimao) maior que var( y 01 ) baseado no modelo reduzido.
(7.87)
(7.88)
122
Resumindo:
A superestimao (ajustar o modelo completo quando o reduzido o correto) aumenta as varincias dos j s e dos y s
Exemplos 7.9(a) e 7.9(b) Ver grficos e comentrios nas pginas 158 e 159.
7.10. ORTOGONALIZAO
Teorema 7.10A. Se X1X2 = 0, ento o estimador de 1 no modelo completo y = X11
+ X22 + o mesmo estimador de 1 no modelo reduzido y = X1 1 + *.
(7.91)
e a regresso parcial negativa entre y e x2 foi mostrada na Figura 7.2. Usando a ortogonalizao, podemos dar um significado adicional ao termo 1.2855x2.
Para adicionar x2 equao de predio contendo somente x1, ns precisamos
determinar quanto da variao em y devido x2 depois que o efeito de x1 foi explicado, e devemos tambm corrigir para a possvel relao existente entre x1 e x2. Podemos fazer isso examinando a relao entre a variao residual depois da regresso de
y sobre x1 e a variao residual depois da regresso de x2 sobre x1. Esse processo tem
trs passos:
y = 1.8585 + 1.3019x1
(7.92)
123
x1
x2
y y ( x1 )
x2 x 2 ( x1 )
2
3
2
7
6
8
10
7
8
12
11
14
0
2
2
2
4
4
4
6
6
6
8
8
2
6
7
5
9
8
7
10
11
9
15
13
0.1415
-1.4623
-2.4623
2.5377
-1.0660
0.9340
2.9340
-2.6698
-1.6698
2.3302
-1.2736
1.7264
-0.7358
0.6038
1.6038
-0.3962
0.9434
-0.0566
-1.0566
-0.7170
0.2830
-1.7170
1.6226
-0.3774
124
Substituindo y ( x1 ) e x 2 ( x1 ) em (7.94) obtemos:
67
8
y y = y ( x1 , x 2 ) y ( x1 ) = 1.2855[x2 x 2 ( x1 ) ]
ou
( y 1.8585 + 1.3019x1) = 1.2855[x2 (2.7358 + 1.3302 x1)]
(7.95)
que se reduz a
(7.96)
ry 2.1 = ry y , x2 x2
(7.97)
y = X11 + X22 +
e o modelo reduzido
y = X1 1 + *
A seguir, usaremos a abordagem de ortogonalizao para obter um estimador
de 2, seguindo os mesmo trs passos da ilustrao com x1 e x2, quais sejam:
= (X1 X1) X1X2 a matriz alias definida em (7.83). Note que X2.1 = X2
2 (X1) ortogonal a X1, isto , X1X2.1 = 0. Usando a matriz alias A, a matriz
X
de resduos pode ser expressa como
2 (X1)
X2.1 = X2 X
(7.99)
1
= X2 X1(X1X1) X1 X2
= X2 X1A
(7.100)
Material elaborado pelo Prof. Csar Gonalves de Lima
125
2 (X1). Desde que X2.1 ortogonal
3. Fazer a regresso de y y (X1) sobre X2 X
a X1, ns obteremos o mesmo que no modelo completo y = X1 + X2 .
2
(7.101)
EXERCCIOS
126
y = [j, Xc] +
1
onde
x11 x1
x x
1
Xc = I J X1 = 21 1
M
n
xn1 x1
x12 x2 L x1k xk
x22 x 2 L x2 k x k
M
M
xn 2 x2 L x nk x k
SQT =
i =1
2
( yi y ) = ( 1 )'(Xc)y + ( yi y )2 ( 1 )' ( Xc )' y
i =1
(8.1)
127
Usando
( yi y )
i =1
e SQRes =
( yi y )
i =1
1
1
-1
-1
1
= yAy + y I J A y
n
(8.2)
seguintes propriedades:
I J A tm as
n
(i) A I J = A.
n
(8.3)
(iv) A I J A = 0
n
(8.4)
128
SQReg (k 2 )
2
SQRes [(n k 1) ]
SQReg (k )
SQRes (n k 1)
(8.5)
a seguinte:
g.l.
Devida a 1
S.Q.
SQReg = ( 1 )'(Xc)y
Erro
Total
n 1 SQT =
E(Q.M.)
Q.M.
SQReg
2 + 1XcXc1 / k
k
SQRes
2
(n k 1)
( yi y )
i =1
Ns tambm podemos expressar SQReg e SQRes para o teste para H0: 1 = 0, usando
o modelo no centrado y = X + em (7.4):
SQReg = Xy n y 2 e SQRes = yy Xy
(8.6)
129
Exemplo 8.1 Usando os dados da Tabela 7.1, ilustraremos o teste de H0: 1 = 0, onde
1 = [1, 2]. J sabemos que Xy = [90, 482, 872] e = [5.3754, 3.0118, 1.2855]
As outras quantidades importantes, podem ser calculadas facilmente: yy = 840,
Xy = 814,5410, n y 2 = 675. Ento, por (8.6) temos que:
Tabela 8.2. ANOVA para o teste H0: 1 = 0 para os dados do Exemplo 7.1.
C. Variao
Devida a 1
Erro
Total
g.l.
2
S.Q.
139,5410
Q.M.
69,7705
9
11
25,4590
165,0000
2,8288
F
24,665
y = X + = [X1 X2] 1 +
2
= X11 + X22 +
(8.7)
130
A hiptese de interesse H0: 2 = 0. Se designarmos o nmero de parmetros
em 2 por h, ento X2 n x h, 1 (k h + 1) x 1 e X1 n x (k h + 1). Assim, 1 =
[0, 1, ..., k-h] e 2 = [k-h+1, ..., k]. No exemplo do incio da seo, teramos os
vetores de parmetros 1 = [0, 1, 2] e 2 = [3, 4, 5]. Vale notar que 1 em (8.7)
diferente de 1 em (8.1), quando foi particionado em = [0, 1] e 1 era constitudo de todos os s, com exceo de 0.
Para testar H0: 2 = 0 versus H1: 2 0, ns usamos uma abordagem modelo
completo versus modelo reduzido. O modelo completo dado por (8.7). Sob a hiptese H0: 2 = 0, o modelo reduzido fica:
y = X1 1 + *
(8.8)
duzido, 1 e * sero diferentes de 1 e no modelo completo (a menos que as matrizes X1 e X2 sejam ortogonais). O estimador de no modelo reduzido (8.8) =
1
(8.9)
(8.10)
SQ(2 | 1) = ( Xy n y 2 ) ( 1 X1y n y 2 )
= SQReg(completo) SQReg(reduzido)
que a diferena entre a soma de quadrados de regresso do modelo completo e a do
modelo reduzido.
Se H0: 2 = 0 verdadeira, podemos esperar SQ(2 | 1) pequena, de modo que
yy em (8.10) seja basicamente composto por SQ( 1 ) e SQRes. Se 2 0, esperamos
que SQ(2 | 1) seja grande e explique a maior parte de yy. Assim ns estamos testando H0: 2 = 0 no modelo completo, no qual no existe qualquer restrio sobre 1.
No estamos ignorando 1 (assumindo que 1 = 0), mas estamos testando H0: 2 = 0
na presena de 1, isto , alm do que 1 contribui para yy.
131
Para desenvolver uma estatstica baseada em SQ(2 | 1), precisamos escrever
1
1
(8.9) em termos de formas quadrticas de y. Usando = (XX) Xy e 1 = (X1X1)
X1y, ficamos com:
1
+ yX1(X1X1) X1y
1
+ yX1(X1X1) X1y
(8.11)
(8.12)
F=
=
y' ( A1 A 2 ) y h
SQ( 2 | 1 ) h
=
y' (I A1 ) y (n k 1) SQRes (n k 1)
(8.16)
1
1
onde = (XX) Xy do modelo completo y = X + e 1 = (X1X1) X1y, do
132
De forma similar ao teste desenvolvido na Seo (8.1), rejeitamos H0 se F
F(, h, n k 1), onde F(, h, n k 1) o percentil de ordem (100 ) da distribuio F-central. Alternativamente, ns rejeitamos H0 se p-value < . Desde que
-1
X2X2 X2X1(X1X1) X1 X2 positiva definida, 1 > 0 se H0: 2 = 0 falsa. Isso d
uma justificativa para rejeitar H0 para valores grandes de F.
Resumimos os resultados da anlise de varincia do teste-F na Tabela 8.3, onde
1 (k h + 1) x 1, 2 h x 1, X1 n x (k h + 1) e X2 n x h. Os valores esperados
dos quadrados mdios so dados por
1
(8.17)
E[SQRes/(n k 1)] = 2
Mais uma vez, vale notar que se H0 verdadeira, os dois valores esperados so iguais
a 2 e, se H0 falsa, E( SQ( 2 | 1 ) h ) > E[SQRes/(n k 1)]. Esta desigualdade d
uma outra justificativa para rejeitarmos H0 para valores grandes de F.
g.l.
h
Somas de Quadrados
SQ(2 | 1)= Xy 1 X1y
nk1 SQRes = yy Xy
n1
SQT = yy n y
Q.M.
SQ(2 | 1)/(h)
SQ( 2 | 1 ) h
SQRes / (n k 1)
SQRes/( nk1)
133
Assim, conclumos que os termos de segunda ordem so teis na predio de y2. De
fato, a estatstica-F para testar se os parmetros do modelo reduzido so nulos igual
a 3,027, com p-value = 0,0623, ou seja, x1, x2 e x3 so inadequados para predizer y2. O
F-global para o modelo completo 5,6000 com p-value = 0,0086.
Teorema 8.2D Se o modelo particionado como em (8.7), ento SQ(2 | 1) = Xy
1 X1y pode ser escrito como:
1
SQ(2 | 1) = 2 [X2X2 X2X1(X1X1) X1X2] 2
(8.18)
1
onde 2 obtido da partio de = 1 = (XX) Xy no modelo completo.
2
Em (8.18) fica claro que SQ(2 | 1) devida a 2, como tambm uma correspondncia direta entre SQ(2 | 1) e o parmetro de no centralidade 1 no Teorema 8.2B(ii)
ou no valor esperado do quadrado mdio em (8.17).
Exemplo 8.2(b) Para testar se H0: k = 0, particionamos = [0, 1, ..., k-1 | k] =
1
. A matriz X particionada como X = [X1, xk], onde xk a ltima coluna de X e
k
X1 contem todas as colunas, com exceo de xk. O modelo reduzido y = X1 1 + *,
1
e estimado por = (X1X1) X1y. Como h = 1, a estatstica F em (8.16) fica:
1
(8.20)
(8.21)
134
8.3 TESTES F BASEADOS NO COEFICIENTE DE DETERMINAO R2
(para maiores detalhes ver Rencher, pg. 183-184)
8.4 TESTE DA HIPTESE LINEAR GERAL PARA H0: C = 0 E DA HIPTESE H0: C = t
8.4.1. O Teste da hiptese H0: C = 0
H0: C = [0, Ik] 0 = 1 = 0
1
onde 0 um vetor k x 1 de zeros. De modo similar, a hiptese H0: 2 = 0 na Seo 8.2
pode ser expressa como:
H0: C = [01, Ih] 1 = 2 = 0
2
onde 01 uma matriz h x (k h + 1) de zeros e 0, um vetor h x 1 de zeros. A formulao H0: C = 0 tambm permite testar hipteses mais gerais como:
H0: 21 2 = 2 23 + 34 = 1 4 = 0,
0 1 0
0 1
0
0
1
2 = 0
3 0
4
A hiptese H0: 1 = 2 = 3 = 4 pode ser expressa em termos de trs diferenas, como por exemplo:
H0: 1 2 = 2 3 = 3 4 = 0,
135
0 1 1 0 0
H0: 0 0
1 1 0
0 0 0
1 1
0
0
1
2 = 0
3 0
4
Desde que C(XX) C positiva definida, > 0 se H0 falsa e isso justifica rejeitarmos H0 para valores grandes de F.
136
1
1
Nos Teoremas 8.4A e 8.4B, SQHip = (C 0)[C(XX) C] (C 0), que o
quadrado da distncia entre C e o valor sob hiptese para C. A distncia pa-
dronizada pela matriz de covarincias de C . Intuitivamente, se H0: C = 0 verdadeira, C tende a estar prximo de 0, de tal forma que o numerador de F em
(8.27) seja pequeno. Se C muito diferente de 0, o numerador da estatstica F
tende a ser grande.
As esperanas dos quadrados mdios para o teste-F so dados por:
1
8.28)
E[SQRes/(n k 1 )] = 2
(8.29)
(8.30)
1
onde = (XX) Xy estimado no modelo completo irrestrito pela hiptese e o indice c em indica que estimado sujeito condio C = 0. Em (8.29), a matriz
c
X para o modelo reduzido a mesma que a do modelo completo. A soma de quadrados de regresso devida hiptese
SQHip = Xy c Xy
(8.31)
(8.32)
137
Exemplo 8.4.1(a). Em muitos casos, as hipteses podem ser incorporadas diretamente ao modelo para obter o modelo reduzido. Suponha que o modelo completo :
yi = 0 + 1 xi1 + 2 xi2 + 3 xi3 + i
onde ci indica um parmetro sujeito condio 1 = 22. Os modelos completo e reduzido podem ser ajustados e a diferena SQ(2 | 1) = Xy X1y igual
SQHip calculada por (8.32).
Se C 0, o estimador c em (8.30) um estimador viesado de , mas as varincias dos s em so menores.
cj
(8.33)
1
1
1
1
1
(ii) cov( c ) = 2(XX) 2 (XX) C[C(XX) C] C(XX)
(8.34)
0 1 1 0
C=
0 0 2 1
e ento obtemos:
0.1214
C =
,
0.6118
0.003366 0.006843
1
C(XX) C =
0.044974
0.006943
1
138
8.4.2 O Teste para H0: C = t
O procedimento para executar esse teste anlogo ao teste de H0: C = 0, mas precisamos admitir que o sistema C = t consistente, isto , precisamos verificar que
posto(C) = posto(C | t).
Teorema 8.4F. Se y ~ Nn(X, 2I) e C uma matriz q x (k+1) de posto q k+1,
ento:
1
(i) C t ~ Nq[C t, 2C(XX) C];
1
1
(ii) SQHip/2 = (C t)[C(XX) C] (C t)/2 ~ 2 (q, ),
1
SQHip q
(C t )' [C( X' X) 1 C' ]1 (C t ) q
=
SQRes (n k 1)
SQRes / (n k 1)
(8.35)
1
onde C q x (k+1) de posto q k+1 e = (XX) Xy. A distribuio de F em
(8.35) como segue:
(8.28)
E(SQRes/(n k 1) = 2
139
8.5 TESTES SOBRE j E a
8.5.1 Testando um j ou uma combinao a
Um teste para um j pode ser obtido usando a abordagem modelo completo versus
modelo reduzido (Seo 8.2) ou a abordagem da hiptese linear geral (Seo 8.4). A
estatstica do teste para a H0: k = 0 usando a abordagem modelo completo versus
modelo reduzido dada por:
' X' y 1 ' ( X1 )' y
F=
y' y ' X' y (n k 1)
(8.37)
(8.38)
Onde gj+1, j+1 o (j+1)-simo elemento da diagonal de (XX) . Se H0: j = 0 verdadeiro, F em (8.39) tem distribuio F(1, n k 1). Assim, ns rejeitamos H0 se F >
F(, 1, n k 1) ou, equivalentemente, se p-value .
Como a estatstica F em (8.39) tem 1 e (n k 1) graus de liberdade, podemos
usar equivalentemente a estatstica-t:
140
tj =
(8.40)
( s ) g j +1, j +1
i=1 ( xi x ) 2
n
j=1 P( E j ) = j =1 j
k
(8.41)
141
Para testar H0i: ai = 0, i = 1, 2, ..., d, usamos a estatstica:
(a i ' )' [a i ' ( X' X) 1 a i ] 1 a i '
Fi =
s2
(8.43)
E rejeitamos H0i se Fi > F(/d, 1, n k 1). Os valores crticos F(/d) esto disponveis em diversos pacotes estatsticos. Alternativamente, podemos executar esse teste
calculando o p-value e rejeitar H0 se p-value /d.
Os procedimentos de Bonferroni baseados em t e F so vlidos para qualquer
matriz de covarincias dos j s. Entretanto, o nvel -global do procedimento para
testar H0i: ai = 0, i = 1, 2, ..., d, vlido somente se os coeficientes dos vetores a1,
a2, ..., ad forem especificados a priori (antes de olharmos os dados). Se desejarmos
fixar os coeficientes de ai a posteriori (depois de olharmos os dados), ns devemos
usar o teste de Scheff, que ser descrito no Teorema 8.5A.
Mtodo de Scheff
O procedimento de Scheff produz testes simultneos de H0: a = 0 (ou mesmo para
H0: a = t) para todos os possveis valores de a. Para um dado vetor a, a hiptese H0:
a = 0 testada pela estatstica,
(a' ) 2
(8.44)
F= 2
s a' ( X' X) 1 a
1
onde = (XX) Xy. Para encontrar um valor crtico grande o suficiente para comportar todos os possveis vetores a, vamos usar a distribuio do maxa(F).
Teorema 8.5A
(i) O valor mximo de F em (8.44) dado por
' X' X
(a' ) 2
=
maxa(F) = maxa 2
s a' ( X' X) 1 a
s2
(8.45)
142
Como uma abordagem alternativa ao Teorema 8.5A, note que a hiptese H0:
a = 0 para todo possvel vetor a implica em H0: = 0, que pode ser testada usando
a estatstica F = ' X' X (k + 1) s 2 (ver Problema 8.6).
Para testar H0j: j = 0 usando (8.44), ns tomamos a = [0, ..., 0, 1, 0, ..., 0],
com o 1 na (j+1)-sima posio. Ento F em (8.44) se reduz a F = 2j s 2 g j +1, j +1 em
em (8.42). Pelo Teorema 8.5.A(ii),
(8.39), e a sua raiz quadrada tj = s g
j
j +1, j +1
1
s g11
2
s g 22
3.0118
= 4,4448
2.8288 0.16207
1.2855
= 2,643
2.8288 0.8360
143
Usando um nvel de significncia = 5% para cada teste, rejeitaremos H01 e H02
porque t(0.025, 9) = 2.262.
Os p-values (bilaterais) so 0.00160 e 0.0268, respectivamente.
Se usssemos = 0,05/2 = 0,025 para o teste de Bonferroni, ns no rejeitaramos H02 porque p-value = 0.0268 > 0.025.
Usando o princpio LSD protegido, ns rejeitaramos H02 porque a hiptese global
H0: 1 = 0 foi rejeitada no Exemplo 8.1.
(8.46)
j j
t / 2,nk 1 = 1
P t / 2,nk 1
s
g
jj
j t/2,n-k-1 ( s) g jj
(8.47)
144
Vale observar que o coeficiente de confiana (1) vale para um nico intervalo de confiana para um dos j s. Para intervalos de confiana para todos os k+1
.
.
.
.
0
00184
0
00127
0
00043
0
4046
1
, =
(XX) =
0.31252
0.00127
0.00408 0.00175
0.2930
0.02161
1.0338
0.020401 0.00043 0.00176
1 :
(0,0322; 0,7769)
E para os outros j s:
(8.49)
145
matriz X. Entretanto, se x0 estiver muito fora da regio coberta pela amostra, a predio baseada em x0 ser pobre. Seja y0 uma observao correspondendo a x0. Ento
y0 = x0 +
e assumindo que o modelo correto, isto , que E() = 0,
E(y0) = x0
(8.50)
(8.51)
(8.52)
Este I.C. garante a confiana de 1 para uma nica escolha do vetor x0. Para I.C.s
cobrindo todas as escolhas de x0s, veja a Seo 8.6.7.
Para o caso especial de uma regresso linear simples, temos que o intervalo de
confiana para E(y0) dado por:
(x x )
1
0 + 1 x0 t/2, n-2 (s)
+ n0
n (xi x )2
2
(8.58)
i =1
Vale notar que a largura do intervalo em (8.58) depende que quo longe x0 est de x .
146
var(y0 y 0 ) = var(y0) + var( y 0 ) = var(x0 + 0) + var(x0 )
1
(8.59)
que estimada por s2[1 + x0( XX) x0]. Pode ser mostrado que E(y0 y 0 ) = 0 e que
s2 independente de y0 e de y 0 . Da o intervalo de predio para y0 dado por:
x0 t/2,n-k-1 (s) 1 + x 0 ' ( X' X) 1 x 0
(8.61)
(x x )
1
0 + 1 x0 t/2, n-2 (s) 1 + + n 0
n (xi x )2
2
(8.63)
i =1
Exemplo 8.6.5. Usando os dados da Tabela 6.2 calcule um intervalo de predio 95%
para x0 = 80. Usando (8.63), obtemos:
1 (80 58.056 )
0 + 1 x0 t0.025, 16 (s) 1 + +
18
19530.944
80.5386 2.11998(13.8547)(1.0393)
80.5386 30.5258
Ento, o intervalo (50.0128; 111.0644) contem o verdadeiro valor de y correspondente a x0 = 80, com 95% de confiana. Vale notar que a amplitude do intervalo de predio para y0 bem maior que do intervalo de confiana para E(y0).
( n k 1)s 2
2
P 1 / 2,nk 1
=1
/
2
,
n
1
2
(n k 1)s 2
2 / 2,nk 1
(n k 1)s 2
12 / 2,nk 1
(8.65)
147
O intervalo de confiana (1) para o desvio padro dado por
(n k 1)s 2
2 / 2,nk 1
(n k 1)s 2
12 / 2,nk 1
(8.66)
(8.68)
(8.69)
(8.70)
(8.71)
148
Para intervalos simultneos de predio de d novas observaes y01, y02, ..., y0d
de d valores de x0, digamos x01, x02, ..., x0d, ns podemos usar os intervalos de Bonferroni:
x0i t/2d,n-k-1 (s) 1 + x 0i ' ( X' X) 1 x 0i , para i = 1, 2, ..., d
(8.72)
Para os intervalos de predio de Scheff para y01, y02, ..., y0d, temos:
x0i (s) d [1 + x 0i ' ( X' X) 1 x 0i ]F ,k +1,n -k -1 , para i = 1, 2, ..., d
(8.73)
( ) = maxL(0, )
L (, ) maxL(, )
max H 0 L , 2
max H 1
(8.75)
149
Teorema 8.7A Se y ~ Nn(X, I2), o teste da razo de verossimilhana para H0: = 0
versus H1: 0 pode ser baseado em
' X' y (k + 1)
F=
(y' y ' X' y ) (n k 1)
Teorema 8.7B Se y ~ Nn(X, I2), ento o teste-F para H0: C = 0 no Teorema 8.4A
equivalente ao teste da razo de verossimilhanas.
Prova: ver Rencher, pg. 207.
EXERCCIOS
Ver os Exerccios das pginas 208-213
150
= y X = y y
(9.1)
como definido em (7.11). Os n resduos em (9.1), 1 , 2 , , n , so usados em vrios grficos e procedimentos para checar a validade e a adequao do modelo.
Antes, consideraremos algumas propriedades do vetor de resduos .
1
Usando o estimador de mnimos quadrados = (XX) Xy em (7.6), o vetor
de valores preditos, y = X , pode ser descrito como:
1
y = X = X(XX) Xy
= Hy
1
(9.2)
onde H = X(XX) X, nxn, chamada hat matrix ou a matriz (que coloca) chapu
em y porque ela transforma y em y (coloca o chapu em y). Na literatura, H tambm
denominada matriz de projeo, porque ela projeta y perpendicularmente em y .
151
A matriz-chapu H simtrica e idempotente. Multiplicando H por X, obtm-se:
1
HX = X(XX) XX = X
(9.3)
xj = Hxj, j = 1, 2, ..., k
(9.4)
= y y = y Hy = (I H)y
(9.5)
= (I H)y = (I H)(X )
= (X HX) + (I H)
= (X X) + (I H)
= (I H)
(9.6)
n
Em termos dos elementos hij de H, temos i = i j =1 hij j , i = 1, 2, , n. Ento,
(9.7)
1
i =1i
(9.8)
(9.9)
(9.10)
n = j /n = 0,
1
(9.11)
(9.12)
y = 0
(9.13)
X = 0
(9.14)
152
Em (9.8), tem-se que a covarincia entre os erros estimados, cov( ) = 2(I H),
difere da pressuposio cov() = 2I. Ento, os resduos 1 , 2 , , n no so independentes e podem ser correlacionados entre si. Essa correlao entre os erros freqentemente est relacionada com dados recolhidos ao longo do tempo. Quando os
erros do modelo so correlacionados, o modelo de regresso no adequado e ser
prefervel utilizar outros modelos, como por exemplo, um modelo de sries temporais. No entanto, em alguns casos, especificamente se n grande, os hijs tendem a ser
pequenos (para i j) e a dependncia mostrada na cov( ) no afeta indevidamente os
grficos de diagnstico e outras tcnicas para validao de modelos.
(a)
(b)
(c)
(d)
Se o grfico de disperso dos resduos versus a ordem de coleta dos dados (ou a
seqncia de tempo) mostra uma aleatoriedade dos pontos em torno de uma
faixa horizontal centrada em i = 0 [ver Figura 1(a)], ento no h indicaes da
influncia do tempo ou da ordem de coleta no conjunto de dados.
153
Se o grfico de disperso dos resduos versus a ordem de coleta dos dados (ou a
seqncia de tempo) mostra alguma tendncia [ver Figura 1(b)], isso pode indicar que a varincia dos erros no constante, aumentando com o tempo, por
exemplo, podendo implicar no uso da anlise de mnimos quadrados ponderados.
Se o grfico de disperso dos resduos versus a ordem de coleta dos dados (ou a
seqncia de tempo) mostra uma tendncia linear ou quadrtica [ver Figuras 1(c)
e 1(d)], um termo linear ou quadrtico em relao ao tempo deve ser acrescentado no modelo de regresso (DRAPER & SMITH, 1996).
Os i s so correlacionados com cada yj em (9.9), mas no so correlacionados com
os y j s em (9.10).
Algumas propriedades amostrais dos resduos so dadas em (9.11)-(9.14). A
mdia amostral dos resduos zero, como mostrado em (9.11). Em (9.12), pode ser
visto que e y so correlacionados na amostra desde que y seja o numerador de:
ry =
' (y yj)
' y
ry = 0
(9.15)
para j =1, 2, , k
(9.16)
154
Consideraremos diversas abordagens para detectar outliers na Seo 9.3 e para
encontrar pontos influentes na Seo 9.4. Antes, porm, discutiremos algumas propriedades da matriz chapu, H, na Seo 9.2.
(9.17)
temos que:
y = j + Xc 1 +
(9.18)
x11 x1
x x
1
Xc = I J X1 = 21 1
M
n
xn1 x1
x12 x2
x22 x2
M
xn 2 x2
K x1k xk
K x2 k x k
K xnk xk
1
1
y = y j + Xc(XcXc) Xcy = j' y j + Hcy = J + H c y
n
n
( 9.19)
onde J uma matriz nxn de 1s [ver (2.7)]. Comparando (9.19) e (9.2), temos:
H=
1
1
1
J + Hc = J + Xc(XcXc) Xc
n
n
(9.20)
(iii) hii = 1/n + (x1i x1 )(XcXc) (x1i x1 ), onde x1i = [xi1, xi2, ..., xik], x1 =
[ x1 , x2 , ..., xk ] e (x1i x1 ) a i-sima linha da matriz centrada Xc.
(iv) tr(H) =
i =1 hii =
k + 1.
155
Prova:
(i) O limite inferior de hii segue de (9.20) porque (XcXc) positiva definida. Desde
que H simtrica e idempotente, usaremos a relao H = H2 para encontrar um limite superior de hii. Assumindo hi como a i-sima linha de H. Ento,
hii = hihi = [hi1 hi 2
= hii2 +
hi1
h
L hin ] i 2
M
hin
hij2
(9.21)
i j
Dividindo ambos os lados de (9.21) por hii (que so positivos porque hii 1/n), obtemos:
n h2
ij
1 = hii +
(9.22)
i j hii
que implica em hii 1.
(ii) (Chatterjee and Hadi 1998, p.18) Podemos escrever (9.21) na forma:
hir2
r i, j
ou
hir2
r i, j
Ento, hij2 hii hii2 , e desde que o mximo valor de hii hii2 1/4, ns temos que
Pelo Teorema 9.2A(iv), vemos que quando n aumenta, os valores de hii tendem a di1
minuir. A funo (x1i x1 )(XcXc) (x1i x1 ) do Teorema 9.2A (iii) uma distncia
padronizada. Esta distncia (de Mahalanobis) foi definida em (3.25) para uma matriz
de covarincia populacional. Se XcXc proporcional a uma matriz de covarincia
1
amostral [ver (7.45)], (x1i x1 )(XcXc) (x1i x1 ) produz uma boa medida da distncia relativa de cada ponto x1i ao centro dos pontos representado por x1 .
156
9.3 OUTLIERS
Em alguns casos, o modelo parece ser correto para a maioria dos dados, mas algum
valor de resduo pode ser muito maior (em valor absoluto) do que os outros. Tal
ponto chamado de outlier pode ocorrer devido a um erro no registro, uma observao
de outra populao, ou simplesmente uma observao no usual da distribuio assumida. Por exemplo, se os erros i ~ N(0, 2), i = 1, , n, um valor | i | > 3 pode
ocorrer com freqncia 0,0027.
Segundo DRAPER & SMITH (1996), levando em conta esses aspectos, tais
observaes discrepantes devem merecer uma ateno especial e no simplesmente
serem rejeitadas sem qualquer estudo. Se nenhuma explicao aparente para o outlier
for encontrada, o conjunto de dados pode ser analisado:
Sem a observao discrepante, se ela no tiver um efeito relevante sobre a anlise de regresso ou,
Com o ponto discrepante, se ele exercer uma influncia grande sobre as estimativas dos parmetros.
var( i ) = 2 (1 hii).
(9.23)
Pelo Teorema 9.2A(i), hii 1; por isso var( i ) ser menor se hii 1. Pelo Teorema 9.2A(iii), hii ser grande se x1i for distante de x1 , onde x1i = [xi1, xi2,... ,xik] e x1
= [ x1 , x2 , ..., xk ]. Por (9.23), tais observaes tendero a ter menores resduos, o
que parece ser desastroso porque o modelo menos apropriado quando estiver mais
distante de. Um resduo pequeno para um ponto onde x1i distante de x1 deve acontecer porque o modelo ajustado tender a passar prximo de um ponto isolado da nuvem de pontos, com um resultado pobremente ajustado para o resto dos dados. Isto
pode mascarar uma inadequao do verdadeiro modelo na regio de x1i.
Uma verificao adicional de que grandes valores de hii so acompanhados por
pequenos resduos produzida pela seguinte desigualdade (ver Problema 9.4)
i2
1
hii +
1
n
'
(9.24)
Por razes implcitas em (9.23) e (9.24), desejvel padronizar os resduos para que
tenham a mesma varincia. Basicamente, existem dois mtodos de padronizao.
157
Para o primeiro mtodo de padronizao, usamos var( i ) = 2(1 hii) em (9.23)
para obter os resduos padronizados
i
ri =
1 hii
que tm mdia 0 e varincia 1. Substituindo por s produz-se o resduo studentizado:
i
ri =
(9.25)
s 1 hii
onde s2 = SQRes/(n k 1) definido em (7.24). O uso de ri no lugar de i elimina o
efeito de locao (devido a hii) no tamanho dos resduos, como discutido a seguir em
(9.23).
Um segundo mtodo de padronizao de resduos usa uma estimativa de que
exclui a isima observao, ou seja:
ti =
i
s(i ) 1 hii
(9.26)
onde s(i) calculado com as (n 1) observaes remanescentes depois de omitir a observao (yi, xi) = (yi, 1, xi1, ... , xik), em que yi o i-simo elemento de y e xi a isima linha de X [ver (9.32)]. Se a i-sima observao um outlier, ela se mostrar
mais provvel como outlier com a padronizao em (9.26), que chamado de resduo
padronizado externamente ou resduo padronizado deletado ou R-student.
Uma outra opo examinar os resduos deletados (deleted residuals). O i-simo resduo deletado (i), calculado com (i ) baseado nas n 1 observaes com
(yi , xi) omitido:
(i ) = yi y (i ) = yi xti (i )
(9.27)
Por definio
1
(i ) = (X(i)X (i)) X(i)y(i)
(9.28)
onde X(i) a matriz (n 1)x(k 1) obtida deletando-se xti = [1, xi1, ... , xik0], que a isima linha de X, e y(i), (n1)x1, o correspondente vetor y depois de deletar yi. O
vetor (i ) pode ser obtido sem precisar deletar (yi ,xi):
i
1
(i ) =
(XX) xi
(9.29)
1 hii
(ver Problema 9.5). Usando (9.29), o resduo deletado = yi xi em (9.27)
(i )
(i ) =
1 hii
(i )
(9.30)
158
(ver Problema 9.6). Ento os n resduos deletados podem ser obtidos sem calcular as
n regresses. O resduo escalonado (scaled residual) ti em (9.26) pode ser expresso
em termos de (i ) em (9.30) como:
ti =
(i )
( )
var (i )
(9.31)
(ver Problema 9.7). A varincia amostral deletada s(i2 ) usada em (9.26) definida
como s(i2 ) = SQRes(i)/(n k 1), onde SQRes(i) = y t(i) y(i) t(i) Xt(i) y(i), que pode ser
encontrado sem excluir a i-sima observao:
s(i2 ) =
SQRes (i )
n k 1
SQRes i2 (1 hii )
n k 1
(9.32)
(9.33)
PRESS = (i ) = i
i =1
i =1 1 hii
Um resduo (i ) correspondente a um alto valor de hii contribui mais para o PRESS.
Para um dado conjunto de dados, PRESS pode ser uma melhor medida que a SQRes
de quo bem o modelo ir predizer observaes futuras. O PRESS utilizado na
comparao de modelos alternativos, quando o objetivo a predio. Preferencialmente, sero utilizados modelos com menores valores de PRESS.
159
hij y j = hii yi +
j =1
hij y j
(9.34)
j i
Por (9.22), se hii grande (prximo a 1), ento os hijs, j i , so todos pequenos, e yi
contribui muito mais que os outros ys para. Por isso, hii chamado leverage (alavanca) de yi. Pontos com alto leverage tm alto potencial para influenciar o resultado
da regresso. Em geral, se uma observao (yi, xi) tem um valor de hii prximo de 1,
ento a equao de regresso estimada estar prxima de yi; isto , |yi y i | ser pequeno.
Pelo Teorema 9.2.A(iv), o valor mdio dos hiis (k+1)/n. Hoaglin e Welsch
(1978) sugerem que um ponto com hij > 2(k +1)/n um ponto com alto leverage.
Alternativamente, ns podemos simplesmente examinar alguma observao cujo
valor de hii seja maior em relao a outros valores de hii.
Em termos de ajustamento de modelos para um conjunto de dados, pontos com
alto leverage podem ser tambm bons ou maus, como ilustrado pelos pontos 1 e 3 na
Figura 9.2. O ponto 1 deve reduzir a varincia de 0 e 1 . Por outro lado, o ponto 3
alterar drasticamente o modelo ajustado. Se o ponto 3 no o resultado de um registro incorreto, o pesquisador deve escolher entre dois modelos ajustados concorrentes.
Tipicamente, o modelo que ajusta o conjunto de dados deve ser preferido at que
pontos adicionais possam ser observados em outras reas.
Para formalizar a influncia de um ponto (yi, xi), consideramos o efeito da excluso dele em e y = X . A estimativa de obtida com a excluso da i-sima ob-
160
1
servao (yi) definida em (9.28) como: (i ) = (X(i)X(i)) X(i)y(i). Podemos comparar
e pela mdia da Distncia de Cook, definida como:
(i )
t
(
(i ) ) X' X ( (i ) )
D =
(9.35)
(
y (i ) y ) t X' X (y (i ) y )
D =
(9.36)
(k + 1)s 2
(k + 1)s 2
ri2 hii
Di =
k + 1 1 hii
(9.37)
Exemplo 9.1. Ns ilustraremos diversas ferramentas de diagnstico para dados qumicos da Tabela 7.4 usando y1. Na Tabela 9.1 ns apresentaremos i , hii e algumas
funes das sees 9.3 e 9.4.
A orientao para hii na Seo 9.4 : 2(k+1)/n = 2(4)/19 = 0,421. O nico valor
de hii que excede 0,421 o primeiro, h11 = 0,430. Portanto, a primeira observao tem
potencial para influenciar o ajuste do modelo, mas essa influncia no aparece em t1
= 0,383 e D1 = 0,029. Outros valores relativamente grandes de hii correspondem s
observaes 2, 11, 14, 15, 16, e 17. Destas, somente a observao 14 tem um valor
(absoluto) muito grande de ti. A observao 12 tem valores grandes de i , ri, ti e Di e
, potencialmente, um outlier influente.
O valor de PRESS como definido em (9.33) PRESS = 130,76, que pode ser
comparado a SSE = 80,17.
161
Tabela 9.1. Resduos e medidas influentes para os dados qumicos com varivel
dependente y1.
Obs
Nmero
yi
y i
hii
ri
ti
Di
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
41.50
33.80
27.70
21.70
19.90
15.00
12.12
4.30
19.30
6.40
37.60
18.00
26.30
9.90
25.00
14.10
15.20
15.90
19.60
42.19
31.00
27.74
21.03
19.40
12.69
12.28
5.57
20.22
4.76
35.68
13.09
27.34
13.51
26.93
15.44
15.44
19.54
19.54
-0.688
2.798
-0.042
0.670
0.495
2.307
-0.082
-1.270
-0.917
1.642
1.923
4.906
-1.040
-3.605
-1.929
-1.342
-0.242
-3.642
0.058
0.430
0.310
0.155
0.139
0.129
0.140
0.228
0.186
0.053
0.233
0.240
0.164
0.146
0.245
0.250
0.258
0.258
0.217
0.217
-0.394
1.457
-0.020
0.313
0.230
1.076
-0.040
-0.609
-0.408
0.811
0.954
2.320
-0.487
-1.795
-0.964
-0.674
-0.121
-1.780
0.028
-0.383
1.520
-0.019
0.303
0.222
1.082
-0.039
-0.596
-0.396
0.801
0.951
2.800
-0.474
-1.956
-0.961
-0.661
-0.117
-1.937
0.027
0.029
0.239
0.000
0.004
0.002
0.047
0.000
0.021
0.002
0.050
0.072
0.264
0.010
0.261
0.077
0.039
0.001
0.220
0.000
162
x11
x21
M
xn1
x12 L x1k
x22 L x2 k
M
M
xn 2 L xnk
(10.1)
As linhas dessa matriz so vetores aleatrios do segundo tipo descrito na Seo 3.1.
As variveis y, x1, x2, , xk em uma linha so correlacionadas e possuem varincias
diferentes, isto , para o vetor aleatrio [y, x1, x2, , xk]= [y, x], temos:
y
x
y
cov 1 = cov =
M
x
xk
A estimao e os resultados dos testes nas sees (10.1)-(10.4) so baseados na suposio de que [y, x1, x2, , xk] = [y, x] distribuda como Nk+1(, ) com:
y
= 1 = y
M
x
k
(10.2)
163
yy y1 L yk
1 y 11 L 1k
=
= yy
M
M
M yx
k1
kk
ky
tyx
xx
(10.3)
= 0 + 1t x
(10.4)
(10.5)
onde
0 = y tyx xx1 x
(10.6)
1 = xx1 yx
(10.7)
(10.8)
Antes de obtermos os estimadores de 0, 1 e 2 em (10.6)-(10.8), ns devemos estimar primeiramente e . Estimadores de mxima verossimilhana de e so
dados no seguinte teorema.
Teorema 10.2A. Se (y1, x1t ), (y2, x t2 ), , (yn, x tn ) [linhas da matriz em (10.1)] constituem uma amostra aleatria de Nk+1(, ), com e dados em (10.2) e (10.3), os
estimadores de mxima verossimilhana so
y
= y =
(10.9)
x
x
n 1
n 1 s yy
=
S=
n s tyx
n
s tyx
S xx
(10.10)
164
onde as parties em e S so anlogas s parties de e em (10.2) e (10.3). Os
elementos da matriz de covarincias amostrais, S, so definidos em (7.41) e (10.14) a
seguir.
Prova: ver Rencher, pg. 230-231.
Note que na forma particionada, a matriz de covarincias amostrais S pode ser
escrita como em (10.10):
s yy
s1 y
=
S xx M
s ky
s
S = yy
s yx
s tyx
s y1 L s yk
s11 L s1k
M
M
s k1 L s kk
(10.14)
onde syx o vetor de covarincias amostrais entre y e os xs e Sxx a matriz de covarincias amostrais para os xs. Por exemplo:
i =1 ( yi y )(xi1 x1 )
n
sy1 =
s11 =
n 1
(xi1 x1 )2
n
i =1
n 1
i =1 (xi1 x1 )(xi 2 x2 )
n
s12 =
n 1
[ver (7.42)-(7.44)]. Por (5.7) temos que E(syy) = yy e E(sjj) = jj. Por (5.17), temos
que E(syj) = yj e E(sij) = ij. Assim, E(S) = , onde dado em (10.3). Por conta desses resultados, conclumos que S um estimador imparcial de , mas o estimador de
n 1
mxima verossimilhana =
S viesado.
n
Os estimadores de mxima verossimilhana para 0, 1 e 2 so dados no teorema apresentado a seguir.
Teorema 10.2B. Se (y1, x1t ), (y2, x t2 ), , (yn, x tn ) uma amostra aleatria de Nk+1(,
), com e dados em (10.2) e (10.3), os estimadores de mxima verossimilhana
de 0, 1 e 2
0 = y styxS xx1x
(10.15)
1 = S xx1s yx
(10.16)
(10.17)
165
22
, L,
pp
jj =
1 n
yij y j
n i =1
)2
jk
1 D
1 =
P = D
jj kk
i =1 (yij y j )( yik yk ) n
n
n
i =1 (yij y j )2 n i =1 ( yik yk )2
n
i =1 (yij y j )( yik yk )
n
n
i =1 (yij y j )2 i =1 ( yik yk )2
( )
= r jk = R
166
Os estimadores de mxima verossimilhana 0 e 1 em (10.15) e (10.6) so as
mesmas funes algbricas das observaes que os estimadores de mnimos quadrados apresentados em (7.47) e (7.48) para o caso de xs fixos. Os estimadores em
(10.15) e (10.16) so tambm idnticos aos estimadores de mxima verossimilhana
para o caso de ys normal e xs fixos na Seo 7.6.2 (ver Problema 7.17). No entanto,
mesmo que os estimadores nos casos de ys normal e xs fixos sejam os mesmos, suas
distribuies so diferentes. Quando y e xs so variveis normais multivariadas, 1
no tem distribuio normal multivariada, como no caso de xs fixos com y normal
[ver Teorema 7.6B(i)].
Agora demonstraremos que o vetor de coeficientes de regresso 1 em (10.16)
pode ser expresso em termos das correlaes amostrais. Por analogia a (10.14), a matriz de correlao amostral para (y, x1, x2, ,xk) pode ser escrita na forma particionada como:
1
r
t
1y
ryx
= r2 y
R xx
M
rky
1
R=
ryx
ry1 ry 2 L ryk
1 r12 L r1k
r21 1
r2 k
M
M
M
rk1 rk 2 L 1
(10.18)
r12 =
s y2
s 2y s 22
s12
s12 s 22
i =1 ( yi y )(xi 2 x2 )
n
n
i =1 ( yi y )2 i =1 (xi 2 x2 )2
i =1 (xi1 x1 )(xi 2 x2 )
n
n
i =1 (xi1 x1 )2 i =1 (xi 2 x2 )2
D= 0
M
0
s11
0
M
0
0
s22
M
0
L
L
L
0
0
s
0 = y
0
M
skk
0'
D x
167
s
S = yy
s yx
s tyx s 2y
=
S xx s y D xryx
t
s y ryx
Dx
D x R xx D x
(10.19)
(10.20)
syx = sy Dx ryx
(10.21)
s 2y =
(10.22)
onde sj =
(10.23)
dronizados como:
j =
sj
sy
1 = R xx1 ryx
(10.24)
168
Note que 1 em (10.24) no o mesmo que 1 no modelo reduzido em (8.8).
Note tambm a analogia de 1 = R xx1 ryx em (10.24) a 1 = S xx1s yx em (10.16). Em
efeito, Rxx e rxy so a matriz de covarincia e o vetor de covarincia das variveis padronizadas. Substituir S xx1 e s yx por R xx1 e ryx conduz aos coeficientes de regresso
para variveis padronizadas.
Exemplo 10.2(b). As seis variveis hematolgicas seguintes foram medidas em 51
trabalhadores (Royston, 1983):
y = contagem de linfcitos
x1 = concentrao de hemoglobina
x4 = contagem de neutrfilos
0
.
422
1
.
374
64
.
655
56
.
374
0
.
579
0.268 1.292
4.067 0.579 18.078
1.535
4.880
syx = 106.202
3
.
753
3.064
1 = S xx1 s yx = 0.837
0.882
0.025
Rxx = 0.277
0.068
0.076
0.774
1.000
0.308
0.079
0.131
0.277
0.308
1.000
0.608
0.068
0.068 0.076
0.079
0.131
0.608
0.068 ,
1.000
0.018
0.018
1.000
0.194
0.221
ryx = 0.789
0.053
0.076
169
Por (10.24), o vetor de coeficientes padronizados dado por:
1 = R xx1 ryx
0.043
0.077
= 1.248
0
.
697
0.011
A partir desses valores, percebe-se a maior importncia das variveis x3 e x4 no modelo de regresso mltipla.
Nos casos de xs fixados, ns definimos R2 como a proporo da variao em y devida regresso [ver (7.56)]. Nos casos de xs aleatrios, ns obtemos R como uma estimativa da correlao mltipla populacional entre y e os xs. Ento R2 o quadrado
da correlao mltipla amostral.
O coeficiente de correlao mltipla populacional y|x definido como a correlao entre y e a funo linear w = y + tyx xx1 (x x ) , isto ,
y |x = corr(y, w) =
yw
y w
(10.25)
(10.26)
y|x =
cov( y, w)
=
var ( y ) var (w)
tyx xx1 yx
yy
y2|x
tyx xx1 yx
yy
(10.27)
170
Agora ns listamos algumas propriedades de y |x e y2|x :
1. y |x a correlao mxima entre y e qualquer funo linear de x, x:
y |x = max y |' x
(10.28)
Esta uma definio alternativa de y |x que no baseada na distribuio normal multivariada como a definio em (10.25).
2. y2|x pode ser expresso em termos de determinantes:
y2|x = 1
yy xx
(10.29)
u2| v = y2|x
(10.30)
y2|x =
var ( w)
var ( y)
(10.31)
(10.32)
cov(y w, x) = 0
(Ver Problema 10.8).
(10.33)
171
Podemos obter um estimador de mxima verossimilhana para y2|x substituindo os parmetros em (10.27) pelos estimadores em (10.14):
2
R =
styxS xx1s yx
(10.34)
s yy
Usamos a notao R2 ao invs de y2|x por que (10.34) reconhecido como tendo a
mesma forma de R2 para o caso de xs fixos em (7.60). Referimos-nos a R2 como o
coe-ficiente de determinao amostral ou como o quadrado da correlao mltipla
amostral. A raiz quadrada de R2,
R=
s tyxS xx1s yx
s yy
(10.35)
R = ryy
(10.36)
R = max ry|a'x
a
(10.37)
(10.38)
R2 = 1
1
r yy
(10.39)
onde r yy o primeiro elemento da diagonal de R 1 . Usando os outros elementos da diagonal de R 1 , a relao em (10.39) pode ser estendida para dar a correlao mltipla de qualquer xj com outros xs e y. Assim, de R 1 ns obtemos
correlaes mltiplas, ao contrrio das correlaes simples em R.
172
5. R2 pode ser expresso em termos de determinantes:
R2 = 1
=1
S
s yy S xx
(10.40)
R
R xx
(10.41)
(10.42)
E(R2) =
k
n 1
(10.43)
R2 = 0,9232
Ou seja, a proporo da varincia de y que pode ser atribuda relao da regresso
com as variveis em x muito alta.
10.4 TESTES E INTERVALOS DE CONFIANA
173
Para ilustrar esses comentrios, considere o teste para H0: 1 = 0, onde 1 = (1,
2, , k). A estatstica F para xs fixos dada em (8.5), (8.22) e (8.23) como:
( ' X' y ny ) k
F=
(y' y ' X' y ) (n k 1)
2
R2 k
1 R 2 (n k 1)
(10.44)
Para xs fixos e y normal, F distribuda como F(k, n k 1) se H0: 1 = 0 verdadeira e distribuda como F no-central se 1 0 (ver Teorema 8.1D). Quando (y, x)
normal multivariada, F em (10.44) tambm distribuda como F(k, n k 1) quando H0: y2|x = 0 verdadeira (Anderson 1984, pp. 138-139), mas quando y2|x 0, F
no tem distribuio F no-central.
tyx xx1 yx
2
2
= 0, que leva a yx = 0,
Note que por (10.27), y |x = 0 leva a y |x =
yy
desde que xx positiva definida. Ento por (10.7), 1 = xx1 yx = 0 e H0: y2|x = 0
equivalente a H0: 1 = 0.
A estatstica F em (10.44) pode ser obtida pela abordagem da razo de
verossimilhana no caso de xs aleatrios (Anderson 1984, pp. 140-142).
Teorema 10.4A. Se (y1, x1t ), (y2, x t2 ), , (yn, x tn ) uma amostra aleatria de Nk+1(,
), com e definidos em (10.2) e (10.3), o teste da razo de verossimilhana para
H0: 1 = 0 ou, de forma equivalente, H0: y2|x = 0 pode ser baseado na estatstica F
174
Entretanto, a distribuio de u aproxima-se da normal muito vagarosamente quando n
aumenta (Kendall e Stuart 1969, p.236). Seu uso questionvel para n < 500.
Fisher (1921) encontrou uma funo de r que se aproxima da normalidade muito mais rapidamente que (10.50) e que pode ser usada com n bem menores que o estipulado para (10.50). Alm disso, a varincia quase independente de . A funo de
Fisher
1 1+ r
1
z = ln
(10.51)
= tanh (r )
2 1 r
onde tanh 1 (r ) a inversa da tangente hiperblica de r. A mdia e a varincia aproximada de z so:
1 1+
E(z) ln
(10.52)
= tanh 1 ( )
2 1
1
var(z)
(10.53)
n3
Ns podemos usar a transformao z de Fisher em (10.51) para testar hipteses como
H0: = 0 ou H0: 1 = 2. Para testar H0: = 0 versus H0: 0 para uma amostra de
tamanho n ns calculamos
z tanh 1 ( 0 )
v=
(10.54)
1 (n 3)
que tem distribuio aproximadamente normal padro N(0, 1), onde z = tanh 1 (r ) .
Ns rejeitamos H0 se |v| z/2, onde z/2 o percentil de ordem (100 /2) da distribuio normal padro. Para testar H0: 1 = 2 versus H0: 1 2 para duas amostras independentes de tamanhos n1 e n2 que produzem correlaes amostrais r1 e r2, ns calculamos:
z1 z2
v=
(10.55)
1 (n1 3) + 1 (n2 3)
e rejeitamos H0 se |v| z/2, onde z1 = tanh 1 (r1 ) e z2 = tanh 1 (r2 ) .
Para obter um intervalo de confiana para , ns notamos que desde que z em
(10.51) aproximadamente normal, podemos escrever:
z tanh 1 ( )
P z / 2
z / 2 1
1 n3
(10.56)
tanh z / 2 tanh z + / 2
n3
n3
(10.57)
175
Alm dos testes de mxima verossimilhana, tais como no Teorema 10.4A,
outra abordagem para justificar os testes F no caso de xs aleatrios discutida por
Graybill (1976), pp.381-385. Desde que a distribuio condicional de y para um dado
valor de x seja normal (Corolrio 1 do Teorema 4.4D), a distribuio do vetor de observaes y = [y1, y2, , yn] para um dado valor da matriz X normal multivariada.
Portanto, uma estatstica de teste como (8.16) tem distribuio F para o valor dado de
X quando H0 verdadeira. Entretanto, a distribuio F-central depende somente dos
graus de liberdade; ela no depende de X. Assim, sob H0, a estatstica tem uma distribuio F para todos os valores de X. Entretanto, quando H0 falsa, o parmetro de
no-centralidade no caso de xs fixos depende do valor de X [Teorema 8.2C(i)] e,
portanto, a distribuio F no-central no se mantm para o caso de xs aleatrios.
Os intervalos de confiana para os js na seo 8.6.2 permanecem vlidos para
o caso de xs aleatrios porque a distribuio condicional de y dado x normal. Assim o coeficiente de confiana (1 ) para o caso de xs fixos se mantm para o caso
de xs aleatrios. Entretanto, o comprimento esperado do intervalo difere nos dois
casos.
Um intervalo de confiana para y2|x foi dado por Helland (1987).
Exemplo 10.4(a). Para os dados hematolgicos na Tabela 10.1, ns obtemos R2 =
0,9232 no Exemplo 10.3. O teste F geral de H0: 1 = 0 ou H0: y2|x = 0 realizado
usando F em (10.44):
F=
0.9232 5
R2 k
=
= 108.158
1 R 2 (n k 1) (1 0.9232) 45
Como p-valor < 0.0001 ns rejeitamos H0 e conclumos que nem todos os coeficientes de regresso so simultaneamente nulos.
Exemplo 10.4(b). Para ilustrar a transformao z de Fisher em (10.51) e o seu uso
para comparar dois coeficientes de correlao de amostras independentes em (10.55),
ns dividimos os dados hematolgicos da Tabela 10.1 em duas sub-amostras de tamanhos n1 = 26 e n2 = 25 (as primeiras 26 observaes e as ltimas 25 observaes). Para
a correlao entre as variveis y e x1 das duas amostras, ns obtemos r1 = 0.4994 e r2
= 0.0424. A transformao z de (10.51) para cada um dos valores dado por:
0.5485 0.0425
= 1.6969
1 (26 3) + 1 (25 3)
Como 1.6969 < z0.025 = 1.96, ns no rejeitamos H0 e conclumos que os dois coeficientes de correlao so iguais.
176
Para obter os limites do intervalo de confiana 95% aproximado para 1, ns usamos
(10.57):
Limite inferior para 1:
1.96
tanh 0.5485
= 0.1389
23
1.96
1.96
tanh 0.0425
= 0.3587
22
1.96
Vale notar (Figura 1) que os dois intervalos se sobrepe (tm pontos em comum), indicando que a hiptese H0: 1 = 2 deva ser aceita.
177
2
R yw
o quadrado da correlao mltipla entre y e w = [x1, x2, , xk, z]
2
R yx
o quadrado da correlao mltipla entre y e x = [x1, x2, , xk]
2
Rzx
= s tzx S xx1s zx s z2 o quadrado da correlao mltipla entre z e x.
2
R yx
(
ryz ryz )2
=
2
1 Rzx
(10.58)
onde ryz = zx ryx o valor predito de ryz baseado na relao de z para os xs.
Prova: Ver Problema 10.18 do livro do Rencher
Desde que o lado direito de (10.58) positivo, R2 no pode diminuir com a incluso
de uma varivel, que uma verificao da propriedade 3 na Seo 7.7. Se z
2
ortogonal a x (isto , rzx = 0) ento zx = 0, o que implica que ryz = 0 e Rzx
= 0. Neste
2
2
caso, (10.58) pode ser escrito como R yw
= R yx
+ ryz2 , que verifica a propriedade 5 da
Seo 7.7.
Em muitos casos, pode ser til ao pesquisador saber porque uma varivel contribuiu mais (ou menos) que o esperado. Por exemplo, a admisso em uma universidade ou escola profissional pode estar baseada em notas prvias e no escore obtido
em um teste nacional. Um candidato a entrar numa universidade com vagas limitadas
submete suas notas e o escore obtido no teste. Pode-se entrar em uma equao de
regresso para predizer a sua nota mdia no primeiro ano da universidade. Pode-se
178
encontrar que o escore obtido no teste aumentou o valor de R2 somente um pouco acima do que o baseado exclusivamente nas notas. Este pequeno acrscimo em R2 pode
desapontar os responsveis pela admisso, que esperavam que o escore no teste nacional pudesse ser um preditor mais til que as notas. Pode ser benfico aos elaboradores de tais testes saber precisamente porque o teste contribuiu menos que as
notas.
No Teorema 10.5A, ns temos disponvel a informao especfica necessria
para o elaborador do teste. Para ilustrar o uso de (10.58), seja y a nota mdia no
primeiro ano da universidade, seja z o escore no teste nacional e sejam x1, x2, , xk as
notas do indivduo em diversas reas. Por (10.58), o aumento em R2 devido a z igual
2
a ryz ryz 2 1 Rzx
onde se v que z soma pouco a R2 se ryz est prximo de ryz.
Ns podemos examinar os coeficientes em r = ryx para determinar qual dos coe-
) (
yz
zx
ficientes ryx j em ryx tem o maior efeito. Esta informao poderia ser usada para redesenhar as questes de forma a reduzir este particular ryx j . Tambm pode ser possvel
2
2
aumentando o valor de Rzx
(e assim reduzindo
aumentar a contribuio de z em R yw
2
1 Rzx
). Isto pode ser feito planejando as questes no teste nacional de tal forma que
o escore z seja mais correlacionado com as notas x1, x2, , xk.
z
x1
x2
x3
x4
x5
ryz
0.2101
0.2486
0.0932
0.4822
0.0659
ryz
0.1943
0.2210
0.7890
0.0526
0.0758
2
Rzx
0.6332
0.6426
0.4423
0.3837
0.0979
) (
2
2
R yw
R yx
0.00068
0.00213
0.86820
0.29945
0.00011
F
0.400
1.250
508.600
175.400
0.064
p-valor
0.53
0.26
< 0.0001
< 0.0001
0.81
O valor da estatstica F corresponde aos testes parciais em (8.25), (8.37) e (8.39) para
a significncia do acrscimo em R2 devido a cada varivel.
179
Uma varivel de interesse a x4, cujo valor de ryz = 0.0526 o menor dentre as
cinco variveis. Apesar desta baixa correlao individual com y, a varivel x4 contri2
que as outras variveis. Isso ilustra como a contribuio de uma
bui mais para R yw
varivel pode ser aumentada na presena de outras variveis, como refletido em ryz .
A diferena entre os dois maiores contribuidores x3 e x4 pode revelar muito ao
2
devida principalmente sua correlao
pesquisador. A contribuio de x3 em R yw
com y, enquanto virtualmente todo o efeito de x4 vem da sua associao com as outras
variveis, como refletido em ryz .
10.6. PREDIO PARA DADOS NO-NORMAIS
Teorema 10.6A. Para o vetor aleatrio [y, x], a funo t(x) que minimiza o
quadrado mdio do resduo E [ y t (x)]2 dada por t(x) = E(y | x).
Prova: ver pg. 248 do livro do Rencher.
No caso da normal multivariada, a funo de regresso E(y | x) uma funo
linear de x [ver (10.4) e (10.5)]. Entretanto, em geral, E(y | x) no linear. Para uma
ilustrao de uma E(y | x) no linear, ver Exemplo 3.2, no qual ns temos E(y | x) =
1 + 4x 2x2 2 .
Se restringirmos t(x) a funes lineares de x, ento o resultado timo ser a
mesma funo linear que do caso normal multivariado [ver (10.6) e (10.7)]:
Teorema 10.6B. A funo linear t(x) que minimiza E [ y t (x)]2 dada por t(x) = 0
+ 1t x, onde
0 = y tyx xx1 x
1 = xx1 yx
(10.59)
(10.60)
180
Ns podemos encontrar estimadores 0 e 1 para 0 e 1 em (10.59) e (10.60)
minimizando o quadrado mdio do resduo amostral,
i =1 (yi 0 1xi )
n
n . Os re-
x
s yx S xx
n
ento os estimadores 0 e 1 que minimizam i =1 yi 0 1xi
)2
n so dados por:
0 = y styxS xx1x
(10.61)
1 = S xx1s yx
(10.62)
ij.rs...q =
ij.rs...q
ii.rs...q jj .rs...q
(10.63)
yy
xy
yx
xx
[ver (3.31)]. A matriz de correlaes parciais (populacional) ij.rs...q pode ser encontrada por (4.37):
181
1
1
1
1
y.x = D y.x
y.x D y.x
= D y.x
( yy yx xx1 xy ) D y.x
(10.64)
)]1 / 2 .
(10.65)
onde
[ (
)]
1/ 2
S yx
S xx
onde
S yy
s 2y1
s
= y 2 y1
M
s y p y1
s y1 y 2
s 2y 2
M
s y p y2
L s y1 y p
s y1 x1
s
L s y2 y p
y x
e S yx = 2 1
M
M
L s 2yp
s y p x1
s y1 x2
s y2 x2
M
s y p x2
L s y1 xq
L s y 2 xq
L s y p xq
so estimadores das matrizes yy e yx . Assim o estimador de mxima verossimilhana de ij.rs...q em (10.63) rij .rs...q , o (ij)-simo elemento de R y.x em (10.65).
Agora ns consideramos duas outras expresses para a correlao parcial e
mostramos que elas so equivalentes a rij .rs...q . Para simplificar a exposio, ns ilustramos com r12.3 . A correlao parcial amostral de y1 e y2 com y3 mantido fixo usualmente dado por:
r12 r13r23
r12.3 =
(10.66)
2
1 r132 1 r23
)(
onde r12 , r13 e r23 so as correlaes ordinrias entre y1 e y2, y1 e y3 e y2 com y3,
respectivamente. No teorema seguinte, ns relacionamos r12.3 a duas definies precedentes de correlao parcial.
182
Teorema 10.7A. A expresso para r12.3 em (10.66) equivalente a um elemento de
R y.x em (10.65) e tambm igual a ry1 y1 , y 2 y 2 de (7.97), onde y1 y1 e y2 y 2
so os resduos da regresso de y1 sobre y3 e de y2 sobre y3.
= D s 1 ( S yy S yxS xx1S xy ) D s 1 . Neste caso, y = [y, x1] e x = [x2, x3, x4, x5]. A matriz S
particionada fica:
1.535 4.880 106.202 3.753
3.064
90.290
1.535
0.691 1.494
3.255 0.422 0.268
4.880
1.494 5.401 10.155 1.374
1.292 S yy
S=
= S
106
.
202
3
.
255
10
.
155
200
.
668
64
.
655
4
.
067
xy
3.753
0.422 1.374 64.655 56.374
0.579
[ (
)]
1/ 2
0
2.645
= Ds =
0.503
0
Ento:
1.0000 0.0934
R y.x =
1.000
0.0934
S yx
S xx
183
Assim, ry1.2345 = 0.09934. Por outro lado, ry1 = 0.1943.
Para encontrar ry 2.1345 , ns temos y = [y, x2] e x = [x1, x3, x4, x5]. Assim
90.290 4.880
S yy =
4.880 5.401
As outras matrizes correspondentes S yx , S xx e S xy podem ser calculadas facilmente.
Com a matriz diagonal D s = diag(2.670, 1.389) ns podemos calcular:
1.000 0.164
R y.x =
1.000
0.164
Assim, ry 2.1345 = 0.164, que pode ser comparada com ry2 = 0.221.
Para encontrar ry 3.45 ns temos y = [y, x1, x2, x3] e x = [x4, x5]. Por exemplo:
S yy
90.290
1.535
=
4.880
106.202
1.535
0.691
4.880 106.202
1.494
3.255
R y.x =
0.210 0.792 1.000 0.324
R yy
1.000
0.194
=
0.221
0.789
Ou seja, a correlao entre y e x1 (ry1 = 0.1944) est muito prxima da correlao parcial entre y e x1, condicionada aos valores de x4 e x5 ( ry1.45 = 0.198), indicando uma
baixa correlao entre x1 e x4 e entre x1 e x5.
EXERCCIOS (ver pg. 256-258 do livro do Rencher)
184
y2 = + 2 + 2
y12 = + 1 + 12
y13 = + 1 + 13
y21 = + 2 + 21
y22 = + 2 + 22
y23 = + 2 + 23
(11.1)
185
ou
yij = + i + ij,
i = 1, 2
j = 1, 2, 3
(11.2)
y13 1 1 0
=
y
1
0
1
21
y 22 1 0 1
y 23 1 0 1
11
12
+ 13
1 21
2
22
23
(11.3)
ou
y = X
+
Em (11.3), X uma matriz 6x3 de posto 2 porque a primeira coluna igual
soma da segunda e terceira colunas, que so linearmente independentes. Desde que X
no tem posto completo, os teoremas dos Captulos 7 e 8 no podem ser usados diretamente para estimar = [, 1, 2] e testar hipteses. Assim, por exemplo, , 1 e 2
= (X' X) 1X' y em (7.6) porque a inversa de (XX)
no podem ser estimados por
no existe.
Para explorar mais o modelo (11.3), reconsideremos o significado dos seus parmetros. O parmetro foi introduzido como a mdia antes de colocar os aditivos
qumicos, e 1 e 2 representam o acrscimo devido aos aditivos 1 e 2, respectivamente. No entanto, o modelo (11.2) no pode suportar somente esta caracterizao.
Por exemplo, se = 15, 1 =1 e 2 = 3, o modelo fica:
y1j = 15 + 1 + 1j = 16 + 1j,
j = 1, 2, 3.
y2j = 15 + 3 + 1j = 18 + 2j,
j = 1, 2, 3.
(11.4)
y1j = 10 + 6 + 1j = 16 + 1j, j = 1, 2, 3.
y2j = 10 + 8 + 2j = 18 + 2j, j = 1, 2, 3.
ou, alternativamente como
y1j = 25 9 + 1j = 16 + 1j, j = 1, 2, 3.
y2j = 25 7 + 2j = 18 + 2j, j = 1, 2, 3.
ou de infinitas outras maneiras.
186
Assim, em (11.1) ou (11.2), , 1 e 2 no so nicos e, portanto no podem ser
estimados. Com trs parmetros e posto(X) = 2, o modelo dito superparametrizado.
Note que mesmo aumentando o nmero de observaes para cada um dos dois aditivos, no mudaremos o posto de X.
Existem diversas maneiras de remediar esta falta de unicidade dos parmetros
no modelo superparametrizado. Trs dessas abordagens so:
1) redefinir o modelo usando dois novos parmetros que sejam nicos;
2) usar o modelo superparametrizado, mas colocar algumas restries sobre os
parmetros de modo a torn-los nicos;
3) ainda no modelo superparametrizado, trabalhar com combinaes lineares dos
parmetros que sejam nicas e possam ser estimadas.
A seguir, ilustraremos essas trs tcnicas:
1. Para reduzir o nmero de parmetros, considere a ilustrao em (11.4),
y1j = 16 + 1j e y2j = 18 + 1
Os valores 16 e 18 so as mdias depois que os dois tratamentos foram aplicados.
Em geral, essas mdias podem ser chamadas 1 e 2 e o modelo pode ser escrito
como:
y1j = 1 + 1j e y2j = 2 + 2j
As mdias 1 e 2 so nicas e podem ser estimadas. O modelo redefinido para as
seis observaes em (11.1) ou (11.2) tomam a seguinte forma:
y11 1 0
11
y 1 0
12
12
y13 1 0 1 13
=
+
y 21 0 1 2 21
y 22 0 1
22
y 23 0 1
23
que pode ser escrito como: y = W + . A matriz W de posto completo e ns
podemos usar (7.6) para estimar como:
= (W' W) 1W' y
187
2. Uma outra alternativa para reduzir o nmero de parmetros consiste em incorporar
restries sobre os parmetros , 1 e 2. Denotamos os parmetros restritos como
, 1 e 2 . Em (11.1) e (11.2), a restrio 1 + 2 = 0, tem o efeito de definir
y1j = 17 1 + 1j
y2j = 17 + 1 + 2j
Agora este modelo nico porque no existe outra maneira de express-lo, de tal
forma que 1 + 2 = 0. Tais restries so chamadas de condies marginais.
O modelo yij = + i + ij, sujeito restrio 1 + 2 = 0, pode ser expresso no
formato de um modelo de posto completo, substituindo 2 = 1 para obter y1j =
+ 1 + 1j e y2j = 1 + 2j. As seis observaes podem ser escritas na forma matricial como:
y11 1 1
y 1 1
12
y13 1 1
=
y 21 1 1
y 22 1 1
y 23 1 1
11
12
13
+
1 21
22
23
ou
y = X** +
A matriz X* de posto completo e os parmetros e 1 podem ser estimados.
3. Como ns examinamos os parmetros no modelo ilustrado em (11.4), vimos algumas combinaes lineares que so nicas. Por exemplo, as combinaes 1 2 =
2, + 1 = 16 e + 2 = 18, permanecem inalteradas para os possveis valores de
, 1 e 2. Tais combinaes nicas podem ser estimadas.
188
ou como
(11.5)
onde yij o ganho de peso do (ij)-simo frango e ij o erro aleatrio associado (para
simplificar a exposio usaremos somente uma repetio para cada combinao vitamina-mtodo). Na forma matricial, o modelo (aditivo) pode ser expresso como
y11 1 1 0 1 0 11
y 1 1 0 0 1 1
12 =
2 + 12
(11.6)
y 21 1 0 1 1 0 21
1
y 22 1 0 1 0 1 22
2
ou
y = X +
Na matriz X, a terceira coluna igual primeira coluna menos a segunda coluna, e a quinta coluna igual primeira coluna menos a quarta coluna. Assim, o
posto(X) = 3, e a matriz XX, de dimenso 5 x 5, no tem uma inversa. Mais uma
vez, muitos dos teoremas dos Captulos 7 e 8 no so aplicveis. Note que aumentar o
nmero de repeties, aumenta o nmero de linhas da matriz X mas no altera o
posto(X), que continua igual a 3.
Desde que posto(X) = 3, somente trs parmetros nicos so possveis, a
menos que sejam impostas condies marginais sobre os cinco parmetros. Existem
diversas maneiras de reparametrizar o modelo com o intuito de reduzir para trs o
nmero de parmetros no modelo. Por exemplo, considere os parmetros 1, 2 e 3
definidos como
1 = + 1 + 1 ,
2 = 2 1
3 = 2 1
0 0
11
1
0 1
2 + 12
1 0 21
3
1 1
22
ou
y = Z +
(11.7)
189
O posto(Z) = 3 e ns temos um modelo de posto completo onde pode ser estimado
por = (Z' Z) 1Z' y , fornecendo estimativas de 2 = 2 1 e 3 = 2 1, que so de
interesse do pesquisador.
Na seo 11.2.2 ns discutiremos mtodos para mostrar que funes lineares
tais como ( + 1 + 1), (2 1) e (2 1) so nicas e estimveis, mesmo quando ,
1, 2, 1 e 2 no so nicas e nem estimveis.
Consideraremos agora restries sobre os parmetros. Desde que posto(X) = 3
e existem cinco parmetros no modelo, ns precisamos de duas condies marginais
(linearmente independentes). Se essas duas restries forem escolhidas apropriadamente, os cinco parmetros passam a ser nicos e estimveis. Denotaremos os parmetros restritos por , i e j e consideraremos as seguintes condies:
1 + 2 = 0
1 + 2 = 0,
de tal modo que i e j correspondem a desvios de mdias. Para mostrar isso, comearemos por escrever o modelo na forma:
y11 = 11 + 11
y12 = 12 + 12
y21 = 21 + 21
y22 = 22 + 22
(11.8)
i =
1
( i1 + i 2 ), j = 1 1 j + 2 j e = 1 (11 + 12 + 21 + 22 )
2
2
4
Coluna 1
Coluna 2
Mdia
(linhas)
Efeito
(linhas)
Linha 1
11
21
1 = 1
Linha 2
12
22
2 = 2
Mdia (colunas)
Efeito (colunas)
1 = 1
2 = 2
190
Da tabela 11.1 ns obtemos:
1 + 2 = 1 + 2 2 = 2 2 = 0
(11.9)
, i = i e j = j , como:
i j = + ( i ) + ( j ) + (i j i j + )
= + i + j
O termo ij i j + , que necessrio para balancear a equao, est associado com a interao de vitaminas e mtodos. Para que i e j sejam efeitos aditivos, a interao i j i j + deve ser nula. A interao ser estudada no Captulo 13.
11.2 ESTIMAO
Consideremos o modelo:
y = X + ,
(11.10)
que pode ser diferenciado com respeito a e igualado a 0 para produzir o sistema de
equaes lineares:
191
XX = Xy
(11.11)
XX(XX) Xy = Xy
(11.12)
onde (XX) qualquer inversa generalizada de (XX). Pelo Teorema 2.8C(iii) (pg.
= (XX) Xy
(11.13)
onde (XX) qualquer inversa generalizada de (XX). Para uma particular inversa
(11.14)
192
Exemplo 11.2.1. Consideremos o modelo yij = + i + ij, i = 1, 2 e j = 1, 2, 3, em
(11.2). Ento a matriz X e o vetor so dados em (11.3) como
1
1
1
X=
1
1
1 0
1 0
1 0
,
0 1
0 1
0 1
= 1
2
6 3 3
XX = 3 3 0 e (XX) =
3 0 3
0
0 0
0 1 / 3 0
0 0 1 / 3
1 1 1 1 1 1
Xy = 1 1 1 0 0 0
0 0 0 1 1 1
onde y =
i=1 j =1 yij
e yi =
y11
y
12 y
y13
= y1
y 21 y
y 22 2
y 23
j =1 yij . Ento
0
0 0
= (XX) Xy = 0 1 / 3 0
0 0 1 / 3
y 0
y = y
1 1
y 2 y 2
1
yi . Para encontrar E( ), precisamos de E( yi ). Desde que E() = 0,
3
temos que E(ij) = 0 e da:
onde yi =
1 3
1 3
1 3
1
E( yi ) = E yij = E ( yij ) = E + i + ij = (3 + 3 i ) = + i
3 j =1 3 j =1
3 j =1
3
0
E( ) = + 1
+ 2
193
O mesmo resultado obtido usando (11.14)
0
0 0
E(
) = (XX) XX = 0 1 / 3 0
0 0 1 / 3
6 3 3 0
3 3 0 = +
1
1
3 0 3 2 + 2
Tendo estabelecido que no podemos estimar , a prxima dvida se podemos estimar alguma combinao linear dos s, digamos . Por exemplo, na Seo 11.1.1
consideramos o modelo yij = + i + ij e encontramos que , 1 e 2 em = [, 1,
2] no so nicos, mas a funo linear 1 2 = [0, 1, 1]
nica. Para mostrar que
funes do tipo 1 2 podem ser estimadas, precisamos definir o que uma funo
estimvel .
Uma funo linear dos parmetros dita ser estimvel se existe uma combinao
linear das observaes com um valor esperado igual a ; isto , estimvel se
existe um vetor a tal que E(ay) = .
No prximo teorema consideraremos trs mtodos para determinar se uma particular
funo linear estimvel.
Teorema 11.2B. No modelo y = X + , onde E(y) = X e X n x p de posto k < p
n, a funo linear estimvel se e somente se qualquer uma das seguintes condies satisfeita:
(i) uma combinao linear das linhas de X, isto , existe um vetor a tal que:
aX =
(11.15)
ou que posto(X M ) = posto(X);
(ii) uma combinao linear das linhas de XX ou uma combinao linear das
colunas de XX, isto , existe um vetor r tal que:
rXX = ou XXr =
(11.16)
ou que posto(XX M ) = posto(XX);
(iii) (ou ) tal que
XX(XX) =
ou
(XX) XX =
(11.17)
194
Prova: Para (i) e (ii), vamos provar a parte se e para (iii), as partes se e somente
se.
(i) Se existe um vetor a tal que = aX, ento usando este vetor a, temos:
E(ay) = aE(y) = aX =
(ii) Se existe uma soluo r para XXr = , ento definindo a = Xr, temos
1
1
1
X=
1
1
1 0
1 0
1 0
,
0 1
0 1
0 1
= 1
2
1 1
aX = [0, 0, 1, 1, 0, 0]
1 0
1 0
1 0
0
= [0, 1, 1] =
1
1
195
E ( y11 )
E( y )
12
E ( y13 )
= aX = a E(y) = [0, 0, 1, 1, 0, 0]
= E(y13) E(y21)
E ( y 21 )
E ( y 22 )
E ( y 23 )
= + 1 ( + 2) = 1 2,
que ilustra o Teorema 11.2D, que ser visto adiante.
(ii) A matriz XX dada no Exemplo 11.2 como
6 3 3
XX = 3 3 0
3 0 3
Precisamos encontrar um vetor r tal que XXr = = [0, 1, 1]. Tomando r =
[0, 1/3, 1/3], temos:
0 0
6 3 3
XXr = 3 3 0 1 / 3 = 1 =
3 0 3 1 / 3 1
Certamente, existem outros valores possveis de r, tais como r = [-1/3, 2/3, 0].
De modo alternativo mais simples, dizemos que = [0, 1, 1]
estimvel
porque posto(XX M ) = posto(XX).
(iii) Usando a inversa (XX) = diag[0, 1/3, 1/3] dada no Exemplo 11.2.1, temos
0 0 1 1
6 3 3 0 0
XX(XX) = 3 3 0 0 1 / 3 0 = 0 1 0
3 0 3 0 0 1 / 3 0 0 1
0 1 1 0 0
XX(XX) = 0 1 0 1 = 1 =
0 0 1 1 1
Um conjunto de funes {
1, 2, ..., m} dito linearmente independente se os
vetores de coeficientes 1, 2, ..., m so linearmente independentes.
O nmero de funes linearmente independentes dado no prximo teorema.
196
1
1
X=
1
1 0
1 0
1 0 0 1
, =
0 1 1 0
0 1 0 1
1
2
1
2
197
Subtrair a primeira linha das outras linhas de X e, posteriormente, subtrair as
segunda e terceira linhas da quarta linha, resulta em:
1 1
0 0
0 1
0 0
1 0
0 1 1
1 0 0
0 0 0
1 = + 1 + 1 ,
2 = 2 1,
2 = 2 1
Essas funes so idnticas s funes 1, 2 e 3 usadas na Seo 11.1.2 para reparametrizar para um modelo de posto completo. Assim, nessa seo, funes linearmente independentes e estimveis dos parmetros foram usadas como novos parmetros.
Observe que no Exemplo 11.2.2(b) as duas funes estimveis 2 1 e 2 1
so tais que os coeficientes dos 's ou dos s somam zero. Toda combinao linear
desse tipo chamada de contraste.
11.3. ESTIMADORES
11.3.1 Estimadores de
Dos Teoremas 11.2B(i) e (ii) temos os estimadores ay e rXy para , onde a e r
satisfazem = aX e = rXX, respectivamente. Um terceiro estimador de
, onde
uma soluo de XX
= Xy. No teorema seguinte, discutiremos al
.
gumas propriedades de rXy e
198
Prova:
) = E(
) = (XX)XX. Pelo Teorema 11.2B(iii),
(i) De (11.14), E(
) =
(XX) XX = e ento E(
(ii) Pelo Teorema 11.2B(ii), se estimvel, = rXX para algum r. Multi = Xy por r obtemos rXX
= rXy e, desde que rXX =
plicando XX
= rXy.
, temos que
(iii) Para mostrar que rXy invariante a escolhas de r, sejam r1 e r2 tais que
= r1Xy e r2XX
= r2Xy. Desde que
XXr1 = XXr2 = . Ento r1XX
XXr1 = XXr2, temos que r1Xy = r2Xy. E claro que cada um deles
.
igual a
Exemplo 11.3.1. No Exemplo 11.2.2(a) mostramos que a funo = 1 2 estimvel. Para estimar 1 2 com rXy, usamos r = [0 1/3 1/3] do Exemplo 11.2.2(a)
para obter:
y11
y
12
1 1 1 1 1 1
y
rXy = [0 1/3 1/3] 1 1 1 0 0 0 13 =
y 21
0 0 0 1 1 1
y 22
y 23
y
y
y
= [0 1/3 1/3] y1 = 1 2 = y1 y 2
3
3
y 2
1
1 3
2
3
3
onde y = i =1 j =1 yij , yi = j =1 yij e yi = yi = j =1 yij .
3
3
, primeiro precisamos encontrar uma soluPara obter o mesmo resultado usando
= Xy
o do sistema XX
6 3 3 y
3 3 0 = y
1 1
3 0 3 2 y 2
ou
6 + 3 1 + 3 2
= y
3 + 3 1
= y1
+ 3 2
= y 2
199
Como a primeira equao redundante ( a soma da segunda e terceira equaes),
podemos tomar como uma constante arbitrria e da obter
1 =
1
y1 = y1
3
2 =
1
y 2 = y 2
3
Assim
0
1
= = y + 1
1 1
2 y 2
1
=
Para estimar 1 2 = [ 0 1 1] = , podemos tomar = 0 para obter
= y y . Mantendo arbitrrio, obtemos:
[0 y1 y 2 ] e
1
2
= [0 1 1] y = y ( y ) = y y
1
2
1
2
1
y 2
= (XX) Xy no nico para o modelo de posto incompleto y =
Desde que
) tambm no nica. EntreX + com cov(y) = 2I, a matriz de covarincia cov(
tanto, para uma particular (simtrica) inversa generalizada (XX) , podemos usar o
Teorema 3.6(D)i para obter a sua matriz de covarincias:
= 2(XX) XX(XX)
(11.18)
p de posto k < p n e cov(y) = 2I. Seja r qualquer soluo para XXr = e seja
= Xy. Ento, a varincia de
ou de rXy tem as sequalquer soluo para XX
guintes propriedades:
200
Prova:
) = cov(
) = 2(XX) XX(XX) ,
(ii) var(
) = 2(XX) .
mas, por (11.17), (XX) XX = e ento, var(
(iii) Para mostrar que r invariante para r, tomemos r1 e r2 tais que XXr1 = e
XXr2 = . Multiplicando essas duas equaes por r2 e r1, ns obtemos
r2XXr1 = r2 e r1XXr2 = r1. Os lados esquerdos dessas duas igualdades
so iguais, porque eles so escalares. Portanto os lados direitos das equaes
tambm so iguais (r2 = r1).
XG1X = XG2X
Multiplicando ambos os lados por a, tal que aX = [ver o Teorema 11.2
B(i)], obtemos:
aXG1Xa = aXG2Xa ou
G1 = G2
201
Desde que = rXX, segue que cX = 0. Usando (3.40) e cX = 0, obtemos:
var(ay) = avar(y)a = a2I a = 2aa
11.3.2. Um estimador de 2
Por analogia com (7.23) ns definimos
)(y X
)
SQRes = (y X
(11.19)
(11.20)
(11.21)
s2 =
SQRes
nk
(11.22)
(XX) ].
Prova:
(i) Usando (11.21) temos que E(SQRes) = E{y[I X(XX) X] y} e pelo Teorema
5.2A.
= XX XX = 0
202
E pelos Teoremas 2.11.A(i), (ii) e (iii) temos que
invariante para
, e portanto SQRes =
(ii) Sabemos que X estimvel; que X
)(y X
) em (11.19) tambm invariante. Para mostrar que SQRes em
(y X
(11.21) invariante para escolhas de (XX) , basta notar que X(XX) X tambm
invariante, pelo Teorema 2.8C(v).
y ~ Nn(X, 2 I) ou ~ Nn(0, 2 I)
Com a suposio de normalidade ns podemos obter estimadores de mxima verossimilhana.
Teorema 11.3F. Se y ~ Nn(X, 2 I), onde X n x p de posto k < p n, ento os estimadores de mxima verossimilhana de e 2 so dados por
= (XX)Xy
2 =
(11.23)
1
) ( y X
)
(y X
n
(11.24)
Prova:
A funo de verossimilhana L(X, 2) e o seu logaritmo ln L(X, 2) podem ser escritos da mesma forma que a do modelo de posto completo em (7.51) e (7.52):
L(X, 2) =
e ( y X )'( y X )/2
n/ 2
(11.25)
(2 )
2
n
n
1
ln L(X
, 2) = ln(2) ln 2 2 (y X)' (y X)
2
2
2
(11.26)
Diferenciando ln L(X
, 2) em relao e 2 e igualando a zero temos:
= Xy
XX
2 =
(11.27)
1
)(y X
)
(y X
(11.28)
(11.29)
203
em (11.29) a mesma do estiA forma do estimador de mxima verossimilhana
2 viesado. Ns usamos
mador de mnimos quadrados em (11.13), mas o estimador
muitas vezes o estimador no viesado s2 dado em (11.22).
e cov(
e de s2.
No prximo teorema, apresentaremos algumas propriedades adicionais de
Teorema 11.3G. Se y ~ Nn(X
, 2 I), onde X n x p de posto k < p n, ento os es e s2 (corrigido para o vis) tm as seguintes
timadores de mxima verossimilhana
propriedades:
~ Np[(XX)XX
(i)
, 2(XX) XX(XX) ]
(ii) (n k)s2/2 ~ 2 (n k )
e s2 so independentes.
(iii)
Prova: Basta adaptar a prova do Teorema 7.6B para o caso de modelo de posto incompleto.
so vlidos para uma
O valor esperado, a matriz de covarincias e a distribuio de
no viesados.
tem varincia mnima dentre
No Teorema 11.3D foi mostrado que o estimador
todos os estimadores lineares no viesados. Com a suposio de normalidade adicio tem varincia mnima dentre todos os estimadores no
nada no Teorema 11.3H,
viesados.
11.4. REPARAMETRIZAO
A reparametrizao foi definida e ilustrada na Seo 11.1.1. Agora vamos formalizar
e estender essa abordagem para obter um modelo baseado em parmetros estimveis.
204
Na reparametrizao, transformamos um modelo de posto incompleto y = X
+
, onde X n x p de posto k < p n, em um modelo de posto completo y = Z + ,
onde Z n x k, de posto k e = U
um conjunto de k funes estimveis linearmente independentes de . Assim Z = X
e podemos escrever
Z = ZU
= X
(11.30)
(11.31)
1
SQRes
(y Z )(y Z ) =
nk
nk
(11.32)
tambm so iguais, Z = X
,e
Desde que Z = X
, os estimadores Z e X
(11.33)
O conjunto U
= somente um conjunto de funes estimveis e linearmente
= um outro conjunto de funes estimveis e linearmente
independentes. Seja V
independentes. Ento existe uma matriz W tal que y = W
+ . Agora, uma funo
estimvel
pode ser expressa como uma funo de ou de :
= b = c
Ento
.
= b = c
(11.34)
205
Exemplo 11.4. Ns ilustraremos uma reparametrizao para yij = + i + ij, i = 1, 2 e
j = 1, 2. Na forma matricial, o modelo pode ser escrito como
1
1
y = X
+ =
1
1 0
1 0
0 1
0 1
11
+ 12
1 21
2
22
Desde que X tem posto 2, existem duas funes estimveis e linearmente independentes (ver Teorema 11.2C). Podemos escolher essas funes de diversas maneiras,
uma das quais + 1 e + 2. Assim:
1 + 1 1 1 0
= =
=
1 = U
2 + 2 1 0 1
2
1
1
Para reparametrizar em termos de , podemos usar Z =
0
0
1
1
de tal modo que: Z =
0
0
0
0
1 + 1
0 1 1 + 1
= X.
= =
1 2 2 + 2
1
2 + 2
Note que a matriz Z pode ser obtida diretamente usando (11.31). fcil verificar que
ZU = X:
1
1
ZU =
0
0
1
0 1 1 0 1
=
1 1 0 1 1
1
1
1 0
1 0
=X
0 1
0 1
206
for uma funo estimvel de , ela pode ser expressa como uma combinao linear
das linhas de XX e no contribuir em nada para a deficincia de posto de X ou
de XX
= Xy.
para obter um vetor soluo
Importante: as condies marginais devem ser funes no estimveis de .
y X
=
+
0 T
0
(11.35)
[X'
X
y
T']
= [X' T']
T
0
(11.36)
[X'
-1
y
T'] = (XX + TT) Xy
0
(11.37)
(11.38)
207
Exemplo 11.5. Consideremos o modelo yij = + i + ij, i = 1, 2, j = 1, 2, como no
Exemplo 11.4. No Problema 11.5(b) ser mostrado que a funo 1 + 2 no estimvel. A condio marginal 1 + 2 = 0 pode ser expressa como [0 1 1] = 0 e a
matriz (XX + TT) calculada como:
4 2 2 0
4 2 2
XX + TT = 2 2 0 + 1 [0 1 1] = 2 3 1
2 0 2 1
2 1 3
ento
2 1 1
1
(XX + TT) = 1 2 0
4
1 0 2
-1
Com Xy = [ y
y1
= (XX + TT)1Xy
2 1 1 y
1
= 1 2 0 y1
4
1 0 2 y 2
2 y y1 y 2
y
1
=
2 y1 y
= y1 y
4
y 2 y
2 y 2 y
(11.39)
em (11.39) tambm
porque y1 + y2 = y e yi = yi / 2 . Para mostrar que
= Xy, basta verificar que:
soluo do sistema de equaes normais XX
4 2 2 y y
2 2 0 y y = y
1
1
2 0 2 y 2 y y 2
ou
4 y + 2( y1 y ) + 2( y 2 y ) = y
2 y + 2( y1 y ) = y1
2 y + 2( y 2 y ) = y 2
Simplificando temos:
2 y1 + 2 y 2 = y , 2 y1 = y1 e 2 y 2 = y 2
e a igualdade se verifica porque: y1 = y1 /2, y 2 = y 2 /2 e y1 + y 2 = y /2.
208
A seguir consideraremos hipteses sobre os s no modelo y = X + , onde X n x
p de posto k < p n. Nesta seo assumiremos que y ~ Nn(X, 2 I).
1t = (q 1)1 (2 + 3 + ... + q)
t2 = (q 2)2 (3 + ... + q)
M
tq 1 = q1 q.
Esses q 1 contrastes constituem um conjunto de funes estimveis e linearmente
independentes tais que
1
1t (q - 1)
1
1 L 1 1 2 0
t
(q 2) 1 L 1 1 3 0
2 = 0
=
M M
M
M
M
M M M
t
0
0 L 1 1 q 1 0
q 1 0
q
se e somente se 1 = 2 = ... = q.
c
i
um contraste se
=0
209
Para ilustrar hipteses testveis, suponha que temos um modelo
yij = + i + j + ij para i = 1, 2, 3 e j = 1, 2, 3,
e a hiptese de interesse H0: 1 = 2 = 3. Tomando combinaes lineares das linhas
de X, ns obtemos as duas funes estimveis linearmente independentes 1 2 e
1 + 2 23. A hiptese H0: 1 = 2 = 3 verdadeira se e somente se 1 2 e
1 + 2 23 forem simultaneamente iguais a zero. Portanto H0 uma hiptese testvel e equivalente a:
1 2 0
H0:
=
1 + 2 2 3 0
(11.40)
1t 0
t
0
H0: 1 = 2 =
M M
t
t 0
Tambm possvel encontrar:
tt +1
2 = M
t
k
tais que as k funes 1t , t2 , ..., tt , tt +1 , ...., tk so estimveis e linearmente
independentes, onde k = posto(X). Seja
= 1.
2
Agora, ns podemos reparametrizar o modelo de posto incompleto y = X + para o
modelo de posto completo:
210
y = Z + = Z11 + Z22 + ,
onde Z = [Z1 M Z2] particionada conforme o nmero de elementos em 1 e 2.
Para a hiptese H0: 1 = 0, o modelo reduzido y = Z2 2 + *. Pelo Teorema
7.10A, a estimativa de 2 no modelo reduzido a mesma estimativa de 2 no modelo
completo se as colunas de Z2 forem ortogonais s colunas de Z1, isto , se Z2Z1 = 0.
Para os modelos balanceados, que ns consideramos neste captulo, a ortogonalidade
geralmente se verifica. Deste modo, usaremos 2 e 2 , ao invs de 2 e 2 .
Desde que y = Z + um modelo de posto completo, a hiptese H0: 1 = 0
pode ser testada como na Seo 8.2. Os resultados so apresentados na Tabela 11.2,
que anloga Tabela 8.3. Note que o nmero de graus de liberdade, t, associado
SQ(1 | 2), igual ao nmero de funes estimveis e linearmente independentes necessrias para expressar a hiptese H0.
g.l.
Somas de quadrados
Devida a 1 ajust. 2
SQ(1 | 2) = Zy t2 Z2y
SQ( 1 | 2 ) t
SQRes (n k )
Resduo
nk
SQRes = yy Zy
Total
n1
SQT = yy n y 2
Z + e a soma de quadrados '2 Z2y, no modelo reduzido y = Z2 2 + *, que assume que a hiptese H0: 1 = 0 verdadeira. Esse procedimento envolvendo a reparametrizao bastante interessante, mas na prtica a obteno da matriz Z pode consumir muito tempo. Veremos que esse passo pode ser evitado. De (11.20) e (11.33),
ns temos que:
Xy = yy Zy
yy
de onde obtemos:
Xy = Zy
(11.41)
211
X2y = Z2y
2
2
(11.42)
e .
2
g.l.
Somas de quadrados
Devida a 1 ajust. 2
Xy
X2y
SQ(1 | 2) =
2
SQ(1 | 2 ) t
SQRes (n k )
Resduo
nk
Zy
SQRes = yy
Total
n1
SQT = yy n y 2
212
= (C)[C(XX) C] C/22.
c1t
t
c
(i) Desde que C = 2 um conjunto de m funes estimveis linearmente inde M
t
c m
pendentes, ento pelo Teorema 11.2B(iii) ns temos que ci(XX) XX = ci, para
i = 1, 2, ..., m. Ento
C(XX) XX = C
(11.43)
que pode ser escrita como o produto [C(XX) X]X = C. Ento, ns podemos usar
o Teorema 2.4A(i) para obter a desigualdade:
posto(C) = posto[C(XX) X]
= posto[C(XX) X][C(XX) X]
= posto[C(XX) XX(XX) C]
posto(C) = posto[C(XX) C]
213
) = CE(
) = C(XX) XX
E(C
) = C
E(C
(11.44)
) = C cov(
) C = 2C(XX) XX(XX) C
cov(C
Por (11.43),
) = 2C(XX) C
cov(C
(11.45)
1
e SQRes so independentes [ver Seber (1977, pg.17-18) para
[C(XX) C] C
uma prova que funes contnuas de variveis aleatrias independentes e vetores
so independentes]. Para uma prova mais formal, veja o Problema 8.4B.
SQH / m
SQRes / (n k)
1
(
C )' [C( X' X) C'] (C ) m
=
SQRes (n k )
(11.46)
214
yij = + i + j + ij,
i = 1, 2, 3 e j = 1, 2
e que estejamos interessados em testar H0: 1 = 2 = 3 e H0: 1 = 2. As seis observaes podem ser escritas na forma y = X + como
y11 1
y 1
12
y 21 1
=
y 22 1
y31 1
y 32 1
1 0 0 1 0 11
1 0 0 0 1 1 12
0 1 0 1 0 2 21
+
0 1 0 0 1 3 22
0 0 1 1 0 1 31
0 0 1 0 1 2 32
(11.47)
6
2
2
XX =
2
3
2 2 2 3 3
2 0 0 1 1
0 2 0 1 1
0 0 2 1 1
1 1 1 3 0
1 1 1 0 3
e o posto de X e de XX igual a 4.
1 2 = [0, 1, 1, 0, 0, 0] = 1
e ento ns notamos que 1 pode ser obtida de X como
[1, 0, 1, 0, 0, 0]X = [0, 1, 1, 0, 0, 0]
e de XX como
[0, 1/2, 1/2, 0, 0, 0]XX = [0, 1, 1, 0, 0, 0]
Alternativamente, ns podemos obter 1 2 como uma combinao linear das
linhas de E(y) = X:
215
2 0
H0: 1
=
1 3 0
Para comprovar que as duas funes 1 = [0 1 1 0 0 0] = 1 2 e 2
= [0 1 0 1 0 0] = 1 3 so estimveis, bastaria mostrar que:
6
2
2
3
2 2 2 3 3
2 0 0 1 1
0 2 0 1 1
0 0 2 1 1
1 1 1 3 0
1 1 1 0 3
y
y
1 1
2 y2
=
3 y3
1 y1
2 y 2
(11.48)
= y
onde y =
1 = y1 y ,
2 = y2 y ,
1 = y1 y ,
2 = y 2 y
ij yij
6 , yi =
j yij
2 e y j =
3 = y3 y
i yij
(11.49)
3 para i = 1, 2, 3 e j = 1, 2.
216
Se impusermos as condies sobre os parmetros e as estimativas, as equaes
(11.49) fornecem estimativas nicas de parmetros com significado nico. Assim, por
exemplo, 1 passa a ser 1 = 1 , o desvio esperado da mdia devida ao tratamento 1 e y1 y uma estimativa razovel. Por outro lado, se as condies forem
usadas somente para obter estimativas e no forem impostas sobre os parmetros,
ento 1 no nico e y1 y no estima um parmetro. Neste caso 1 = y1 y
[como dado por (11.49)] para
pode ser usado somente com outros elementos em
de funes estimveis .
obter estimativas
Ns procederemos como exposto na Tabela 11.3 para testar H0: 1 = 2 = 3.
Primeiramente, para o modelo completo, precisamos calcular SQ(, 1, 2, 3, 1, 2)
Xy, que denotaremos por SQ(, , ). Por (11.48) e (11.49), obtemos:
=
Xy =
SQ(, , ) =
1
y
y
L 2 1
M
y 2
2
y2 3 yi2 y2 2 y j y2
SQ(, , ) =
+
+ 3 6
2
6
6
i
1
=
j =1
(11.50)
ij
yij2
2
y2 3 yi2 y2 2 y j y2
3 6
2
6
6
i =1
j =1
6 3 3 y
3 3 0 = y
1 1
3 0 3 2 y 2
(11.51)
217
2
y2 2 y j y2
SQ(, ) = 2 X2y =
+
j =1 3
6
6
(11.53)
6
i =1 2
(11.54)
g.l.
Somas de quadrados
Devida a ajust. ,
3 yi2 y2
SQ( | , ) =
2
6
i =1
Resduo
SQRes =
SQT =
Total
yij2
( y
2
i i
2 y2 6 2
SQRes 2
Xy
ij
yij2
ij
y2
6
Esses resultados esto resumidos na Tabela 11.4, observando que no foi includa a
soma de quadrados SQ( | , ).
x11 x1
x x
1
Xc = I J X1 = 21 1
M
n
xn1 x1
x12 x2 L x1k xk
x22 x2 L x2 k xk
M
M
xn 2 x2 L xnk xk
218
2
3
2
3
1
3
1
3
1
3
1
[j, Xc] =
1
1
3
1
3
2
3
2
3
1
3
1
1
1
3
2
1
1
3
2
1
1
3
2
1
1
3
2
2
1
3
2
2
1
3
2
1
2
1
2
1
2
1
2
1
2
1
(11.55)
yijk = + i + j + ij + ijk, i = 1, 2,
j = 1, 2, k = 1, 2
(11.56)
y122 = 1
y 211 1
y 212 1
y 1
221
y 222 1
1
1
1
1
0
0
0
0
0
0
0
0
1
1
1
1
1
1
0
0
1
1
0
0
0
0
1
1
0
0
1
1
1
1
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
1
1
0
0
0 111
1
0 112
2
0 121
1
0 122
2 +
0 211
11
0 212
12
1 221
21
1 222
22
(11.57)
219
)
8 + 4( 1 + 2 ) + 4( 1 + 2 ) + 2( 11 + 12 + 21 + 22 ) = y
)
4 + 4 i + 2( 1 + 2 ) + 2( i1 + i 2 ) = yi ,
i = 1, 2
)
4 + 2( 1 + 2 ) + 4 j + 2( 1 j + 2 j ) = y j ,
j = 1, 2
)
2 + 2 i + 2 j + 2 ij = y ij ,
i = 1, 2,
(11.58)
j = 1, 2
A soluo das equaes em (11.58) ser simplificada pelas seguintes condies marginais:
1 + 2 = 0,
1 + 2 = 0
i1 + i 2 = 0,
i = 1, 2
1 j + 2 j = 0,
j = 1, 2.
(11.59)
2 = 1,
2 = 1 ,
12 = 11,
21 = 11,
22 = 11.
(11.60)
= + 1 1 11 + 12k, k = 1, 2
220
y21k = + 2 + 1 + 21 + 21k
= 1 1 11 + 21k, k = 1, 2
y22k = + 2 + 2 + 22 + 22k
= 1 1 + 11 + 22k, k = 1, 2
A matriz redefinida X fica:
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
que uma matriz de posto completo com colunas ortogonais. Os mtodos apresentados nos Captulos 7 e 8 podem ser usados para estimao e teste de hipteses.
Exerccios: ver pg. 296-299 do livro do Rencher.
221
i = 1, 2, ..., k , j = 1, 2, ..., n
(12.1)
Se 1, 2. ..., k representam os efeitos de k tratamentos, cada um aplicado a n unidades experimentais, ento yij a resposta da j-sima observao dentre as unidades que
receberam o i-simo tratamento. Por exemplo, num experimento agrcola, os tratamentos podem ser diferentes tipos de fertilizantes ou diferentes quantidades de um
certo fertilizante. Por outro lado, em algumas situaes experimentais, os k grupos
podem representar amostras de k populaes cujas mdias ns desejamos comparar,
populaes que no so criadas pela aplicao de tratamentos. Por exemplo, suponha
que desejamos comparar o tempo mdio de vida de diversas marcas de baterias.
As trs suposies que fazem parte do modelo so:
1. E(ij) = 0 para todo i, j;
2. var(ij) = 2 para todo i, j;
3. cov(ij, rs) = 0 para todo (i, j) (r, s).
Muitas vezes ns adicionamos a suposio que:
4. ij ~ N(0, 2).
Adicionalmente, tambm usamos as restries (condies marginais):
5.
i=1 i = 0.
k
i = 1, 2, ..., k , j = 1, 2, ..., n
(12.2)
222
12.2 FUNES ESTIMVEIS
Para ilustrar o modelo (12.1) na forma matricial, seja k = 3 e n = 2. As seis equaes
resultantes, yij = + i + ij, i = 1, 2, 3 e j = 1, 2, podem ser expressas como:
y11
+ 1 11
1
y
+
1
1
12
12
y 21
+ 2 21
1
+ =
=
y 22
+ 2 22
1
y31
+ 3 31
1
1
y32
+ 3 32
1
1
0
0
0
0
0
0
1
1
0
0
0
0
0
0
1
11
12
1 + 21
2 22
31
3
32
(12.3)
k
i =1
+ i
i =1
= +
i =1
(12.4)
Ento, de i = + i , ns temos:
i = i = i
(12.5)
223
y 1 j j 0 L 0 1
y j 0 j L 0 1
2 =
2 + 2
M M M M
M M
M
y k j 0 0 L j k
k
(12.6)
ou
y = X +
onde j e 0 tm dimenses n x 1, e yi e i, so definidos como
yi1
y
yi = i 2 e i =
M
yin
i1
i2
M
in
M
n
onde y =
ij yij
e y i =
n n L n
n 0 L 0
0 n L 0
M M
M
0 0 L n
y
y
1 1
2 = y 2
M M
k y k
(12.7)
j yij .
y
= y
kn
(12.8)
e i =
yi
= yi y ,
n
i = 1, 2, ..., k
(12.9)
224
y
= y1 y
y k y
Se a condio
(12.10)
sero
Pelo Teorema 11.3D, tais estimadores so BLUE. Se ij ~ N(0, 2), ento pelo Teorema 11.3H, os estimadores so estimadores no viesados de varincia mnima.
(XX) =
M
M
M
0 0 L 1 / n
(12.11)
Ento por (11.13) e (12.7), uma soluo para as equaes normais obtida por:
0
= (XX)Xy = y1
M
yk
(12.12)
Os estimadores em (12.12) so diferentes daqueles em (12.10), mas eles fornecem as mesmas estimativas de funes estimveis. Por exemplo, usando de (12.12)
para estimar = 1 2, obtemos:
= 1 2 = y1 y 2
que a mesma estimativa que aquela obtida na Seo 12.3.1a usando de (12.10).
225
12.3.2 Um estimador para 2
s2 =
SQRes
yij2
ij
yij2
yi yi
i =1 j =1
i =1
yi2
n
(12.13)
Podemos mostrar ainda (ver Problema 12.3) que (12.13) pode ser escrito como:
SQRes =
(yij yi )2
(12.14)
ij
ij (yij yi )
s2 =
(12.15)
k (n 1)
ij yij2 i yi2
k (n 1)
(12.16)
226
(12.17)
H0: 1 = 2 = ... = k
(12.18)
equivalente a
(12.19)
O modelo completo, yij = + i + ij, para i = 1, 2, ..., k e j = 1, 2, ..., n, expresso na forma matricial como y = X + . Se o modelo completo escrito em termos de e i , como yij = + i + ij, ento o modelo reduzido sob H0 em (12.19)
yij = +ij. Na forma matricial, temos y = j + , onde j kn x 1. Para ser consistente com o modelo completo y = X + , ns escrevemos o modelo reduzido como
y = j +
(12.20)
SQ(, ) = Xy =
i n
onde a soma de quadrados SQ(, 1, 2, ..., k) abreviada para SQ(, ). Para o mo
delo reduzido em (12.20), o estimador = (XX) Xy e a soma de quadrados
Xy so dados por:
y
1
= (jj) jy = = y
(12.21)
kn
y2
jy
SQ() = = y y =
(12.22)
kn
onde j kn x 1. Da Tabela 11.3, a soma de quadrados para os s ajustada para
dada por:
SQ( | ) = SQ(, ) SQ() =
= n ( yi y )2
yi2
y2
n
kn
(12.23)
(12.24)
i =1
227
g.l.
k1
Somas de quadrados
SQ( | ) =
Resduo
k(n 1) SQRes =
yi2
y2
n
kn
yij2
ij
Total
kn 1 SQT =
yij2
ij
yi2
n
Q.M.
SQ( | )
k 1
QM ( | )
QMRes
SQRes
k ( n 1)
y2
kn
Para facilitar a comparao de SQ( | ) em (12.23) com o resultado da abordagem da hiptese linear geral na Seo 12.4.2, ns vamos expressar SQ( | ) como
-1
SQ( | ) = Xy = yX(XX) Xy yj(jj) jy
kn
jj'
= yX(XX) Xy y y
kn
= y X( X' X) X' J kn y
kn
(12.25)
onde j kn x 1. Usando alguns resultados da resposta do Problema 12.3, podemos expressar (12.25) como:
J 0 L 0
J J L J
1 0 J L 0 1 J J L J
SQ( | ) = y
(12.26)
y
M kn M M
M
n M M
0 0 L J
J J L J
(k 1) J
1 J
=
y
kn M
J
L
(k 1) J L
M
J
L
J
J
y
M
(k 1) J
(12.27)
228
Totais ( yi )
14.29
19.10
19.09
16.25
15.09
16.61
19.63
120.06
20.06
20.64
18.00
19.56
19.47
19.07
18.38
135.18
20.04
26.23
22.74
24.04
23.37
25.02
23.27
164.71
Mdias ( yi )
17.15
19.31
23.53
y2
= 8398,0001,
(3)(7)
yi2
7 = 8545,3457
i =1
3
yij2
= 8600,3127.
i =1 j =1
SQRes =
yij2
i =1 j =1
SQTotal =
i =1 j =1
yi2
7 = 8600,3127 8545,3457 = 54,9670
i =1
3
yij2
y2
= 8600,3127 8398,0001 = 202,3126
(3)(7)
Essas somas de quadrados podem ser usadas para obter um teste-F, como mostrado na Tabela 12.3. O pvalue para F = 24,1256 8,0710-6 (que geralmente indicado como p < 0.0001). Assim, ns rejeitamos a hiptese H0: 1 = 2 = 3, de que as
mdias dos trs mtodos so iguais.
Tabela 12.3 Anlise de varincia para os dados de cido Ascrbico da Tabela 12.2
Fonte de Variao
g.l.
S.Q.
Q.M.
Mtodo
147,3456
73,6728
Resduo
18
54,9670
3,0537
Total
20
202,3120
F
24,1256
229
(12.28)
0 1 1 1 1
0 1 1 0 0
0 0 0
1 1
(12.29)
0 1 1 0 0 0
1
C(XX) C = 0 1 0 1 0 0
n
0 1 0 0 1 0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0 0 0
1 1 1
1 0 0
0 1 0
0 0 1
2 1 1
1
C(XX) C = 1 2 1
n
1 1 2
(12.30)
230
1
C(XX) C =
n
1 0 0 1 1 1
1
0 1 0 + 1 1 1 = (I3 + j3 j3)
0 0 1 1 1 1 n
I 31 j3 j3 ' I 31
1
[C(XX) C] = n I 3
=
n
I
J3
3
1
1
+
j
'
I
j
3 3 3
(12.31)
0'
jn ' jn ' 0'
1
1
C(XX) X = jn ' 0' jn ' 0' = A
n
n
jn ' 0'
0' jn '
(12.32)
1
1
AI3A
AJ3A
n
4n
(12.33)
jn
1
1 j n
AA =
n
n 0
jn
0
jn
0
jn
0
0
jn
3J n
1
1 J n
AA =
n
n J n
J n
Jn
Jn
0
0
Jn
0
Jn
0
0'
jn ' jn ' 0'
j ' 0' j ' 0'
n
n
jn ' 0'
0' jn '
Jn
0
0
Jn
(12.34)
pois jnjn = Jn e jn 0 = 0, onde 0 n x n. De modo similar (ver Problema 12.10) o segundo termo de (12.33) dado por:
9Jn
1
1 3 J n
AJ3A =
4n
4n 3 J n
3 J n
3Jn
Jn
Jn
Jn
3Jn
Jn
Jn
Jn
3Jn
J n
Jn
Jn
(12.35)
231
Ento (12.33) pode ser escrito como:
12 J n
1
1
1 4 J n
AJ3A =
(4AA)
4n
4n
4n 4 J n
4 J n
4Jn
4Jn
0
0
4Jn
0
4Jn
0
4Jn
0
0
4Jn
9Jn
1 3 J n
4n 3 J n
3 J n
3Jn
Jn
Jn
Jn
3Jn
Jn
Jn
Jn
3Jn
J n
Jn
Jn
3J n
1 J n
=
4n J n
J n
Jn
3J n
Jn
Jn
Jn
Jn
3J n
Jn
Jn
J n
1
B
=
J n 4n
3J n
(12.36)
Vale notar que a matriz para SQHip em (12.36) a mesma matriz para SQ( | ) em
(12.27) com k = 4.
Para completar, ns expressaremos SQHip em (12.29) em termos dos yijs. Comearemos escrevendo (12.36) na forma:
4 J n
1
1 0
B =
4n
4n 0
0
J n
1
10
B=
4n
n0
0
Jn
0
0
0
4Jn
0
0
0
0
Jn
0
0
0
4Jn
0
0
J n
0 1 J n
0 4n J n
4Jn
J n
Jn
Jn
Jn
Jn
Jn
Jn
Jn
Jn
Jn
J n
Jn
Jn
0
0
1
J4n
0 4n
Jn
Usando y = [y1, y2, y3, y4] como definido em (12.6), SQHip em (12.29) igual a:
1
SQHip = yX(XX) C[C(XX) C] C(XX) Xy = y B y
4n
J n
0
1
= [y1, y2, y3, y4]
0
n
0
Jn
0
0
0
0
Jn
0
0
0
0
Jn
y1
y
2 1 yJ4n y
y 3 4n
y 4
232
1
SQHip =
n
=
1
n
1
1
y i ' J n y i 4n yJ4n y = n
i =1
4
yi2
i =1
y i ' jn jn ' y i
i =1
1
yj4n j4ny
4n
1 2
y
4 n
i , tais que
i=1 i = 0.
k
g.l.
S.Q.
Tratamentos
k1
SQ( | )
k(n 1)
SQRes
Resduo
Total
kn 1
ij
yij2
E(Q.M.)
Q.M.
SQ( | )
k 1
SQRes
k ( n 1)
2 +
2
n k 2
i
k 1 i =1
y2
kn
233
(12.37)
que j foi provado no Teorema 11.3E(i). Usando uma abordagem modelo completo
versus modelo reduzido, a soma de quadrados para os s ajustado para dada por
(12.25). Assim
(12.38)
= 2 tr[X(XX) X] + XX(XX) XX
= 2 tr[X(XX) X] + XX
(12.39)
(12.40)
i=1 i = 0. Ento
k
k
1
XX = n[ , 1 , 2 , ..., k ] 1
M
1
1
1
0
M
0
1
0
1
M
0
L 1
L 0
L 0
M
L 0
1
M
k
= n k + i i , + 1 , L , + k
1
M
k
2
2
2
= n k + ( + i ) i = n k + i + i
i
i
XX
= kn + n i
(12.41)
E[yX(XX) Xy] = k2 + kn + n i
i
(12.42)
234
Para o segundo termo do lado direito de (12.38), ns obtemos:
1
1
E y' J kn y = 2tr J kn + X J kn X
kn
kn
kn
2
kn
1
=
+
Xjkn( jkn)X
kn
kn
1
= 2 +
(Xjkn)( jknX)
kn
(12.43)
jn
j
jknX = [jn, jn, ..., jn] n
M
jn
jn
0
M
0
1
M
k
0 L 0
jn L 0
M
M
0 L jn
= [kn, n, n, ..., n] 1
M
k
(Obs: jnjn = n)
= kn + n i =1 i = kn
(Obs:
i=1 i
k
= 0)
2
1
1
k 2n2
2
(Xjkn)( jknX) =
( jknX) =
= kn
kn
kn
kn
e (12.43) fica:
2
1
E y' J kn y = 2 + kn
kn
(12.44)
E[SQ( | )] = 2 tr[X(XX) X] + XX 2
2
1
(Xjkn)( jknX)
kn
2
= k2 + kn + n i (2 + kn )
i
= (k 1)2 + n i
i
(12.45)
235
1
SQHip = (C )[C(XX) C] (C )
1 4 2
1 2
y i
y em (12.23). Note que para k = 4, C
n i =1
4 n
3 x 5 [ver (12.28)] e C(XX) C 3x3 [ver (12.30)]. Para obter E[SQ( | )], notamos, primeiramente, que por (11.44), (11.45) e (12.31), E(C ) = C, cov(C ) =
1
1
E[SQ( | )] = E{(C )[C(XX) C] (C )}
1
= tr{[C(XX) C] cov(C )} + [E(C )][C(XX) C] E(C )
= 2tr(I3) + n
C I 3 J 3 C
4
= 32 + n
C' C C' J 3C
4
(12.46)
0 0 0 0 0
0
3 1 1 1
CC = 0 1 1 0 0
1 0
0 1 0
0 1 0 0
1
(12.47)
0
0
0
0
0
0
9 3 3 3
CJ3C = 0 3
1
1
1
1
1
1
0 3
0 3
1
1
1
(12.48)
236
0 0 0 0 0
0
3 1 1 1
1
1
0 1 3 1 1
CC CJ3C =
4
4
0 1 1 3 1
0 1 1 1 3
0
0
1
= 0
4
0
0
0
4
0
0
0
0
0
4
0
0
0
0
0
4
0
0
0 0
0 1
0
1
0 0 1
4
0
0 1
0 1
4
0
1
1
1
1
0
1
1
1
1
0
1
1
1
1
0 0' 1 0 0'
=
0 I 4 4 0 J 4
Desse modo, o segundo termo do lado direito de (12.46) dado por:
0 0'
0 0'
1
1
n
C' C C' J 3C = n
0 J
4
4
0 I 4
0 0' 1
= n[ , 1 , 2 , 3 ]
0 I 4 2
3
= n i
i
= n i ,
i
0 0'
1
n[ , 1 , 2 , 3 ]
4
0 J 4
1
n0
4
i i i i i i ]
pois
1
2
3
1
2
3
i=1 i = 0
k
(12.49)
237
Este resultado para o caso especial de k = 4. Para um nmero genrico de tratamentos, k, ns temos:
E[SQ( | )] = (k 1)2 + n i
12.6 CONTRASTES
i=1 ci i
k
desde que:
i=1 ci i
k
i=1 ci ( + i ) = i=1 ci
k
i=1 ci i
k
i=1 ci i
k
i=1 ci i = 0
k
ou
H0:
i=1 ci i = 0
i=1 ci
k
(12.50)
H0: 31 2 3 4 = 0
pode ser escrita como:
H0: 1 =
1
(2 + 3 + 4)
3
238
1
(
c' )' [c' ( X' X) c] (c' )
F =
=
SQRes / k (n 1)
(c' )2
(12.51)
s 2 i =1 ci2 n
k
2
k
c
y
i
i
i =1
,
k
2
2
s
c n
i =1 i
(12.52)
( )2
c' (X' X ) c ou n
2
k
c
y
i
i
i =1
i =1 ci2 .
k
(12.53)
Pelo Teorema 11.3C, cov(ci, cj) = 2 ci(XX) cj. Por (12.11), (XX) =
diag(0, 1/n, 1/n, ..., 1/n), ento:
(12.54)
(assumindo que o primeiro elemento de ci zero para todo i). Por um argumento similar ao utilizado nas provas dos Teoremas 5.6B e 11.6B(v), as somas de quadrados
2
1
mutuamente ortogonais, ento SQHip = (C )[C(XX) C] (C ) pode ser particionada como:
2
k 1
ci '
SQHip =
(12.55)
(
)
i =1 c i ' X' X ci
2
( )
239
Prova: Por (12.54), C(XX) C uma matriz diagonal com ci(XX) ci, i = 1, 2, ...,
k1, na diagonal. Assim, com (C ) = [c1 , c2 , ..., ck1 ], segue (12.55).
Desde que as linhas c1, c2, ..., ck1 de C so ortogonais, a independncia das
somas de quadrados dos contrastes segue de (12.53) e (12.54)
21 2 3 = 21 2 3 = [0, 2, 1, 1]
= c1
2 3 = 2 3 = [0, 0, 1, 1]
= c2
As hipteses H01: c1 = 0 e H02: c2 = 0, comparam o primeiro tratamento com
os outros dois e o segundo tratamento com o terceiro, respectivamente. As mdias
dos tratamentos so dadas na Tabela 12.2 como y1 = 17.15, y 2 = 19.31 e y3 =
23.53. Por (12.52), as somas de quadrados para os dois contrastes so:
SQ1 =
n i =1 ci yi
k
i=1 ci2
k
7[19.31 23.53]
SQ2 =
= 62.2872
1+1
Por (12.52), as estatsticas F correspondentes so:
F1 = SQ1/s2 = 85.0584/3.0537 = 27.85
F2 = SQ2/s2 = 62.2872/3.0537 = 20.40
(12.56)
240
onde cada A, B, ... idempotente. Por exemplo, consideremos um modelo com dois
fatores (two-way) e com interao como em (1.5) e (11.56),
yijk = + i + j + ij + ijk
(12.57)
i = 1, 2, ..., a,
j = 1, 2, ..., b
k = 1, 2, ..., n
Para este modelo, a soma de quadrados total pode ser expressa como:
J
yy = y
y + yAy + yBy + yCy + yDy
(12.58)
abn
onde y(J/abn)y = SQ(), yAy devida ao fator A, yBy devida ao fator B, yCy
devida interao e yDy = SQRes.
Agora, vamos mostrar que cada uma das formas quadrticas em (12.56) ou
(12.58), podem ser particionadas em somas de quadrados independentes devidas a
contrastes ortogonais.
Teorema 12.6B. Seja yAy representando uma das formas quadrticas em (12.56),
seja A uma matriz simtrica e idempotente de posto r, seja N = abn e seja o vetor
aleatrio Nx1 y ~ NN(X, 2I). Ento existem r matrizes idempotentes A1, A2, ..., Ar
tais que A = A1 + A2 + ... + Ar, posto(Ai) = 1 para i = 1, 2, ..., r e AiAj = 0, para i j.
Alm disso, yAy pode ser particionado como
yAy =
y' A i y
(12.59)
i =1
2
onde cada yAi y ~ (1, i) e yAi y e yAj y so independentes para i j (note que i
um parmetro de no-centralidade).
Prova: Desde que A N x N de posto r e simtrica e idempotente, ento pelo Teorema 2.13C, r de seus autovalores so iguais a 1 e os outros N k, iguais a zero.
Usando a decomposio espectral (2.103), ns podemos expressar A na forma:
A=
vi vi ' =
Ai
i =1
i =1
(12.60)
241
tais como yAy so ortogonais a j. Usando (12.60), ns podemos escrever yAy na
forma:
yAy =
y' Ai y =
(vi ' y )2
i =1
i =1
i =1
Desde que cada vi ortogonal ao autovetor j de SQ(), ns temos que vij = 0. Como
os elementos de vi somam zero, viy um contraste dos elementos de y.
No caso balanceado que ns estamos considerando nesta seo, um contraste
viy dos elementos de y equivalente a um contraste das mdias dos tratamentos.
Esses contrastes so ortogonais porque os autovetores (vi) de matrizes simtricas, tal
como A, so ortogonais [ver Teorema 2.12C(ii)].
Exemplo 12.6.2(b). Usando um modelo com um fator, ns mostraremos que contrastes ortogonais de mdias de tratamentos podem ser expressos em termos de contrastes das observaes e que os coeficientes desses contrastes formam autovetores. Por simplicidade de exposio, usaremos k = 4. O modelo fica:
yij = + i + ij,
i = 1, 2, 3, 4,
j = 1, 2, ..., n
kn
kn
c2 = [0, 1, 1, 2, 0]
e
c3 = [0, 1, 1, 1, 3]
,
onde = [, 1, 2, 3, 4]. Assim, ns comparamos a mdia do primeiro tratamento com a do segundo; a mdia dos dois primeiros tratamentos com a do terceiro; e a mdia dos trs primeiros tratamentos com a do ltimo, respectivamente.
Usando o formato de (12.55), ns podemos escrever esses trs contrastes como:
c1'
c1' (X' X ) c1
c 2 '
c 2 ' (X' X ) c 2
c3 '
c3 ' (X' X ) c3
y1 y2
2/ n
y1 + y2 2 y3
6/ n
y1 + y2 + y3 3 y4
12 / n
242
Para escrever essas quantidades na forma v1y, v2y e v3y (contrastes dos yijs
ao invs de contrastes das mdias yi s), ns podemos iniciar com:
y1 y2
=
2/ n
1
2/ n
n y
n y1 j
2j
j =1 n
j =1 n
1
[1, 1, ..., 1, 1, 1, ..., 1, 0, 0, ..., 0]y
2/ n
= v1y
onde o nmero de 1s em v1y n, o nmero de 1s n e o nmero de 0s 2n.
1
[jn, jn, 0, 0] e v1v1 = 2n/2n = 1. Similarmente, temos que v2
Assim v1 =
2/ n
1
1
=
[jn, jn, 2jn, 0] e v3 =
[jn, jn, jn, 3jn].
6/ n
12 / n
A seguir mostraremos que v1, v2 e v3 servem como autovetores na decomposio espectral [ver (2.103)] da matriz A em SQ( | ) = yAy. Desde que A idempotente de posto 3, tem trs autovalores iguais a 1. A decomposio espectral de A :
A = v1v1 + v2v2 + v3v3
jn
jn
j
1 n
1 jn
[jn, jn, 0, 0] +
[jn, jn, 2jn, 0]
=
2n 0
6 n 2 jn
0
0
jn
1 jn
+
[jn, jn, jn, 3jn]
12n jn
3 jn
Jn
1 J n
=
2n 0
Jn
Jn
0
0
0 0
Jn
0 0 1 J n
+
0 0 6 n 2 J n
0 0
0
Jn
2 Jn
Jn
2 Jn
2 Jn
4 Jn
0
0
0
243
Jn
1 Jn
+
12n J n
3 J n
3 Jn
1 Jn
A=
4n J n
J n
Jn
Jn
Jn
Jn
Jn
Jn
3Jn
3 Jn
Jn
Jn
3Jn
Jn
Jn
3 Jn
Jn
Jn
3Jn
3 J n
3Jn
9 Jn
Jn
J n
Jn
3Jn
que coincide com a matriz ncleo da forma quadrtica para SQ( | ) em (12.27) com
k = 4. Para SQ() = y2 /4n, ns temos que:
y2
2
j j '
= y 4n 4 n y = (v0y)
4n
4n
onde v0 = j4n/2 n . Pode ser mostrado facilmente que v0v0 = 1 e que v0v1 = 0. Tambm claro que v0 um autovetor de j4nj4n/4n, porque j4nj4n/4n tem um autovalor
igual a 1 e os outros iguais a zero, tal que j4nj4n/4n j est na forma da decomposio
espectral com j4n/2 n como o autovetor correspondente ao autovalor 1 [ver Problema 12.17(b)].
(12.61)
j = 1, 2, ..., n
yij = + i + ij = i + ij,
i = 1, 2, ..., k , j = 1, 2, ..., n
(12.62)
244
onde do modelo completo em (12.61) e 1 do modelo reduzido com 3 = 0 [ver
(8.9), (8.20) e Tabela 8.3].
A matriz X da representao matricial do modelo da forma:
1 x1 x12 x13
M
M
M M
1 x x 2 x 3
1
1
1
2
3
1
x
x
x
2
2
2
M M
M
M
2
3
1 x2 x2 x2
X=
2
3
1
x
x
x
3
3
3
M M
M
M
2
3
1 x3 x3 x3
1 x4 x42 x43
M
M
M
M
1 x x 2 x 3
4
4
4
(12.64)
245
M
1
1
M
1
X=
1
M
1
1
M
1
1 12
M
1
2
M
2
3
M
3
4
M
4
M
12
22
M
22
32
M
32
42
M
42
13
M
13
23
M
23
= [x 0 , x 1 , x 2 , x 3 ]
33
M
33
43
M
4 3
= x1 j(jj) j x1 = x1 j(4n) n xi
i =1
= x1 x j
(12.66)
(12.68)
0
j'
j' j
Z1Z1 =
[
j
x
]
=
1.0
x2.01
0
j' j
= x2 Z1(Z1Z1) Z1x2 = x2 [j x1.0]
j'
x ' x2
1 .0
246
x2.01 = x2
j' x 2
x 'x
j 1.0 2 x1.0
j' j
x1.0 ' x1.0
(12.69)
j'x2.01 = 0 e x1.0x2.01 = 0
(12.70)
x3.012 = x3
j' x3
x 'x
x 'x
j 1.0 3 x1.0 2.01 3 x 2.01
j' j
x1.0 ' x1.0
x 2.01' x 2.01
(12.71)
y = Z
+
(12.72)
z 0 = j,
z1 = x1.0,
z2 = x2.01,
z3 = x3.012.
z1 = x1.0 = x1 x j = x1 2.5j
= [1.5, ..., 1.5, 0.5, ..., 0.5, 0.5, ..., 0.5, 1,5, ..., 1,5]
que ns multiplicamos por 2 para obter valores inteiros:
(12.73)
ni =1 xi2
j'x 2
=
=
j' j
4n
i =1 i 2
4
30
= 7.5
4
x1.0 ' x 2
n 3(12 ) 1(22 ) + 1(32 ) + 3(42 )
50
=
=
= 2.5
2
2
2
2
x1.0 ' x1.0
20
n (3) + (1) + (1) + (3)
247
12
1
3 1
M
M M
M
12
1
3 1
2
1
2
1 1
M
M
M M
2
1
1
1
2
M
M
M M
2
1
1 1
3
4 2
1
3 1
M
M M
M
4 2
1
3 1
(12.74)
(12.75)
1 3
1 1
3
1 1 1
M
M
M
M
1 1 1
3
Z=
1
1 1 3
M
M
M
M
1
1 1 3
3
1
1
1
M
M
M
M
1
3
1
1
No Apndice apresentamos um programa no proc iml do SAS que ortogonaliza as colunas da matriz X, modificada de (12.64).
importante notar que, como X = Z, ns podemos encontrar os s em termos dos s ou ento os s em termos dos s. Para obter os s em termos dos s,
1
devemos pr-multiplicar ambos os lados da igualdade por X e depois por (XX) ,
1
1
obtendo = (XX) XZ. A matriz resultante do produto (XX) XZ fornece as
combinaes dos s que reproduzem os s (ver programa no Apndice). Na nossa
ilustrao, essas relaes so dadas por (ver Problema 12.23):
248
0 = 0 51 + 52 353,
1 = 21 52 +
2 = 2 253
3 =
16.7
3
0.3
(12.76)
0.3
Desde que as colunas de Z = [j, z1, z2, z3] so ortogonais, temos que ZZ =
diag[jj, z1z1 , z2z2, z3z3], temos que:
j' y j' j
z3 'y z3'z3
(12.77)
(z i ' y )2
i =0
zi 'zi
(12.78)
Como as somas de quadrados SQ(i ) = (z i ' y ) z i ' z i , i = 1, 2, 3, so independentes, cada SQ(i ) testa a significncia de . Vale informar que, para um k geral:
i
Em termos dos i s, pode ser mostrado que cada SQ(i) testa a significncia de
na presena de , , ..., . Por exemplo, para k (o ltimo ), a soma de quai
i 1
(z k ' y )2
zk 'zk
= Xy 1 X1y
(12.79)
(ver Problema 12.25), onde do modelo completo y = X + e 1 , do modelo reduzido y = X1 1 + , em que 1 contem todos os s com exceo de k e X1 consiste de todas as colunas de X, exceto a ltima.
2
A soma de quadrados SQ(i ) = (z i ' y ) z i ' z i equivalente soma de quadrados para o contraste das mdias y1 , y 2 , ..., yk , como em (12.52). Por exemplo:
249
n
= 3 y1 j
y2 j
j =1
j =1
y3 j
+ 3 y4 j
j =1
j =1
= 3 y1 y2 + y3 + 3 y4
= n(3 y1 y 2 + y3 +3 y4 )
4
z1y = n ci yi
i =1
onde c1 = 3, c2 = 1 , c3 = 1 e c4 = 3. Similarmente,
4
Ento:
2
(z1' y )2
z1' z1
n ci yi
=
= i =14
n ci2
n ci yi
i =1
ci2
i =1
i =1
z2y = n( y1 y 2 y3 + y4 ),
cujos coeficientes mostram uma tendncia quadrtica, e z3y pode ser escrito como
z3y = n( y1 +3 y 2 3 y3 + y4 ),
com coeficientes que exibem um padro cbico.
Esses contrastes de mdias yi s tm uma interpretao significativa em termos da forma da curva de resposta. Por exemplo, suponha que os yi s estejam sobre
uma reta. Ento para algum b0 e b1, ns temos que:
yi = b0 + b1xi = b0 + b1i,
para i = 1, 2, 3, 4
porque xi = i. Neste caso, o contraste linear no nulo e os contrastes quadrtico e cbico so nulos:
3 y1 y 2 + y3 +3 y4 = 3(b0 + b1) (b0 + 2b1) + (b0 + 3b1) + 3(b0 + 4b1) = 10b1
y1 y 2 y3 + y4
250
Em muitos casos no necessrio procurar os coeficientes de polinmios ortogonais usando o processo de ortogonalizao ilustrado nessa seo. Tabelas de polinmios ortogonais esto disponveis em Rencher (1995, p.529) ou Guttman (1982, p.
349-354), dentre outros. A Tabela 12.5 apresenta os coeficientes de polinmios ortogonais para k = 3, 4 e 5 nveis.
k=3
k=4
k=5
3 2
-2
-1
-1
1 2
-1
1 1
y3 y 2 = y 2 y1
ou
y3 y 2 ( y 2 y1 ) = y3 2 y 2 + y1 = 0
Se esta relao entre as trs mdias no se verificar, ns temos um componente quadrtico na curvatura.
Similarmente, para k = 4, o componente cbico y1 + 3 y 2 3 y3 + y4
igual diferena entre o componente quadrtico para y1 , y 2 e y3 e o componente
quadrtico para y 2 , y3 e y4 :
y1 + 3 y 2 3 y3 + y4 = y 2 2 y3 + y4 ( y1 2 y 2 + y3 )
251
Resultando em:
X
1
1
1
1
1
1
1
1
1
1
2
2
3
3
4
4
1
1
4
4
9
9
16
16
1
1
8
8
27
27
64
64
Z
1
1
1
1
1
1
1
1
Resultando em:
1
0
0
0
BETATETA
-5
2
0
0
5
-35
-5 55.666667
1
-25
0 3.3333333
-3
-3
-1
-1
1
1
3
3
1
1
-1
-1
-1
-1
1
1
-1
-1
3
3
-3
-3
1
1
252
3) Comandos para verificar que X = Z
y = {2, 3, 6, 8, 9, 10, 7, 6};
Beta = inv(t(X)*X)*t(X)*y;
XBeta = X*Beta;
Teta = inv(t(Z)*Z)*t(Z)*y;
ZTeta = Z*Teta;
print Beta Teta, XBeta ZTeta;
Resultando em:
BETA
-0.5
1.0833333
2.5
-0.583333
TETA
6.375
0.725
-1.875
-0.175
XBETA
2.5
2.5
7
7
9.5
9.5
6.5
6.5
ZTETA
2.5
2.5
7
7
9.5
9.5
6.5
6.5
Resultando em:
SQREG
375.5
SQ_TETA0
325.125
SQ_TETA1
21.025
SQ_TETA2
28.125
SQ_TETA3
1.225
SQ_TETA
375.5
253
j = 1, 2, ..., b,
(13.1)
k = 1, 2, ..., n
254
Uma outra suposio que ns adicionamos algumas vezes ao modelo :
4. ijk ~ N(0, 2) para todo i, j, k.
Da suposio 1 temos que E(yijk) = + i + j + ij e podemos reescrever o modelo na forma:
yijk = ij + ijk,
i = 1, 2, ..., a,
(13.2)
j = 1, 2, ..., b,
k = 1, 2, ..., n
onde ij = E(yijk) = + i + j + ij a mdia de uma observao aleatria na (ij)-sima casela. Na prxima seo ns consideramos funes estimveis dos parmetros i,
j e ij.
(13.3)
k = 1, 2
y122 1
y 211 1
y 212 = 1
y 1
221
y 222 1
y 1
311
y312 1
y 1
321
y322 1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
1
1
0
0
1
1
0
0
0
1
1
0
0
1
1
0
0
1
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
1
0 0 1 0 1 0 0 0 0 0 1
111
1 112
2 121
3 122
1 211
2 + 212
11 221
12 222
21 311
22 312
31 321
32 322
(13.4)
ou
y = X
+ ,
onde y 12x1, X 12x12 e 12x1.(Se adicionarmos uma outra repetio, tal que n
= 3, ento y 18x1, X 18x12, mas permanece 12x1). A matriz XX dada por:
255
12
4
4
6
6
XX =
2
2
2
2
2
4
4
0
0
2
2
2
2
0
0
0
4
0
4
0
2
2
0
0
2
2
0
4
0
0
4
2
2
0
0
0
0
2
6
2
2
2
6
0
2
0
2
0
2
6
2
2
2
0
6
0
2
0
2
0
2
2
0
0
2
0
2
0
0
0
0
2
2
0
0
0
2
0
2
0
0
0
2
0
2
0
2
0
0
0
2
0
0
2
0
2
0
0
2
0
0
0
2
0
2
0
0
2
0
0
0
0
0
0
2
2
0
0
2
0
2
0
0
0
0
0
0 0 2 0 2 0 0 0 0 0 2
(13.5)
11 = + 1 + 1 + 11,
12 = + 1 + 2 + 12,
21 = + 2 + 1 + 21,
22 = + 2 + 2 + 22,
31 = + 3 + 1 + 31,
32 = + 3 + 2 + 32.
(13.6)
Essas mdias tambm podem ser obtidas das seis ltimas linhas de XX
(ver Teorema 11.2D). Tomando combinaes lineares das seis equaes em (13.6), obtemos as
seguintes funes estimveis (por exemplo, 1 = 11 21 e 1 = 12 22):
11 = + 1 + 1 + 11
1 = 1 2 + 11 21 ou
1 = 1 2 + 12 22
2 = 1 3 + 11 31 ou
2 = 1 3 + 12 32
3 = 1 2 + 11 12
ou
3 = 1 2 + 21 22
ou
3 = 1 2 + 31 32
4 = 11 12 21 + 22
5 = 11 12 31 + 32
(13.7)
256
Expresses alternativas para 4 e 5 tm a forma:
ij ij ij + ij
i, i = 1, 2, 3,
j, j = 1, 2,
(13.8)
i i,
j j.
Para o caso geral, com a nveis do fator A e b nveis do fator B, ns tambm conseguimos obter funes estimveis da forma (13.7) e (13.8).
Em 4 e 5 de (13.7), ns vemos que existem contrastes estimveis nos ijs,
mas em 1, 2 e 3 (e nas suas expresses alternativas) no existem contrastes estimveis nos s e nos s, exclusivamente. (Isso tambm verdadeiro no caso geral.)
Para obter uma nica expresso envolvendo somente 1 2, para mais tarde
ser usada para comparar os s num teste de hipteses (ver Seo 13.4.2b), ns fazemos a mdia de 1 e 1:
1
1
1
(1 + 1) = 1 2 + (11 + 12) (21 + 22)
2
2
2
(13.9)
= 1 2 + 1 2
Para 1 3, ns temos:
1
1
1
(2 + 2) = 1 3 + (11 + 12) (31 + 32)
2
2
2
(13.10)
= 1 3 + 1 3
Similarmente, fazendo a mdia de 3, 3 e 3, ns temos:
1
1
1
(3 + 3 + 3) = 1 2 + (11 + 21 + 31) (12 + 22 + 32)
3
3
3
= 1 2 + 1 2
(13.11)
j = 1, 2, ..., b,
k = 1, 2, ..., n
ou
ij = + i + j + ij
(13.12)
Na Seo 11.1.2, ns mostramos que para um modelo aditivo (sem interao) as condies marginais sobre os s e s levam a novos parmetros s e s, que
podem ser expressos como desvios das mdias, como i = i , por exemplo.
Agora, ns estenderemos essa formulao para um modelo com interao para ij:
257
ij = + ( i ) + ( j ) + (ij i j + )
= + i + j + ij
(13.13)
onde
= , i = i , j = j ,
ij = ij i j +
(13.14)
= 0,
ij
= 0,
j =1
i =1
(13.15)
i =1
b
ij
j =1
i = i =
1 b
1 a b
ij ab ij
b j =1
i =1 j =1
1 b
1 a b
= + i + j + ij
+ i + j + ij
b j =1
ab i =1 j =1
b
b
1
b + b i + j + ij
b
j =1
j =1
a
b
a b
ab + b i + a j + ij
ab
i =1
j =1
i =1 j =1
= + i + + i
= i + i
(13.16)
Similarmente, temos:
j = j + j
(13.17)
ij = ij i j +
(13.18)
258
13.3 ESTIMADORES DE E 2
Ns consideramos a estimao de funes estimveis na Seo 13.3.1 e a estimao de 2 na Seo 13.3.2.
(13.19)
b
b
bn + bn i + n j =1 j + n j =1 ij = yi,
i = 1, 2, ..., a
a
a
an + n i =1 i + an j + n i =1 ij = yj,
j = 1, 2, ..., b
n + n i + n j + n ij = yij,
i = 1, 2, ..., a
j = 1, 2, ..., b
(13.20)
a
j = 0,
ij = 0 e
ij = 0, a soluo do
j =1
i =1
j =1
=
j =
ij =
y
= y
abn
y j
an
yij
n
i =
yi
= yi y
bn
= y j y
(13.21)
y j
yi
y
+ = yij yi y j + y
bn
an
abn
Esses so estimadores no viesados dos parmetros , i , j e ij em (13.14), sujeitos s condies marginais de (13.15). Se essas condies no forem impostas sobre os parmetros, ento os estimadores em (13.21) no so estimadores no viesados
259
dos parmetros individuais, mas os estimadores podem ser usados em funes estimveis. Por exemplo, consideremos a funo estimvel em (13.9) (para a = 3,
b = 2),
1
1
= 1 2 + (11 + 12) (21 + 22)
2
2
Pelo Teorema 11.3A e por (13.21), o estimador de dado por:
1
1
= 1 2 + ( 11 + 12 ) ( 21 + 22 )
2
2
= ( y1 y ) ( y 2 y ) +
1
( y11 y1 y1 + y )
2
1
1
( y12 y1 y2 + y ) ( y 21 y 2 y1 + y )
2
2
1
( y 22 y 2 y2 + y )
2
(13.22)
1
1
(11 + 12) (21 + 22) o mesmo estimador
2
2
( 1 2 ) = 1 2 = ( y1 y ) ( y 2 y ) = y1 y 2
Pelo Teorema 11.3D, tais estimadores so BLUE. Se ns tambm assumirmos
que ijk ~ N(0, 2), ento pelo Teorema 11.3H, os estimadores so estimadores no
viesados de varincia mnima.
(XX) =
1
2
0 0
0 I
6
(13.23)
onde os 0s so matrizes 6x6. Ento por (11.13) e (13.19), uma soluo para o sistema de equaes normais para a = 3 e b = 2 dada por:
= (XX) Xy
(13.24)
260
Os estimadores em (13.24) so diferentes daqueles em (13.21), mas eles fornecem os mesmos estimadores para funes estimveis. Por exemplo, para = 1 2
1
1
+ (11 + 12) (21 + 22) em (13.9), ns temos:
2
2
= 1 2 +
1
1
( 11 + 12 ) ( 21 + 22 )
2
2
1
[ y11 + y12 ( y 21 + y 22 )]
2
=0 0+
SQRes = yy Xy =
=
yij yij
i =1 j =1 k =1
i =1 j =1
yijk2 n yij2
ijk
yijk2
13.25)
ij
SQRes =
(yijk yij )2
(13.26)
ijk
2
s =
(13.27)
(13.28)
261
13.4 TESTANDO HIPTESES
ij ij ij + ij,
i i,
j j
(13.29)
Agora ns mostraremos que a hiptese de interao pode ser escrita em termos dessas
funes estimveis.
B
A
1
2
3
11
21
31
12
22
32
21 22 = + 2 + 1 + 21 ( + 2 + 2 + 22)
= 1 2 + 21 22
262
Ento a igualdade 11 12 = 21 22 em (13.30) fica:
1 2 + 11 12 = 1 2 + 21 22
ou
11 12 21 + 22 = 0
(13.31)
31 32 = + 3 + 1 + 31 ( + 3 + 2 + 32) = 1 2 + 31 32
e quando igualada a 21 22 = 1 2 + 21 22, ns obtemos:
21 22 31 + 32 = 0
(13.32)
Por (13.29), a funo 21 22 31 + 32 do lado esquerdo de (13.32) estimvel. Assim, as duas expresses em (13.31) e (13.32) so equivalentes hiptese de no interao em (13.30) sendo, pois, uma hiptese testvel.
Como a hiptese de interao pode ser expressa em termos de funes estimaveis de ijs que no envolvem is e js, ns podemos usar uma abordagem do tipo
modelo completo versus modelo reduzido.
Ns no podemos obter um modelo reduzido de (13.1) ou (13.3) admitindo que
ij = 0, porque ij no estimvel. Entretanto, ij = ij i j + em (13.14)
estimvel [ ij pode ser estimado sem vis por ij = yij yi y j + y ]. Usando
(13.13), o modelo pode ser expresso em termos de parmetros sujeitos s condies
marginais de (13.15) como:
yijk = + i + j + ij + ijk
(13.33)
H0: 11 12 = 21 22 = 31 32
(13.34)
21 + 22 0
H0: 11 12
=
21 22 31 + 32 0
(13.35)
e forma equivalente:
263
Prova: Para estabelecer a equivalncia de ij = 0 e a primeira igualdade em (13.35),
ns encontramos uma expresso para cada ij admitindo que ij = 0. Para 12 e
12
, por exemplo, ns usamos (13.18) para obter:
12
= 12 1 2 +
(13.36)
Assumindo que 12
= 0, temos que:
12 = 1 + 2
11 = 1 + 1 ,
21 = 2 + 1 , 22 = 2 + 2 .
11 12 21 + 22 = 1 + 1 ( 1 + 2 )
( 2 + 1 ) + ( 2 + 2 ) = 0
que a primeira igualdade em (13.35). A segunda igualdade em (13.35) obtida
de forma similar.
Para mostrar que a primeira igualdade em (13.34) equivalente primeira igualdade em (13.35), ns substitumos ij = + i + j + ij em 11 12 = 21 22:
0 = 11 12 21 + 22
= + 1 + 1 + 11 ( + 1 + 2 + 12)
( + 2 + 1 + 21) + ( + 2 + 2 + 22)
= 11 12 21 + 22.
De modo similar, a segunda igualdade em (13.34) equivalente segunda igualdade em (13.35).
Na Seo 13.4.1b, ns obtemos um teste para a interao baseado nas equaes
normais e na Seo 13.4.1c, obtemos o teste baseado em uma inversa generalizada.
13.4.1b Teste Modelo Completo versus Modelo Reduzido Baseado nas Equaes
Normais.
(13.37)
264
onde = , i = i , j = j e ij = ij i j + so dados
em (13.14). O modelo reduzido sob H0: ij = 0 para todo i e j
yijk = + i + j + ijk
(13.38)
Desde que consideramos um modelo balanceado, os parmetros , i e j (sujeitos s condies marginais) no modelo reduzido (13.38) so os mesmos que aqueles
do modelo completo (13.37) [em (13.44), tambm fica mostrado que as estimativas
nos dois modelos so idnticas].
Usando a notao do Captulo 12, a soma de quadrados para testar H0: ij = 0 :
SQ( | , , ) = SQ(, , , ) SQ(, , )
(13.39)
i yi +
j y j +
ij yij
i =1
j =1
b
i =1 j =1
( yi y )yi
(y j y )y j +
j =1
i =1
(yij yi y j + y )yij
i =1 j =1
2
y2 y j
y2
y2 yi2
=
+
+
abn j an
abn
abn i bn
yij2
y2 j
yi2
y2
+
(13.40)
ij n
an
abn
bn
j
i
yij2
(13.41)
=
n
ij
Note que ns obteramos o mesmo resultado usando de (13.24) [estendido para a e
b gerais].
265
12
4
4
X1X1 =
4
6
4
4
0
0
2
2
4
0
4
0
2
2
4
0
0
4
2
2
6
2
2
2
6
0
6
2
2
e
2
0
y
y
1
y
X1y = 2
y3
y1
y2
(13.42)
Da forma em (13.42), ns vemos que para a e b gerais, o sistema de equaes normais para o modelo reduzido fica:
a
b
abn + bn i =1 i + an j =1 j = y
b
bn + bn i + n j =1 j
= yi,
i = 1, 2, ..., a
a
an + n i =1 i + an j
= yj,
j = 1, 2, ..., b
(13.43)
i i = 0 e j j = 0, ns obtemos as solues:
y j
y
y
= y , i = i = yi y j =
= y j y
abn
bn
an
(13.44)
SQ(, , ) = 1 X1y =
+
abn j an
abn
abn i bn
ij
yij2
y2
i
n
i bn
y2 j
y2
abn
an
(13.45)
ijk
2
yijk
ij
yij2
n
(13.46)
Em termos de mdias ao invs de totais, (13.45) e (13.46) podem ser expressas como:
266
SQ( | , , ) = n
(yij yi y j + y )2
(13.47)
ij
SQRes =
(yijk yij )2
(13.48)
ijk
para j = 1, 2, ..., b e
j ij
i ij
=0
i j ij
= 0, temos um total de a + b 2 + 1
SQ( | , , ) (a 1)(b 1)
SQRes ab(n 1)
(13.49)
que tem distribuio F[(a1)( b1); ab(n 1)] se H0 verdadeira (ver Seo 11.6.2).
13.4.1c Teste Modelo Completo versus Modelo Reduzido Baseado em uma Inversa Generalizada
Ns agora consideramos um desenvolvimento matricial para SQRes e SQ( | , , )
baseado em uma inversa generalizada. Por (11.21), SQRes = y[I X(XX) X]y.
Para nosso modelo ilustrativo com a = 3 e b = 2, a matriz XX dada em (13.5) e
1 0 J L 0 1 0 jj' L 0
X(XX) X =
=
2 M M
M 2 M
M
M
0 0 L J
0 0 L jj'
(13.50)
(13.51)
onde yij = [yij1, yij2], para i = 1, 2, 3 e j = 1, 2. Por (11.21), (13.50) e (13.51), SQRes
fica:
267
yijk2
ij
ijk
1
2
yij2
ij
(13.52)
1 0
(X1X1) =
12 0
0
0
3
0
0
0
0
0
0
3
0
0
0
0
0
0
3
0
0
0
0
0
0
2
0
0
0
0
0
0
(13.53)
Ento
J J
J J
4J 2J
2J 4J J
J J
J
J J
1 J J 4J 2J
X1(X1X1) X1 =
12 J
J 2J 4J J
J
J J
J J 4 J 2 J
J J
J 2 J 4 J
J
(13.54)
J
2J 2J
J
J
1 J
X(XX) X X1(X1X1) X1 =
12 J
J 2J
2J
J
J
J
J
J
J
2 J 2 J
J
J
J 2J
2 J
J
(13.55)
onde J 2x2.
268
i =1 j =1
yij2
yi2
2
i =1 4
3
y2 j
j =1
y2
1
1
1
1
+
= y A B C +
D y (13.56)
12
4
12
6
2
i =1 j =1
yij2
2
1
yAy, ns temos,
2
i =1 j =1
yij2
1 3 2 2
= yij
2
2 i =1 j =1
jj' 0 L 0 y 11
0 jj' L 0 y
1
12
= [y11, y12, ..., y32]
M
2
M
M M
0 0 L jj' y 32
(13.57)
1
yAy
2
onde
J 0 L 0
0 J L 0
A=
M M
M
0 0 L J
yi =
yijk
jk
yi1k + yi 2k
k
j
= yi1j + yi2j = [yi1, yi2]
j
y
j
jj' jj' y i1
yi2 = [yi1, yi2] [j, j] i1 = [yi1, yi2]
j
jj' jj' y i 2
y i 2
Ento
269
J
J
3 y2
0
1
4i = 4 [y11, y12, ..., y32] 0
i =1
J
J
0
0
0
0
0
0
J
J
0
0
0
0
J
J
0
0
0
0
0
0
J
J
0
0
0
0
J
y 11
y
12
M
y 32
(13.58)
1
yBy
4
y2 j
j =1
J
0
1 J
= y
6 0
J
0
J
0
J
0
J
J
0
J
0
J
0
0
J
0
J
0
J
J
0
J
0
J
0
0
J
0
1
y = yCy
J
6
0
(13.59)
yijk
= yj12,
ijk
y2
1
=
yj12 j12y = yJ12y = yD y
(13.60)
12
12
onde j12 12x1 e J12 12x12. Para ficar de conformidade com A, B e C em (13.57)
(13.58) e (13.59), podemos escrever D = J12 como:
J
J
J
D = J12 =
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
J
onde J 2x2.
Agora, combinando (13.57)-(13.60), obtemos a forma quadrtica em (13.56):
270
J
J
J
J
2J 2J
2 J
2
J
J
J
J
J
2J 2J
J
J
1
1
1
1 J
1
A B C+
D=
2
4
12
12 J
J 2J
2J
J
J
6
J
J
J
J
2 J 2 J
J
J
J 2J
2 J
J
(13.61)
+
n
an
bn
abn
ij
j
i
1
b
1
1 a
ij a ij = b
j =1
i =1
( ij j )
(13.62)
j =1
271
Desde que os i s so estimveis [ver (13.21) e o comentrio seguinte], ns
podemos us-los para expressar a hiptese para o fator A. Para a = 3, temos:
H0: 1 = 2 = 3
(13.63)
H0: 1 = 2 = 3 = 0
(13.64)
que equivalente a
porque
i i = 0.
Os valores para as mdias de caselas na Figura 13.2 ilustram uma situao na qual H0
acontece na presena de interao.
mdia
11 = 5
12 = 1
1 = 3
21 = 4
22 = 2
2 = 3
31 = 3
32 = 3
3 = 3
272
Sob H0: 1 = 2 = 3 = 0, o modelo completo em (13.33) se reduz a:
yijk = + j + ij + ijk
(13.65)
+ j y j +
j =1
ij yij
i =1 j =1
abn ij n
abn j an
y2 j y2
yi2
bn an + abn
j
i
(13.66)
bn
abn
i =1
(13.67)
Para o caso especial de a = 3, ns vimos por (13.7) que existem duas funes
estimveis linearmente independentes envolvendo os trs s [ver (13.9) e (13.10)] e,
portanto, SQ( |, , ) tem dois graus de liberdade. Em geral a SQ( | , , ) tem
(a 1) graus de liberdade. De forma anloga, para o fator B ns obtemos:
SQ( | , , ) = SQ(,, , ) SQ(, , )
b y2
y2
j
=
(13.68)
an
abn
j =1
que tem (b 1) graus de liberdade. Em termos das mdias, ns podemos expressar
(13.67) e (13.68) como:
SQ( | , , ) = bn
( yi y )2
i =1
b
SQ( | , , ) = an y j y
)2
(13.69)
(13.70)
j =1
273
Se ns adicionarmos as somas de quadrados do fator A, fator B e interao em
(13.67), (13.68) e (13.45), obtemos:
yij2
y2
SQTrat = ij
abn
n
que a soma de quadrados geral de tratamentos, SQ(, , | ). No teorema seguinte
garantimos que as trs somas de quadrados so independentes.
Usando (13.45), (13.46), (13.67) e (13.68) ns obtemos o quadro de anlise de varincia dado na Tabela 13.1.
Tabela 13.1. Quadro de ANOVA para um modelo com dois fatores e com interao
Fonte de Variao
Fator A
Fator B
g.l.
a1
b1
Soma de Quadrados
yi2 y2
bn abn
i =1
a
j =1
Interao AB
(a 1)(b 1)
ij
Resduo
ab(n 1)
y2 j
y2
an
abn
yij2
y j
y2
y2
i
+
n
abn
j an
i bn
2
yijk
y2
abn
ijk
Total
abn 1
ijk
ij
2
yijk
yij2
n
SQ( | , , ) (a 1)
SQRes ab(n 1)
(13.71)
que distribuda como F[(a 1), ab(n 1)] se H0: 1 = 2 =...= a = 0 verdadeira.
Para o Fator B, ns usamos SQ( | , , ) em (13.68) e a estatstica F correspondente
dada por:
SQ( | , , ) (b 1)
F=
(13.72)
SQRes ab(n 1)
274
que distribuda como F[(b 1); ab(n 1)] se H0: 1 = 2 =...= b = 0 verdadeira.
Na Seo 13.4.2b essas estatsticas F so obtidas utilizando a abordagem baseada na
hiptese linear geral. As distribuies F podem ser justificadas pelo Teorema 11.6C.
Exemplo 13.4.2. O contedo da mistura de trs tipos de queijo feitos por dois metodos foi anotado por Marcuse (1949) (formato alterado). Duas peas de queijo foram
medidas para cada tipo e cada mtodo. Designando Mtodo como o fator A e Tipo
como o fator B, ento a = 2, b = 3 e n = 2. Os dados so apresentados na Tabela 13.2
e os totais so mostrados na Tabela 13.3.
Tabela 13.2 Contedo da mistura de dois queijos de cada um de trs diferentes tipos
e de dois mtodos.
Tipo
Mtodo
1
2
39.02
35.74
37.02
38.79
35.41
36.00
38.96
35.58
35.70
39.01
35.52
36.04
Total
y11 = 77.81
y12 = 71.15
y13 = 73.02
y1 = 221.98
y 21 = 77.97
y 22 = 71.10
y 23 = 71.74
y 2 = 220.81
Total
y1 = 155.78
y2 = 142.25
y3 = 144.76
y = 442.79
SQ( | , , ) =
SQ( | , , ) =
yi2 y2
bn abn = 0,114075
i =1
a
y2 j
j =1
an
ij
yij2
y2
= 25,900117
abn
2
y j y2
yi2
+
= 0,302550
n
abn
j an
i bn
275
SQRes =
2
yijk
ijk
SQTotal =
ij
yijk2
ijk
yij2
n
= 0,661950
y2
= 26,978692
abn
g.l.
SQ
QM
p-value
Mtodo
0,114075
0,114075
1,034
0,3485
Tipo
25,900117
12,950058
117,381
< 0,0001
Interao
0,302550
0,151275
1,371
0,3233
Resduo
0,661950
0,110325
Total
11
26,978692
1
1
1
( 11 + 12 ) = 2 + ( 21 + 22 ) = 3 + ( 31 + 32 )
(13.72)
2
2
2
[veja tambm (13.9) e (13.10)]. As duas igualdades em (13.72) podem ser expressas
na forma:
H0: 1 +
1
1
1
1
1 + 2 11 + 2 12 3 2 31 2 32 0
H0: =
=
1
1
1
1
2 + 21 + 22 3 31 32 0
2
2
2
2
276
Re-arranjando a ordem dos parmetros para corresponder ordem em = [, 1, 2,
3, 1, 2, 3, 11, 12, 21, 22, 31, 32] em (13.4), ns temos:
1
1
1
1
1 3 + 2 11 + 2 12 2 31 2 32 0
H0: =
=
1
1
1
1
2 3 + 21 + 22 31 32 0
2
2
2
2
(13.73)
(13.74)
1
SQHip = (C )[C(XX) C] C
(13.75)
(13.76)
C(XX) X =
C(XX) C =
1
4
1 1 1 1 0 0 0 0 1 1 1 1
0 0 0 0 1 1 1 1 1 1 1 1
(13.77)
1
4
2 1
4 2 1
1
1 2 e [C(XX) C] = 3 1 2
(13.78)
12
J J 2 J
(13.79)
0
2 J J J
3 J 0
J J J
1
1
1
0 3J 0
J J J
A =
J 2 J J =
12
12
12
J J 2 J
0
J J J
0 3 J
Para calcular yAy ns redefinimos y em (13.51) como:
(13.80)
277
y 11
y
12 y 1
y
y = 21 = y 2 , onde yi =
y 22 y
y 31 3
y 32
yi1
y
i2
(13.81)
3
12
yi 'J 4yi
i =1
3J4
0
1
1
yJ12y =
12
4
0 y1
1
0 y 2
yJ12y
12
3 J 4 y 3
y i ' j4 j4 ' y i 12
yj12 j12 y
i =1
yi2
y2
=
12
4
i
278
Tabela 13.5 Esperana dos quadrados mdios para uma ANOVA com dois fatores
Fonte
A
AB
Resduo
SQ
QM
SQ( | , , )
SQ( | , , )
a 1
SQ( | , , )
SQ( | , , )
E[QM]
+ bn
2
SQ( | , , )
b 1
2 + an
j
SQ( | , , )
(a 1)(b 1)
2 + n
ij
SQRes
ab(n 1)
SQRes
a 1
b 1
ij
(a 1)(b 1)
2
yi2 y2
bn abn em (13.67),
i =1
ns primeiramente notamos que usando a suposio 1 da Seo 13.1, podemos escrever as suposies 2 e 3 na forma:
2
E( ijk
) = 2 para todo i, j, k
(13.82)
(13.83)
E(
y2 )
= E yijk = E + i + j + ij + ijk
ijk
ijk
= E abn + bn i + an j + n ij + ijk
i
j
ij
ijk
2
2
2
2
ijk
2
2
= a 2b 2 n 2 + E ijk
+ E ijk rst
ijk
ijk rst
E( y2 ) = a 2b 2 n 2 + abn2
279
Da mesma forma, podemos mostrar que:
a
a
2
2
E yi2 = ab 2 n 2 + b 2 n 2 i + abn2
i =1
i =1
(13.84)
a yi2 y2
1
SQ( | , , )
E
= a 1 E bn abn
a 1
i =1
2
b 2 n 2 i i
1 ab 2 n 2
abn 2 a 2 b 2 n 2
abn 2
=
+
+
bn
bn
bn
a 1
bn
bn
1
2
2
(
)
a
+
bn
a 1
i
Os outros valores esperados da Tabela 13.5 podem ser obtidos similarmente (ver Problema 13.28).
1
E[SQ( | , , )] = E{(C )[C(XX) C] C }
(13.85)
1
que E(C ) = C e cov(C ) = 2C(XX) C. Se ns definimos G = [C(XX) C] ,
2x2, ento pelo Teorema 5.2A, (13.85) fica:
= 22 + C[C(XX) C] C
(13.86)
= 2 + H
(13.87)
280
0
0
0
0
1 0
H=
3 0
0
0
0
0
0 0 0
8 4 4 0 0
4
4 2 2 2
4
8 4 0 0 2 2
4
4 2
4 4
0
0
8 0 0 2 2 2 2
0 0 0
0
0
0
0
4
0
0
0
0 0 0
4 2 2 0 0
0
2
0
2
0
1
0
1
0
1
4 2 2 0 0
2
4 2 0 0
2
1
2
1
1
2
1
2
1
1
2
4 2 0 0
2 2
4 0 0
1
1
1
1
2
1
2
1
1
2
2 2
4 0 0
0
2
2
4
0
0
1
1
1
2
2
0 0 12 0 0 0 0 0 6 6 0 0
0 0 0 12 0 0 0 0 0 0 6 6
0 0 0 0 0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0 0 0 0 0
H=
3 0 6 0 0 0 0 3 3 0 0 0 0
0 6 0 0 0 0 3 3 0 0 0 0
0 0 6 0 0 0 0 0 3 3 0 0
0 0 6 0 0 0 0 0 3 3 0 0
0 0 0 6 0 0 0 0 0 0 3 3
0 0 0 6 0 0 0 0 0 0 3 3
0 0 0 0 0 0 0 0
0 4 4 4 0 0 2 2
0 4 4 4 0 0 2 2
0 4 4 4 0 0 2 2
0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0
3 0 2 2 2 0 0 1 1
0 2 2 2 0 0 1 1
0 2 2 2 0 0 1 1
0 2 2 2 0 0 1 1
0 2 2 2 0 0 1 1
0 2 2 2 0 0 1 1
0 0 0 0
2 2 2 2
2 2 2 2
2 2 2 2
0 0 0 0
0 0 0 0
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
(13.88)
281
0
0 3 0 0
0
0
3 0 0
0 A 21 0 A 22
0 B 21 0 B 22
(13.89)
onde A11 = 12I3, B11 = 4j3j3, B12 = 2j3j6, B21 = 2j6j3, B22 = j6j6
0'
6 j2 ' 0'
6 j 2
A21 = 0
0
0
6 j2
0
0
6 j2
0
0
3 j2 j2 '
A22 = 0
3 j2 j2 '
0
0
0
3 j2 j2 '
Se escrevermos em (13.4) na forma:
= [, , 1, 2, ]
onde = [1, 2, 3] e = [11, 12, 21, 22, 31, 32], ento H em (13.87) fica:
H =
1
1
1
1
1
A11 + A12 + A21 + A22 B11
3
3
3
3
3
1
1
1
B12 B21 B22
3
3
3
H =
1
2
1
1
2
1
A11 + A12 + A22 B11 B12 B22
3
3
3
3
3
3
2
A12
3
1
= 4
2
3
j2 ' 1
3
j ' = 4
i i
2 2
i =1
j2 ' 3
H = 4 + 4 i i +
i =1
= 4
i =1
i ' j2 j2 ' i
i =1
4
j3 j3
3
4
1
j3 j6 j6 j6
3
3
i2
+ 4 i i +
i =1
yi2
i =1
4 2 4
1
2
3
3
3
(13.90)
282
Expressando i, e em termos das mdias, (13.90) pode ser escrita na forma:
3
i =1
i =1
H = 4 ( i + i )2 = 4 i
(13.91)
Por uma abordagem alternativa que leva a (13.91), note que desde que E(C )
= C, (13.86) pode ser escrita como:
1
E[SQ( | , , )] = 22 + [E(C )][C(XX) C] [E(C )]
(13.92)
1
Por (13.75), SQ( | , , ) = SQHip = (C )[C(XX) C] C . Assim, por (13.92),
ns podemos obter E[SQ( | , , )] substituindo C em SQ( | , , ) por C e
1
= E + i + j + ij + ijk
4 jk
( )
4 + 4 i + 2 j + 2 ij
j
j
= + i + + i
1
4
(13.93)
De modo similar:
E( y ) = + + +
(13.94)
Ento,
2
E[SQ( | , , )] = 22 + 4 [E ( yi ) E ( y )]
= 22 + 4 ( + i + + i i )
i
= 2 + 4 ( i i + i )2
2
= 22 + 4 i
i
[por (13.16)]
283
APNDICE
Programa do SAS para clculo das somas de quadrados usando as frmulas das
formas quadrticas correspondentes.
proc iml;
y = {39.02,38.79,35.74,35.41,37.02,36.00,38.96,39.01,35.58,35.52,35.70,36.04};
X = {1 1 0 1 0 0 1 0 0 0 0 0,
1 1 0 1 0 0 1 0 0 0 0 0,
1 1 0 0 1 0 0 1 0 0 0 0,
1 1 0 0 1 0 0 1 0 0 0 0,
1 1 0 0 0 1 0 0 1 0 0 0,
1 1 0 0 0 1 0 0 1 0 0 0,
1 0 1 1 0 0 0 0 0 1 0 0,
1 0 1 1 0 0 0 0 0 1 0 0,
1 0 1 0 1 0 0 0 0 0 1 0,
1 0 1 0 1 0 0 0 0 0 1 0,
1 0 1 0 0 1 0 0 0 0 0 1,
1 0 1 0 0 1 0 0 0 0 0 1};
n = nrow(y);
X0 = X[,1];
XA = X[,2:3];
XB = X[,4:6];
XAB = X[,7:12];
* Clculo da soma de quadrados total - SQTotal;
P = I(n) - J(n,n,1)/n;
SQTotal = t(y)*(P)*y;
glTotal = round(trace(ginv(P)*P));
* Clculo da soma de quadrados de resduos - SQRes;
PR = I(n) - X*ginv(t(X)*X)*t(X);
SQRes = t(y)*(PR)*y;
glRes = round(trace(ginv(PR)*PR));
QMRes = SQRes/glRes;
* Clculo da soma de quadrados da interao - SQAxB;
X1 = X[,1:6];
Beta1 = ginv(t(X1)*X1)*t(X1)*y;
* Beta do modelo com mi, A e B;
SQ1 = t(Beta1)*t(X1)*y;
* Calcula SQ(mi,A,B);
SQmiABAB = t(y)*(X*ginv(t(X)*X)*t(X))*y; * Calcula SQ(mi,A,B,AB);
PAB = X*ginv(t(X)*X)*t(X) - X1*ginv(t(X1)*X1)*t(X1);
SQAB = t(y)*PAB*y;
* Calcula SQ(AB);
glAB = round(trace(ginv(PAB)*PAB));
* Calcula gl da interao AxB;
QMAB = SQAB/glAB;
FAB = QMAB/QMRes;
* Clculo da soma de quadrados do fator A - SQ(A);
PA = XA*ginv(t(XA)*XA)*t(XA) - J(12,12,1)/n;
SQA = t(y)*PA*y;
glA = round(trace(ginv(PA)*PA));
QMA = SQA/glA;
FA = QMA/QMRes;
* Clculo da soma de quadrados do fator B - SQ(B);
PB = XB*ginv(t(XB)*XB)*t(XB) - J(12,12,1)/n;
SQB = t(y)*PB*y;
glB = round(trace(ginv(PB)*PB));
QMB = SQB/glB;
FB = QMB/QMRes;
* Imprime o quadro
print 'Mtodo
'
print 'Tipo
'
print 'Interao'
print 'Resduo '
print 'Total
'
de
''
''
''
''
''
284
Resultando em:
Metodo
SQA
0.114075
GLA
1
SQB
25.900117
Tipo
GLB
QMB
2 12.950058
Interao
SQAB
0.30255
GLAB
2
Resduo
SQRES
0.66195
GLRES
6
SQTOTAL
26.978692
GLTOTAL
11
Total
QMA
FA
0.114075 1.0339905
FB
117.381
QMAB
FAB
0.151275 1.3711761
QMRES
0.110325
Verificando a estimabilidade de algumas funes lineares dos parmetros, utilizando a condio (iii) do Teorema 11.2B (pg. 171).
(1) = 1 2
L1 = {0 1 -1 0 0 0 0 0
ver = t(X)*X*ginv(t(X)*X);
verL1 = L1*ver;
print L1 verL1;
0};
Resultando em:
L1
0
VERL1
0
0.75
-1
-0.75 0
0.25
0.25
0.25
285
(2) = 1 2 +
L2 = {0 3 -3 0
verL2 = L2*ver;
print L2 verL2;
1
1
(11 + 12 + 13) (21 + 22 + 23)
3
3
0
-1
-1
-1};
Resultando em:
L2
0
3
VERL2
0
3
-3
-1
-1
-1
-3
-1
-1
-1
1
1
(11 + 12 + 13) (21 + 22 + 23)
3
3
Clculo da soluo do modelo (13.1) admitindo as condies marginais apresentadas na seo 13.3.1a.
T = {0 1 1 0 0 0 0 0 0 0 0 0,
0 0 0 1 1 1 0 0 0 0 0 0,
0 0 0 0 0 0 1 1 1 0 0 0,
0 0 0 0 0 0 0 0 0 1 1 1,
0 0 0 0 0 0 1 0 0 1 0 0,
0 0 0 0 0 0 0 1 0 0 1 0,
0 0 0 0 0 0 0 0 1 0 0 1};
rank_T = round(trace(ginv(T)*T));
W = X//T;
rank_W = round(trace(ginv(W)*W));
yr = y//j(7,1,0);
Beta_r = inv(t(W)*W)*t(W)*yr;
*
*
*
*
*
Resultando em:
BETA_R
36.899167
0.0975
-0.0975
2.0458333
-1.336667
-0.709167
-0.1375
-0.085
0.2225
0.1375
0.085
-0.2225
12 rows
1 col
(numeric)
286
Verificando a estimabilidade da funo linear = 1 2 admitindo as condies marginais apresentadas na seo 13.3.1a, utilizando a condio (iii) do Teorema 11.2B (pg. 171).
ver = t(W)*W*ginv(t(W)*W);
L1 = {0 1 -1 0 0 0 0 0
verL1 = L1*ver;
print L1 verL1;
0};
Resultando em:
L1
0
-1
VERL1
0
1
-1
Observe que a funo linear = 1 2 passa a ser estimvel no modelo admitindo as condies marginais apresentadas na seo 13.3.1a.
287
288
14.2 MODELO COM UM FATOR
O modelo desbalanceado com um fator
yij = + i + ij
(14.1)
= i + ij
(14.2)
i = 1, 2, ..., k, j = 1, 2, ..., ni
i .i . d
(14.3)
onde
1
M
0
M
W =
0
M
0
M
L 0
M
L 0
L 0
M
,
L 0
M
L 1
M
0 L 1
0
M
0
1
M
1
M
0
M
1
= 2
M
k
onde yi =
j =1 yij
ni
ni .
= (WW) Wy
(14.4)
y1
y
= y = 2
M
yk
(14.5)
289
Para testar H0: 1 = 2 = ... = k, ns comparamos o modelo completo em (14.2)
e (14.3) com o modelo reduzido yij = + ij , onde o valor comum de 1, 2, ..., k
sob H0. (Ns no usaremos a notao no modelo reduzido porque no existe o
parmetro no modelo completo yij = i + ij).
Na forma matricial, as N observaes no modelo reduzido podem ser escritas
como y = j + , onde j Nx1 e N =
yi yi
N y2
(14.6)
i =1
yi2
y2
=
N
i =1 ni
k
(14.7)
SQRes = yy Wy =
yij2
i =1 j =1
yi2
i =1 ni
k
(14.8)
Somas de quadrados
g.l.
Entre
yi2
y2
SQEntre =
N
i =1 ni
Resduo
SQRes =
ni
yij2
i =1 j =1
k
Total
SQTotal =
ni
yi2
n
i =1 i
Nk
y2
N
N1
yij2
i =1 j =1
k1
290
As somas de quadrados SQEntre e SQRes da Tabela 14.1 tambm podem ser
escritas na forma:
k
ni ( yi y )2
SQEntre =
(14.9)
i =1
k
SQRes =
ni
(yij yi )2
(14.10)
i =1 j =1
i .i . d
Se assumirmos que yij ~ N(i, 2), ento pelo Teorema 8.1D, uma estatstica para
testar H0: 1 = 2 = ... = k dada por:
F=
SQEntre (k 1)
SQRes (N k )
(14.11)
11.95
12.00
12.25
12.10
12.18
12.11
12.16
12.15
12.08
12.25
12.30
12.10
12.10
12.04
12.02
12.02
Tabela 14.3. Anlise de varincia para os dados de peso lquido na Tabela 14.2.
Fonte
g.l.
SQ
QM
Entre
0.05943
0.01486
Resduo
11
0.08472
0.00770
Total
15
0.14414
1.9291
p-valor
0.176
291
14.2.2 Contrastes
Um contraste nas mdias populacionais definido com = c11 + c22 + ... + ckk,
onde
i=1 ci = 0. O contraste pode ser expresso como = c, onde c = [c1, c2, ..., ck]
k
= c(WW) c = 2 i =1 ci2 ni , porque WW = diag(n1, n2, ..., nk). Por (8.38), a es1
F=
s2
(
F=
) (
k
cy 2
i =1 i i
s2
k
c2
i =1 i
ni
(14.12)
(14.13)
onde s2 = SQRes/(N k) com SQRes dado por (13.48) ou (14.10). Ns nos referimos
ao numerador de (14.13) com a soma de quadrados do contraste.
Se H0 verdadeira, a estatstica F em (14.12) ou (14.13) tem distribuio F(1;
N k), e ns rejeitamos H0: = 0 se F F(1; N k), ou se p , onde p o p-valor e
, o nvel de significncia do teste.
k
k
J sabemos que dois contrastes = i =1 ai yi e = i =1 bi yi so ditos ortogo-
nais se
i=1 ai bi
k
ni = 0.
1
2
2
2
cov( y ) = (WW) = M
M
M = D
0 L 1 nk
0
292
Por (3.41), temos que:
ai bi
i =1 ni
= 2
(14.14)
i=1 ai bi
k
ni = 0.
i=1 ai bi
k
ni = 0
i=1 ai bi = 0 no so independentes
k
geral baseado em (14.12) ou (14.13) testa cada contraste ajustado para os outros contrastes (ver Teorema 8.4D).
Exemplo 14.2.2A Suponha que desejamos comparar as mdias dos trs tratamentos
e que os coeficientes dos contrastes ortogonais = a e = b so dados por a =
[2, 1, 1] e b = [0, 1, 1] com as hipteses correspondentes:
H01: 1 =
2 + 3
e
H02: 2 = 3
2
Se os tamanhos amostrais dos trs tratamentos forem, por exemplo, n1 = 10, n2 = 20 e
n3 = 5, os dois contrastes estimados:
= 2 y1 y 2 y3
= y 2 y3
293
Os dois vetores seguintes fornecem um exemplo de contrastes cujos coeficientes satisfazem a condio
i=1 ai bi
k
ni = 0, para n1 = 10, n2 = 20 e n3 = 5:
a = [25, 20, 5]
b = [0, 1, 1]
(14.15)
4
1
2 + 3
5
5
1
1
2 + 3, na qual estvamos inicialmente inte2
2
ressados.
Exemplo 14.2.2(b). Ilustraremos tanto o uso de contrastes ortogonais ponderados
quanto no ponderados, usando os dados da Tabela 14.2. Suponha que desejamos
fazer as seguintes comparaes entre as cinco mquinas: A, D versus B, C, E; B, E
versus C; A versus D; e B versus E. Os coeficientes dos contrastes ortogonais (no
ponderados) que proporcionam essas comparaes so apresentados a seguir.
3 2 2
0
1 2
1
0
0
0
1
0
3 2
0
1
1
0
0 1
A, D vs. B, C, E
B, E vs. C
A vs. D
B vs. E
g.l.
SQ
p-valor
1
1
1
1
0.00576
0.00235
0.03440
0.01333
0.75
0.31
4.47
1.73
0.406
0.592
0.058
0.215
294
Nenhum dos p-valores menor que = 0.05, de tal forma que no rejeitamos
qualquer uma das hipteses H0: i ci i = 0 associadas aos quatro contrastes definidos anteriormente. De fato, o p-valor deveria ser menor que 0.05/4 = 0.0125 (ver a
abordagem de Bonferroni na Seo 8.5.2) para que o contraste correspondente fosse
considerado significativo, desde que o teste geral na Tabela 14.3 no rejeita H0: 1 =
2 = ... = 5.
Como um exemplo de dois contrastes ortogonais ponderados que satisfazem
k
ab
i =1 i i
ai bi
3(0 ) 2(2 ) 2( 6 ) 3(0 ) 2(4 )
+
=0
4
2
3
4
3
i =1 ni
k
A, D vs. B, C, E
B, E vs. C
g.l.
SQ
p-valor
1
1
0.005763
0.005339
0.75
0.69
0.406
0.423
yijk = + i + j + ij + ijk,
(14.16)
= ij + ijk
i = 1, 2, ..., a,
j = 1, 2, ..., b,
(14.17)
k = 1, 2, ..., nij
i .i . d
Consideramos que ijks ~ N(i, 2) e somente os casos nos quais nij > 0. Para a anlise do modelo com dois fatores e caselas vazias, ver Bryce, Scott & Carter (1980),
Searle (1987, Captulo 5) e Hocking, (1996, Sees 13.2 e 13.4), dentre outros.
Como j foi comentado na Seo 14.1, a anlise do modelo superparametrizado
(14.16) pode resultar em inconsistncias. Por outro lado, a anlise do modelo de medias de caselas (14.17) fornece uma abordagem simples e sem ambigidade para testar hipteses. Esta abordagem para analisar dados desbalanceados foi primeiramente
proposta por Yates (1934), mas a partir dos anos 50 ela tem sido largamente suplantada pelo modelo superparametrizado. Um retorno ao modelo de mdias de caselas tem
sido defendido por Speed (1969), Urquhart, Weeks & Henderson (1973), Nelder
(1974), Hocking & Speed (1975), Bryce (1975), Bryce, Carter & Reader (1976),
Searle (1977), Speed, Hocking & Hackney (1978) e Hocking (1985, 1996) dentre
295
outros. Turner (1990) discutiu a relao entre (14.16) e (14.17). O desenvolvimento
do assunto neste livro segue Bryce, Scott & Carter (1980) e Hocking (1985, 1996).
14.3.1 Modelo Incondicional
Primeiramente ns consideramos o modelo incondicional no qual as ijs so irrestritas. Para acomodar um modelo sem interao, por exemplo, ns devemos impor condies sobre as ijs. O modelo restrito discutido na Seo 14.3.2.
B
n11 = 2
n21 = 1
n12 = 1
n22 = 3
n13 = 2
n23 = 2
A
1
2
y111 = 11 + 111
y112 = 11 + 112
y121 = 12 + 121
M
y231 = 23 + 231
y232 = 23 + 232
que na forma matricial
y = W +
(14.18)
fica
y111
y
112
y121
=
M
y231
y232
1
1
M
0
0
0
1
M
0
0
0
0
0
M
0
0
0
0
0
M
0
0
0
0
0
M
0
0
0
0
0
M
1
11 111
12 112
13 121
+
21 M
22 231
23 232
296
Cada linha de W contem um nico 1 que corresponde ao apropriado ij em . Por
exemplo, a quarta linha d y131 = [0 0 1 0 0 0] + 131. Nesta ilustrao, y e so
11x1 e W 11x6. No caso geral, y e so Nx1 e W N x ab, onde N = ij nij .
Como W de posto completo, ns podemos usar os resultados dos Captulos 7
e 8. A anlise bastante simplificada porque WW = diag(n11, n12, n13, n21, n22, n23).
Por (7.6), o estimador de mnimos quadrados de dado por:
1
= (WW) Wy = y
(14.19)
onde y = [ y11 , y12 , y13 , y21 , y22 , y23 ] contem as mdias amostrais das caselas,
yij = k yijk nij . Por (7.14), a matriz de covarincias de :
1
(14.20)
onde res =
SQRes
res
(y W )' (y W )
N ab
(14.21)
= 2 e b = 3, ns temos N ab = 11 (2)(3) = 5.
Duas formas alternativas [ver (7.26) e (13.48)] de SQRes so:
1
SQRes =
(14.22)
b nij
(yijk yij )2
(14.23)
i =1 j =1 k =1
i =1 j =1 (nij 1)sij2
a
s2 =
N ab
(14.24)
onde sij2 o estimador da varincia na (ij)-sima casela, que pode ser expressa por:
sij2
2
(
yijk yij )
=
(nij 1)
nij
k =1
297
No vetor = [11, 12, 13, 21, 22, 23] os trs primeiros elementos correspondem ao primeiro nvel de A e os trs ltimos, ao segundo nvel, como visto na
Figura 14.2. Assim, para o efeito principal de A, ns comparamos a mdia de 11, 12
e 13 com a mdia de 21, 22 e 23. A diferena entre essas mdias pode ser convenientemente expressa como o contraste:
a' = 11 + 12 + 13 21 22 23
= [1, 1, 1, 1, 1, 1]
Para comparar os dois nveis de A, ns testamos a hiptese H0: a = 0, que pode ser
escrita como H0: (11 21) + (12 22) + (13 23) = 0. Nesta forma, H0 estabelece
que o efeito de A, somado sobre todos os nveis de B, zero. Isso corresponde definio usual de efeito principal na presena de interao [ver comentrios em (13.62)].
B
A
1
2
11
21
12
22
13
23
(14.25)
(14.25)
2 1 1
0
1 1
(14.27)
298
E a hiptese fica H0: B = 0, que, por (14.25) e (14.26), equivalente a
H0: (11 + 21) = (12 + 22) = (13 + 23)
(14.28)
(ver Problema 14.9). Nesta forma, H0 estabelece que os trs nveis de B no diferem
quando somados sobre todos os dois nveis de A (a mesma definio que ns tivemos
no caso balanceado). Note que existem outros contrastes ortogonais ou linearmente
independentes alm de b1 e b2, que levariam a (14.28) e mesma estatstica F definida em (14.33).
Por analogia a (13.30), a hiptese de interao pode ser escrita como:
H0: (11 21) = (12 22) = (13 23)
1
1
1 2
0
1
1
1
1
1
Note que c1 pode ser obtido tomando produtos dos elementos correspondentes de a e
b1, e que c2 pode ser obtido similarmente de a e b2, onde a, b1 e b2 so os coeficientes
dos vetores em a, b1 e b2. Assim,
c1 = [ (1)(2), (1)(1), (1)(1), (1)(2), (1)(1), (1)(1)]
= [2, 1, 1, 2, 1, 1]
c2 = [(1)(0), (1)(1), (1)(1), (1)(0), (1)(1), (1)(1)]
= [0, 1, 1, 0, 1, 1]
Esta multiplicao de dois vetores, elemento-a-elemento, chamada de produto de
Haddamard. Neste caso, ele produz contrastes de interao que so ortogonais a cada
outro e aos contrastes de efeitos principais.
Agora ns construiremos testes para uma hiptese linear geral H0: a = 0, H0:
B = 0 e H0: C = 0, para os efeitos principais e interao. A hiptese H0: a = 0
para o efeito principal de A facilmente testada usando uma estatstica-F similar a
(8.38) ou (14.12):
F=
s2
SQA
SQRes res
(14.29)
299
2
Onde s dado por (14.21) e res = N ab. Se H0 verdadeira, F ~ F(1, N ab). Essa
estatstica (14.29) pode ser escrita como:
F=
(a' )2
1
s 2 a' (W' W ) a
(
F=
(14.30)
2
a y
ij ij ij
s 2 ij aij2 nij
(14.31)
que anlogo a (14.13). Desde que t2(res) = F(1, res) [ver Problema 5.12], uma estatstica-t para testar H0: a = 0 dada pela raiz quadrada de (14.30),
t=
a'
1
s a' (W' W ) a
a' 0
va r (a' )
(14.32)
que distribuda como t(N ab) quando H0 verdadeira. Note que o teste baseado
em (14.29) ou em (14.32) um teste do tipo modelo completo versus modelo reduzido (ver Teorema 8.4D) e, portanto, o teste para A ajustado para o fator B e a interao.
Pelo Teorema 8.4B, uma estatstica de teste para o efeito principal do fator B,
H0: B
= 0, dado por:
F=
SQRes Res
SQB B
SQRes Res
(14.33)
F=
SQRes Res
SQC AB
SQRes Res
(14.34)
que distribuda como F(AB, Res), onde AB, o nmero de graus de liberdade para a
interao, corresponde ao nmero de linhas de C. (Em nossa ilustrao, AB = 2.)
Pelo fato dos nijs no serem iguais, as trs somas de quadrados SQA, SQB e
SQAB no totalizam a SQTrat, isto , SQA + SQB + SQAB SQTrat, e no so estatisticamente independentes, como no caso balanceado [ver (13.40) e Teorema 13.4B].
Cada soma de quadrados, SQA, SQB e SQAB, ajustada para os outros efeitos. Para
comentrios sobre o teste de efeitos principais na presena de interao, veja o pargrafo que precede (13.65) na Seo 13.4.2a.
300
Linhagem 2
Linhagem 3
Linhagem 4
Linhagem 5
Macho
13.3
12.6
11.5
15.4
12.7
15.7
13.2
15.0
14.3
16.5
15.0
13.7
a =
B=
1 1
1 1
1 1
1 1
1 1]
3 2 2 2 2 2 2
1
0
0
0
0
0
0
0
1
1 2 2
1
1
0
1
1
0
0 1 1
301
C=
3 3
3 3 2
2 2
2 2
1 2
2
0
1
= y = [14.08, 14.60, 11.75, 12.06, 10.40, 13.65, 13.28, 11.03, 11.01, 11.14]
Por (14.22) ou (14.23), ns obtemos SQRes = 425.08895, com Res= 65. Usando
(14.29), (14.33) e (14.34), ns obtemos:
FA = 0.30337,
FB = 3.47318,
FC = 0.95095
g.l.
1
4
4
65
74
SQ
1.984
90.856
24.876
425.089
552.095
QM
1.984
22.714
6.219
6.540
F
0.303
3.473
0.951
p-valor
0.5840
0.0124
0.4400
Obs: Essas SQs correspondem s somas de quadrados dos tipos III e IV do SAS.
yijk = + i + j + ijk
a menos que especifiquemos algumas relaes sobre as ijs.
(14.35)
302
Em nossa ilustrao 2 x 3 na Seo 14.3.1, os dois contrastes para a interao
so expressos como:
2
C =
0
1 2
1
1
1
Se ns desejarmos usar um modelo sem interao, ento C no uma hiptese a ser testada, mas uma suposio a ser includa quando estabelecemos o modelo.
Em geral, para condies G = 0, o modelo pode ser expresso como:
y = W + sujeito a G = 0
(14.36)
K
A=
G
(14.37)
onde K est associada com hipteses a serem testadas no modelo condicional. Para o
modelo sem interao (14.35), por exemplo, G = C; a primeira linha de K corresponderia a um teste da mdia geral, H0: = 0; a segunda linha o vetor a que corresponde ao efeito de A e as terceira e quarta linhas compem a matriz B que representa o efeito de B. Assim, ns temos:
K=
1
j
1 1 1 1 1 1
= a'
2 1 1 2 1 1
B
0
1 1 0
1 1
1
2
G=C=
0
1
1
1 2
1
1
1
1
1
y = WA A + , sujeito a G = 0
= Z + , sujeito a G = 0,
1
onde Z = WA e = A.
(14.38)
303
No modelo balanceado com dois fatores, ns obtemos o modelo sem interao
admitindo simplesmente que ij = 0 em yijk = + i + j + ij + ijk [ver (13.37)
e (13.38)]. Para incorporar a condio G = 0 diretamente no modelo no caso desbalanceado, ns particionamos em:
K
K 1
= A = =
=
G
G
2
Com uma correspondente partio das colunas de Z, o modelo pode ser escrito como:
y = Z + = [Z1 Z2] 1 +
2
(14.39)
A = 1 = 1
2 0
por
1
A = [K(KK) , G(GG) ]
(14.41)
c = K(KK) 1
Ns estimamos c por:
1
1
1
c = K(KK) 1 = K(KK) (Z1Z1) Z1y
(14.42)
(14.43)
Para o teste do fator B no modelo condicional, a hiptese H0: Bc = 0. A matriz de covarincias de B c obtida de (3.42) e (14.43)como:
1
304
Ento, pelo Teorema 8.4B, a estatstica para o teste H0: Bc = 0 no modelo condicional dada por:
F=
SQResc Resc
(14.44)
onde SQResc (sujeito a G = 0) obtida usando c [de (14.42)] em (14.21). [No nosso exemplo, onde G = C para a interao, SQResc efetivamente faz uma ponderao
de SQRes e SQAB no modelo incondicional (Bryce, 1998).] O nmero de graus de liberdade v Resc = Res + posto(G), onde Res = N ab, para o modelo incondicional,
como definido em (14.21). [Em nosso exemplo, posto(G) = 2, pois existem dois graus
de liberdade para SQAB.] Ns rejeitamos H0: Bc = 0 se F > F(, B , v Resc ), onde
(a' c )' [a' K' (KK')1 (Z1 ' Z1 )1 (KK')1 Ka] (a' c )
1
F=
(14.45)
SQResc Resc
Exemplo 14.3.2 Para os dados de sunos da Tabela 14.6, ns testamos para os fatores
A e B no modelo sem interao, onde A o fator sexo e B o fator linhagem. A matriz G a mesma que C no Exemplo 14.3.1. Para a matriz K ns temos:
j '
K = a' =
B
1
3
1
0
0
3
1
0
0
1
0
0
1
1 1
1 1
1
3 2 2 2 2 2
1
0
0
0
0
0
0
1
1 2 2
1
0
1
1
0
0 1
1
1
2
0
1
c = [14.16, 14.42, 11.77, 12.03, 11.40, 11.65, 12.45, 12.70, 10.97, 11.22]
Para SQResc usamos c no lugar de em (14.21) para obter SQResc = 449.96508.
Para v Resc , ns temos
305
Ento por (14.44), ns obtemos FBc = 3.8880. As somas de quadrados que levam a
FBc e FAc so apresentadas na Tabela 14.7.
g.l.
1
4
69
74
SQ
1.132
101.418
449.965
552.095
QM
1.132
25.355
6.521
F
0.17
3.89
p-valor
0.6780
0.0066
Obs: Neste caso (modelo com dois fatores e sem interao) as SQs de A e B correspondem s somas de quadrados dos tipos II, III e IV do SAS.
306
APNDICE
1) Programa para resolver o Exemplo 14.2.1 utilizando o proc iml.
options nodate nocenter ps=1000;
proc iml;
reset fuzz;
y = {11.95,12.00,12.25,12.10,12.18,12.11,12.16,12.15,
12.08,12.25,12.30,12.10,12.10,12.04,12.02,12.02};
Trat = {1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,5};
W = design(Trat);
* W do modelo de mdias de caselas;
k = ncol(W);
* Nmero de tratamentos;
N = nrow(W);
* Nmero total de repeties;
Jnn = J(N,N,1);
In = I(N);
SQTotal = t(y)*(In-Jnn/N)*y;
gl_total = N-1;
mi = inv(t(W)*W)*t(W)*y;
SQcompleto = t(mi)*t(W)*y;
jn = J(N,1,1);
mir = inv(t(jn)*jn)*t(jn)*y;
SQreduzido = t(mir)*t(jn)*y; * SQ do modelo reduzido: yij = mi + eij;
SQEntre = SQCompleto - SQreduzido;
gl_entre = k-1;
QMEntre = SQEntre/gl_entre;
SQRes = t(y)*y - t(mi)*t(W)*y;
gl_res = N-K;
QMRes = SQRes/gl_res;
Fcalc = QMEntre/QMRes;
p_valor = 1 - cdf('F', Fcalc,gl_entre, gl_res);
print 'Ho: m1=m2=m3=m4=m5'
'Resduo
'
'Total
'
307
print 'A,D vs. B,C,E' SQA1 F_A1 p_valor_A1,
'B,E vs. C
' SQA2 F_A2 p_valor_A2,
'A vs. D
' SQA3 F_A3 p_valor_A3,
'B vs. E
' SQA4 F_A4 p_valor_A4;
SQContrastes = SQA1 + SQA2 + SQA3 + SQA4;
print ,, SQContrastes SQEntre ,, 'As SQs so diferentes porque os contrastes no
so independentes';
Resultando em:
ANOVA do Exemplo 14.2.1 (one(one-way desbalanceado)
desbalanceado)
Ho: m1=m2=m3=m4=m5
Resduo
Total
GL_ENTRE
SQENTRE
QMENTRE
FCALC
P_VALOR
4 0.0594271 0.0148568 1.9290712 0.1756589
GL_RES
SQRES
QMRES
11 0.0847167 0.0077015
GL_TOTAL
SQTOTAL
15 0.1441438
B,E vs. C
SQA2
F_A2 P_VALOR_A2
P_VALOR_A2
0.002352 0.3053945 0.5915726
A vs. D
SQA3
F_A3 P_VALOR_A3
0.0344048 4.4672719 0.0582133
B vs. E
SQA4
F_A4 P_VALOR_A4
0.0133333 1.7312611 0.2150124
SQCONTRASTES
SQENTRE
SQENTRE
0.0558527 0.0594271
308
12.10
12.15
12.10
12.02
3 -2 -2 3 -2;
0 1 -2 0 1;
1 0 0 -1 0;
0 1 0 0 -1;
Resultando em:
Class Level Information
Class
Levels
Maquina
5
Number of observations 16
Values
A B C D E
Dependent Variable: y
Source
Model
Error
Corrected Total
R-Square
0.412277
DF
4
11
15
Coeff Var
0.724489
Squares
0.05942708
0.08471667
0.14414375
Root MSE
0.087758
Sum of
Mean Square
0.01485677
0.00770152
F Value
1.93
Pr > F
0.1757
y Mean
12.11313
Source
Maquina
DF
4
Type III SS
0.05942708
Mean Square
0.01485677
F Value
1.93
Pr > F
0.1757
Contrast
A,D vs. B,C,E
B, E vs. C
A vs. D
B vs. E
DF
1
1
1
1
Contrast SS
0.00576261
0.00235200
0.03440476
0.01333333
Mean Square
0.00576261
0.00235200
0.03440476
0.01333333
F Value
0.75
0.31
4.47
1.73
Pr > F
0.4055
0.5916
0.0582
0.2150
309
3 3 3 -2 -2 -2 -2 -2 -2,
1 -1 -1 0 0 0 0 0 0,
0 0 0 1 1 -2 -2 1 1,
0 0 0 1 1 0 0 -1 -1};
310
jmi = j(1,ab,1);
K = jmi//Alinha//B;
nk = nrow(K);
A = K//C;
invA = inv(A);
Z = W*inv(A);
Z1 = Z[,1:nk];
delta1 = inv(t(Z1)*Z1)*t(Z1)*y;
mic = t(K)*inv(K*t(K))*delta1;
SQResc = t(y)*y - t(mic)*t(W)*y;
gl_resc = gl_res+gl_ab;
QMResc = SQResc/gl_resc;
prod = t(K)*inv(K*t(K))*inv(t(Z1)*Z1)*inv(K*t(K))*K;
SQA_c = t(Alinha*mic)*inv(Alinha*prod*t(Alinha))*Alinha*mic;
QMA_c = SQA_c/gl_A;
FA_c = QMA_c/QMResc;
p_value_A_c = 1-cdf('F',FA_c,gl_A,gl_resc);
SQB_c = t(B*mic)*inv(B*prod*t(B))*B*mic;
QMB_c = SQB_c/gl_B;
FB_c = QMB_c/QMResc;
p_value_B_C = 1-cdf('F',FB_c,gl_B,gl_resc);
print ,,,, 'ANOVA do Exemplo 14.3.1 (Tabela 14.7) - Modelo condicional: yijk =
mi + ai + bj + eijk';
print 'A (sexo)
' gl_A
SQA_c
QMA_c FA_c p_value_A_c,
'B (linhagem
' gl_B
SQB_c
QMB_c FB_c p_value_B_c,
'Resduo_cond ' gl_resc SQResc QMResc,
'Total
' gl_total SQTotal;
Resultando em:
ANOVA do Exemplo 14.3.1 (Tabela 14.6) - Modelo: yijk = mi + ai + bj +
(ab)ij + eijk
A (sexo)
GL_A
SQA
QMA
FA P_VALUE_A
1 1.9839823 1.9839823 0.3033691 0.5836662
B (linhagem
GL_B
SQB
QMB
FB P_VALUE_B
4 90.855927 22.713982 3.4731761 0.0124039
AB (interao)
Resduo
Total
GL_AB
4
SQAB
QMAB
FAB P_VALUE_AB
24.87613 6.2190326 0.9509471 0.4404901
GL_RES
SQRES
QMRES
65 425.08895 6.5398301
GL_TOTAL
SQTOTAL
74 552.09547
311
ANOVA do Exemplo 14.3.1 (Tabela 14.7) - Modelo condicional: yijk = mi +
ai + bj + eijk
A (sexo)
GL_A
SQA_C
QMA_C
FA_C P_VALUE_A_C
1 1.1322486 1.1322486 0.1736249
0.6782035
B (linhagem
GL_B
SQB_C
QMB_C
FB_C P_VALUE_B_C
4 101.41823 25.354556 3.8880003
0.0066154
GL_RESC
SQRESC
QMRESC
69 449.96508 6.5212331
Resduo_cond
GL_TOTAL
SQTOTAL
74 552.09547
Total
Macho
Macho
Macho
Fmea
Macho
Macho
Macho
Fmea
Fmea
Macho
Fmea
Macho
Macho
Macho
Fmea
13.3
15.7
15.0
15.9
10.5
14.4
10.9
15.3
12.9
13.6
14.4
14.7
10.3
11.0
12.8
1
1
1
1
2
2
2
2
2
3
4
4
5
5
5
Macho
Macho
Macho
Fmea
Macho
Macho
Macho
Fmea
Fmea
Macho
Macho
Macho
Macho
Macho
Fmea
12.6
13.2
13.7
12.9
11.6
7.5
13.0
11.8
12.5
13.1
11.6
12.4
10.3
12.2
8.4
1
1
1
1
2
2
2
2
2
3
4
4
5
5
5
Macho
Macho
Fmea
Fmea
Macho
Macho
Macho
Fmea
Fmea
Macho
Macho
Fmea
Macho
Macho
Fmea
11.5
15.0
18.2
15.1
15.4
10.8
15.9
11.0
13.0
4.1
13.2
13.8
10.1
13.3
10.6
1
1
1
2
2
2
2
2
2
3
4
4
5
5
5
Macho
Macho
Fmea
Macho
Macho
Macho
Macho
Fmea
Fmea
Macho
Macho
Fmea
Macho
Macho
Fmea
15.4
14.3
11.3
10.9
14.4
10.5
12.8
10.9
7.6
10.8
12.6
14.4
6.9
12.9
13.9
1
1
1
2
2
2
2
2
2
3
4
4
5
5
5
Macho
Macho
Fmea
Macho
Macho
Macho
Fmea
Fmea
Fmea
Fmea
Macho
Fmea
Macho
Macho
Fmea
proc glm;
class Linhagem Sexo;
model Gordura = Sexo Linhagem Linhagem*Sexo / SS1 SS2 SS3 SS4;
run;
12.7
16.5
14.2
3.3
11.6
14.5
14.3
10.5
12.9
12.9
15.2
4.9
13.2
9.9
10.0
312
Resultando em:
Dependent Variable: Gordura
Source
Model
Error
Corrected Total
R-Square
0.230044
DF
9
65
74
Squares
127.0065121
425.0889545
552.0954667
Coeff Var
20.74167
Root MSE
2.557309
Sum of
Mean Square
14.1118347
6.5398301
F Value
2.16
Pr > F
0.0366
Gordura Mean
12.32933
Source
Sexo
Linhagem
Linhagem*Sexo
DF
1
4
4
Type I SS
0.7121565
101.4182254
24.8761302
Mean Square
0.7121565
25.3545564
6.2190326
F Value
0.11
3.88
0.95
Pr > F
0.7425
0.0069
0.4405
Source
Sexo
Linhagem
Linhagem*Sexo
DF
1
4
4
Type II SS
1.1322486
101.4182254
24.8761302
Mean Square
1.1322486
25.3545564
6.2190326
F Value
0.17
3.88
0.95
Pr > F
0.6787
0.0069
0.4405
Source
Sexo
Linhagem
Linhagem*Sexo
DF
1
4
4
Type III SS
1.98398234
90.85592716
24.87613022
Mean Square
1.98398234
22.71398179
6.21903256
F Value
0.30
3.47
0.95
Pr > F
0.5837
0.0124
0.4405
Source
Sexo
Linhagem
Linhagem*Sexo
DF
1
4
4
Type IV SS
1.98398234
90.85592716
24.87613022
Mean Square
1.98398234
22.71398179
6.21903256
F Value
0.30
3.47
0.95
Pr > F
0.5837
0.0124
0.4405
313
314
3. A covarivel no afeta as diferenas entre as mdias dos grupos (tratamentos).
Se diferenas entre as mdias dos grupos forem reduzidas quando a varivel
dependente est ajustada para a covarivel, o teste para a igualdade das mdias
dos grupos ser menos eficaz. A suposio 3 pode ser checada realizando uma
ANOVA sobre a covarivel.
As covariveis podem ser constantes fixadas (valores escolhidos pelo pesquisador) ou variveis aleatrias. Os modelos que consideraremos nesse captulo envolvem covariveis fixadas, mas na prtica, elas so geralmente aleatrias. Entretanto, os
procedimentos de estimao e testes de hipteses so idnticos em ambos os casos,
embora as propriedades dos estimadores e testes sejam um pouco diferentes para
covariveis fixadas ou aleatrias. Por exemplo, no caso de covariveis fixadas, o
poder dos testes depende dos valores reais escolhidos para a covarivel, enquanto no
caso de covariveis aleatrias, o poder dos testes depende da matriz de covarincias
(populacional) das covariveis.
Como uma ilustrao do uso de anlise de covarincia, suponha que desejamos
comparar trs mtodos de ensinar lnguas. Trs classes esto disponveis e ns designamos uma classe a cada um dos mtodos de ensino. Os alunos so livres para escolher uma dessas trs classes, no sendo designados aleatoriamente. Uma das classes
pode terminar com uma poro desproporcional dos melhores alunos, e neste caso,
no podemos afirmar que os mtodos de ensino produziram diferenas significativas
nas notas finais. Mas ns podemos usar notas anteriores ou outras medidas de performance como covariveis e ento comparar os escores ajustados dos estudantes para
os trs mtodos.
A seguir, ns faremos uma abordagem geral para a estimao e testes de hipteses na Seo 15.2 e ento cobrimos modelos balanceados especficos nas Sees
15.3, 15.4 e 15.5. Modelos desbalanceados sero brevemente discutidos na Seo
15.6. Ns usamos modelos superparametrizados para o caso balanceado nas Sees
15.2-15.5 e usamos o modelo de mdias de caselas na Seo 15.6.
y = Z
+ X
+ ,
(15.1)
315
onde Z contem 0s e 1s, contem e parmetros como i, j e ij representando fatores e interaes (ou outros efeitos), X contem os valores das covariveis e contem
os coeficientes das covariveis. Assim as covariveis aparecem do lado direito de
(15.1) como variveis independentes. Note que Z
o mesmo que X
nos modelos
de ANOVA dos captulos 11, 12 e 13, enquanto que neste captulo, ns usamos X
yij = + i + xij + ij
i = 1, 2, , k , j = 1, 2, , n,
(15.2)
onde i o efeito de tratamento, xij uma covarivel observada nas mesmas unidades
amostradas e um coeficiente angular (slope) relacionando yij com xij. [Se (15.2)
visto como um modelo de regresso, ento os parmetros + i, i = 1, 2, , k, servem como os interceptos da regresso para os k grupos]. As kn observaes de (15.2)
podem ser escritas na forma y = Z
+ X
+ como em (15.1), onde
1
M
1
Z=
1
M
1 0 L 0
M M
M
1 0 L 0
, =
0 1 L 0
M M
M
0 0 L 1
x11
M
x
1 , X = x = 1n ,
M
x2n
M
k
xkn
(15.3)
(15.4)
xkn1
x112 L x11q 1
x122 L x12q 2
.
M
M M
xkn2 L xknq q
(15.5)
(15.6)
Z
tem a forma dada em (13.4) e X
= x = [x111, x112, , xacn]. Este modelo pode
ser estendido para incluir diversas covariveis.
316
15.2.2 Estimao
Agora ns desenvolvemos estimadores de e para o caso geral em (15.1), y = Z
+ X
+ . Assumimos que Z de posto incompleto como nos modelos superparametrizados de ANOVA e X de posto completo como nos modelos de regresso. Ns
tambm assumimos que
E() = 0 e cov() = 2I.
O modelo pode ser expresso como
y = Z
+ X
+
= [Z, X] +
= U
+
(15.7)
onde U = [Z, X] e = . O sistema de equaes normais para (15.7) fica
UU = Uy
que pode ser escrito na forma particionada como
Z
= Z y
[
Z
,
X]
X
X
ZZ ZX Zy
XZ XX = Xy
(15.8)
ZZ + ZX = Zy
(15.9)
XZ + XX = Xy
(15.10)
= (ZZ) Zy (ZZ) ZX
= 0 (ZZ) ZX
(15.11)
XZ[(ZZ) Zy (ZZ) ZX ] + XX = Xy
ou
(15.12)
317
Definindo
P = Z(ZZ) Z
(15.13)
(15.14)
= E xx1 exy,
(15.15)
onde
Exx = X(I P)X e exy = X(I P)y
(15.16)
Zy
SQResy.x = yy Uy = yy [ , ]
Xy
= yy Zy Xy
= yy [ 0 XZ(ZZ) ]Zy Xy
[por (15.11)]
(15.17)
(15.18)
(15.19)
onde
Em (15.18), ns vemos a reduo na SQRes que foi notada no segundo pargrafo da Seo 15.1. A prova que Exx = X(I P)X no singular (ver o Problema
15.1) pode ser estendida para mostrar que Exx positiva definida. Sendo assim, temos
que (exy) E xx1 exy > 0 e que SQResy.x < SQResy.
318
15.2.3 Teste de hipteses
Para testar hipteses, ns assumimos que em (15.1) distribudo como Nn(0, 2I),
onde n o nmero de linhas de Z ou X. Usando o modelo (15.7), podemos expressar
uma hiptese sobre (nveis do fator) na forma H0: C = 0, onde C = [C1, 0]:
H0: [C1, 0] = 0 ou H0: C1 = 0.
Ns podemos ento usar um teste de hiptese linear geral. Alternativamente, podemos incorporar a hiptese ao modelo e usar a abordagem do modelo completo versus
modelo reduzido.
Hipteses sobre (covariveis) podem ser expressas na forma H0: C = 0:
H0: [0, C2] = 0 ou H0: C2 = 0.
Uma hiptese bsica de interesse H0: = 0, isto , que a(s) covarivel(eis) no pertence(m) ao modelo (15.1). Para realizar um teste de hiptese linear geral de H0: =
1
0, ns precisamos de cov( ), onde = [X(I P)X] X(I P)y [ver (15.14)]. Desde
que I P idempotente (ver Teoremas 2.13E e 2.13F), cov( ) pode ser obtida facilmente de (3.42) como:
1
1
cov( ) = [X(I P)X] X(I P)2I(I P)X[X(I P)X]
1
= 2 [X(I P)X]
(15.20)
Ento a SQHip para testar H0: = 0 dada pelo Teorema 8.4A(ii) como:
SQHip = X(I P)X
(15.21)
(15.22)
Vale notar que SQHip em (15.22) igual reduo em SQRes devida s covariveis;
ver (15.17), (15.18) e (15.19).
Agora ns discutiremos alguns modelos especficos, comeando pelo modelo
com um fator na Seo 15.3.
319
15.3.1 O modelo
i = 1, 2, , k , j = 1, 2, , n.
(15.23)
15.3.2 Estimao
= 0 (ZZ) ZX = 0 (ZZ) Zx
0
0 0
y x y x
1
1 1 1
= y 2 x2 = y 2 x2
M
M M
y k xk y k xk
(15.24)
(ver Problema 15.4). Neste caso, com uma nica covarivel x, Exx e exy passam a ser
escalares, como eyy:
Exx = exx =
(xij xi )2
i =1 j =1
exy = exy =
(xij xi )(yij yi )
(15.25)
i =1 j =1
k
eyy =
(yij yi )2
i =1 j =1
exy
=
=
exx
ij (xij xi )(yij yi )
ij (xij xi )2
Ou ento:
= eyy
2
exy
exx
(15.26)
320
SQResy.x =
(yij yi )
[ (x
ij
ij
)(
xi yij yi
)]2
ij (xij x )2
ij
(15.27)
que tem k(n 1) 1 graus de liberdade. Note que os graus de liberdade de SQResy.x
foram reduzidos por 1 pela estimao de , visto que SQResy = eyy tem k(n 1) graus
2
de liberdade e que exy
/ exx tem 1 grau de liberdade. Utilizando a anlise de covarincia, o pesquisador espera que a reduo da SQResy para SQResy.x compense a perda
de um grau de liberdade.
15.3.3 Teste de hipteses
Para testar hipteses, ns assumimos que os ijs em (15.23) sejam independentemente distribudos como N(0, 2). Ns vamos iniciar com um teste para a igualdade
dos efeitos de tratamentos.
15.3.3a Tratamentos
Para testar
H01: 1 = 2 = = k
ajustado para a covarivel, ns usamos a abordagem do modelo completo versus o
modelo reduzido. O modelo completo (15.23) e o modelo reduzido (com 1 = 2 =
= k)
yij = + + xij + ij
= * + xij + ij, i = 1, 2, , k, j = 1, 2, , n.
(15.28)
Este essencialmente o mesmo modelo de regresso linear (6.1). Por (6.13), a SQRes
para o modelo reduzido (denotado por SQResred) dada por
SQResred =
(yij y )
ij
[ (x
ij
ij
)(
x yij y
ij (xij x )2
)]2
(15.29)
(15.30)
321
que tem kn 2 [k(n 1) 1] = (k 1) graus de liberdade. A estatstica de teste para
H01: 1 = 2 = = k dada por
F=
SQ(|, ) (k 1)
SQRes y.x [k (n 1) 1]
(15.31)
Portanto, SQResred funciona como a soma de quadrados total para o teste dos efeitos dos tratamentos ajustados para a covarivel. Podemos ento denotar SQResred por
SQTy.x de tal forma que a expresso anterior passa a ser escrita como:
SQTy.x = SQ( | , ) + SQResy.x
(15.32)
2
/ e xx em (15.27), ns escrePara completar a analogia com SQResy.x = e yy e xy
vemos (15.29) como:
2
t xy
SQTy.x = tyy
(15.33)
t xx
onde
SQTy.x = SQResred
tyy =
ij (yij y )2 ,
txy =
ij (xij x )(yij y ),
txx =
ij (xij x )2
(15.34)
Note que o procedimento usado para obter (15.30) fundamentalmente diferente daquele usado para obter SQResy.x e SQResred em (15.27) e (15.29). A soma de
quadrados SQ( | , ) em (15.30) obtida como uma diferena entre as somas de
quadrados dos modelos completo e reduzido, no como um ajuste para SQ( | ) =
n i ( yi y )2 em (12.24) anlogo ao ajuste usado em SQResy.x e SQTy.x em (15.27)
e (15.33). Ns devemos usar a abordagem do modelo completo versus o modelo reduzido para calcular SQ( | , ), porque no temos os mesmos valores de covariveis para cada tratamento e o delineamento portanto desbalanceado (mesmo quando
os ns so iguais). Se SQ( | , ) fosse calculada de uma forma ajustada como em
(15.27) ou (15.33), ento SQ( | , ) + SQResy.x no seria igual a SQTy.x como em
(15.32). Na Seo 15.4, ns seguiremos um esquema computacional similar ao de
(15.30) e (15.32) para cada termo de um modelo com dois fatores (balanceado).
Ns apresentamos na Tabela 15.1 as vrias somas de quadrados para testar H01:
1 = 2 = = k.
322
Tabela 15.1 Anlise de covarincia para testar H01: 1 = 2 = = k em um modelo
one-way com uma covarivel.
Fonte
g.l. ajustado
Tratamentos
k1
Resduo
2
SQResy.x = e yy e xy
/ e xx
Total
2
SQTy.x = tyy t xy
t xx
k(n 1) 1
kn 2
H02: = 0.
Por (15.22), a abordagem da hiptese linear geral leva a SQHip = (exy) E xx1 exy para
testar H0: = 0. Para o caso de uma nica covarivel, essa expresso se reduz a
SQHip =
2
e xy
e xx
(15.35)
onde exy e exx esto definidos em (15.25). A estatstica F para testar H02: = 0 ,
portanto, dada por
F=
2
exy
exx
SQRes y.x [k (n 1) 1]
(15.36)
(15.37)
onde i o coeficiente angular no i-simo grupo. Dessa forma, H03 estabelece que as
k linhas de regresso so paralelas.
O modelo completo permitindo coeficientes angulares diferentes para os diferentes grupos pode ser escrito como:
yij = + i + ixij + ij,
i = 1, 2, , k , j = 1, 2, , n.
(15.38)
323
O modelo reduzido com um nico coeficiente angular (15.23). Na forma matricial,
as kn observaes em (15.38) podem ser expressas como y = Z + X + , onde Z e
so dadas em (15.3) e
x1 0 L 0
0 x L 0
2
X =
M
M
M
0 0 L xk
1
2,
M
k
(15.39)
Para calcular Exx e exy, ns primeiramente notamos que, por (12.11), (12.25) e
(12.26), temos:
0
L
0
I n J
I J L
0
0
I P = I Z(ZZ) Z =
n
M
M
M
0
0
L
I
(15.40)
1
onde I em I P kn x kn e na expresso I J n x n. Ento por (15.16),
n
1
x1 I n J x1
0
=
x1 j x1
j
0
=
M
)2
0
1
x 2 I J x 2
n
M
0
L
L
M
1
x k I J x k
n
j (x2 j x2 )2
M
0
M
L
j (xkj xk )
(15.41)
324
e xx,1
0
=
M
0
onde exx,i =
0
L 0
L e xx,k
0
e xx,2
M
0
(15.42)
[y1, y2, , yk] onde yi = [yi1, yi2, , yin]. Ento por (15.16),
0
=
M
x t2 L 0
M
M
0 L xtk
0 L
0
L
0
I n J
1
I
J
0
0
L
M
M
M
1
0
L I J
0
n
t 1
x1 I n J y1 x x y y
1
1j
1
j 1j
t 1
x2 j x2 y 2 j y 2
= x 2 I n J y 2 = j
M
M
t 1 j xkj xk ykj yk
x k I J y k
n
(
(
(
)(
)(
)(
e xy,1
e
xy,2
=
M
e xy,k
onde exy,i =
)
)
)
y1
y
2
M
y k
(15.43)
(15.44)
exy,k exx,k
(15.45)
325
SQRes(completo)y.x = eyy (exy) E xx1 exy = eyy (exy)
exy,1 exx,1
e
xy,2 e xx,2
exy,k exx,k
k
= eyy
2
e xy,i
(15.46)
i =1 xx,i
que tem k(n 1) k = k(n 2) graus de liberdade. O modelo reduzido sob H03: 1 =
2 = = k = dado por (15.23), para o qual SQRes(reduzido)y.x encontrado em
(15.27) como
2
e xy
SQRes(reduzido)y.x = eyy
,
(15.47)
e xx
que tem k(n 1) 1 graus de liberdade. Assim, a soma de quadrados para testar H03
k
SQRes(reduzido)y.x SQRes(completo)y.x =
2
e xy,i
i =1 xx,i
2
e xy
e xx
(15.48)
[
F=
k
e2
i =1 xy,i
2
exx,i exy
exx
] (k 1)
SQRes(completo) y.x k (n 2 )
(15.49)
Exemplo 15.3.3. Para investigar o efeito de dieta no peso de maturao de guppy fish
(Poecilia reticulatia), trs grupos de peixes foram alimentados com diferentes dietas.
Os pesos resultantes, y, so apresentados na Tabela 15.2 (Morrison, 1983, p. 475),
como tambm os pesos iniciais, x. Note que k = 3 e n = 7.
Ns primeiramente estimamos usando x como covarivel. Pelos trs resultados em (15.25), ns temos:
exx = 350,2857, exy = 412,71429, eyy = 1465,7143.
326
Ento por (15.26),
e xy
e xx
412,71429
= 1,1782.
350,2857
Grupo 2
Grupo 3
49
35
68
33
59
33
61
55
69
51
38
26
29
32
23
26
70
60
53
59
48
35
28
29
32
23
53
54
48
54
53
36
26
30
33
25
64
31
46
26
37
23
Agora ns testamos a igualdade das mdias de tratamentos ajustadas para a covarivel, H01: 1 = 2 = 3. De (15.27), ns temos:
SQResy.x = eyy
2
e xy
e xx
= 1465,7143
(412,7143)2
350,2857
= 979,4453
SQ(|, ) (k 1)
162,0256 2
=
= 1,4061.
SQRes y.x [k (n 1) 1] 979,4453 17
2
exy
exx
SQRes y.x [k (n 1) 1]
(412,7143)2
350,2857
= 8,4401.
979,4453 (17 )
327
Para testar a igualdade de coeficientes angulares iguais nos trs grupos, H03: 1
= 2 = 3, ns primeiro estimamos 1, 2 e 3 usando (15.45):
(979,4453 880,5896) 2
880,5896 (3)(5)
= 0,8420.
Mdia
55,29
57,71
51,14
Mdia ajustada
55,73
57,49
50,92
(15.50)
i = 1, 2, , a , j = 1, 2, , c, k = 1, 2, , n,
328
yijk = * + xijk + ijk
(15.51)
SQResred =
(yijk y )2
i =1 j =1 k =1
ijk yijk2
y2
acn
ijk
(xijk x )(yijk y )] 2
ijk (xijk x )2
2
]
(
x
x
)(
y
y
)
ijk
ijk
ijk
ijk (xijk x )2
(15.52)
Por analogia a (15.27), SQRes para o modelo completo em (15.50) dada por
SQResy.x =
(yijk yij )
ijk
ijk
2
yijk
ijk
ij
yij2
n
ijk
(15.53)
que tem [ac(n 1) 1] graus de liberdade. Note que o nmero de graus de liberdade
para SQResy.x foi reduzido de 1 por causa do ajuste da covarivel.
Agora, por analogia a (15.30), a soma de quadrados geral de tratamentos :
ij
yij2
y2
+
n
acn
ijk
ijk
(xijk x )(yijk y )] 2
ijk (xijk x )2
(15.54)
ij yij2
n y2 acn em (15.54),
representa a soma de quadrados geral dos tratamentos e pode ser particionada como
em (13.40):
yij2
y2
n acn = cn ( yi y )2 + an y j y 2
ij
j
i
+ n yij yi y j + y
ij
)2
(15.55)
329
Para que a notao fique conforme, ns definimos:
SQResy = yijk yij
)2
ijk
ij
xij2
n
x2
= SQAx + SQCx + SQACx,
acn
(15.56)
Ns tambm definimos
SQResx =
(xijk xij )2 .
ijk
ij xij yij
n x y acn pode
ser particionada de uma forma anloga a (15.55) e (15.56) (ver Problema 15.8):
ij
xij yij
n
x y
= cn ( xi x )( yi y )
acn
i
)(
+ an x j x y j y
)(
+ n xij xi x j + x yij yi y j + y
(15.57)
ij
(SPRes )2 .
SQRes x
330
Ns obteremos um total para cada termo (A, C ou AC) adicionando o SQ ou SP do
resduo aos termos SQ ou SP de cada x, y e xy (ver as entradas de A+Res, C+Res e
AC+Res na Tabela 15.3). Os totais so anlogos a SQTy.x = SQ( | , ) + SQResy.x em
(15.32) para o modelo com um fator. Os totais so usados para obter as somas de
quadrados ajustados para a covarivel de uma maneira anloga quela empregada no
modelo com um fator [ver (15.30) ou a linha para tratamentos na Tabela 15.1]. Por
exemplo, a soma de quadrados ajustada SQAy.x para o fator A obtida como segue:
(
SPA + SPRes )2
SQ(A+Res)y.x = SQAy + SQResy
(15.58)
SQAx + SQResx
(SPRes )2
SQResy.x = SQResy
(15.59)
SQRes x
(15.60)
xy
SQAy
SQAx
SPA
SQCy
SQCx
SPC
AC
SQACy
SQACx
SPAC
Resduo (Res)
SQResy
SQResx
SPRes
A + Res
SQAy + SQResy
SQAx + SQResx
SPA + SPRes
C + Res
SQCy + SQResy
SQCx + SQResx
SPC + SPRes
AC + Res
SQACy + SQResy
SQACx + SQResx
SPAC + SPRes
Inspecionando (15.58), (15.59) e (15.60), ns vemos que SQAy.x tem a 1 graus de liberdade. A estatstica do teste para H01: 1 = 2 = = a, correspondente ao efeito
principal de A, dada por
F=
SQAy.x /(a 1 )
SQRes y.x / [ac(n 1 ) 1]
(15.61)
que tem distribuio F[a 1, ac(n 1) 1] se H01 verdadeira. Testes para o fator C
e a interao AC so desenvolvidos de forma anloga.
Exemplo 15.4.1. Em cada um dos trs distritos de Iowa, uma amostra de fazendas foi
tomada de um grupo de fazendas onde proprietrio e inquilino so parentes e de
fazendas onde proprietrio e inquilino no so parentes. A Tabela 15.4 (Ostle & Men-
331
sing, 1975, p. 480) apresenta os dados de y = valor das colheitas produzidas e x =
tamanho da fazenda.
Distrito 2
Distrito 3
160
320
2490
5349
90
154
4489
10026
120
245
8453
4891
3491
200
160
120
5518
10417
4278
160
234
120
5659
5475
11382
160
160
320
160
4936
160
5731
160
6971
4053
8767
6765
160
120
280
160
7376
6216
10313
5124
200
160
240
120
6787
5814
9607
9817
173
134
239
320
332
Por (15.58), (15.59) e (15.60), ns temos:
SQ(A + R)y.x = 30248585,0 SQResy.x = 28873230,0 SQAy.x = 1375355,1.
SQAy.x /(a 1 )
SQRes y.x / [ac(n 1 ) 1]
1375355,1 1
1375355,1
=
= 1,0956.
28873230,0 23 1255357,8
766750,1 2
= 0,3054
1255357,8
com p-valor igual a 0,740. Ns no rejeitamos a hiptese H01c: 1 = 2 = 3 e concluimos que os valores mdios das colheitas das propriedades localizadas nos trs distritos podem ser admitidos como iguais.
Para a interao AC, ns obtemos:
F=
932749,5 2
= 0,3715
1255357,8
(SPRes )2 SQResx ,
SQRes y.x [ac(n 1 ) 1]
(15.62)
Exemplo 15.4.2. Para testar H02: = 0 para os dados das fazendas na Tabela 15.4,
ns usamos SPRes e SQResx da Tabela 15.5 e SQResy.x do Exemplo 15.4.1. Usando
(15.62),
F=
= 87,5708.
333
ou seja, as linhas de regresso para os a nveis do fator A so paralelas. Os interceptos, naturalmente, podem ser diferentes. Para obter um estimador do coeficiente angular i para o i-simo nvel de A, definimos SQResx e SPRes para o i-simo nvel de
A como:
c
SQResx,i =
(xijk xij )2
(15.63)
j =1 k =1
SPResi =
(SPResi )2
i =1
SQRes x,i
(SPRes )2 .
SQRes x
[SQ(reduzido) SQ(completo)] (a 1 )
SQ(completo) [ac(n 1 ) a ]
[ (SPRes )
=
[SQRes
a
i =1
a
i =1
(SPResi )2
SQResx,i
] (a 1)
] [ac(n 1 ) a]
(15.64)
que (sob H03) tem distribuio F[a 1, ac(n 1) a]. Os testes para homogeneidade
dos coeficientes angulares de C e AC so construdos de maneira similar.
334
Exemplo 15.4.3. Para testar a homogeneidade dos coeficientes angulares para o fator
A, ns primeiramente encontramos 1 e 2 para os dois nveis de A:
SPR1
2.141.839,8
1 =
=
= 34,9066
SQRx,1
61.359,2
SPR2
1.285.768,8
2 =
=
= 28,2519
SQRx,2
45.510,8
Ento
a
SQ(completo) = SQResy
i =1
SQ(reduzido) = SQResy
(SPResi )2 = 27716088,7
SQRes x,i
(SPRes )2 = 28873230,0
SQRes x
1157140,94 (1)
= 0,9185.
27716088,70 (22)
Como p-valor = 0,348, ns no rejeitamos H03: 1 = 2 e podemos admitir que os coeficientes angulares dos dois grupos (o proprietrio e inquilino so parentes ou no)
so iguais.
Para a homogeneidade dos coeficientes angulares para os nveis o fator C, ns
temos:
1 = 23,2104, 2 = 50,0851, 3 = 31,6693,
F=
9506034,16 (2 )
= 5,1527
19367195,50 (21)
= + i + xij + ij,
i = 1, 2, , k, j = 1, 2, , n.
(15.65)
335
onde = [1, 2, , q] e xij = [xij1, xij2, , xijq]. Para este modelo, ns desejamos
testar H01: 1 = 2 = = k e H02: = 0. Ns tambm desejamos estender o modelo
para permitir um vetor diferente para cada um dos k grupos e testar a igualdade desses vetores .
O modelo em (15.65) pode ser escrito matricialmente como
y = Z + X + ,
onde Z e so dados em (15.3) e X dado por (15.5):
x111
x
121
X =
M
xkn1
x112 L x11q 1
x122 L x12q 2
.
M
M M
xkn2 L xknq q
X1
X
2 ,
M
X k
(15.66)
onde
yi1
y
yi = i2 e Xi =
M
yin
xi11
x
i21
M
xin1
xi12 L xi1q
xi22 L xi2q
.
M
M
xin2 L xinq
15.5.2 Estimao
Ns primeiramente obtemos Exx, exy e eyy para usar em e SQResy.x. Por (15.16),
Exx = X(I P)X
i =1
(veja o Problema 15.10). Similarmente, usando y particionado como em (15.66), exy
dado por (15.16) como
336
k
Xi I n J y i
(15.68)
i =1
y i I n J y i
(15.69)
i =1
Os elementos de Exx, exy e de eyy so extenses das somas de quadrados e produtos encontrados nas trs expresses em (15.25).
Para examinar os elementos da matriz Exx, primeiramente notamos que I
1
escrito como:
1
1
1
Xi I J X i = Xi I J I J X i = Xci X ci ,
(15.70)
n n
n
1
onde X ci = I J X i a matriz Xi centrada:
n
( xi11 xi 1 ) ( xi12 xi 2 ) L
( x x ) ( x x ) L
i21
i 1
i22
i2
X ci =
M
M
( xin1 xi 1 ) ( xin2 xi 2 ) L
(xi1q xi q )
(xi2q xi q )
M
(15.71)
(xinq xi q )
[veja (7.34) e o Problema 7.15], onde xi2 , por exemplo, a mdia da segunda coluna
de Xi, isto , xi 2 =
j =1 xij 2
n
Xci X ci so:
n
(xijr xir )2
r = 1, 2, , q
(15.72)
j =1
r s.
(15.73)
j =1
(xijr xir )2
r = 1, 2, , q
(15.74)
i =1 j =1
r s.
(15.75)
337
Essas duas expresses so anlogas para exx =
ij (xij xi )2
em (15.25).
Para examinar os elementos do vetor exy, notamos que por um argumento simi 1
lar quele usado para obter (15.70), Xi I J y i em (15.68) pode ser escrito como:
n
t
1
1 1
Xi I J y i = Xi I J I J y i = Xci y ci
n
n
n
onde X ci dado em (15.71) e
yi1 yi
y y
i
yci = i2
yin yi
com yi =
j =1 yij
n
r = 1, 2, , q,
j =1
r = 1, 2, , q.
i =1 j =1
eyy =
1 1
yi I n J I n J y i =
i =1
yci y ci =
(yij yi )2
i =1
i =1 j =1
(15.76)
Por (15.15),
= E xx1 exy
onde Exx dada por (15.67) e exy dada por (15.68). Igualmente, por (15.18),
(15.77)
onde eyy dado por (15.69) ou (15.76). O nmero de graus de liberdade de SQResy.x
k(n 1) q. Por (15.11) e (12.12),
0
0 0
y x y x
1
1 1 1
= 0 (ZZ) ZX = y 2 x 2 = y 2 x 2
(15.78)
M
M M
y k x k y k x k
338
Ou ento:
y1
y
= 2
y k
(15.79)
15.5.3a Tratamentos
Para testar
H01: 1 = 2 = = k
ajustado para as q covariveis, ns usamos a abordagem do modelo completo versus
modelo reduzido como na Seo 15.3.3a. O modelo completo dado por (15.65) e o
modelo reduzido (com 1 = 2 = = k = ) :
yij = + + xij + ij
= * + xij + ij,
(15.80)
ij
Os elementos de txy so
(xijr xr )(yij y ),
r = 1, 2, , q,
ij
e os elementos de Txx so
(xijr xr )(xijs xs ),
r = 1, 2, , q, s = 1, 2, , q.
ij
Assim, por analogia com (15.30), ns usamos (15.81) e (15.77) para obter
SQ( | , ) = SQTy.x SQResy.x
1
= tyy (txy) Txx
txy eyy + (exy) E xx1 exy
(yij y )2 (yij yi )2
ij
ij
1
(txy) Txx
txy + (exy) E xx1 exy
339
Ou ento
1
txy + (exy) E xx1 exy
SQ( | , ) = n ( yi y )2 (txy) Txx
(15.82)
Tratamentos
Resduo
Total
1
SQTy.x = tyy (txy) Txx
txy
g.l. ajustados
k1
k(n 1) q
kn q 1
SQ(|, ) (k 1)
SQRes y.x [k(n 1 ) q ]
(15.83)
exy E xx1e xy q
(15.84)
340
o modelo (15.65) para obter um modelo completo admitindo diferentes vetores de
coeficientes angulares:
i)xij + ij
yij = + i + (
i = 1, 2, , k, j = 1, 2, , n.
(15.85)
O modelo reduzido com um nico vetor de coeficientes angulares dado por (15.65).
Ns agora desenvolveremos um teste para a hiptese
H03: 1 = 2 = = k
isto , que os k planos de regresso (para os k tratamentos) so paralelos.
Por extenso de (15.46) e (15.47), ns temos:
k
SQRes(completo)y.x = eyy
(15.86)
i =1
(15.87)
onde
1
1
Exx,i = Xi I J Xi e exy,i = Xi I J y i
n
n
so os termos do somatrio em (15.67) e (15.68). Os graus de liberdade associados a
SQRes(completo)y.x e SQRes(reduzido)y.x so k(n1) kq = k(n q 1) e k(n1) q,
respectivamente. Note que SQRes(reduzido)y.x em (15.87) o mesmo que SQResy.x
em (15.77). O estimador de i para o i-simo grupo
1
i = E xx,i
e xy,i .
(15.88)
SQRes(reduzido)y.x SQRes(completo)y.x =
i =1
(15.89)
que distribuda como F[q(k 1), k(n q 1)] se H03 verdadeira. Note que se n no
grande, n q 1 pode ser pequeno e o teste ter um baixo poder.
Exemplo 15.5.3. Na Tabela 15.7, ns temos a classificao do instrutor y e as classificaes em dois cursos x1 e x2 para cinco instrutores em cada um dos trs cursos
(Morrison, 1983, p. 470).
341
Curso 2
Curso 3
x1
x2
x1
x2
x1
x2
2,14
2,71
2,50
2,77
2,29
2,45
1,11
1,74
1,82
1,34
2,00
1,95
1,23
1,83
1,64
2,41
2,19
2,54
2,50
2,66
2,69
1,37
1,78
1,83
1,74
1,40
2,23
1,40
2,80
2,00
1,52
2,18
2,24
1,15
1,80
1,82
1,90
2,38
2,30
1,81
2,14
2,11
1,66
2,17
2,35
1,0619 0 ,6791
Exx =
, exy =
0 ,6791 1,2363
1,0229
1,9394 , eyy = 3,6036.
0 ,0617
= E xx1 exy =
.
1,6026
Por (15.77) e (15.81), ns temos:
SQResy.x = 0,5585, SQTy.x = 0,7840.
Ento por (15.82),
SQ( | , ) = SQTy.x SQResy.x = 0,2254.
A estatstica F para testar H01: 1 = 2 =3 dada por (15.83) como
F=
SQ( | , ) (k 1)
0,2254 2
=
= 2,0182
SQRes y.x [k(n 1 ) q ] 0 ,5585 10
exy E xx1e xy q
SQR y.x [k(n 1 ) q ]
= 27,2591
Como p-valor < 0.0001 ns rejeitamos H02 e conclumos que as classificaes nos
dois cursos tm efeitos significativos sobre a classificao dos instrutores.
342
Antes de testar a homogeneidade dos vetores de coeficientes angulares, H03: 1
= 2 = 3, ns primeiramente estimamos 1, 2 e 3 usando (15.88):
0 ,4236 0,1900
1 = E xx,11 e xy,1 =
0,1900 0 ,4039
0,2786 0,0467
0,6254 = 1,5703
0 ,2037 0 ,2758
2 =
0 ,2758 0 ,4161
0,4370 0,1781
0,6649 = 1,7159
0 ,4346 0 ,2133
3 =
0 ,2133 0 ,4163
0,3073 0,0779
0,6492 = 1,5993
SQRes(completo)y.x = eyy
= 0,55725
i =1
0 ,0012993 4
= 0,003498.
0 ,55725 6
Como o p-valor 1, no rejeitamos H03 e conclumos que os trs vetores de coeficientes angulares so iguais.
y = [W, x] + = W + x + .
(15.90)
343
Este modelo pode ser usado tanto para desbalanceamento nos nijs quanto para
o desbalanceamento inerente nos modelos de anlise de covarincia [ver Bingham e
Feinberg (1982) e um comentrio abaixo de (15.34)]. O vetor contem as mdias
para um modelo one-way como em (14.2), um modelo two-way como em (14.17) ou
algum outro modelo. Hipteses sobre os efeitos principais, interaes, a covarivel,
ou outros efeitos podem ser testadas utilizando contrastes sobre , como na Seo
14.3.
A hiptese H02: = 0 pode ser expressa na forma H02: [0, , 0, 1] = 0. Para
testar H02 ns usamos uma estatstica anloga a (14.29) ou (14.32). Para testar a homogeneidade dos coeficientes angulares, H03: 1 = 2 = = k para um modelo oneway (ou H03: 1 = 2 = = a para os coeficientes angulares dos a nveis do fator A
em um modelo two-way, e assim por diante), ns expandimos o modelo (15.90) para
incluir os is:
y = [W, Wx] + = W + Wx + ,
(15.91)
onde = [1, 2, , k] e Wx tem um nico valor de xij em cada linha com todos os
outros elementos 0s. (O valor de xij em Wx est na mesma posio que o correspondente 1 em W.) Ento H03: 1 = 2 = = k pode ser expressa como
H03: [0, C] = C = 0,
onde C uma matriz (k 1) x k de posto k 1 tal que Cj = 0. Ns podemos testar
H03: C = 0 usando uma estatstica anloga a (14.33).
Restries sobre os s e os s podem ser introduzidas inserindo-se matrizes
no-singulares A e Ax em (15.91):
y = W A 1 A + Wx A x 1 Ax + .
(15.92)
j'
Ax = ,
C
onde C uma matriz (k 1) x k de posto k 1, tal que Cj = 0 como acima, ento o
modelo (15.92) tem um coeficiente angular comum. Em muitos casos, as matrizes A
e Ax podero ser a mesma.
344
Obtendo-se:
Somas de quadrados importantes
EXX
EXY
EYY
SQResYX
350.28571 412.71429 1465.7143 979.44529
BETA
1.1782219
GL_RYX
SQTYX
17 1141.4709
GL_TYX
19
345
*Testando a hiptese H01: alfa1 = alfa2 = alfa3;
SQH01 = SQTyx - SQResyx;
* calcula SQ(alfa|mi,beta) usando (15.30);
gl_H01 = gl_Tyx - gl_Ryx; * calcula gl associado SQ(alfa|mi,beta);
F01 = (SQH01/gl_H01)/(SQResyx/gl_Ryx);
* calcula F para testar H01
usando (15.31);
Prob_F01 = 1-probf(F01, gl_H01, gl_Ryx);
* calcula p-valor para F01;
print 'Testando a hiptese H01: alfa1 = alfa2 = alfa3';
print SQH01 gl_H01 F01 Prob_F01;
print SQResyx gl_Ryx /;
Resultando em:
Testando a hiptese
SQH01
162.02561
GL_H01
2
SQResYX
979.44529
F01 PROB_F01
1.40612 0.2721952
GL_RYX
17
Resultando em:
Testando a hiptese H02: Beta = 0
SQH02
486.26899
GL_H02
1
SQResYX
979.44529
GL_RYX
F02
8.4400558
17
PROB_F02
0.0098538
346
* Testando a hiptese H03: Beta1 = Beta2 = Beta3';
x1=x[1:7,]; x2=x[8:14,]; x3=x[15:21,];
XX = block(x1, x2, x3);
Exx = t(XX)*(Ink-PZ)*XX;
exy = t(XX)*(Ink-PZ)*y;
Betas = inv(Exx)*Exy;
SQFyx = eyy-t(Exy)*Betas;
gl_Fyx=k*(n-2);
gl_H03 = gl_Ryx-k*(n-2);
F03 = (SQH03/gl_H03)/(SQFyx/gl_Fyx);
GL_H03
2
F03
PROB_F03
0.8419561
0.4502464
GL_FYX
15
347
Resultando em:
Source
Grupo
x
Parameter
Intercept
Grupo
1
Grupo
2
Grupo
3
X
DF
2
1
Type II SS
162.0256063
486.2689932
Estimate
16.46947099
4.81612678
6.57142857
0.00000000
1.17822186
B
B
B
B
Mean Square
81.0128031
486.2689932
Standard
Error
12.27500014
4.06386179
4.05724850
.
0.40555935
F Value
1.41
8.44
t Value
1.34
1.19
1.62
.
2.91
Pr > F
0.2722 (1)
0.0099 (2)
Pr > |t|
0.1973
0.2523
0.1237
.
0.0099(3)
Onde:
(1) Traz as informaes do teste da hiptese H01: 1 = 2 = 3
(2) Traz as informaes do teste da hiptese H02: = 0
(3) Traz informaes sobre a estimativa do coeficiente angular e teste t para a
hiptese H: = 0.
348
proc glm data=Ex15_3_3;
title 'Testar a hiptese H03';
class Grupo;
model y = grupo grupo*x / solution noint ss2;
contrast 'Betas iguais' grupo*x -2 1 1, grupo*x 0 1 -1;
run;
Resulta em:
Contrast
Betas iguais
Parameter
Grupo
Grupo
Grupo
x*Grupo
x*Grupo
x*Grupo
1
2
3
1
2
3
DF
2
Contrast SS
98.85570672
Estimate
32.48055556
-0.70540541
25.89717742
0.79027778
1.98513514
0.85786290
Mean Square
49.42785336
Standard
Error
21.99254382
22.12062868
19.16113371
0.75548164
0.74520250
0.64362711
F Value
0.84
t Value
1.48
-0.03
1.35
1.05
2.66
1.33
Pr > F
0.4502 (4)
Pr > |t|
0.1604
0.9750
0.1966
0.3121 (5)
0.0177 (5)
0.2025 (5)
Onde:
349
Resultando em:
Testa as hiptese H01 e H02
Source
A
C
A*C
x
Parameter
x
DF
1
2
2
1
Type III SS
1375355.1
766750.1
932749.5
109932635.1
Estimate
32.0726921
Mean Square
1375355.1
383375.0
466374.8
109932635.1
Standard
Error
3.427330
t Value
9.36
F Value
1.10
0.31
0.37
87.57
Pr > F
0.3061
0.7398
0.6938
<.0001
Pr > |t|
<.0001 (5)
(1)
(2)
(3)
(4)
350
Onde:
Resultando em:
Source
A
C
A*C
x(A)
DF
2
2
2
2
Type I SS
1362431491
8841441
1497573
111089776
Contrast
DF
Fator A: Betas iguais 1
Parameter
x(A)
1
x(A)
2
Mean Square
681215746
4420721
748786
55544888
Contrast SS
1157140.937
Estimate
34.906580
28.251949
F Value
540.72
3.51
0.59
44.09
Mean Square
1157140.937
Standard
Error
4.531216
5.261352
t Value
7.70
5.37
F Value
0.92
Pr > F
<.0001
0.0476
0.5605
<.0001
(6)
Pr > F
0.3483 (7)
Pr > |t|
<.0001 (8)
<.0001 (8)
Onde:
(6) Traz informaes sobre o teste de que todos os coeficientes angulares para o fator
A so nulos (hiptese de pouca importncia!)
(7) Traz as informaes do teste da hiptese de homogeneidade dos coeficientes
angulares para o fator A.
(8) Traz as estimativas dos coeficientes dos coeficientes angulares (fator A) e teste t
para a hiptese H: i = 0, para i = 1, 2.
351
* Fator C: compara os Betas;
proc glm;
title 'Fator C: Testa H03';
class A C;
model y = A C A*C x(C)/ ss1 solution noint;
contrast 'Fator C: Betas iguais' x(C) 2 -1 -1, x(C) 0 1 -1;
run;
Resultando em:
Source
A
C
A*C
x(C)
DF
2
2
2
3
Type I SS
1362431491
8841441
1497573
119438669
Mean Square
681215746
4420721
748786
39812890
F Value
738.65
4.79
0.81
43.17
Pr > F
<.0001
0.0193
0.4575
<.0001
(9)
Contrast
DF
Fator C:Betas iguais 2
Parameter
x(C)
1
x(C)
2
x(C)
3
Contrast SS
Mean Square F Value Pr > F
9506034.164
4753017.082
5.15 0.0151 (10)
Standard
Estimate
Error
t Value
Pr > |t|
23.210417
4.900700
4.74
0.0001 (11)
50.085129
6.794143
7.37
<.0001 (11)
31.669261
4.361080
7.26
<.0001 (11)
Onde:
(9) Traz informaes sobre o teste de que todos os coeficientes angulares para o
fator C so nulos (hiptese de pouca importncia!)
(10) Traz as informaes do teste da hiptese de homogeneidade dos coeficientes nagulares para o fator C.
(11) Traz as estimativas dos coeficientes dos coeficientes angulares (fator C) e teste t
para a hiptese H: j = 0, para j = 1, 2, 3.
GL_RYX
SQTYX
17 1141.4709
GL_TYX
19
BETA
1.1782219
Testando a hiptese
SQH01
162.02561
GL_H01
2
SQRYX
979.44529
GL_RYX
17
GL_H02
F02 PROB_F02
1 8.4400558 0.0098538
SQRYX
979.44529
GL_RYX
17
GL_H03
F03 PROB_F03
2 0.8419561 0.4502464
SQFYX
880.58959
GL_FYX
15
...
Source
Grupo
x
Parameter
...
x
DF
2
1
Type II SS
162.0256063
486.2689932
Estimate
1.17822186
(3)
Mean Square
81.0128031
486.2689932
F Value
1.41
8.44
Standard
Error
t Value
Pr > |t|
0.40555935
2.91
0.0099
Onde:
(1) Traz as informaes do teste da hiptese H01: 1 = 2 = 3
(2) Traz as informaes do teste da hiptese H02: = 0
(3) Traz a estimativa do coeficiente angular
proc glm data=Ex15_3_3;
title 'Testar a hiptese H03';
class Grupo;
model y = grupo grupo*x / solution noint ss2;
contrast 'Betas iguais' grupo*x -2 1 1, grupo*x 0 1 -1;
run;
Pr > F
0.2722
0.0099
(1)
(2)
...
Contrast
Betas iguais
Parameter
...
x*Grupo
1
x*Grupo
2
x*Grupo
3
DF
2
Estimate
0.79027778
1.98513514 (5)
0.85786290
Contrast SS
98.85570672
Mean Square
49.42785336
F Value
0.84
Standard
Error
t Value
Pr > |t|
0.75548164
0.74520250
0.64362711
1.05
2.66
1.33
0.3121
0.0177
0.2025
Pr > F
0.4502
(4)
160
320
200
160
120
160
160
120
280
160
90
154
160
234
120
160
200
160
240
120
120
245
160
160
320
160
173
134
239
320
proc glm;
title 'Testa as hiptese H01 e H02';
class A C;
model y = A C A*C x / ss3 solution noint;
run;
Coeff Var
16.64051
DF
7
23
30
Sum of
Squares
1482703140
28873230
1511576370
Root MSE
1120.428
DF
1
2
2
1
Mean Square
211814734
1255358
F Value
168.73
Pr > F
<.0001
F Value
1.10
0.31
0.37
87.57
Pr > F
0.3061
0.7398
0.6938
<.0001
y Mean
6733.133
Type III SS
1375355.1
766750.1
932749.5
109932635.1
Mean Square
1375355.1
383375.0
466374.8
109932635.1
(1)
(2)
(3)
(4)
Parameter
...
x
Estimate
32.0726921
(5)
Standard
Error
t Value
Pr > |t|
3.427330
9.36
<.0001
...
Contrast
Fator A: Betas iguais
Parameter
...
x(A)
1
x(A)
2
DF
1
Contrast SS
1157140.937
Estimate
34.906580
28.251949
(7)
(7)
Mean Square
1157140.937
F Value
0.92
Standard
Error
t Value
Pr > |t|
4.531216
5.261352
7.70
5.37
<.0001
<.0001
Pr > F
0.3483
(6)
(6) Traz as informaes do teste da hiptese de homogeneidade dos coeficientes nagulares para o fator A.
(7) Traz as estimativas dos coeficientes dos coeficientes angulares (fator A).
DF
2
Contrast SS
9506034.164
Mean Square
4753017.082
F Value
5.15
Pr > F
0.0151
(8)
Parameter
...
x(C)
1
x(C)
2
x(C)
3
Estimate
23.210417
50.085129 (9)
31.669261
Standard
Error
t Value
Pr > |t|
4.900700
6.794143
4.361080
4.74
7.37
7.26
0.0001
<.0001
<.0001
(8) Traz as informaes do teste da hiptese de homogeneidade dos coeficientes nagulares para o fator C.
(9) Traz as estimativas dos coeficientes dos coeficientes angulares (fator C).
352
i = 1, 2, , k
j = 1, 2, , n,
i = 1, 2, , k
j = 1, 2, , n
(16.1)
onde ai selecionada ao acaso de um populao infinita, sendo considerada uma varivel aleatria. Ns assumimos que:
E(ai) = 0 e var(ai) = a2 para todo i,
E(ij) = 0 e var(ij) = 2 para todo i, j,
E(ijrs) = cov(ij, rs) = 0 para todo i r ou j s,
E(aiaj) = cov(ai, aj) = 0 para i j,
E(aiij) = cov(ai, ij) = 0 para todo i, j.
Dessas suposies, ns temos que:
E(yij) =
(16.2)
Para ilustrar este modelo, considere uma planta qumica na qual um grande nmero de grupos de um determinado produto qumico produzido. Cada grupo embalado em um nmero grande de containeres. Suponha que estamos interessados
numa certa caracterstica designada como y. Ns podemos escolher trs grupos ao
acaso e selecionar (tambm ao acaso) dois containeres para cada poro para medir y.
Este procedimento leva a uma boa aproximao do modelo one-way de efeitos aleatrios:
yij = + ai + ij,
onde ai o efeito do i-simo grupo.
i = 1, 2, 3
j = 1, 2
(16.3)
353
Na prtica ns estamos interessados em estimar a2 e 2 e em testar a hiptese
H0: a2 = 0, que equivalente igualdade dos efeitos dos grupos. Ns tambm desejamos predizer ai.
Pelo modelo (16.1) e atendendo s suposies, ns obtemos:
var(yij) = a2 + 2, para todo i, j
(16.4)
(16.5)
(16.6)
As varincias a2 e 2 em (16.4) so muitas vezes chamadas componentes de varincia e os modelos tais como (16.1) so consequentemente referidos como modelos
de componentes de varincia.
O modelo one-way de efeitos aleatrios em (16.1) pode ser expresso na notao matricial. Ns ilustramos usando as seis observaes em (16.3). O modelo para y
= [y11, y12, , y32] fica:
y = j6 + Za +
(16.7)
onde
y11
y
12
y
y = 21 ,
y 22
y31
y32
1
1
0
Z =
0
0
0 0
0 0
1 0
1 0
0 1
0 1
a1
a = a2 .
a3
2
2
2
a +
0
0
0
0
a
0
a2 + 2
a2
0
0
0
cov(y) =
(16.8)
2
2
2
a
a +
0
0
0
0
0
a2 + 2
a2
0
0
0
0
0
0
a2
a2 + 2
0
354
Em (16.8) a matriz de covarincia para dois ys em cada uma das trs pores tem a
forma
2 0 a2 a2
yi1 2 + a2
a2
cov =
+ 2
=
2
2
2
2 + a2
0
yi 2 a
a a
= 2 I2 + a2 J2.
Assim, cov(y) em (16.8) pode ser expressa como:
2 I 2 + a2 J 2
0
0
cov(y) =
0
0
2I 2 + a2 J 2
2
2
0
0
I 2 + a J 2
= I6 +
a2
J 2
0
0
J2
0
0
0
J 2
(16.9)
(16.10)
(16.11)
i = 1, 2, , I, j = 1, 2, , J, k = 1, 2, , n
(16.12)
i = 1, 2, , I, j = 1, 2, , J, k = 1, 2, , n
i cij
i i
= 0 as-
(16.13)
355
Por exemplo, o modelo misto em (16.12) teria:
= 1 ,
M
I
b1
M
b
a= J
c11
M
cIJ
16.2 ESTIMAO DE
E PREDIO DE a EM y = X
+ Za +
16.2.1. Melhor estimador linear no viesado (blue) de
Ns consideramos a estimao de uma funo estimvel
. Para o modelo (16.13)
com as suas suposies, ns temos:
cov(y) = = ZVZ + 2 I.
(16.14)
1
= (X
X) X
y.
1
= (X
X) X
y
(16.15)
[
estimvel se uma combinao linear das linhas da matriz X; ver o Teorema 11.2B(i)]. Entretanto, usualmente desconhecido (para estimao de , ver a
Seo 16.3.2). Pode-se mostrar que para dados balanceados o estimador de mnimos
(XX) Xy = (X
X) X
y
(Searle, 1988; Puntanen e Styan, 1989).
(16.16)
356
= 0 + VZ
(y X
),
(16.17)
onde dado por (16.14) e cov(a, y) = VZ (ver Problema 16.3). Assim para o caso
da normal multivariada, E(a | y) uma funo linear de y. Em geral, E(a | y) no
linear. Entretanto, pode-se mostrar (ver Problema 16.4) que para qualquer distribuio de y e a, a funo linear de y que minimiza o quadrado mdio do resduo o
mesmo que (16.17):
1
BLP(a) = VZ
(y X
)
(16.18)
onde BLP indica o best linear predictor (melhor preditor linear). Isto , a funo linear B(y X
) que minimiza a matriz E[a B(y X
)][a B(y X
)] ou o escalar
1
E[a B(y X
)][a B(y X
)] tem matriz de coeficientes VZ
.
Por (16.15) e (16.16), o BLUE de X
dado por uma das duas formas:
1
X = X(X
X) X
y
= X(X
X) Xy
Quando X substitudo por X
em (16.18), o resultado conhecido como
Best Linear Unbiased Predictor (BLUP), ou, melhor preditor linear no viesado:
1
BLUP(a) = VZ
(y X )
(16.19)
357
Nesta terminologia, linear significa que o preditor em (16.19) uma funo linear de
y; best significa que o preditor minimiza o quadrado mdio do resduo, e unbiased
significa que:
E[BLUP(a)] = E(a).
i = 1, 2, 3
j = 1, 2
Este modelo foi introduzido como um modelo de efeitos aleatrios, mas ele pode ser
tratado como um modelo de efeitos mistos porque fixo. Em termos do modelo
misto geral y = X
+ Za + em (16.13), ns temos:
X = j6 ,
1 1 0 0 0 0
Z = 0 0 1 1 0 0 ,
0 0 0 0 1 1
= ,
a1
a = a2 ,
a3
1
(y X ) em (16.19), ns precisacomo em (16.7). Para encontrar BLUP(a) = VZ
1
( I2 +
1
a2 J2)
a2
1
= 2 I2 2
J
2
+ 2 a2
(16.20)
(ver Problema 16.5 para os resultados neste exemplo). Ento por (2.52), ns temos:
a2
I
J
2
2
2 2
+
2
1
1
= 2
0
0
I2
a2
2 + 2 a2
0
I2 2 a 2 J2
+ 2 a
J2
BLUP(a) = VZ
(y X ) =
a2 I3
(16.21)
358
2 a2
j
'
j
'
0'
0'
2
2
2 + 2 a2
2
2
= a2
0'
j2 ' 2 a 2 j2 '
0'
(y j6)
+ 2 a
2 a
0'
0'
j
'
j
'
2
2
2 + 2 a2
j
'
0'
0'
2
2
2
+ 2 a
2
2
= a2
0'
j
'
0'
(y j6)
2
2 + 2 a2
2
0'
0'
j
'
2
2 + 2 a2
a2
2 + 2 a2
y1 2
2 a2
y 2 =
2
2 + 2 2
a
y3 2
y1 y
y y
2
y3 y
Assim,
2 a2
BLUP(ai) = 2
( yi y ) , para i = 1, 2, 3.
+ 2 a2
Note que o BLUP de ai obtido no Exemplo 16.2.2 envolve os parmetros desconhecidos 2 e a2 . Se substituirmos por estimadores desses parmetros (ver Seo 16.3.2),
o estimador resultante,
)
BLUP (ai) =
2 a2
( yi y )
2 + a2
(16.22)
359
A abordagem para estimar usar muitas vezes o chamado mtodo ANOVA e
est relacionado ao mtodo dos momentos. Os quadrados mdios de um quadro de
anlise de varincia so igualados s correspondentes esperanas dos quadrados medios, que, nos caso balanceado, so combinaes lineares dos componentes de varincia. As equaes resultantes podem ser resolvidas para produzir estimadores dos
componentes de varincia. Este procedimento est ilustrado na Seo 16.3.2. Primeiramente ns consideramos a esperana dos quadrados mdios na Seo 16.3.1.
1
=
n
1
yij = n
j =1
( + ai + ij )
j =1
n + nai + ij = + ai + i
j =1
k n
k n
1
1
=
yij =
+ ai + ij
kn i =1 j =1
kn i =1 j =1
1
=
n
1
=
kn
k
k n
kn + n ai + ij = + a +
i =1
i =1 j =1
Ento
E[SQA] = E n ( yi y )2
i =1
= n E (ai + i a )2
(16.23)
i =1
Agora ns usamos as suposies do modelo (16.1). De E(ai aj) = E(ai ij) = 0, a equao (16.23) fica:
k
[( ) ( ) ( ) ( )
2
n
E[SQA] = n a +
+
+
2
2
n
k
kn
k
kn
i =1
(16.24)
360
2 1 a2 1
= kn a 1 +
1
k
n
= (k 1) 2 + n a2
(16.25)
Assim,
SQA E (SQA)
E(QMA) = E
= 2 + n a2
=
k 1
k 1
(16.26)
(16.27)
SQRes
E(QMRes) = E
= 2
k (n 1)
(16.28)
g.l.
Somas de quadrados
E(QM)
SQA = ni =1 ( yi y )2
n a2 + 2
Grupos
k1
Resduo
k(n 1)
SQRes =
i =1 j =1 (yij yi )2
kn 1
SQTot =
i =1 j =1 (yij y )2
Total
SQA = n yi2 kn y2
(16.29)
i =1
Por (12.26), SQA pode ser expressa como SQA = yAy, onde A a matriz kn x kn
J 0 L 0
J J L J
1 0 J L 0
1 J J L J
A=
M kn M M
M
n M M
0 0 L J
J J L J
=
1
1
A1
A2
n
kn
(16.30)
361
onde J n x n. Por extenso de (16.10), = 2Ikn + a2 A1. Assim,
A =
2
n
A1 +
a2
n
A12
2
kn
A2
a2
kn
A1A2
e A1A2 = n A1
(16.31)
Portanto
A =
2 + n a2
n
A1
2 + n a2
kn
A2 = 2 + n a2 A
(16.32)
(16.33)
Por (16.2), E(y) = jkn. Assim E(y)A E(y) = 2(jkn)Ajkn. Por (16.30), temos que:
E(y)A E(y) =
2
n
(jkn)A1 jkn
2
kn
(jkn)A2 jkn
(16.34)
(16.35)
(16.36)
Como notado nas observaes introdutrias da Seo 16.3, o mtodo ANOVA de estimao envolve igualar o quadrado mdio esperana do quadrado mdio e resolver
para os componentes de varincia. Ns ilustramos esta abordagem usando (16.26) e
(16.28):
QMA = 2 + n a2 ,
QMRes = 2
Assim,
2 = QMRes
a2 =
QMA 2
QMA QMRes
=
n
n
(16.37)
(16.38)
362
Em geral, estimadores obtidos usando o mtodo ANOVA so justos (no viesados).
Assim, por exemplo:
E( 2 ) = 2
(16.39)
E( a2 ) = a2
(16.40)
H0: a2 = 0
(16.41)
H1: a2 > 0
Para obter um teste-F para H0: a2 = 0 em (16.41), ns primeiramente estabelecemos uma quiquadrado e propriedades de independncia para SQA e SQRes.
Teorema 16.4A Considere o modelo one-way em (16.1) com SQA e SQRes definidos na Tabela 16.1. Se y distribudo como Nkn ( jkn, ), onde = 2Ikn + a2 A1
[ver (16.10) e (16.30)], ento:
(i) SQA 2 + n a2 ~ 2 (k 1)
(ii) SQRes 2 ~ 2 [k(n1)]
(iii) SQA e SQRes so independentes
Prova
1
2
+ n a2
Por extenso de (16.31), ns temos que A1A2 = nA2 e A 22 = knA2. Essas igualdades, juntamente com aquelas em (16.31), podem ser usadas para mostrar que
A2 = A. Ento, pelo Teorema 2.13D, temos:
363
A
= posto(A) = tr(A)
posto 2
2
+ n a
1
1
kn kn
= tr A1 tr A 2 =
=k1
n kn
n
kn
SQRes =
(yij yi )2 = yij2
i =1 j =1
n yi2
i =1
ij
1
1
= yIy y A1 y = y I A1 y = yBy.
n
n
Ento SQRes 2 = y' By 2 tem distribuio 2 [k(n 1)] se B 2 idempotente e se = 12 E (y' )BE (y ) 2 = 0. Estes resultados podem ser facilmente
estabelecidos como no item (i).
(iii) Pelo Teorema 5.6B, yAy e yBy so independentes se AB = 0. Por (16.32),
1
1
1
AB = (2 + n a2 )AB = (2 + n a2 ) A1 A 2 I A1 = 0
kn
n
n
(16.42)
(16.43)
Note que sob H0, F = QMA/QMRes em (16.43) a mesma estatstica do teste para o
caso de efeitos fixos apresentado na Tabela 12.1. Entretanto, quando H0 falsa, a
distribuio da estatstica em (16.42) F central, ao contrrio da distribuio F no
central no caso de efeitos fixos. Assim, no caso de efeitos aleatrios, o poder do teste
F calculado como:
2
QMA 2 + n a2
QMA
.
P(F > F) = P
> F = P
>
F
2
2
2
QMRes
+
n
QMRes