You are on page 1of 379

APOSTILA

LCE 5861-3
MODELOS LINEARES
Material preparado
pelo Prof. Dr. Csar Gonalves de Lima

Linear Models in Statistics


ALVIN C. RENCHER
Department of Statistics
Brigham Young University, Provo, Utah
A Wiley-Interscience Publication, 2000
JOHN WILEY & SONS, INC.

CONTEDO
1. INTRODUO .................................................................................................. 1
1.1. Modelo de Regresso Linear Simples ........................................................... 1
1.2. Modelo de Regresso Linear Mltipla .......................................................... 1
1.3. Modelos de Anlise de Varincia .................................................................. 3
2. LGEBRA DE MATRIZES ............................................................................. 4
2.1 Matrizes e vetores ........................................................................................... 4
2.1.1. Matrizes, vetores e escalares .................................................................. 4
2.1.2. Igualdade de matrizes ............................................................................. 5
2.1.3. Matriz transposta .................................................................................... 5
2.1.4. Alguns tipos especiais de matrizes ......................................................... 6
2.2. Operaes com matrizes ................................................................................ 7
2.2.1. Adio de duas matrizes ......................................................................... 7
2.2.2. Produto de duas matrizes ........................................................................ 8
2.2.3. Soma direta ........................................................................................... 14
2.2.4. Produto direto ou de Kronecker ........................................................... 15
2.2.5. Potncia de matriz quadrada ................................................................ 16
2.3. Matrizes particionadas ................................................................................. 17
2.4. Posto (rank) de uma matriz ......................................................................... 19
2.5. Inversa de uma matriz ................................................................................. 23
2.6. Matrizes positivas definidas ........................................................................ 25
2.7. Sistemas de equaes .................................................................................. 29
2.8. Inversas Generalizadas ................................................................................ 32
2.8.1. Definio e propriedades ...................................................................... 32
2.8.2. Inversas generalizadas e sistemas de equaes .................................... 36
2.9. Determinantes .............................................................................................. 37
2.10. Vetores ortogonais e matrizes ................................................................... 39
2.11. Trao de uma matriz .................................................................................. 41
2.12. Autovalores e autovetores ......................................................................... 42
2.12.2. Funes de uma matriz ....................................................................... 43
2.12.3. Produtos .............................................................................................. 44
ii

2.12.4. Matrizes simtricas ............................................................................. 45


2.12.5. Matriz positiva definida e positiva semidefinida ............................... 45
2.13. Matrizes idempotentes ............................................................................... 46
2.14 Derivadas de funes lineares e formas quadrticas .................................. 47
Lista de Exerccios Adicionais ........................................................................... 50
3. VETORES E MATRIZES ALEATRIOS ................................................... 54
3.1. Introduo .................................................................................................... 54
3.2. Mdia, varincia, covarincia e correlao ................................................. 55
3.3. Vetor de mdias e matriz de covarincia para vetores aleatrios ............... 57
3.3.1. Vetor de mdias .................................................................................... 57
3.3.2. Matriz de covarincias .......................................................................... 57
3.3.3. Varincia generalizada ......................................................................... 59
3.3.4. Distncia padronizada .......................................................................... 59
3.4. Matriz de correlaes .................................................................................. 59
3.5. Vetor de mdias e matriz de covarincia para vetores aleatrios particionados ........................................................................................................... 60
3.6. Funes Lineares de vetores aleatrios ....................................................... 61
3.6.1. Mdia de uma funo linear ................................................................. 61
3.6.2. Varincias e covarincias de uma funo linear .................................. 62
4. DISTRIBUIO NORMAL MULTIVARIADA ......................................... 64
4.1. Funo densidade normal univariada .......................................................... 64
4.2. Funo densidade normal multivariada ...................................................... 64
4.3. Funes geradoras de momentos ................................................................. 66
4.4. Propriedades da distribuio normal multivariada ...................................... 68
4.5. Correlao parcial ........................................................................................ 72
5. DISTRIBUIO DE FORMAS QUADRTICAS ...................................... 74
5.1. Somas de quadrados .................................................................................... 74
5.2. Mdia e varincia de formas quadrticas .................................................... 75
5.3. Distribuio quiquadrado no central ......................................................... 78
5.4. Distribuies t e F no centrais ................................................................... 80
iii

5.4.1. Distribuio F no central .................................................................... 80


5.4.2. Distribuio t no central ..................................................................... 81
5.5. Distribuio de formas quadrticas ............................................................. 81
5.6. Independncia de formas lineares e formas quadrticas ............................. 82
Apndice A.5. Classificao de formas quadrticas .......................................... 85
6. REGRESSO LINEAR SIMPLES ................................................................ 86
6.1. Modelo ......................................................................................................... 86
6.2. Estimao de 0, 1 e 2 ............................................................................. 86
6.3. Teste de hipteses e intervalo de confiana para 1 .................................... 90
6.4. Coeficiente de determinao ....................................................................... 91
7. REGRESSO LINEAR MLTIPLA: ESTIMAO ................................. 93
7.1. Introduo .................................................................................................... 93
7.2. Modelo ......................................................................................................... 93
7.3. Estimao de e de 2 ................................................................................ 97
7.3.1. Estimador de mnimos quadrados de ................................................ 97
7.3.2. Propriedades dos estimadores de mnimos quadrados .................... 100
7.3.3. Um estimador para 2.......................................................................... 104
7.4. Geometria de mnimos quadrados ............................................................. 106
7.4.1. Espao de variveis ............................................................................ 106
7.4.2. Espao amostral .................................................................................. 107
7.5. O modelo na forma centrada ..................................................................... 108
7.6. O modelo normal ....................................................................................... 111
7.6.1. Suposies .......................................................................................... 111
7.6.2. Estimadores de mxima verossimilhana de e 2 ........................... 111
7.6.3. Propriedades de e 2 ...................................................................... 112
7.7. O coeficiente de determinao R2 na regresso com x-fixos ..................... 113
7.8. Mnimos quadrados generalizados: cov(y) = 2V ..................................... 115
7.8.1. Estimao de e 2 quando cov(y) = = 2V .................................. 116
7.8.2. Falha de especificao da estrutura de erros ...................................... 118
7.9. Falha na especificao do modelo ............................................................. 120
7.10. Ortogonalizao ....................................................................................... 122
iv

8. REGRESSO MLTIPLA: TESTES DE HIPTESES E INTERVALOS DE CONFIANA .................................................................................. 126


8.1. Teste de regresso global .......................................................................... 126
8.2. Teste sobre um conjunto de s ................................................................. 129
8.3. Testes F baseados no coeficiente de determinao ................................... 134
= 0 e da hiptese H0: C
= t ....... 134
8.4. Teste da hiptese linear geral H0: C
8.4.1. O teste da hiptese H0: C
= 0 ........................................................... 134
8.4.2. O teste da hiptese H0: C
= t ............................................................ 138
8.5. Testes sobre j e a
.................................................................................. 139
8.5.1. Testando um j ou uma combinao a
........................................... 139
............................ 140
8.5.2. Testar diversos js ou diversas combinaes ai
8.6. Intervalos de confiana e intervalos de predio ...................................... 143
8.6.1. Regio de confiana para ................................................................ 143
8.6.2. Intervalo de confiana para j ............................................................ 143
8.6.3. Intervalo de confiana para a
.......................................................... 144
8.6.4. Intervalo de confiana para E(y) ........................................................ 144
8.6.5. Intervalo de predio para uma observao futura ............................ 145
8.6.6. Intervalo de confiana para 2 ............................................................ 146
8.6.7. Intervalos simultneos ........................................................................ 147
8.7. Testes da razo de verossimilhana .......................................................... 148
9. REGRESSO MLTIPLA: VALIDAO DO MODELO E DIAGNSTICO ........................................................................................................ 150
9.1. Resduos e anlises grficas de diagnstico .............................................. 150
9.2. A matriz (que coloca) chapu ou hat matrix ............................................. 154
9.3. Outliers ...................................................................................................... 156
9.4. Observaes influentes e leverage ............................................................ 159
10. REGRESSO MLTIPLA: XS ALEATRIOS .................................... 162
10.1. Modelo de regresso normal multivariada............................................... 162
10.2. Estimao na regresso normal multivariada .......................................... 163
10.3. R2 na regresso normal multivariada ....................................................... 169
10.4. Testes e intervalos de confiana .............................................................. 172
v

10.5. Efeito de cada varivel em R2 .................................................................. 176


10.6. Predio para dados no-normais ............................................................ 179
10.7. Correlaes parciais amostrais ................................................................ 180
11. MODELOS DE ANLISE DE VARINCIA ........................................... 184
11.1 Modelos de posto incompleto .................................................................. 184
11.1.1. Modelo com um fator (one-way model) ........................................... 184
11.1.2. Modelo com dois fatores (two way model) ...................................... 187
11.2. Estimao ................................................................................................ 190
11.2.1. Estimabilidade de .......................................................................... 190
11.2.2. Funes estimveis de ................................................................... 193
11.3. Estimadores ............................................................................................. 197
11.3.1. Estimadores de
........................................................................... 197
11.3.2. Um estimador de 2 .......................................................................... 201
11.3.3. Modelo normal ................................................................................. 202
11.4. Reparametrizao .................................................................................... 203
11.5. Condies marginais ............................................................................... 205
11.6. Testando hipteses .................................................................................. 208
11.6.1. Hipteses testveis ........................................................................... 208
11.6.2. Modelo completo e modelo reduzido ............................................... 209
11.6.3. Hiptese linear geral H0: C
= 0 ...................................................... 212
11.7. Uma ilustrao de estimao e teste de hiptese .................................... 214
11.7.1. Funes estimveis ........................................................................... 214
11.7.2. Testando uma hiptese ..................................................................... 215
11.7.3. Ortogonalidade das colunas de X ..................................................... 217
12. ANLISE DE VARINCIA COM UM FATOR: CASO BALANCEADO ................................................................................................................... 221
12.1. O modelo com um fator .......................................................................... 221
12.2. Funes estimveis .................................................................................. 222
12.3. Estimao de parmetros ......................................................................... 222
12.3.1. Resolvendo o sistema de equaes normais ..................................... 222
12.3.1a. Condies marginais .................................................................. 223
vi

12.3.1b. Inversa generalizada ................................................................... 224


12.3.2. Um estimador para 2 ....................................................................... 225
12.4. Testando a hiptese H0: 1 = 2 = = k ............................................... 225
12.4.1. Modelo completo versus modelo reduzido ...................................... 226
12.4.2. Hiptese linear geral ......................................................................... 229
12.5. Esperana matemtica dos quadrados mdios ........................................ 232
12.5.1. Modelo completo versus modelo reduzido ...................................... 233
12.5.2. Hiptese linear geral ......................................................................... 235
12.6. Contrastes ................................................................................................ 236
12.6.1. Teste de hiptese para um contraste ................................................. 237
12.6.2. Contrastes ortogonais ....................................................................... 238
12.6.3. Contrastes polinomiais ortogonais ................................................... 243
Apndice: Programas no proc iml do SAS .................................................. 251
13. ANLISE DE VARINCIA COM DOIS FATORES: CASO BALANCEADO .......................................................................................................... 253
13.1. O modelo com dois fatores ...................................................................... 253
13.2. Funes estimveis .................................................................................. 254
13.3. Estimadores de
e 2 .......................................................................... 258
13.3.1. Resolvendo o sistema de equaes normais e estimando
......... 258
13.3.1a. Condies marginais .................................................................. 258
13.3.1b. Inversa generalizada ................................................................... 259
13.3.2. Um estimador para 2 ....................................................................... 260
13.4. Testando hipteses .................................................................................. 260
13.4.1. Testa para a interao ....................................................................... 260
13.4.1a. A hiptese de interao .................................................................. 260
13.4.1b. Teste do modelo completo versus modelo reduzido baseado nas
equaes normais ........................................................................... 263
13.4.1c. Teste do modelo completo versus modelo reduzido baseado em
uma inversa generalizada ............................................................... 266
13.4.2. Testes para os efeitos principais ....................................................... 270
13.4.2a. Abordagem modelo completo versus modelo reduzido ............. 270
13.4.2b. Abordagem baseada na hiptese linear geral ............................. 275
vii

13.5. Esperana dos quadrados mdios ............................................................ 277


13.5.1. Abordagem baseada nas somas de quadrados .................................. 277
13.5.2. Abordagem baseada na forma quadrtica ........................................ 279
Apndice: Programa do proc iml do SAS .................................................... 283
14. ANLISE DE VARINCIA: DADOS DESBALANCEADOS ............... 287
14.1. Introduo ................................................................................................ 287
14.2. Modelo com um fator .............................................................................. 288
14.2.1. Estimao e teste de hiptese ........................................................... 288
14.2.2. Contrastes ......................................................................................... 291
14.3. Modelo com dois fatores ......................................................................... 294
14.3.1. Modelo incondicional ....................................................................... 295
14.3.2. Modelo condicional .......................................................................... 301
Apndice: Programas do proc iml do SAS .................................................. 306
15. ANLISE DE COVARINCIA ................................................................. 313
15.1. Introduo ................................................................................................ 313
15.2. Estimao e testes de hipteses ............................................................... 314
15.2.1. O modelo de anlise de covarincia ................................................. 314
15.2.2. Estimao ......................................................................................... 316
15.2.3. Testes de hipteses ........................................................................... 318
15.3. Modelo com um fator (one way) e com uma covarivel ......................... 318
15.3.1. O modelo .......................................................................................... 319
15.3.2. Estimao ......................................................................................... 319
15.3.3. Testes de hipteses ........................................................................... 320
15.3.3a. Tratamentos .............................................................................. 320
15.3.3b. Coeficiente angular (slope) ...................................................... 322
15.3.3c Homogeneidade dos coeficientes angulares .............................. 322
15.4. Modelo com dois fatores (two way) e uma covarivel ............................ 327
15.4.1 Testes para os efeitos principais e interao ..................................... 327
15.4.2 Teste para o coeficiente angular (slope) ............................................ 332
15.4.3 Teste para a homogeneidade dos coeficientes angulares (slopes) .... 333
15.5. Modelo one-way com mltiplas covariveis ........................................... 334
viii

15.5.1. O modelo .......................................................................................... 334


15.5.2. Estimao ......................................................................................... 335
15.5.3. Testando hipteses ........................................................................... 338
15.5.3a. Tratamentos ................................................................................ 338
15.5.3b. Vetor de coeficientes angulares (slopes) .................................... 339
15.5.3c. Homogeneidade dos vetores de coeficientes angulares ............. 339
15.6. Anlise de covarincia com modelos desbalanceados ............................ 342
Apndice Programas no proc iml .................................................................. 344
16. MODELOS DE EFEITOS ALEATRIOS E MODELOS DE EFEITOS MISTOS ............................................................................................... 313
16.1. Introduo ................................................................................................ 352
16.2. Estimao de e predio de a em y = X
+ Za + .......................... 355
16.2.1. Melhor estimador linear no-viesado (blue) de ......................... 355
16.2.2. Melhor preditor linear no-viesado (blup) do vetor aleatrio a ....... 356
16.3. Estimao de componentes de varincia ................................................. 358
16.3.1. Esperana dos quadrados mdios ..................................................... 359
16.3.2 Estimadores ANOVA ........................................................................ 361
16.4 Testes de hipteses ................................................................................... 362

ix

CAPTULO 1 INTRODUO
Os mtodos estatsticos (modelos lineares) so amplamente usados como parte do
processo de aprendizagem do mtodo cientfico. Na biologia, fsica e cincias sociais,
como tambm nos negcios e engenharia, os modelos lineares so teis nos estgios
de planejamento da pesquisa e na anlise dos dados resultantes. Nas sees 1.1, 1.2 e
1.3 ns daremos uma breve introduo aos modelos de regresso linear simples, modelos de regresso linear mltipla e modelos de anlise de varincia.

1.1.

MODELO DE REGRESSO LINEAR SIMPLES

Na regresso linear simples, ns nos preocupamos em modelar a relao entre duas


variveis, por exemplo, rendimento e nmero de anos de educao, altura e peso de
pessoas, comprimento e largura de envelopes, altitude e temperatura de ebulio da
gua, dose de uma droga e resposta, quantidade de adubo e produo de gramneas.
Para uma relao linear, ns usamos um modelo da forma:
y = 0 + 1 x +

(1.1)

onde y a varivel dependente ou varivel resposta e x a varivel independente ou


varivel preditora. A varivel aleatria o termo de erro no modelo. Nesse contexto, o erro no significa engano ou equvoco, mas sim um termo estatstico que representa flutuaes aleatrias, erros de medidas ou o efeito de fatores no controlados.
A linearidade do modelo em (1.1) uma suposio. Geralmente, ns adicionamos outras suposies sobre a distribuio do erro, independncia dos valores observados de y, assim por diante. Usando valores observados de x e y, ns estimamos 0 e
1 e fazemos inferncias tais como intervalos de confiana e testes de hipteses sobre
0 e 1. Ns tambm podemos usar o modelo estimado para prever ou predizer o valor de y para um particular valor de x.
Estimao e procedimentos inferenciais para o modelo de regresso linear
simples so desenvolvidos e ilustrados no Captulo 6.

1.2.

MODELO DE REGRESSO LINEAR MLTIPLA

Muitas vezes a resposta y influenciada por mais de uma varivel preditora. Por
exemplo, a produo de uma colheita pode depender das quantidades de nitrognio,
potssio e fosfato usadas. Essas variveis so controladas pelo experimentador, mas a
produo tambm pode depender de variveis no controladas como aquelas associadas com o tempo.
Um modelo linear relacionando y a diversas variveis preditoras tem a forma
Material elaborado pelo Prof. Csar Gonalves de Lima

2
y = 0 + 1x1 + 2x2 + + kxk +

(1.2)

onde os parmetros 0, 1, 2, , k so chamados coeficientes de regresso. Como


em (1.1), a variao aleatria em y no explicada pelos xs. Essa variao aleatria pode ser em parte devido a outras variveis que afetam y mas no so conhecidas
ou no foram observadas.
O modelo (1.2) linear nos s, mas no necessariamente linear nos xs.
Assim, o modelo:
y = 0 + 1x1 + 2 x12 +3x2 + 4 seno(x2) +
est includo na designao de modelos lineares, mas o modelo

y = 0 + 1 e 2 ( x x 0 ) +
no linear (nos parmetros).
Um modelo fornece uma estrutura terica para um melhor entendimento de um
fenmeno de interesse. Assim um modelo uma construo matemtica que ns
acreditamos poder representar o mecanismo que gerou as observaes que temos em
mos. O modelo postulado pode ser uma simplificao idealizada de uma situao
real e complexa mas, em muitos desses casos, esses modelos empricos fornecem
aproximaes teis das relaes entre as variveis. Essas relaes podem ser associativas ou causais.
Modelos de regresso tais como em (1.2) so usados para vrios propsitos, incluindo os seguintes:
1. Predio. Estimativas dos parmetros individuais 0, 1, 2, , k so de
menor importncia para a predio que a influncia total dos xs sobre y.
Entretanto, boas estimativas so necessrias para conseguirmos uma boa
performance na predio.
2. Descrio ou Explorao dos Dados. O cientista ou engenheiro usa o modelo
estimado para resumir ou descrever os dados observados.
3. Estimao dos Parmetros. Os valores das estimativas dos parmetros podem
ter implicaes tericas para um modelo postulado.
4. Seleo de variveis. A nfase est na determinao da importncia de cada
varivel preditora em modelar a variao em y. As variveis preditoras que esto associadas com uma importante quantidade de variao em y so mantidas;
aquelas que contribuem pouco podem ser deletadas.
5. Controle da sada. Se uma relao de causa-efeito entre y e x assumida, o
modelo estimado deve ento ser usado para controlar as sadas de um processo
variando as entradas. Por experimentao sistemtica, pode ser possvel conseguir a sada tima.
Existe uma diferena fundamental entre os propsitos 1 e 5. Para a predio,
ns necessitamos somente que as mesmas correlaes que prevaleceram quando os
dados foram coletados, continuem no lugar quando as predies forem feitas. Mostrar
Material elaborado pelo Prof. Csar Gonalves de Lima

3
que existe uma relao significativa entre y e os xs em (1.2) no necessariamente
prova que a relao causal. Para estabelecer causalidade a fim de controlar a sada,
o pesquisador deve escolher os valores dos xs no modelo e usar aleatorizao para
evitar os efeitos de outras possveis variveis no explicativas. Isto , para verificar o
efeito dos xs sobre y quando os xs so mudados, necessrio mud-los.
Estimao e procedimentos inferenciais que contribuem para os cinco propsitos apresentados anteriormente so discutidos nos Captulos 7-10.
1.3.

MODELOS DE ANLISE DE VARINCIA

Em modelos de anlise de varincia, ns estamos interessados em comparar diversas


populaes ou comparar diversas condies em um experimento. Modelos de anlise
de varincia podem ser expressos como modelos lineares de valores restritos de x.
Freqentemente os xs so 0s ou 1s. Por exemplo, suponha que um pesquisador deseje comparar o rendimento de quatro catalisadores em um processo industrial. Se n
observaes so obtidas para cada catalisador, um modelo para as 4n observaes
pode ser expresso como:
yij = i + ij ,
i = 1, 2, 3, 4,
j = 1, 2, , n
(1.3)
onde i a mdia correspondente ao i-simo catalisador. Uma hiptese de interesse

H0: 1 = 2 = 3 = 4. O modelo em (1.3) pode ser expresso de uma forma alternativa


como
yij = + i + ij , i = 1, 2, 3, 4,
j = 1, 2, , n
(1.4)
Nesta forma, i o efeito do i-simo catalisador e a hiptese de interesse pode ser
expressa como H0: 1 = 2 = 3 = 4 = 0.
Suponha agora, que o pesquisador tambm deseje comparar o efeito de trs nveis de temperatura e que n observaes so tomadas em cada uma das 12 combinaes catalisador-temperatura. Ento o modelo pode ser expresso como

yijk = ij + ijk = + i + j + ij + ijk


i = 1, 2, 3, 4,

j = 1, 2, 3,

(1.5)

k = 1, 2, , n

onde ij a mdia da (ij)-sima combinao catalisador-temperatura, i o efeito do


i-simo catalisador, j o efeito do j-simo nvel de temperatura, ij a interao ou
efeito conjunto do i-simo catalisador e j-simo nvel de temperatura.
Nos exemplos que conduzem aos modelos (1.3), (1.4) e (1.5), o pesquisador
escolhe os tipos de catalisador ou os nveis de temperatura e assim aplica diferentes
tratamentos aos objetos ou unidades experimentais sob estudo. Em outros ajustes, ns
comparamos as mdias de variveis medidas em grupos naturais de unidades, por
exemplo, machos e fmeas de vrias reas geogrficas.
Modelos de anlise de varincia podem ser tratados como um caso especial de
modelos de regresso, mas mais conveniente analis-los separadamente. Isso feito
nos Captulos 11-14. Tpicos relacionados, tais como anlise de covarincia e
modelos mistos, sero cobertos nos Captulos 15 e 16.
Material elaborado pelo Prof. Csar Gonalves de Lima

CAPTULO 2. LGEBRA DE MATRIZES.


2.1. MATRIZES E VETORES
2.1.1. Matrizes, vetores e escalares.
Uma matriz um arranjo retangular de nmero ou de variveis em linhas e colunas.
Nesse texto estaremos considerando matrizes de nmeros reais, que sero denotadas
por letras maisculas em negrito. Os seus elementos sero agrupados entre colchetes.
Por exemplo:
1 1 0
1 1 0
10 12
1 1 1 1 1 1

A=
B=
X=
;
;

21
39
10
12
15
13
14
16
1
0
1

1 0 1
Para representar os elementos da matriz X como variveis, ns usamos:
x11
x
X = (xij) = 21
x31

x41

x12
x22
x32
x42

x13
x23

x33

x43

A notao X = (xij) representa uma matriz por meio de um elemento tpico. O


primeiro ndice indica a linha e o segundo ndice identifica a coluna. Uma matriz
genrica X tem n linhas e p colunas. A matriz X do Exemplo 1 tem n = 4 linhas e p =
3 colunas e ns dizemos que X 4x3, ou que a dimenso de X 4x3. Para indicar a
dimenso da matriz, podemos usar 4 X3 ou X (4 x 3) .
Um vetor uma matriz com uma nica coluna e denotado por letras minsculas, em negrito. Os elementos de um vetor so muitas vezes identificados por um
nico ndice, por exemplo,
y1
y = y2

y3
Geralmente o termo vetor est associado a um vetor coluna. Um vetor linha expresso como o transposto do vetor coluna, como por exemplo,
y = y t = [ y1 , y2 , y3 ] = [ y1

y2

y3 ]

(A transposta de uma matriz ser definida mais adiante).


Geometricamente, um vetor de n elementos est associado a um ponto no espao n-dimensional. Os elementos do vetor so as coordenadas do ponto. Em algumas
situaes, ns estaremos interessados em calcular:
(i) a distncia da origem ao ponto (vetor),
Material elaborado pelo Prof. Csar Gonalves de Lima

5
(ii) a distncia (d) entre dois pontos (vetores), ou
(iii) o ngulo () entre as linhas formadas da origem at os dois pontos.

No contexto de matrizes e vetores, um nmero real chamado de um escalar.


Assim, os nmeros 2,5, -9 e 3,14 so escalares. Uma varivel representando um escalar ser denotada por uma letra minscula e sem negrito. Por exemplo: c = 3,14 indica um escalar.

2.1.2. Igualdade de Matrizes


Duas matrizes (ou dois vetores) so iguais se tm a mesma dimenso e se os elementos de posies correspondentes so iguais. Por exemplo:

3 2 4 3 2 4
=
1
3 7 1
3 7

mas
2 9 5
3 9
5

8 4
6 8 4
6

2.1.3. Matriz Transposta


Se ns trocarmos de posio as linhas e as colunas de uma matriz A, a matriz resultante conhecida como a transposta de A e denotada por A ou A t . Formalmente,
se nAp = (aij) ento a sua transposta dada por:
t
(2.3)
p A'n = A = (aij) = (aji)

3 2 4
Por exemplo: Se A =
A =
3 7
1

3 1
2 3 a sua transposta.

4 7

A notao (aji) indica que o elemento da i-sima linha e j-sima coluna de A encontrado na j-sima linha e i-sima coluna de A. Se A nxp ento A pxn.
Teorema 2.1.A. Se A uma matriz qualquer, ento

(A) = A

(2.4)

Material elaborado pelo Prof. Csar Gonalves de Lima

6
2.1.4 Alguns tipos especiais de matrizes

Se a transposta de uma matriz A a mesma da matriz original, isto , se A = A ou,


equivalentemente, (aji) = (aij), ento dizemos que a matriz A simtrica. Por exemplo,
2
6
3
A = 2 10 7

6 7
9
simtrica. evidente que toda matriz simtrica quadrada.
A diagonal de uma matriz quadrada pAp= (aij) consiste dos elementos a11, a22,
, app, ou seja, diag(A) = (aii). No exemplo anterior, a diagonal da matriz A formada pelos elementos 3, 10 e 9.
Se a matriz nAn contm zeros em todas as posies fora da diagonal ela uma
matriz diagonal, como por exemplo,

0 0
8

0 3 0
D=
0
0 0

0
0 0

0
0

que tambm pode ser denotada como


D = diag(8, 3, 0, 4)

Ns usamos a notao diag(A) para indicar a matriz diagonal com os mesmos elementos da diagonal de A, como por exemplo,
2
6
3

A = 2 10 7

6 7
9

3 0 0
diag(A) = 0 10 0

0 0 9

Uma matriz diagonal com o nmero 1 em cada posio da sua diagonal chamada de matriz identidade e denotada por I, como por exemplo,
1 0 0
I(3) = diag(1, 1, 1) = 0 1 0

0 0 1

Material elaborado pelo Prof. Csar Gonalves de Lima

7
Uma matriz triangular superior uma matriz quadrada com zeros abaixo da
diagonal, como por exemplo,
7
0
T=
0

2 3 5
0 2 6

0 4
1

0 0
8

Um vetor de 1s denotado por j:


1
1
j=
M

1
Uma matriz quadrada de 1s denotada por J, como por exemplo,
1 1 1
J(3x3) = 1 1 1

1 1 1
Ns denotamos um vetor de zeros por 0 e uma matriz de zeros por ou ,
por exemplo,
0
0 = 0 ,

0

0 0 0
= = 0 0 0 .

0 0 0

2.2. OPERAES COM MATRIZES


2.2.1 Adio de duas matrizes

Se duas matrizes tm a mesma dimenso, sua soma encontrada adicionando os elementos correspondentes. Assim, se A(nxp) e B(nxp), ento C = A + B tambm nxp e
encontrada como C = (cij) = (aij + bij). Por exemplo,
4 11 5 6 18 2 2
7 3
2
+3 4
= 5 12 3
8

5
2

Material elaborado pelo Prof. Csar Gonalves de Lima

8
A diferena D = A B entre as matrizes A e B definida similarmente: D = (dij) =
(aij bij). Duas propriedades importantes da adio de matrizes so dadas a seguir:
Teorema 2.2A. Se A e B so nxp, ento:
(i) A + B = B + A

(2.9)

(ii) (A + B) = A + B

(2.10)

2.2.2 Produto de duas matrizes

Para que o produto AB de duas matrizes seja possvel, o nmero de colunas da matriz
A deve ser igual ao nmero de linhas de B. Neste caso, dizemos que as matrizes A e
B so conformes. Ento, o (ij)-simo elemento do produto C = AB definido como:
cij =

aik bkj

(2.11)

que igual soma dos produtos dos elementos da i-sima linha de A pelos elementos
da j-sima coluna de B. Assim, ns multiplicamos todas as linhas de A por todas as
colunas de B. Se A (nxm) e B (mxp) ento C = AB (nxp). Por exemplo,
2 1 3
A(2x3) =
e B(3x2) =
4 6 5

1 4
2 6

3 8

Ento
2AB2

(2)(1) + (1)(2) + (3)(3) (2)(4) + (1)(6) + (3)(8) 13 38


= 2C2 =
=

(4)(1) + (6)(2) + (5)(3) (4)(4) + (6)(6) + (5)(8) 31 92

18 25 23

3BA3 = 3D3 = 28 38 36

38 51 49
Se A nxm e B mxp, onde n p, ento o produto AB definido, mas BA no
definido. Se A nxp e B pxn, ento AB nxn e BA pxp. Neste caso, certamente, AB BA, como ilustrado no exemplo anterior. Se A e B so nxn ento AB e BA
tm o mesmo tamanho, mas, em geral:
AB BA

(2.12)

A matriz identidade I(n) o elemento neutro da multiplicao de matrizes. Isto


quer dizer que, se A n x n ento AI = IA = A.
A multiplicao de matrizes no comutativa e algumas manipulaes familiares com nmeros reais no podem ser feitas com matrizes. Entretanto, a multiplicao
de matrizes distributiva em relao soma ou subtrao:
Material elaborado pelo Prof. Csar Gonalves de Lima

9
A(B C) = AB AC

(2.13)

(A B)C = AC BC

(2.14)

Usando (2.13) e (2.14) ns podemos expandir produtos como (A B)(C D):


(A B)(C D) = (A B)C (A B)D
= AC BC AD + BD

(2.15)

A multiplicao envolvendo vetores segue as mesmas regras das matrizes. Suponha A(nxp), b(px1), c(px1) e d(nx1). Ento:

Ab um vetor coluna nx1

dA um vetor linha de dimenso 1xp

bc um escalar correspondendo soma de produtos

bc uma matriz pxp

cd uma matriz pxn

Desde que bc uma soma de produtos (um escalar!) tem-se que bc = cb:
bc = b1c1 + b2c2 + + bpcp
cb = c1b1 + c2b2 + + cpbp

bc = cb

(2.16)

A matriz cd dada por


c1
c
2
cd = [d1 d2 dn] =
M

c p

c1d1 c1d 2
c d c d
2 2
2 1
M
M

c p d 1 c p d 2

L c1d n
L c2 d n

O
M

L c pdn

(2.17)

Similarmente:
b1
b
2
bb = [b1 b2 bp] = b12 + b22 + + b 2p =
M

b p
b1
b
2
bb = [b1 b2 bp] =
M

b p

b12 b1b2

2
b2b1 b2
M
M

b p b1 b p b2

bi2

(2.18)

i =1

L b1b p

L b2b p
O
M

L b 2p

(2.19)

Assim, bb uma soma de quadrados e bb uma matriz quadrada e simtrica.


Material elaborado pelo Prof. Csar Gonalves de Lima

10
A raiz quadrada da soma de quadrados dos elementos de um vetor bpx1 igual
distncia da origem ao ponto b e referida como norma euclidiana, ou comprimento
do vetor b:
p

comprimento de b = || b || =

b' b =

bi2

(2.20)

i =1

Se j um vetor nx1 de 1s como definido em (2.6), ento por (2.18) e (2.19),


ns temos que:

jj = n,

1
1
jj =
M

1 L 1
1 L 1
= J(nxn)
M O M

1 L 1

(2.21)

onde Jnxn uma matriz quadrada de 1s como ilustrada em (2.7), Se a um vetor nx1
e A uma matriz nxp, ento

aj = ja =

ai

(2.22)

i =1

jA =

[i ai1 i ai 2

i aip ]

j a1 j

2
j

e Aj = j
M

j anj

(2.23)

Assim, aj = ja a soma dos elementos em a, jA contem as somas das colunas de A


e Aj contem as somas das linhas de A. Note que em aj, o vetor j nx1; em jA, o
vetor j nx1 e em Aj, o vetor j px1.
1 2 3 4
Exemplo: Seja a matriz A = 5
1 6 4 e o vetor a =

5 4 0
2
1 2 3 4
i) j'A = [1 1 1] 5
1 6 4 = [8 4 13 8]

2
5 4 0
1
1 2 3 4 6
1
ii) Aj = 5
1 6 4 = 16

1
2
5 4 0 11
1

2
5
ento:
1

8

(totais das colunas de A)

(totais das linhas de A)

Material elaborado pelo Prof. Csar Gonalves de Lima

11
1
2
1
5
iii) aj = [2 5 1 8] = ja = [1 1 1 1] = 16 (total dos elementos de a)
1
1


1
8

O produto de um escalar por uma matriz obtido multiplicando-se cada elemento da matriz pelo escalar:
ca11 ca12
ca
ca22
cA = (caij) = 21
M
M

can1 can 2

L ca1m
L ca2m
.
O
M

L canm

(2.24)

Desde que caij = aijc o produto de um escalar por uma matriz comutativo:

cA = Ac

(2.25)

A transposta do produto de duas matrizes igual ao produto das transpostas


em ordem reversa.

Teorema 2.2B. Se A nxp e B pxm, ento:


(AB) = BA

(2.26)

Prova: Seja C = AB. Ento por (2.11), temos que C = (cij) = aik bkj
k =1

Por (2.3), a transposta de C = AB dada por:


(AB) = C = (cij) = (cji)
p
p

= a jk bki = bki a jk = BA.


k =1
k =1

Para ilustrar os passos dessa prova, vamos usar as matrizes A2x3 e B3x2:
a
a
AB = 11 12
a21 a22

a13
a23

b11 b12
b
b
21 22
b31 b32

a11b12 + a12b22 + a13b32


a b + a b + a b
= 11 11 12 21 13 31

a21b11 + a22b21 + a23b31 a21b12 + a22b22 + a23b32

Material elaborado pelo Prof. Csar Gonalves de Lima

12
a b + a b + a b
(AB) = 11 11 12 21 13 31
a11b12 + a12b22 + a13b32

a21b11 + a22b21 + a23b31


a21b12 + a22b22 + a23b32

b11a21 + b21a22 + b31a23


b a + b a + b a
= 11 11 21 12 31 13

b12 a11 + b22 a12 + b32 a13 b12 a21 + b22 a22 + b32 a23
a11
b11 b21 b31
(AB) =
a12
b12 b22 b32 a
13

a21
a22 = BA

a23

Corolrio 1. Se A, B e C so conformes, ento (ABC) = CBA.


Exemplo: Seja y = [y1, y2, , yn] um vetor de pesos de n frangos de corte.
Para calcularmos a mdia e a varincia dos pesos desses frangos, ns usamos:
1 n
1 n
y = yi
s2 =
( yi y )2

n i =1
n 1 i =1
1
Matricialmente, a mdia pode ser calculada por y = jy, onde j um vetor nx1 de
n
1s e n = jj. Para calcularmos a varincia precisamos, primeiramente, calcular o
vetor de desvios:
1
1
1
1
y y = y y j = y j jy = y jjy = y Jy = I J y
n
n
n
n

Onde I a matriz identidade nxn e J uma matriz nxn de 1s. Para calcularmos a
soma de quadrados de desvios fazemos:
n

( yi y )
i =1

1
= I J y
n

1
I J y
n

1
1
1
1 1

= y I J I J y = y I' I IJ J' I + 2 J' J y


n n
n
n
n

Mas J = J, II = I, IJ = J; JI = J = J e jj = n, ento:
n

( yi y )2
i =1

1
1
2

= y I J + 2 jj' jj' y = y I J + 2 j(n) j' y


n
n

n
1
2
1
= y I J + J y = y I J y
n
n
n

Ento, a varincia pode ser calculada por:

s2 =

1 n
( yi y )2 = 1 y' I 1 J y

n 1 i =1
n 1
n
Material elaborado pelo Prof. Csar Gonalves de Lima

13
Supondo que A nxm e B mxp, seja a ti a i-sima linha da matriz A e bj, a jsima coluna da matriz B, de tal forma que:
a11
a
A = 21
M

a n1

a12
a 22
M
an 2

L a1m a1t

L a 2 m a t2
=
, B=
O M M

L a nm a tn

b11 b12
b
b22
21
M
M

bm1 bm 2

L b1 p
L b2 p
= [b1, b2, , bp]
O M

L bmp

Ento, por definio, o (ij)-simo elemento de AB a ti bj:


a1t b1 a1t b 2
t
a 2b1 at2b 2

AB =
M
M
t
t
a nb1 a nb 2

L a1t b p

L a t2b p
O
M

L a tnb p

a1t (b1 , b 2 , L, b p )
t

a
(
b
,
b
,
L
,
b
)
p
= 2 1 2
=

M
t

a n (b1 , b 2 , L , b p )

a1t B a1t
t t
a 2 B = a 2 B
M M
t t
a n B a n

(2.27)

A primeira coluna de AB pode ser expressa em termos de A como


a1t b1 a1t
t t
a 2b1 = a 2 b1 = Ab1
M M
t t
a nb1 a n

De forma anloga, a segunda coluna de AB Ab2 e assim por diante. Assim AB pode
ser escrita em termos das colunas de B:
AB = A[b1, b2, , bp] = [Ab1, Ab2, , Abp]

(2.28)

Qualquer matriz A pode ser multiplicada pela sua transposta para formar AA
ou AA. Algumas propriedades desses produtos so dadas no prximo Teorema.
Teorema 2.2C. Seja A uma matriz nxp. Ento AA e AA tm as seguintes propriedades:
(i) AA pxp e obtida como produto das colunas de A.
(ii) AA nxn e obtida como produto das linhas de A.
(iii) Ambas as matrizes AA e AA so simtricas.
(iv) Se AA = ento A = .
Material elaborado pelo Prof. Csar Gonalves de Lima

14
Seja A uma matriz quadrada n x n e D = diag(d1, d2, , dn). No produto DA, a
i-sima linha de A multiplicada por di e em AD, a j-sima coluna de A multiplicada por dj. Por exemplo, se n = 3, ns temos:
DA

d1 0
= 0 d2

0 0

0 a11 a12
0 a21 a22

d 3 a31 a32

AD

a11 a12
= a21 a22

a31 a32

a13
a23

a33

a13
a23 =

a33

d1 0
0 d
2

0 0

d1a11 d1a12
d a
d 2 a22
2 21
d 3a31 d 3a32

d1a13
d 2 a23

d 3a33

(2.29)

0 d1a11 d 2 a12
0 = d1a21 d 2 a22

d 3 d1a31 d 2 a32

d 3a13
d 3a23

d 3a33

(2.30)

d12 a11 d1d 2 a12

DAD = d 2 d1a21 d 22 a22


d d a
3 1 31 d 3d 2 a32

d1d 3a13

d 2 d 3a23
d 32 a33

(2.31)

Vale notar que DA AD. Entretanto, no caso especial onde a matriz diagonal
a matriz identidade, (2.29) e (2.30) temos:
IA = AI = A

(2.32)

Se A retangular, (2.32) continua valendo, mas as duas identidades so de dimenses diferentes.


Se A uma matriz simtrica e y um vetor, o produto:
yAy =

aii yi2

+ 2 aij yi y j

(2.33)

i j

chamado de forma quadrtica. Se x nx1, y px1 e A nxp, o produto:


xAy =

aij xi y j

(2.34)

ij

chamado de forma bilinear.

2.2.3. Soma Direta


Dadas as matrizes A(mxn) e B(rxs) definimos a sua soma direta como
A 0
AB=
= C(m+r,n+s)
0
B

Material elaborado pelo Prof. Csar Gonalves de Lima

15
Algumas propriedades da soma direta de matrizes:

(i) A (A)
(ii) Se as dimenses so favorveis, ento:
(A B) + (C D) = (A + C) (B + D)
(A B)(C D) = AC BD

Exemplo: Sejam as matrizes


3 5
A = [10 11 15] , B =
, C = [ 10 11 15]
4 1

Ento,
10 11 15 0 0
A B = 0 0 0 3 5

0 0 0 4 1

0
0
0
10 11 15
AC=

0 0 0 10 11 15

(Perceba que A+C = )

2.2.4. Produto direto ou de Kronecker


Dadas as matrizes A(mxn) e B(rxs) definimos o produto direto ou produto de Kronecker
de A por B como a matriz C(mr x ns) de tal forma que:
a11B a12B
a B a B
22
C(mr x ns) = A B = 21
M
M

am1B am 2B

L a1 n B
L a2 n B

O
M

L amn B

Algumas propriedades interessantes do produto direto de matrizes:


(i) A B B A , em geral
(ii) Se u e v so vetores, ento u v = v u = vu.
(iii) Se D(n) uma matriz diagonal e A uma matriz qualquer, ento:
D A = d11A d22A dnnA
(iv) Se as dimenses so favorveis

(A B)(C D) = AC BD

Material elaborado pelo Prof. Csar Gonalves de Lima

16
Exemplo: Sejam as matrizes:
1 2
A(2x2) =
,
3
4

0
1 1
B(2x3) =
,
3
5

1
y(3x1) = 1 .

0

Ento
0 2 2
0
1 1
3 5 6 6 10 12
,
AB=
3 3
0 4 4
0

9 15 18 12 20 24

2
1
1 2

0
0
Ay=

4
3
3 4

0
0

0
0
1 2 1 2
3 4 3 4
0
0

BA=
3 6 5 10 6 12

9 12 15 20 18 24

2
1
3
4

1 2
yA=

3 4
0
0

0
0

2.2.5 Potncia de matriz quadrada

Dada uma matriz quadrada A e um nmero k Z (conjunto dos nmeros inteiros e


positivos), definimos a k-sima potncia da matriz A como:
A k = AAA
A
142L
43
k vezes

Em relao sua segunda potncia, uma matriz quadrada A, ser chamada de:
(i) idempotente, se A 2 = A.
(ii) nilpotente, se A 2 = .
(iii) unipotente, se A 2 = I.
Teorema. Se P(n) uma matriz idempotente e se I(n) a matriz identidade de ordem n,
ento a matriz I P idempotente.

Material elaborado pelo Prof. Csar Gonalves de Lima

17
2.3. MATRIZES PARTICIONADAS

Muitas vezes conveniente particionar uma matriz em submatrizes. Por exemplo,


uma partio de uma matriz A em quatro submatrizes (quadradas ou retangulares) de
dimenses apropriadas, pode ser indicada simbolicamente como:
A
A = 11
A 21

A12
A 22

Para ilustrar, seja a matriz A(4x5) particionada como:


7
3
A=
9

2 5 8
4 0 2

4
7
A
= 11

3 6 5 2
A 21

1 2 1
6

A12
A 22

Onde:
7 2 5
8 4
9 3 6
A11 =
,
A
=
,
A
=
12
21

2 7
3 1 2 e A22 =
3 4 0

5 2
1
6

Se duas matrizes A e B so conformes, e se A e B so particionadas de tal forma que as submatrizes sejam apropriadamente conformes, ento o produto AB pode
ser encontrado usando a maneira usual de multiplicao (linha-por-coluna) tendo as
submatrizes como se fossem elementos nicos; por exemplo:
A
AB = 11
A 21

A12 B11 B12


A 22 B 21 B 22

A B + A12B 21
= 11 11
A 21B11 + A 22B 21

A11B12 + A12B 22
A 21B12 + A 22B 22

(2.35)

Se B trocada por um vetor b particionado em dois conjuntos de elementos e


se A correspondentemente particionada em dois conjuntos de colunas, ento (2.35)
fica:
b
Ab = [A1, A2] 1 = A1b1 + A2b2
(2.36)
b
2
Onde o nmero de colunas de A1 igual ao nmero de elementos de b1 e A2 e b2 so
similarmente conformes.
A multiplicao particionada em (2.36) pode ser estendida para colunas individuais de A e elementos individuais de b:

Material elaborado pelo Prof. Csar Gonalves de Lima

18
b1
b
2
Ab = [a1, a2, , ap] = b1a1 + b2a2 + + bpap
M

b p

(2.37)

Assim, Ab pode ser expressa como uma combinao linear de colunas de A, na qual
os coeficientes so os elementos de b. Ns ilustramos (2.37) no seguinte exemplo:
Exemplo 2.3. Sejam:

6 2 3
A = 2
1 0 , b =

4
3 2

4
2

1

17
Ab = 10

20

Usando uma combinao linear de colunas de A como em (2.37), ns obtemos:


Ab = b1a1 + b2a2 + b3a3

6
2
3 24 4 3 17

= 4 2 + 2 1 + (1) 0 = 8 + 2 0 = 10



4
3
2 16 6 2 20
Por (2.28) e (2.29), as colunas do produto AB so combinaes lineares das colunas de A. Os coeficientes para a j-sima coluna de AB so os elementos da j-sima
coluna de B.
O produto de um vetor linha por uma matriz, aB, pode ser expresso como uma
combinao linear das linhas de B, na qual os coeficientes so os elementos de a:
b1t
t
b
aB = [a1, a2, , an] 2 = a1 b1t + a2 b t2 + + an b tn
M
t
b n

(2.38)

Por (2.27) e (2.38), as linhas do produto AB so combinaes lineares das linhas de


B. Os coeficientes da i-sima linha de AB so os elementos da i-sima linha de A.
Finalmente, notamos que se uma matriz A particionada como A = [A1, A2], ento:
At
A = [A1, A2] = t1
A 2

(2.39)

Material elaborado pelo Prof. Csar Gonalves de Lima

19
2.4 POSTO (RANK) DE UMA MATRIZ

Antes de definirmos o posto (ou rank) de uma matriz, ns introduziremos a noo de


independncia linear e dependncia. Um conjunto de vetores {a1, a2, , ap} dito
linearmente dependente (l.d.) se pudermos encontrar um conjunto de escalares c1, c2,
, cp (nem todos nulos) de tal forma que:

c1a1 + c2a2 + + cpap = 0

(2.40)

Se no encontrarmos um conjunto de escalares c1, c2, , cp (nem todos nulos) que satisfaam (2.40), o conjunto de vetores {a1, a2, , ap} dito linearmente independente
(l.i.). Por (2.37), podemos reescrever essa definio da seguinte forma:

As colunas de A so linearmente independentes se Ac = 0 implica em c = 0.


Observe que se um conjunto de vetores inclui um vetor nulo, o conjunto de vetores
linearmente dependente.
Se (2.40) satisfeita, ento existe pelo menos um vetor ai que pode ser expresso como uma combinao linear dos outros vetores do conjunto. Entre vetores linearmente independentes no existem redundncias desse tipo.
Definio: O posto (rank) de qualquer matriz A (quadrada ou retangular) definido
como o nmero de colunas (linhas) linearmente independentes de A

Pode-se mostrar que o nmero de colunas l.i. de qualquer matriz igual ao nmero de
linhas l.i. dessa matriz.
Se a matriz A tem um nico elemento diferente de zero, com todos os demais
elementos iguais a zero, ento rank(A) = 1. O vetor 0 e a matriz tm posto zero.
Se a matriz retangular A(nxp) de posto p, onde p < n, ento A tem o maior posto
possvel e dito ter posto coluna completo.
Em geral, o maior posto possvel de uma matriz A(nxp) o min(n, p). Assim, em
uma matriz retangular, as linhas, as colunas ou ambas so linearmente dependentes.
Ns ilustramos esse fato no prximo exemplo.
Exemplo 2.4(a). A matriz

1 2 3
A=
2 4
5
tem posto 2, porque as duas linhas so linearmente independentes, pois nenhuma
linha mltipla da outra. Conseqentemente, pela definio de posto, o nmero de
colunas l.i. tambm 2. Portanto, as trs colunas de A so l.d. e por (2.40) existem
constantes c1, c2 e c3 (nem todas nulas) tais que:

Material elaborado pelo Prof. Csar Gonalves de Lima

20
1
2
3 0
c1 + c2 + c3 =
5
2
4 0

(2.41)

Por (2.37) ns escrevemos (2.41) na forma


c1
1 2 3 0
5
c2 = 0 ou Ac = 0
2
4


c3

(2.42)

14
A soluo (no trivial) para (2.42) dada por qualquer mltiplo de c = 11 . Neste

12
caso o produto Ac = 0, mesmo com A 0 e c 0. Isso s possvel por causa da dependncia linear dos vetores-colunas de A.
Nem sempre fcil perceber que uma linha (ou coluna) uma combinao linear de outras linhas (ou colunas). Nesses casos pode ser difcil calcular o posto de
uma matriz. Entretanto, se conseguirmos obter a forma escalonada cannica (f.e.c.)
da matriz, o seu posto corresponder ao nmero de linhas (ou colunas) que tenham o
nmero 1 como lder. A obteno da f.e.c. de uma matriz feita atravs de operaes
elementares em suas linhas (ou colunas).
Definio: So chamadas de operaes elementares nas linhas da matriz A (e de
modo similar nas suas colunas):
(i) trocar a posio de duas linhas da matriz.
(ii) multiplicar uma linha da matriz por um escalar k 0 (li = kli).
(iii) somar a uma linha da matriz um mltiplo de outra linha (li = li + klj).
Teorema: Uma matriz A equivalente por linhas a uma matriz B se B pode ser obtida de A aplicando-se uma seqncia de operaes elementares sobre as suas linhas.
Definio: Dizemos que uma matriz A(nxm) est na sua forma escalonada cannica ou
reduzida se ocorrer simultaneamente que:
(a) o primeiro elemento no nulo de cada linha no nula o nmero 1 (piv);
(b) toda coluna que tem um piv, tem todos os outros elementos nulos;
(c) o piv da linha i +1 ocorre direita do piv da linha i (i = 1, 2, , n1).
(d) todas as linhas nulas (formadas inteiramente por zeros) ocorrem abaixo das
linhas no nulas.

Material elaborado pelo Prof. Csar Gonalves de Lima

21
Definio: Dizemos que uma matriz est na forma escalonada se ela satisfaz as propriedades (c) e (d), mas no necessariamente as propriedades (a) e (b).

Das matrizes apresentadas a seguir, B no est na forma escalonada, A e C esto nas suas formas escalonadas cannicas e D, na forma escalonada.
1 0 0
A = 0 1 0 , B =

0 0 0

1
0

0 0 0
0 0 1
1 2 1 2
, C =

, D=
0 1 0
0 0 0 0

1 0 0

4 0 3
0 3 0

0 0 1

Teorema. Dada uma matriz real A(nxp) sempre possvel obtermos a sua forma escalonada cannica (f.e.c.) atravs de operaes elementares.

Assim, calcular o posto da matriz A o mesmo que calcular o posto da f.e.c. de A,


pois so equivalentes. Portanto, calcular o posto da f.e.c. de A o mesmo que contar
o seu nmero de 1s pivs.
Exemplo. Vamos obter a f.e.c. da matriz A do Exemplo 2.4(a):

1 2 3
A=
2 4
5
(i) Fazendo l2 = l2 5l1, ns obtemos:
3
1 2 3 1 2
~
5

.
2
4
0
12

11

(ii) Fazendo l2 = l2 /12, ns obtemos:


3 1 2
3
1 2
~
0 12 11 0
.
1

11
/
12

(iii) Fazendo l1 = l1 + 2l2, obtemos:


3 1 0
7 / 6
1 2
~
0
1 11 / 12 0 1 11 / 12

7 / 6
1 0
Ento a f.e.c. de A a matriz
e o rank(A) = 2.
0 1 11 / 12
Definio: Dizemos que uma matriz quadrada est na forma de Hermite (Graybill
1969, p.120) se satisfaz as seguintes condies:
(a) uma matriz triangular superior;
Material elaborado pelo Prof. Csar Gonalves de Lima

22
(b) tem apenas valores zero ou um na sua diagonal;
(c) se tem o valor zero na diagonal, os elementos restantes na linha so zeros;
(d) se tem o valor um na diagonal, os elementos restantes da coluna em que aparece o nmero um, so nulos.
Definio: Dizemos que uma matriz quadrada est na forma de Echelon (Graybill,
1969, p.286) se ela satisfaz as condies de uma forma de Hermite e apresenta as
linhas de zeros abaixo das linhas que no so nulas.

Ns podemos estender (2.42) para produtos de matrizes. possvel encontrar


matrizes A 0 e B 0, tais que:
AB = 0,
(2.43)
Por exemplo,
6 0 0
1 2 2
2 4 1 3 = 0 0 .


Ns tambm podemos explorar a dependncia linear das linhas ou colunas de
uma matriz para criar expresses tais como AB = CB, onde A C. Assim em uma
equao matricial, ns no podemos, em geral, cancelar uma matriz de ambos os
lados da equao. Uma exceo a essa regra ocorre quando as matrizes envolvidas
so quadradas e B uma matriz no-singular (ser definida na Seo 2.5).
Exemplo 2.4(b). Ns ilustramos a existncia de matrizes A, B e C tais que AB = CB,
onde A C. Sejam as matrizes:
1 2
1
1
1 3 2
2
3 5
A =
AB = CB =
, B = 0 1 , C =

2
0
1
5

4
1
4

1 0
O teorema seguinte d um caso geral e dois casos especiais para o posto do produto
de duas matrizes.
Teorema 2.4A.
(i) Se as matrizes A e B so conformes, ento rank(AB) rank(A) e rank(AB)
rank(B).
(ii) A multiplicao por uma matriz no-singular (ver Seo 2.5) no altera o posto
da matriz, isto , se B e C so no-singulares rank(AB) = rank(CA) = rank(A).
(iii) Para qualquer matriz A, rank(AA) = rank(AA) = rank(A) = rank(A).

Material elaborado pelo Prof. Csar Gonalves de Lima

23

Prova:
(i) Todas as colunas de AB so combinaes lineares das colunas de A (ver um comentrio no Exemplo 2.3) conseqentemente, o nmero de colunas l.i. de AB
menor ou igual ao nmero de colunas l.i. de A, e rank(AB) rank(A). Similarmente, todas as linhas de AB so combinaes lineares das linhas de B [ver
comentrio em (2.38)] e da, rank(AB) rank(B).
(ii) Se B no singular, existe uma matriz B -1 tal que B B -1 = I [ver (2.45) a seguir].
Ento, de (i) ns temos que:

rank(A) = rank(AB B -1 ) rank(AB) rank(A).


Assim ambas as desigualdades tornam-se igualdades e rank(A) = rank(AB). Similarmente, rank(A) = rank(CA) para C no-singular.

2.5. INVERSA DE UMA MATRIZ

Uma matriz quadrada de posto completo dita no-singular. Uma matriz A,


1
no-singular, tem inversa nica, denotada por A , com a propriedade que:
1

AA =A A=I

(2.45)

Um algoritmo simples (mas trabalhoso se a dimenso da matriz grande!) para


obteno da inversa de uma matriz consiste em justapor matriz A uma matriz identidade de mesma ordem. Opera-se simultaneamente sobre as linhas das duas matrizes
at que no lugar da matriz A aparea a sua f.e.c. (neste caso, uma matriz identidade).
1
Nesse momento, no lugar da matriz identidade estar a inversa A de A. Ou seja:
1

[A | I ] ~ ~ [I | A ]
Exemplo 2.5. Seja a matriz quadrada:

4 7
A=
.
2 6
(1) Fazendo l2 = l2 (1/2) l1:
7
1 0
4 7 1 0 4
2 6 0 1 ~ 0 5 / 2 1 / 2 1

(2) Fazendo l2 = (2/5)l2:


1
0 4 7
1
0
4 7
0 5 / 2 1 / 2 1 ~ 0 1 1 / 5 2 / 5

(3) Fazendo l1 = l1 + (7) l2:

Material elaborado pelo Prof. Csar Gonalves de Lima

24
1
0 4 0 12 / 5 14 / 5
4 7
0 1 1 / 5 2 / 5 ~ 0 1 1 / 5
2 / 5


(4) Fazendo l1 = (1/4) l1:
3 / 5 7 / 10
4 0 12 / 5 14 / 5 1 0
~
0 1 1 / 5
2 / 5 0 1 1 / 5
2 / 5

Ento
3 / 5 7 / 10
4 7 1 0
1 0
0.6 0.7
1
A =
2 6 0 1 ~ ~ 0 1 1 / 5

2 / 5
0.4

0.2
Se a matriz B no-singular e AB = CB, ento ns podemos multiplicar direita por
1
B os dois lados da igualdade, obtendo:
1

AB = CB ABB = CBB A = C
Importante: Se a matriz B singular ou retangular, ela no pode ser cancelada nos
dois lados da igualdade AB = CB.

Similarmente, se A no-singular ento o sistema Ax = c tem a soluo nica:


1

x=A c

(2.47)

Teorema 2.5A. Se A no singular, ento A no singular e a sua inversa pode ser


encontrada como:
1
1
(A) = (A )
(2.48)
Teorema 2.5B. Se A e B so matrizes no singulares de mesma dimenso, ento AB
no-singular e
1

(AB) = B A

(2.49)

Se a matriz A simtrica, no-singular e particionada como:


A12
A
A = 11

A 21 A 22
1

e se B = A22 A21(A11) A12, ento supondo que (A11) e B existem, a inversa de A


dada por
-1
-1
-1
-1
A11
A11
A12B 1A 21A11
A11
A12B 1
1
A =
(2.50)

-1
B 1A 21A11
B 1

Material elaborado pelo Prof. Csar Gonalves de Lima

25
Como um caso especial de (2.50), consideremos a matriz no singular:
A
A = 11 t
(a12 )

a12
a22
1

onde A11 quadrada, a22 um escalar e a12 um vetor. Ento se (A11)


inversa de A pode ser expressa como:
1

A =

-1
-1
-1
-1
a12 (a12 )t A11
a12
+ A11
A11
1 bA11

-1
b
(a12 )t A11
1

existe, a

(2.51)

onde b = a22 (a12)t(A11) a12. Como um outro caso especial de (2.50) ns temos:
A
A = 11


A 22

que tem a inversa


1
A11
A =

A 221

(2.52)

Se uma matriz quadrada da forma B + cc no singular, onde c um vetor e B


uma matriz no singular, ento:
B 1cc' B 1
1
1
(B + cc) = B
(2.53)
1 + c' B 1c

2.6 MATRIZES POSITIVAS DEFINIDAS


Formas quadrticas foram introduzidas em (2.33). Por exemplo, a forma quadrtica
3 y12 + y22 + 2 y32 + 4 y1 y2 + 5 y1 y3 6 y2 y3 pode ser expressa como:
3 y12 + y22 + 2 y32 + 4 y1 y2 + 5 y1 y3 6 y2 y3 = yAy
onde

y1
y = y2 ,

y3

3 4 5
A = 0 1 6 .

0 0 2

Entretanto, essa forma quadrtica pode ser expressa em termos da matriz simtrica:

2 5 / 2
3
1
(A + A) = 2
1 3.

2
5 / 2 3 2

Material elaborado pelo Prof. Csar Gonalves de Lima

26
Em geral, qualquer forma quadrtica yAy pode ser expressa como:
A + A'
yAy = y
y
2

(2.54)

Assim a matriz-ncleo da forma quadrtica pode sempre ser escolhida como uma
matriz simtrica (e nica!).

Exemplo. A varincia definida como s2 =

1
1

y' I J y = yAy uma


n 1
n

forma quadrtica e a sua matriz ncleo simtrica:


1
1 1
1
L


1 n
n
n n


1
1
1 1

1 L
A=

n
n
n = n(n 1)

n 1
M
M
M M


1
1 1
1

L 1

n
n
n n(n 1)

1
1
L
n(n 1)
n(n 1)

1
1
L

n(n 1)
n
M
M

1
1
L

n(n 1)
n

As somas de quadrados encontradas na anlise de regresso (Captulos 6 a 10)


e anlise de varincia (Captulos 11 a 14) podem ser expressas na forma yAy, onde y
um vetor de observaes. Tais formas quadrticas so positivas (ou no mnimo nonegativas) para todos os valores de y.
Se a matriz simtrica A tem a propriedade de yAy > 0 para todos os possveis
vetores de observaes y, com exceo de y = 0, ento a forma quadrtica yAy dita
positiva definida e A dita matriz positiva definida.
Similarmente, se yAy 0 para todos os possveis vetores de observaes y,
com exceo de y = 0, ento a forma quadrtica yAy dita positiva semidefinida e A
dita matriz positiva semidefinida.
Exemplo 2.6. Para ilustrar uma matriz positiva definida, considere:

2 1
A=

1 3

A forma quadrtica associada


yAy = 2 y12 2 y1 y2 + 3 y22 = 2( y1 0,5 y2 )2 + (5/2) y22

que claramente positiva a menos que y1 e y2 sejam ambos iguais a zero.


Material elaborado pelo Prof. Csar Gonalves de Lima

27
Para ilustrar uma matriz positiva semidefinida, considere:
(2 y1 y2 )2 + (3 y1 y3 )2 + (3 y2 2 y3 )2
que pode ser expresso como yAy, com
13 2 3
A = 2 10 6

3 6
5
Se 2 y1 = y2 , 3 y1 = y3 e 3 y2 = 2 y3 , ento (2 y1 y2 )2 + (3 y1 y3 )2 + (3 y2 2 y3 )2
= 0. Assim yAy = 0 para qualquer mltiplo de y = [1, 2, 3]. Para todos os outros
casos, yAy > 0 (com exceo de y = 0).
Teorema 2.6A.
(i) Se A positiva definida, ento todos os elementos aii da sua diagonal so positivos.
(ii) Se A positiva semidefinida, ento todos aii 0.

(Ver prova na pgina 23 do livro do Rencher)


Teorema 2.6B. Seja P uma matriz no-singular.
(i) Se A positiva definida, ento PAP positiva definida.
(ii) Se A positiva semidefinida, ento PAP positiva semidefinida.

(Ver prova na pgina 23 do livro do Rencher)


Corolrio 1. Seja A(pxp) uma matriz positiva definida e seja a matriz B(kxp) de posto
k p. Ento a matriz BAB positiva definida.
Corolrio 2. Seja A(pxp) uma matriz positiva definida e seja a matriz B(kxp). Se k > p
ou se rank(B) = r, onde r < k e r < p, ento a matriz BAB positiva semidefinida.
Teorema 2.6C. Uma matriz simtrica A positiva definida se e somente se existe
uma matriz no singular P tal que A = PP.

(Ver prova na pgina 23 do livro do Rencher)


Corolrio 1. Uma matriz positiva definida no-singular.

Material elaborado pelo Prof. Csar Gonalves de Lima

28
Um mtodo de fatorar uma matriz positiva definida A em um produto PP
chamado de decomposio de Cholesky [ver Seber (1977, pg.304-305)], pelo qual A
pode ser fatorado de modo nico em A = TT, onde T uma matriz no singular e
triangular superior.
Para qualquer matriz quadrada ou retangular B, a matriz BB positiva definida ou positiva semidefinida.
Teorema 2.6D. Seja a matriz B(nxp).
(i) Se rank(B) = p, ento BB positiva definida.
(ii) Se rank(B) < p, ento BB positiva semidefinida.

Prova:
(i) Para mostrar que yBBy > 0 para y 0, ns notamos que yBBy = (By)(By)
uma soma de quadrados e portanto, positiva definida, a menos que By = 0. Por
(2.37) ns podemos expressar By na forma:
By = y1b1 + y2b2 + + ypbp

Essa combinao linear no igual a 0 (para qualquer y 0) porque rank(B) = p


e as colunas de B so l.i.
(ii) Se rank(B) < p, ento ns podemos encontrar y 0 tal que
By = y1b1 + y2b2 + + ypbp = 0

porque as colunas de B so l.d. [ver (2.40)]. Da, yBBy 0.


2

Note que se B uma matriz quadrada, a matriz B = BB no necessariamente


positiva semidefinida. Por exemplo, seja a matriz:
1 2
B=

1 2
Ento:
1 2
2 4
,
B2 =
BB
=

4
8
1 2

Neste caso, B2 no positiva semidefinida, mas BB positiva semidefinida, porque


2
yBBy = 2(y1 2y2) 0.
1

Teorema 2.6E. Se A positiva definida, ento A positiva definida.

Prova: Pelo Teorema 2.6C, A = PP, onde P no singular. Pelos Teoremas 2.5A e
1
1
1
1
1 1
2.5B, A = (PP) = P (P) = P (P ), que positiva definida pelo Teorema 2.6C.
Material elaborado pelo Prof. Csar Gonalves de Lima

29
Teorema 2.6F. Se A positiva definida e particionada na forma

A
A = 11
A 21

A12
A 22

onde A11 e A22 so quadradas, ento A11 e A22 so positivas definidas.


I
Prova: Ns podemos escrever A11 como A11 = [I, 0] A , onde I tem a mesma di0
menso de A11. Ento, pelo Corolrio 1 do Teorema 2.6B, A11 positiva definida.

2.7 SISTEMAS DE EQUAES

O sistema de equaes de n equaes (lineares) e p incgnitas

a11x1 + a12x2 + + a1pxp = c1


a21x1 + a22x2 + + a2pxp = c2
(2.55)

an1x1 + an2x2 + + anpxp = cn


pode ser escrito na forma matricial como
Ax = c

(2.56)

onde A nxp, x px1 e c nx1.


Note que:

Se n p ento os vetores x e c so de tamanhos diferentes.

Se n = p e A no-singular, ento por (2.47), existe um nico vetor soluo x =


1
A c.

Se n > p, tal que A tenha mais linhas que colunas (mais equaes do que incgnitas), ento, geralmente, o sistema Ax = c no tem soluo.

Se n < p, tal que A tenha menos linhas que colunas, ento o sistema Ax = c tem
um nmero infinito de solues.

Se o sistema (2.56) tem uma ou mais vetores solues, ele chamado de sistema
consistente. Se no tem soluo, ele chamado de sistema inconsistente.

Para ilustrar a estrutura de um sistema consistente, suponha que A seja pxp


tenha posto r < p. Ento as linhas de A so linearmente dependentes e existe algum b
tal que [ver (2.38)]:
bA = b1 a1t + b2 a t2 + + bp a tp = 0
Material elaborado pelo Prof. Csar Gonalves de Lima

30
Ento, ns tambm podemos ter bc = b1c1 + b2 c2+ + bp cp = 0, porque a multiplicao de Ax = c por b (de ambos os lados) d:
bAx = bc

0x = bc.

ou

Por outro lado, se bc 0, no existe x tal que Ax = c. Portanto, para que Ax = c seja
consistente, a mesma relao (qualquer que seja) que existe entre as linhas de A deve
existir entre os elementos (linhas) de c. Isso formalizado comparando o posto de A
com o posto da matriz aumentada [A, c]. A notao [A, c] indica que c foi justaposta
matriz A como uma coluna adicional.
Teorema 2.7A O sistema de equaes Ax = c consistente (tem no mnimo uma
soluo) se e somente se rank(A) = rank[A, c].

Prova: Suponha que rank(A) = rank[A, c], de tal forma que justapor no altera o
posto da matriz A. Ento c uma combinao linear das colunas de A; isto ,
existe pelo menos um x tal que
x1a1 + x2a2 + + xpap = c
que, por (2.38) pode ser escrito como Ax = c. Assim, x uma soluo do sistema Ax = c.
Por outro lado, suponha que existe um vetor soluo x tal que Ax = c. Em geral,
tem-se que rank(A) rank[A, c] [ver Harville (1997, p.41)]. Mas desde que
existe um x tal que Ax = c, ns temos:

rank[A, c] = rank[A, Ax] = rank[A(I, x)]


rank(A)

[Teorema 2.4A(i)]

Por isso,

rank(A) rank[A, c] rank(A)


e da ns temos que rank(A) = rank[A, c].
Um sistema de equaes consistente pode ser resolvido pelos mtodos usuais
apresentados nos cursos bsicos de lgebra (mtodo da eliminao de variveis, por
exemplo). No processo, uma ou mais variveis podem terminar como constantes arbitrrias, gerando assim um nmero infinito de solues. Um mtodo alternativo para
resolver o sistema ser apresentado na Seo 2.8.2.
Exemplo 2.7(a) Considere o sistema de equaes:

x1 + 2x2 = 4
x1 x2 = 1
x1 + x2 = 3

ou

1 2
4
1 1 x1 = 1

x2
1 1
3
Material elaborado pelo Prof. Csar Gonalves de Lima

31
A matriz aumentada :
1 2 4
[A, c] = 1 1 1

1 1 3

que tem rank[A, c] = 2 porque a terceira coluna igual soma de duas vezes a primeira coluna com a segunda coluna. Desde que rank[A, c] = 2 = rank(A), existe ao
menos uma soluo para o sistema.
Se adicionarmos duas vezes a primeira equao segunda equao, o resultado
um mltiplo da terceira equao. Assim, a terceira equao redundante e as duas
primeiras podem ser resolvidas para obter a soluo nica x = [2, 1].
4
x2
3
2
1
0
0

x1

Figura 2.1 Trs linhas representando as equaes do sistema do Exemplo 2.7(a)

A Figura 2.1 mostra as trs linhas que representam as trs equaes do sistema.
Note que as trs linhas cruzam no ponto de coordenadas (2, 1), que a soluo nica
do sistema de trs equaes.
Exemplo 2.7(b). Se trocarmos o nmero 3 por 2 na terceira equao do Exemplo
2.7(a), a matriz aumentada fica

1 2 4
[A, c] = 1 1 1

1 1 2

que tem posto 3, j que nenhuma combinao linear das colunas 0. Como rank[A,c]
= 3 rank(A) = 2, o sistema inconsistente.
As trs linhas que representam as trs equaes so apresentadas na Figura 2.2,
onde ns percebemos que as trs linhas no tm um ponto comum de interseo. Para
encontrar a melhor soluo aproximada, uma abordagem consiste em usar o mtodo
dos mnimos quadrados, que consiste em buscar os valores de x1 e x2 que minimizam
2
2
2
(x1 + 2x2 4) + (x1 x2 1) + (x1 + x2 2) = 0.
Material elaborado pelo Prof. Csar Gonalves de Lima

32
4
x2

3
2
1
0
0

x1

Figura 2.2 Trs linhas representando as equaes do sistema do Exemplo 2.7(b)


Exemplo 2.7(c) Considere o sistema:

x1 + x2 + x3 = 1
2x1 + x2 + 3x3 = 5
3x1 + 2x2 + 4x3 = 6
A terceira equao a soma das duas primeiras, mas a segunda no um mltiplo da
primeira. Assim rank(A) = 2 = rank[A, c] e o sistema consistente. Resolvendo as
duas primeiras equaes para x1 e x2 em termos de x3, ns obtemos:

x1 = 2x3 + 4,

x2 = x3 3

O vetor soluo pode ser expresso como:


2 x3 + 4
2 4
x = x3 3 = x3 1 + 3


x3
1 0
onde x3 uma constante arbitrria. Geometricamente, x uma linha representando a
interseo dos dois planos correspondentes s duas primeiras equaes.

2.8. INVERSA GENERALIZADA

Vamos considerar inversas generalizadas daquelas matrizes que no tm inversas no


sentido usual [ver (2.45)]. Uma soluo de um sistema consistente de equaes Ax =c
pode ser expresso em termos de uma inversa generalizada de A.
2.8.1 Definio e Propriedades

Uma inversa generalizada de uma matriz A nxp qualquer matriz A , que satisfaz:

AA A = A

(2.57)

Material elaborado pelo Prof. Csar Gonalves de Lima

33

Uma inversa generalizada no nica exceto quando A no-singular, neste caso A


1
= A . Uma inversa generalizada que satisfaz (2.57) tambm chamada de inversa
condicional.

Toda matriz (quadrada ou retangular) tem uma inversa condicional. Isso garantido mesmo para vetores. Por exemplo:
1
2
x=
3

4

ento x1 = [1, 0, 0, 0] uma inversa generalizada de x que


satisfaz (2.57). Outros exemplos so x 2 = [0, 1/2, 0, 0], x 3 = [0,
0, 1/3, 0] e x 4 = [0, 0, 0, 1/4]. Para cada x i , ns temos que:
x xi x = x 1 = x,

i = 1, 2, 3.

Nessa ilustrao, x um vetor coluna e x i um vetor linha. Esse modelo generalizado no seguinte teorema.

Teorema 2.8A. Se A nxp ento qualquer inversa generalizada A pxn.


Exemplo 2.8.1. Seja:

2 2 3
A = 1 0 1

3 2 4

(2.58)

Como a terceira linha de A a soma das duas primeiras linhas, e a segunda linha no
um mltiplo da primeira, o rank(A) = 2. Sejam
A1

1 0
0

= 1 / 2 1 0 ,

0 0 0

A 2

1
0
0

= 0 3 / 2 1 / 2

0
0
0

(2.59)

Facilmente podemos verificar que A A1 A = A e A A 2 A = A.


Teorema 2.8B. Suponha que A nxp de posto r e que A particionada como

A
A = 11
A 21

A12
A 22

Onde A11 rxr de posto r. Ento a inversa generalizada de A dada por


A 1

A = 11

Onde as trs matrizes nulas 0 tm dimenses apropriadas para que A seja pxn.

(Ver prova na pg. 30 no livro do Rencher)


Material elaborado pelo Prof. Csar Gonalves de Lima

34
Corolrio 1. Suponha A (nxp) de posto r e que A particionado como no Teorema
2.8B, onde A22 rxr de posto r. Ento a inversa generalizada de A dada por

0 0
A =
1
0 A 22

onde as trs matrizes nulas so de dimenses apropriadas, tais que A pxn.


A submatriz no-singular no precisa estar na posio A11 ou A22, como no
Teorema 2.8B e no seu corolrio. O Teorema 2.8B pode ser estendido para o seguinte

algoritmo para encontrar uma inversa condicional A , para qualquer matriz A (nxp)
de posto r [ver Searle, 1982, p.218]:
1. Encontre qualquer submatriz no-singular C(rxr). No necessrio que os elementos de C ocupem posies (linhas e colunas) adjacentes em A.
1

2. Encontre C e a sua transposta (C ).


1

3. Substitua em A os elementos de C pelos elementos de (C ).


4. Substitua todos os outros elementos de A por zeros.
5. Transponha a matriz resultante.
1 1 0
1 1 0

Exemplo. Calcular uma inversa generalizada (condicional) de X =


1 0 1

1 0 1
Usando o algoritmo de Searle (e lembrando que o posto da matriz X 2), escolhemos
convenientemente:
1 0
1
C=
C =

0 1
0
0

0 0
1 0
X =
0 1

0 0

1 0
1
0 1 (C ) =

1 0
0 1

0 0 0 0
0 1 0 0 uma inversa condicional de X

0 0 1 0

Vale lembrar que escolhendo outras matrizes C e usando o algoritmo, podemos encontrar outras inversas condicionais de X.

Teorema 2.8C. Seja A (nxp) de posto r, seja A uma inversa generalizada de A e

seja (AA) uma inversa generalizada de AA. Ento:


(i) posto(AA) = posto(AA) = posto(A) = r.
Material elaborado pelo Prof. Csar Gonalves de Lima

35

(ii) (A) uma inversa generalizada de A; isto (A) = (A ).

(iii) A = A(AA) AA e A = AA(AA) A.

(iv) (AA) A uma inversa generalizada de A, isto , A = (AA) A.

(v) A(AA) A simtrica, rank[A(AA) A] = r e invariante escolha de

(AA) ; isto , A(AA) A permanece a mesma, para qualquer (AA) .

Uma inversa generalizada de uma matriz simtrica no necessariamente simtrica. Entretanto, tambm verdade que uma inversa generalizada simtrica de
uma matriz simtrica, sempre pode ser encontrada; ver Problema 2.45. Neste livro,
ns assumimos que as inversas generalizadas de matrizes simtricas tambm so
simtricas.
Alm da inversa generalizada (condicional) definida em (2.57) existem outras,
mq
+
como a inversa de mnimos quadrados (A ) e a inversa de Moore-Penrose (A ) que
muito til em demonstraes envolvendo modelos lineares.
Definio: Dada a matriz A(nxp) ento toda matriz A mq (pxn) que satisfaz as duas
condies seguintes, uma inversa de mnimos quadrados da matriz A:
mq

(a) AA A = A
mq

(b) AA

uma matriz simtrica


mq

Teorema. Toda matriz do tipo A = (AA) A uma inversa de mnimos qua


drados de A [qualquer que seja a inversa condicional (AA) ].

1
1
Exemplo. Obter uma inversa de mnimos quadrados de X =
1

1 0
1 0

0 1

0 1

4 2 2
2 0
Primeiramente calculamos XX = 2 2 0 . Escolhendo C =
e usando o al

0 2

2 0 2
goritmo de Searle, obtemos:

0
0 0
(XX) = 0 0,5 0

0 0 0,5

Material elaborado pelo Prof. Csar Gonalves de Lima

36
Ento uma inversa de mnimos quadrados de X igual a:
mq

0
0
0
0
= (XX) X = 0,5 0,5 0
0

0
0 0,5 0,5

Vale observar que escolhendo outras matrizes C e, correspondentemente, calculando outras inversas condicionais de XX, podemos encontrar outras inversas de
mnimos quadrados da matriz X.
+

Definio: Dada a matriz A (nxp) de posto r, ento a matriz A (pxn), de posto r, que
satisfaz s quatro condies seguintes, definida como a inversa generalizada de
Moore-Penrose da matriz A:
+

(a) AA A = A
+

(b) A AA = A
+

(c) A A simtrica
+

(d) A A simtrica
+

Teorema 2. Para cada matriz A (nxp) existe sempre uma e s uma matriz A que
satisfaz as condies de Moore-Penrose.

A obteno da inversa de Moore-Penrose bastante trabalhosa. Geralmente elas so


obtidas atravs de algum pacote estatstico. No proc iml do SAS, por exemplo, ela
obtida com o comando ginv.

2.8.2. Inversas Generalizadas e Sistemas de Equaes

Uma soluo para um sistema de equaes pode ser expressa em termos de uma inversa generalizada.

Teorema 2.8D. Se o sistema de equaes Ax = c consistente e se A uma inversa

generalizada de A, ento x = A c uma soluo.

Ver prova na pg.32 do livro do Rencher.

Vale lembrar mais uma vez que diferentes escolhas de A , resultaro em diferentes
solues para Ax = c.

Material elaborado pelo Prof. Csar Gonalves de Lima

37
Teorema 2.8E. Se o sistema de equaes Ax = c consistente, ento todas as possveis solues podem ser obtidas das duas seguintes maneiras:

(i) Use uma A especfica em x = A c + (I A A)h e use todos os possveis valores para o vetor arbitrrio h.
(ii) Use todas as possveis inversas A em x = A c.

Ver prova em Searle (1982, p.238)


Uma condio necessria e suficiente para que o sistema Ax = c seja consistente pode
ser dado em termos de uma inversa generalizada (ver Graybill 1976, p.36).
Teorema 2.8F. O sistema de equaes Ax = c consistente se e somente se para

qualquer inversa generalizada A de A

AA c = c.

Ver prova na pg. 33 do livro do Rencher.


Observe que o Teorema 2.8F fornece uma alternativa ao Teorema 2.7A para decidir
se um sistema de equaes consistente.
2.9. DETERMINANTES

O determinante de uma matriz A (nxn) uma funo escalar de A definida como a


soma algbrica de todos os seus n! possveis produtos elementares. Denota-se geralmente por

(A) = | A | = det(A) =

n!

pi
i =1

Cada produto elementar do tipo pi = a1_ a2_ a3_ an_ em que, nos espaos
(ndices) so colocados os nmeros de alguma permutao simples do conjunto
{1, 2, , n}.
Em cada produto pi existe um e um s elemento de cada linha e coluna.
Cada produto elementar recebe o sinal + ou , conforme o nmero de inverses
envolvidas em pi seja par ou mpar, respectivamente.

Essa definio no muito til para calcular o determinante de uma matriz, exceto
para o caso de matrizes 2x2 ou 3x3. Para matrizes maiores, existem programas especficos (proc iml do SAS, Mapple e MathCad por exemplo) para calcular os determinantes.

Material elaborado pelo Prof. Csar Gonalves de Lima

38
a11
Exemplo. Seja a matriz A = a 21

a31

a12
a 22
a32

a13 2 0 1
a 23 = 3 1 4

a33 5 6 7

Como n = 3, temos 3! = 6 permutaes, a saber:

pi

Permutao

No de inverses

Sinal

Valor de pi

a11 a22 a33

123

+p1 = 14

a11 a23 a32

132

p2 = 48

a12 a21 a33

213

p3 = 0

a12 a23 a31

231

+p 4 = 0

a13 a21 a32

312

+p5 = 18

a13 a22 a31

321

p6 = 5

det(A) =

pi

= 49

i =1

Teorema 2.9A.
(i) Se D = diag(d1, d2, , dn) ento det(D) =

di
i =1

(ii) O determinante de uma matriz triangular o produto dos elementos da diagonal.


(iii) Se A singular, det(A) = 0. Se A no-singular, det(A) 0.
(iv) Se A positiva definida, det(A) > 0.
(v) det(A) = det(A)
1

(vi) Se A no singular, det(A ) = 1/det(A)


Teorema 2.9B. Se a matriz A particionada como

A
A = 11
A 21

A12
,
A 22

e se A11 e A22 so quadradas e no singulares (mas no necessariamente do mesmo


tamanho) ento
1
det(A) = |A11| |A22 A21(A11) A12|
(2.70)
1

= |A22| |A11 A12(A22) A21|

(2.71)

Note a analogia de (2.70) e (2.71) com o caso do determinante de uma matriz A, 2x2:

det(A) = a11 a22 a21 a12 = a11 (a22 a21 a12/ a11) = a22 (a11 a12 a21/ a22)
Material elaborado pelo Prof. Csar Gonalves de Lima

39
(ver os Corolrios 1 a 4 nas pginas 35 e 36 do livro do Rencher)
Teorema 2.9C. Se A e B so quadradas e de mesmo tamanho, ento o determinante
do produto igual ao produto dos determinantes:

|AB| = |A| |B|

(2.76)

|AB| = |BA|

(2.77)

Corolrio 1.

Corolrio 2.
2

|A | = |A|

(2.77)

2.10. VETORES ORTOGONAIS E MATRIZES

Dois vetores nx1 a e b so ditos ortogonais se


a'b = a1b1 + a2b2 + + anbn = 0

(2.79)

Note que o termo ortogonal se aplica aos dois vetores e no a um nico vetor.
Geometricamente, dois vetores ortogonais so perpendiculares um ao outro.
Para mostrar que os vetores a e b so perpendiculares podemos calcular o ngulo
formado entre eles.

cos() =

a' b
(a' a)(b' b)

(2.80)

Quando = 90, ab = 0 porque cos(90) = 0. Assim a e b so perpendiculares quando ab = 0.


4
1
Exemplo. Sejam os vetores a = e b = . Ento ab = 0 cos() = 0 o n 2
2
gulo formado entre eles de 90, ou seja, os vetores a e b so perpendiculares.

Se aa = 1, dizemos que o vetor a est normalizado. Um vetor b pode ser normalizado dividindo-o pelo seu comprimento (ou norma), b' b . Assim
c=

b
b' b

(2.81)

est normalizado, porque cc = 1.


Material elaborado pelo Prof. Csar Gonalves de Lima

40
Um conjunto de vetores c1, c2,, cp de dimenses px1 que so normalizados
(cici = 1, para toto i) e mutuamente ortogonais (cicj = 0, para todo i j) dito ser um
conjunto ortonormal de vetores. Se a matriz C = [c1, c2,, cp] pxp tem colunas ortogonais e normalizadas, C chamada matriz ortonormal. Desde que os elementos de
CC so produtos de colunas de C [ver Teorema 2.2C(i)], uma matriz ortonormal C
tem a propriedade:
CC = I

(2.82)

Pode ser mostrado que uma matriz ortonormal C tambm satisfaz


CC = I

(2.83)

Assim, uma matriz ortonormal C tem linhas ortonormais como tambm colunas
1
ortonormais. evidente que de (2.82) e (2.83), C = C , se C ortonormal.
Exemplo 2.10. Para ilustrar uma matriz ortonormal, partimos de:

1 1
1

A = 1 2 0

1
1 1
Que tem colunas mutuamente ortogonais, mas que no so ortonormais. Para normalizar as trs colunas, ns as dividimos pelos seus respectivos comprimentos, 3 , 6
e 2 , obtendo assim a matriz:
1 3
1 6
1 2

C = 1 3 2 6
0
1 3
1 6 1 2

cujas colunas so ortonormais. Note que as linhas de C tambm so ortonormais, tal


que C satisfaz (2.83) e (2.82).
A multiplicao de um vetor por uma matriz ortogonal tem o efeito de rotacionar os eixos; isto , se um ponto x transformado para z = Cx, onde C uma matriz
ortonormal, ento a distncia da origem a z a mesma que a distncia da origem a x:
zz = (Cx)(Cx) = xCCx = xx

(2.84)

Aqui, a transformao de x para z uma rotao.


Teorema 2.10A. Se uma matriz C (pxp) ortonormal e se A (pxp) uma matriz
qualquer, ento:
(i) |C| = +1 ou 1
(ii) |CAC| = |A|
(iii) 1 cij 1, onde cij qualquer elemento da matriz C
Material elaborado pelo Prof. Csar Gonalves de Lima

41
2.11. TRAO DE UMA MATRIZ

O trao de uma matriz (nxn) A = (aij) uma funo escalar definida como a soma dos
elementos da diagonal de A; isto ,

tr(A) =

i=1 aii
n

8 4 2
Por exemplo, se A = 2 3 6 tr(A) = 8 + (3) + 9 = 14.

3 5 9

Teorema 2.11A.
(i) Se A e B so (nxn) ento

tr(A B) = tr(A) tr( B)

(2.85)

(ii) Se A (nxp) e B (pxn), ento

tr(AB) = tr(BA)

(2.86)

Note que em (2.86) n pode ser menor, igual ou maior que p


(iii) Se A (nxp)

tr(AA) =

a tj a j

(2.87)

j =1

onde aj a j-sima coluna de A.


(iv) Se A (nxp)

tr(AA) =

a i a ti

(2.88)

i =1

onde a ti a i-sima linha de A.


(v) Se A = (aij) uma matriz nxp ento:
n

aij2

tr(AA) = tr(AA) =

(2.89)

i =1 j =1

(vi) Se A (nxn) e P (nxn) qualquer matriz no-singular, ento:


1

tr(P AP) = tr(A)

(2.90)

(vii) Se A (nxn) e C (nxn) qualquer matriz ortogonal, ento:


tr(CAC) = tr(A)

(2.91)

(viii) Se A (nxp) de posto r e A (pxn) uma inversa generalizada de A, ento:

tr(A A) = tr(A A ) = r

(2.92)

Material elaborado pelo Prof. Csar Gonalves de Lima

42
2.12 AUTOVALORES E AUTOVETORES
Definio: Para qualquer matriz quadrada A, um escalar e um vetor no-nulo x
podem ser encontrados, de tal forma que:
Ax = x

(2.93)

Em (2.93), chamado um autovalor de A e x um autovetor de A (tambm


so chamados de valor caracterstico e vetor caracterstico de A, respectivamente).
Note que em (2.93) o vetor x transformado por A, em um mltiplo de si prprio, de
tal forma que o ponto Ax est sobre a linha que passa por x e a origem.
Para encontrar e x para uma matriz A, ns escrevemos (2.93) como:
(A I)x = 0

(2.94)

Por (2.37), (A I)x uma combinao das colunas de A I e por (2.40) e (2.94)
essas colunas so linearmente dependentes. Assim a matriz quadrada A I singular, e pelo Teorema 2.9A(iii) ns podemos resolver para usando
|A I| = 0

(2.95)

que conhecido como equao caracterstica.


Se A (nxn) a equao caracterstica (2.95) ter n razes, isto , A ter n autovalores 1, 2, ,n. Os s no sero necessariamente distintos ou todos diferentes de
zero, ou todos nmeros reais. (Entretanto, os autovalores de uma matriz simtrica
sero reais, ver Teorema 2.12C). Depois de encontrar 1, 2, ,n usando (2.95) os
autovetores podero ser encontrados usando (2.94).
Se i = 0, o correspondente autovetor no o vetor nulo, 0. Para ver isso, note
que se = 0 ento (A I)x = 0 fica Ax = 0 que tem soluo para x porque A singular, e as colunas so linearmente dependentes [a matriz A singular porque ela
tem, ao menos, um autovalor nulo].
Exemplo 2.12.1 Para ilustrar autovalores e autovetores, considere a matriz:
1 2
A=

1 4
Por (2.95), a equao caracterstica :

2
1
|A I| =
= (1 )(4 ) + 2 = 0
1 4
ou seja

2 5 + 6 = ( 3)( 2) = 0
Material elaborado pelo Prof. Csar Gonalves de Lima

43
que tem razes 1 = 3 e 2 = 2. Para encontrar o autovetor x1 correspondente a 1 = 3,
ns usamos (2.94),
2 x1 0
(1 3)
(A 3I)x = 0
x = 0
(
)

1
4

2
que pode ser escrito como:
2x1 + 2x2 = 0
x1 + x2 = 0
Como a segunda equao um mltiplo da primeira, ento x1 = x2. Um vetor soluo
pode ser escrito com x1 = c como uma constante arbitrria.
x x
1
1
x 1 = 1 = 1 = x1 = c
x2 x1
1
1

Se c = 1/ 2 para normalizar o vetor, ns obtemos:


1 / 2
x1 =

1 / 2

Similarmente, correspondente a 2 = 2, ns obtemos:


2 / 5
x2 =

1 / 5

2.12.2. Funes de uma matriz

Se um autovalor da matriz quadrada A com um correspondente autovetor x, ento


para certas funes g(A), um autovalor dado por g() e x o autovetor correspondente de g(A) como tambm de A. Ns ilustramos para alguns casos:
1. Se um autovalor de A, ento c um autovalor de cA, onde c uma constante
arbitrria, tal que c 0. Esse resultado facilmente demonstrado multiplicando-se
a relao de definio Ax = x por c:
cAx = cx

(2.96)

2. Se um autovalor de A e x o autovetor correspondente de A, ento c + k um


autovalor da matriz cA + kI e x o autovetor de cA + kI, onde c e k so escalares.
Para mostrar isso, adicionamos kx a (2.96):
cAx + kx = cx + kx

(cA + kI)x = (c + k)x

(2.97)

Assim c + k o autovalor de cA + kI e x o correspondente autovetor de cA + k.


Note que (2.97) no se estende a (A + B), onde A e B so matrizes nxn arbitrrias;
isto , A + B no tem autovalores A + B, onde A um autovalor de A e B, de B.

Material elaborado pelo Prof. Csar Gonalves de Lima

44
2

3. Se um autovalor de A, ento um autovalor de A . Isto pode ser demonstrado, multiplicando-se a relao de definio Ax = x por A:
2

AAx = Ax A x = Ax = (x) = x
2

(2.98)
2

Assim um autovalor de A e x o autovetor correspondente de A . Isso pode


ser estendido para:
k

Ax =x

(2.99)
1

4. Se um autovalor da matriz no-singular A, ento 1/ um autovalor de A .


1
Para demonstrar isso, ns multiplicamos Ax = x por A para obter
1

A Ax = A x x = A x A x = (1/)x
1

(2.100)
1

Assim 1/ um autovalor de A e x um autovetor tanto de A quanto de A .


5. Os resultados em (2.96) 2 (2.99) podem ser usados para obter autovalores e autovetores de um polinmio em A. Por exemplo, se um autovalor de A, ento
3

(A + 4A 3A + 5I)x = A x + 4A x 3Ax + 5x
3

= x + 4 x 3x + 5x
3

= ( + 4 3 + 5)x
3

Assim, + 4 3 + 5 um autovalor de A + 4A 3A + 5I, e x o autovetor


correspondente.
Para certas matrizes, a propriedade (5) pode ser estendida para sries infinitas.
Por exemplo, se um autovalor de A, ento por (2.97), 1 um autovalor de
I A. Se I A no-singular, ento, por (2.100), 1/(1 ) um autovalor de
1
(I A) . Se 1 < < 1, ento 1/(1 ) pode ser representado pela srie (de Fourier)
1
2
3
=1++ + +
1
Correspondentemente, se todos os autovalores de A satisfazem 1 < < 1, ento
1

(I A) = I + A + A + A +

(2.101)

2.12.3. Produtos

Similar ao comentrio feito aps a apresentao de (2.97), os autovalores de AB no


so produtos da forma AB. Entretanto, os autovalores de AB so os mesmos de BA.
Teorema 2.12A. Se A e B so nxn ou se A nxp e B pxn, ento os autovalores
(no nulos) de AB so os mesmos daqueles de BA. Se x um autovetor de AB ento
Bx um autovetor de BA.
Material elaborado pelo Prof. Csar Gonalves de Lima

45
Teorema 2.12B. Seja A uma matriz nxn.
1

(i) Se P qualquer matriz no-singular nxn, ento P AP tem os mesmos autovalores.


(ii) Se C qualquer matriz ortogonal nxn, ento CAC tem os mesmos autovalores.

2.12.4. Matrizes simtricas


Teorema 2.12C. Seja A (nxn) uma matriz simtrica
(i) Os autovalores de A so nmeros reais.
(ii) Os autovetores x1, x2, ,xn so mutuamente ortogonais; isto , xi xj = 0 para i j
Teorema 2.12D. Se A uma matriz simtrica com autovalores 1, 2, ,n e autovetores normalizados x1, x2, ,xn ento A pode ser expressa como
A = CDC

(2.102)

i x i x ti

(2.103)

i =1

onde D = diag(1, 2, ,n) e C a matriz ortonormal C = [x1, x2, ,xn]. O resultado


mostrado em (2.102) ou (2.103) chamado de decomposio espectral de A.
Ver prova nas pg. 46-47.
Corolrio 1. Se A uma matriz simtrica e C e D so definidas como no Teorema
2.12D, ento C diagonaliza A, isto ,
CAC = D = diag(1, 2, ,n)

(2.105)

Teorema 2.12E. Se A uma matriz com autovalores 1, 2, ,n ento


(i) det(A) = | A | =

(2.106)

i
i =1

(ii) tr(A) =

(2.107

i =1

2.12.5. Matriz positiva definida e positiva semidefinida

Os autovalores 1, 2, 3,, n de matrizes positiva definidas (semidefinidas) so


positivos (no negativos).
Material elaborado pelo Prof. Csar Gonalves de Lima

46
Teorema 2.12F. Se A uma matriz com autovalores 1, 2, ,n ento
(i) Se A positiva definida ento i > 0 para i = 1, 2, , n
(ii) Se A positiva semidefinida ento i 0 para i = 1, 2, , n. O nmero de
autovalores i para os quais i > 0 igual ao posto de A.
Teorema A.5.2 Seja A uma matriz real e simtrica, n x n, e D = diag(1, 2, ...,n) a
matriz diagonal que exibe as razes caractersticas de A. Ento:

a) i > 0, i A positiva definida.


b) i 0, i, i = 0 A positiva semi-definida.
c) i < 0, i A negativa definida.
d) i 0, i, i = 0 A negativa semi-definida.
e) i muda de sinal A no definida.
Se uma matriz A positiva definida, ns podemos encontrar a raiz quadrada
1/2
de A, denotada por A , como segue. Desde que os autovalores so positivos, ns podemos substituir a raiz quadrada i na decomposio espectral de A em (2.102)
para obter:
1/2
1/2
A = CD C
(2.108)
1/2

onde D
dade:

= diag( 1 , 2 , ,
1/2

1/2

n ). A matriz A
1/2

1/2

1/2

simtrica e tem a proprie-

CD CCD C= A

(2.109)

2.13. MATRIZES IDEMPOTENTES


2

Uma matriz quadrada A dita idempotente se A = A. Neste texto, muitas das matrizes idempotentes so quadradas. Muitas das somas de quadrados nas anlises de regresso e de varincia (Captulos 11-14) podem ser expressas como formas quadrticas yAy. A idempotncia de A ou de um produto envolvendo A ser usada para estabelecer que yAy (ou um mltiplo de yAy) tem distribuio de qui-quadrado.
Teorema 2.13A. A nica matriz no-singular idempotente a matriz identidade.
Teorema 2.13B. Se A singular, simtrica e idempotente ento A positiva semidefinida.
Material elaborado pelo Prof. Csar Gonalves de Lima

47
Teorema 2.13C. Se A uma matriz nxn, simtrica, idempotente e de posto r, ento
A tem r autovalores iguais a 1 e n r autovalores iguais a 0.
Teorema 2.13D. Se A uma matriz nxn, simtrica, idempotente e de posto r, ento
posto(A) = tr(A) = r.
Teorema 2.13E. Se A uma matriz nxn idempotente, P uma matriz nxn no
singular e C uma matriz nxn ortogonal, ento:
(i) I A idempotente.
(ii) A(I A) = 0 e (I A)A = 0
-1

(iii) P AP idempotente
(iv) CAC idempotente (se A simtrica, CAC uma matriz simtrica e idempotente).

Teorema 2.13F. Seja A uma matriz nxp de posto r, seja A qualquer inversa genera

lizada de A e seja (AA) uma inversa generalizada de AA. Ento A A, AA e

A(AA) A so todas idempotentes.


Teorema 2.13G. Supondo que a matriz simtrica A nxn possa ser escrita como A =

i=1 A i para algum k, onde cada Ai uma matriz simtrica nxn. Ento, quaisquer
k

duas das seguintes condies implicam na terceira condio:


1. A idempotente.
2. Cada A1, A2, , Ak idempotente.
3. AiAj = 0 para i j.
Teorema 2.13H. Se I =

se n =

i=1 A i , onde cada matriz Ai nxn simtrica e de posto ri e


k

i=1 ri , ento so verdadeiras as seguintes afirmaes:


k

1. Cada A1, A2, , Ak idempotente.


2. AiAj = 0 para i j.

2.14 DERIVADAS DE FUNES LINEARES E FORMAS QUADRTICAS

Seja u = f(x) uma funo das variveis x1, x2, , xp em x = [x1, x2, , xp] e sejam
u / x1 , u / x2 , , u / x p as derivadas parciais.
Material elaborado pelo Prof. Csar Gonalves de Lima

48
Ns definimos u / x como:
u / x1

u u / x2
=
x M

u
/

x
p

(2.110)

Em alguns casos ns podemos encontrar um mximo ou um mnimo de u resolvendo


u / x = 0.
Teorema 2.14A. Seja u = ax = xa , onde a = [a1, a2, , ap] um vetor de constantes. Ento

u
(a' x) (x' a)
=
=
=a
x
x
x

(2.111)

(Ver prova na pg. 51 do livro do Rencher).


Teorema 2.14B. Seja u = xAx, onde A uma matriz simtrica de constantes. Ento

u
(x' Ax)
=
= 2Ax
x
x

(2.112)

(Ver prova nas pg. 51-52 do livro do Rencher).


Exemplo. Admitamos o modelo de regresso linear yi = 0 + 1xi + i, para i = 1, ,
n, expresso matricialmente como y = X + , onde:
y1 1 x1
1
y 1 x

2
2
0
=

+ 2

M M M 1 M


y n 1 x n
n
Procuraremos os estimadores de 0 e 1 que minimizam a soma de quadrados dos
desvios dos n valores observados de y em relao aos valores preditos y :
n

i2 =

( yi y i )2 =

(yi 0 1 xi )

i =1

i =1

i =1

Matricialmente, ns temos que:


n

i2 = = (y X ) (y X ) = yy 2 Xy + XX
i =1

Para encontrarmos que minimiza , calculamos a diferencial de em relao


a . Observando que:
Material elaborado pelo Prof. Csar Gonalves de Lima

49

(yy) = 0
(2 Xy) = 2Xy,


(
XX ) = 2XX ,

por (2.111)

por (2.112)

Da tem-se que:
'
= 2Xy + 2XX

Igualando o resultado a um vetor de zeros, obtemos o sistema de equaes normais:

XX = Xy

(7.8)

Como XX no-singular, a soluo do sistema nica e obtida por:


1
= (XX) Xy

Esta soluo chamada de soluo de mnimos quadrados.


Usando os dados do Exerccio 12, temos:

5.27 1
5.68 1


6.25 1


7.21 = 1
8.02 1


8.71 1
8.42 1

12
18

24

30
36

42
48

1

2
3
0
+ 4
1
5

6
7

O sistema de equaes lineares correspondente fica:

7 210 0 49.56
210 7308 = 1590.48

A soluo de mnimos quadrados fica:


1
0 7 210 49.56 1.0357143 0.029762
=
1590.48 = 0.029762
210
7308
0.000992

49.56
1590.48

3.9943
0 =

1 0.1029
E a reta de mnimos quadrados ajustada fica:

y i = 3.9943 + 0.1029xi
Material elaborado pelo Prof. Csar Gonalves de Lima

50

EXERCCIOS
Ver exerccios das pginas 52-61 do livro texto.

LISTA DE EXERCCIOS ADICIONAIS


Nos exerccios 1, 2 e 3 considere as seguintes matrizes:

1 0
B = 2 1 ,
3 2

1 2 3
A=
,
2
1
4

3 1 3
C = 4
1 5 ,
2
1 3

2 4 5
1 4
E = 0
3
2 1

3 2
D=
,
2
4

4 5
F=

2 3

1) Se as operaes forem possveis, calcule:


(a) C + E

(b) AB e BA

(c)

1
2
D F
3
5

2) Verifique as seguintes propriedades:


(a) A(BD) = (AB)D

(b) A(C + E) = AC + AE

3) Verifique as seguintes propriedades:


(a) A = (A)

(b) (C + E) = C + E

(c) (AB) = BA

a + b c + d 4 6
4) Se
=
, calcule os valores de a, b, c e d.
c d a b 10 2

5) Sendo A e B matrizes quadradas, no singulares e de mesma ordem, escrever a


matriz de incgnitas, X, em funo de A e de B:
(a) XA = B
1

(d) ABA X = A

(b) (A + B)X = B

(c) ABX = B

(e) (AX) = B

a12
1
1
a
6) Provar que se A no singular ento (A) = (A ), admitindo A = 11
.
a
a
21
`22
Material elaborado pelo Prof. Csar Gonalves de Lima

51

7) Sejam
2
b = 4

3
Escreva AB como uma combinao linear das colunas de A como em (2.37) e
verifique o resultado calculando Ab na maneira usual.
5 2 3
A=
,
3 1
7

8) Para os sistemas apresentados a seguir, pede-se:


(i) escreva-os na forma Ax = b,
(ii) classifique-os como consistentes ou inconsistentes comparando posto(A) e
posto(A M b);
(iii) obtenha uma soluo se o sistema for consistente.

x + y = 2

(b) y z = 3
z + x = 4

2x + 3y = 1
(a)
4 x + 5 y = 12
4a + 2b + 2c = 20

(d)
2a + 2b = 12

2a + 2c = 8

x + 2 y + 4z = 5

(c) 3 x y 2 z = 7
5 x 3 y + 6 z = 11

2x + 3y = 1
(e)
4 x + 6 y = 3

4 2 2 x1 20
9) Seja o sistema escrito na forma matricial Ax = b, ou 2 2 0 x2 = 12 .


2 0 2 x3 8
(a) Encontre uma inversa generalizada simtrica de A.
(b) Encontre uma inversa generalizada no simtrica de A.

(c) Encontre duas solues do sistema x = A b utilizando as inversas calculadas


nos itens anteriores e indique qual delas tem o menor comprimento.

(d) Mostre que a matriz AA idempotente.

10) As colunas da matriz seguinte so mutuamente ortogonais


1 1 1
A = 1 0 2

1 1 1
(a) Normalize as colunas de A e denote a matriz resultante por C
(b) Mostre que CC = CC =I.
Material elaborado pelo Prof. Csar Gonalves de Lima

52

4 2 2
11) Seja a matriz singular A = 2 2 0 .

2 0 2
(a) Encontre os autovalores (1, 2 e 3) e os autovetores normalizados (c1, c2 e c3).
(b) A matriz A positiva definida? Por qu?
(c) Mostre que tr(A) = 1 + 2 + 3 e que det(A) = (1)(2)(3)
(d) Mostre que a matriz diagonal que exibe os autovalores de A pode ser obtida por
D = diag(1, 2, 3) = CAC, onde C = [c1, c2, c3] a matriz formada pelos
autovetores normalizados de A.
(e) Se a matriz A for positiva definida ou positiva semidefinida, obtenha a sua raiz
1/2
1/2
quadrada que calculada como A = CD C, onde D = diag(1, 2, 3) a
matriz diagonal que exibe os autovalores de A e C = [c1, c2, c3] a matriz
formada pelos autovetores normalizados de A.

12. Os resultados experimentais apresentados na tabela a seguir foram obtidos de um


ensaio de irrigao onde se estudou y: produo de alfafa (t/ha) como uma funo
de x: quantidade de gua aplicada (ml/cm2).
x: gua
y: produo

12

18

24

30

36

42

48

5,27

5,68

6,25

7,21

8,02

8,71

8,42

(a) Construa um grfico de disperso y (produo) versus x (gua) para visualizar


o relacionamento linear entre as variveis.
(b) Escreva o modelo de regresso linear yi = a + bxi + i para os dados experimentais.
(c) Escreva o modelo de regresso linear na forma matricial, y = X + , identificando cada uma das matrizes.
(d) Verifique que r[X] = 2 e que r(XX) = 2 , ou seja, que XX no singular.

a
1
(e) Calcule = = (XX) Xy, y = X e = y y .
b
(f) Verifique que fazendo X = [x1, x2] y = a x1 + b x2.
(g) Verifique que o vetor ortogonal a y e a cada uma das colunas da matriz X.
(h) Verifique que || y ||2 = || y ||2 + || ||2.

Material elaborado pelo Prof. Csar Gonalves de Lima

53

13. Suponhamos um experimento fictcio de alimentao de sunos em que foram utilizadas 4 raes (1, 2, 3 e 4) num delineamento inteiramente casualizado com 5 repeties (leites). Os ganhos de peso observados, em quilogramas, constam do
quadro seguinte:
Tratamentos (raes)
1

35

40

39

27

19

35

27

12

31

46

20

13

15

41

29

28

30

33

45

30

Com base nesses dados, pede-se:


(a) Escrever o modelo yij = + ti + ij para todos os valores observados, onde yij
o ganho de peso do j-simo leito que recebeu o i-simo tratamento; uma
constante comum a todas as unidades experimentais; ti o efeito do i-simo tratamento e ij o erro associado parcela yij, para i = 1, 2, 3, 4 e j = 1, 2, 3, 4, 5.
(b) Construir a matriz do delineamento X e escrever o modelo na sua forma matricial, y = X + , onde = [, t1, t2, t3, t4].
(c) Escrever o sistema de equaes normais XX= Xy e calcular duas solues

(diferentes!) do sistema, utilizando = (XX) Xy, onde (XX) uma inversa


generalizada de XX.

(d) Calcular y = X = X(XX) Xy (vetor de observaes ajustado pelo modelo)


para cada uma das solues obtidas em (c) e verifique que os vetores resultantes so iguais.

(e) Calcular as somas de quadrados, utilizando as frmulas seguintes:


1

SQTotal = y I J y,
20

SQTrat = y X(X' X ) X' J y,


20

SQRes= y I X(X' X ) X' y.


(f) Construir um quadro de ANOVA, sabendo que o nmero de graus de liberdade
associados a uma SQ igual ao posto da matriz ncleo da forma quadrtica
correspondente.
(g) Confira os resultados da ANOVA usando, por exemplo, o proc glm do SAS.

Material elaborado pelo Prof. Csar Gonalves de Lima

54

CAPTULO 3. VETORES E MATRIZES ALEATRIOS


3.1 INTRODUO
A ANOVA (ANalysis Of VAriance) , essencialmente, um processo aritmtico de
decomposio da variao total dos dados observados expressa atravs de somas de
quadrados. As quantidades (parmetros) que se quer estimar ou testar, invariavelmente so formas lneares ou formas quadrticas das observaes.
O termo modelo linear aparece em situaes nas quais a mdia de uma varivel
aleatria y (varivel resposta ou resposta) pode ser expressa como uma funo linear
de p parmetros desconhecidos, como por exemplo:
E(y) = 0 + 1x1 + ... + pxp
As variveis xi so denominadas variveis explicatrias, preditoras ou covariveis e
podem ser obtidas de diversas formas. Alguns exemplos importantes:

Os valores de x so dicotmicos (valem 0 ou 1). Neste caso, x uma varivel indicadora da presena (x = 1) ou ausncia (x = 0) de um determinado parmetro para
aquela observao. Exemplo: matriz de um delineamento experimental.

Os valores de x so estabelecidos (fixados) pelo pesquisador que observa os valores de y. Exemplo: doses de um nutriente qumico ou biolgico.

Os valores de x so observados ao mesmo tempo em que a resposta y. Neste caso,


x muitas vezes uma varivel aleatria, chamada de covarivel. Exemplo: quando
se observa a produo (y) de certa cultura, tambm se observam a temperatura
ambiente, o nmero de perfilhos, a pluviosidade etc.

Um vetor aleatrio (matriz aleatria) um vetor (matriz) cujos elementos so


variveis aleatrias. Informalmente, uma varivel aleatria definida como uma varivel cujos valores dependem dos resultados de um experimento aleatrio. Formalmente, uma funo definida para cada elemento do espao amostral. Podem-se
distinguir duas estruturas diferentes de vetores aleatrios:
1) Um vetor (nx1) contendo uma medida de cada um dos n diferentes indivduos
ou unidades experimentais. Neste caso, quando a mesma varivel observada
em n diferentes indivduos, admite-se que as n variveis aleatrias y1, y2, ..., yn
so no correlacionadas e tm a mesma varincia.
Exemplo: consideremos o modelo de regresso mltipla
yi = 0 + 1xi1 + 2xi2 + ... + kxik + i,

i = 1, 2, ..., n

Tratando os xs como constantes, temos dois vetores aleatrios:

Material elaborado pelo Prof. Csar Gonalves de Lima

55

y1
y
y = 2 e =
M

yn

1

2
M

n

(3.1)

onde os yis so observveis, mas os erros is no so observveis, a menos que


os s sejam conhecidos.
2) Um vetor (px1) consistindo de p diferentes medidas feitas em um indivduo ou
unidade experimental. Neste caso, admite-se que as p variveis aleatrias so
correlacionadas e tm varincias diferentes.
Exemplo: consideremos a regresso de y sobre diversos xs, onde os xs so variveis aleatrias. Para o i-simo indivduo na amostra, observamos as k+1
v.a.s yi, xi1, xi2, ... xik, que constituem o vetor aleatrio [yi, xi1, xi2, ... xik].

3.2. MDIA, VARINCIA, COVARINCIA E CORRELAO


Se f(y) a densidade da varivel aleatria y, a mdia (populacional) ou o valor esperado de y definido como

= E(y) = y f(y) dy
-

(3.2)

O valor esperado de uma funo de y definido como

E[u(y)] = u (y) f(y) dy


-

(3.3)

e pode ser obtido diretamente sem primeiro obter a densidade de u(y).


Para uma constante a e funes u(y) e v(y) segue de (3.3) que
E(ay) = aE(y)
E[u(y)+v(y)] = E[u(y)] + E[v(y)]

(3.4)
(3.5)

A varincia (populacional) de uma varivel aleatria y definida como

2 = var(y) = E(y )2

(3.6)

e a raiz quadrada da varincia conhecida como desvio padro (populacional):

var(y) =

E ( y )2

(3.7)

Material elaborado pelo Prof. Csar Gonalves de Lima

56
Usando (3.4) e (3.5), a varincia de y pode ser expressa na forma:

2 = var(y) = E(y2) 2

(3.8)

Se a uma constante, podemos usar (3.4) e (3.6) para mostrar que:

var(ay) = a2var(y) = a22

(3.9)

Para duas variveis yi e yj em um vetor aleatrio [y1, y2, ..., yp ], definimos a


covarincia (populacional) como:

ij = cov(yi, yj) = E[(yi i)(yj j)]

(3.10)

onde i = E(yi) e j = E(yj). Usando (3.4) e (3.5), ij pode ser expressa na forma:

ij = cov(yi, yj) = E(yiyj) ij

(3.11)

Duas variveis aleatrias yi e yj so ditas independentes se a sua densidade conjunta puder ser fatorada no produto de suas densidades marginais:

f(yi, yj) = fi(yi) fj(yj)


onde a densidade marginal fi(yi) definida como fi(yi) =

(3.12)

- f(yi ,y j ) dy j .

Da definio (3.12) ns obtemos as seguintes propriedades:

1) E(yi yj) = E(yi)E(yj) se yi e yj so independentes

(3.13)

2) ij = cov(yi, yj) = 0 se yi e yj so independentes

(3.14)

No primeiro tipo de vetor aleatrio definido na Seo 3.1, as variveis y1, y2, ...,
yn so tipicamente independentes se obtidas de uma amostra aleatria, que implica em
ij = 0 para todo i j. Para as variveis do segundo tipo de vetor aleatrio, geralmente
temos ij 0 para, no mnimo, alguns valores de i e j. importante salientar que
cov(yi, yj) = 0 no implica em independncia! [ver Exemplo 3.2, pg. 64-67]
A esperana condicional de y para um dado valor de x definida como:

E(y | x) =

y f(y | x) dy ,

onde a densidade condicional f(y| x) = f ( x, y ) f1 ( x ) . Se a esperana condicional no


depende de x, conclumos que as variveis aleatrias y e x so independentes.

Material elaborado pelo Prof. Csar Gonalves de Lima

57
A covarincia ij depende da escala de medida das duas variveis yi e yj. Para
padronizar ij, ns dividimos o seu valor pelo produto dos desvios padres de yi e yj,
obtendo assim a correlao (populacional):

ij = corr(yi , yj) =

ij
i j

(3.17)

3.3 VETOR DE MDIAS E MATRIZ DE COVARINCIA PARA VETORES


ALEATRIOS
3.3.1 Vetor de mdias
O valor esperado de um vetor aleatrio y (p x 1) definido como o vetor de valores
esperados das p variveis aleatrias y1, y2, ..., yp de y:

y1 E(y1 ) 1
y E(y )
2
2
2
E(y) = E =
= =
M M M


y p E(y p ) p

(3.18)

onde E(yi) = i obtido como E(yi) = y i f i (yi ) dyi usando fi(yi), que a densidade
-

marginal de yi.
Se x e y so dois vetores aleatrios de dimenses (p x 1) , segue de (3.18) que o
valor esperado de sua soma a soma de seus valores esperados:

E(x + y) = E(x) + E(y)

(3.19)

3.3.2 Matriz de covarincias


As varincias 12 , 22 , ..., 2p de y1, y2, ..., yp e as covarincias ij, para todo i j, podem ser convenientemente arranjadas em um matriz de covarincias, denotada por
da seguinte forma:

12 12

22
= cov(y) = 21
M
M

p1 p 2

L 1 p 11 12

L 2 p 21 22
=
M
O
M M

L 2p p1 p 2

L 1p
L 2p

O
M

L pp

(3.20)

Material elaborado pelo Prof. Csar Gonalves de Lima

58
A i-sima linha de contem a varincia de yi e as covarincias de yi com cada uma
das outras variveis aleatrias. As varincias esto na diagonal principal de e as
covarincias ocupam as posies fora da diagonal.
A matriz de covarincias simtrica porque ij = ji. Em muitas aplicaes
assumimos que seja positiva definida. Isso realmente acontece quando as ys so
variveis aleatrias contnuas e no existe qualquer relao linear entre elas. Se existe
alguma relao linear entre as ys, assumimos que seja positiva semidefinida.
Por analogia com (3.18), ns definimos o valor esperado de uma matriz aleatria Z como a matriz de valores esperados:

z11
z
21
E(Z) = E
M

zn1

z12 L z1p E ( z11 ) E ( z12 )


z 22 L z2p E ( z21 ) E ( z22 )
=
M O M M
M

z n2 L znp E ( zn1 ) E ( zn2 )

L E ( z1p )
L E ( z 2p )

O
M

L E ( z np )

(3.21)

A matriz de covarincias em (3.20) pode ser expressa como o valor esperado de


uma matriz aleatria. O (ij)-simo elemento da matriz (y )(y ) (yi i)(yj j).
De (3.10) e (3.21) o (ij)-simo elemento da matriz E[(y)(y)] E[(yi i)(yj j)]
= ij. Da
11 12 L 1p

21 22 L 2p

E[(y)(y)] =
=
(3.22)
M
M O M

p1 p 2 L pp
Vamos ilustrar (3.22) para p = 3:

y1 1

= E[(y)(y)] = E y 2 2
y 3 3

( y1 1 ,

y2 2 ,

y 3 3 )

( y1 1 )2
( y1 1 )( y 2 2 ) ( y1 1 )( y 3 3 )

( y 2 2 )2
( y 2 2 )( y 3 3 )
= E ( y 2 2 )( y1 1 )
( y )( y ) ( y )( y )

( y 3 3 )2
3
1
3
2
1
3
2
3

E ( y1 1 )2
E ( y1 1 )( y 2 2 ) E ( y1 1 )( y 3 3 )

E ( y 2 2 )2
E ( y 2 2 )( y 3 3 )
= E ( y 2 2 )( y1 1 )
E ( y )( y ) E ( y )( y )

E ( y 3 3 )2
3
1
3
2
3
1
3
2

11 12 13
= 21 22 23

31 32 33
Material elaborado pelo Prof. Csar Gonalves de Lima

59
Podemos escrever (3.22) na forma
= E[(y)(y)] = E(yy)

(3.23)

que uma forma anloga a (3.8) e (3.11).

3.3.3. Varincia generalizada

Uma medida de variabilidade geral na populao dos ys pode ser definida como o
determinante de :
Varincia generalizada = det( ) = | |

(3.24)

Se | | pequeno, os ys esto concentrados mais prximos de do que quando | |


grande. Um pequeno valor de | | tambm pode indicar que as variveis y1, y2, ..., yp
so fortemente correlacionadas e, neste caso, os ys tendem a ocupar um subespao
do espao p-dimensional.

3.3.4. Distncia padronizada

Para obter uma medida til de distncia entre y e , precisamos levar em conta as varincias e covarincias dos yis em y. Por analogia ao caso univariado [(y )/ tem
mdia 0 e varincia 1], a distncia padronizada definida como
Distncia padronizada = (y ) 1 (y )

(3.25)

O uso de 1 padroniza as variveis yis de tal modo que passam a ter mdia igual a
zero e varincia igual a 1 e tambm sejam no correlacionados. Essa distncia muitas vezes chamada de Distncia de Mahalanobis.

3.4. MATRIZ DE CORRELAES

Por analogia com em (3.20), a matriz de correlaes definida como


1

21
= (ij) =
M

p1

12 L 1p
1 L 2p

p2

O
L

(3.26)

onde ij = ij /ij a correlao de yi e yj como definido em (3.17). A segunda


linha de , por exemplo, contem a correlao de y2 com cada um dos outros ys.
Note que usamos o ndice em para enfatizar que a letra grega maiscula.

Material elaborado pelo Prof. Csar Gonalves de Lima

60
Definindo:
D = [diag ( )]1 / 2 = diag(1, 2, ...., p)

(3.27)

ento por (2.31) , podemos obter a partir de e vice-e-versa:


= D1 D1

(3.28)

= D D

(3.29)

3.5 VETOR DE MDIAS E MATRIZ DE COVARINCIAS PARA VETORES


ALEATRIOS PARTICIONADOS

Suponha que o vetor aleatrio v seja particionado em dois subconjuntos de variveis,


denotados por y e x:
y1
M

y y p
v = =
x x1
M

x q
O vetor de mdias e a matriz de covarincias para v, que contem (p + q) variveis aleatrias, podem ser expressos da seguinte forma:
y
E (y ) y
= E(v) = E =
=
x
E ( x) x

yy

= cov(v) = cov =
x xy

yx
xx

(3.30)
(3.31)

( )t

onde xy = yx . Em (3.30), a submatriz y = [E(y1), E(y2), ..., E(yp)] contem as


mdias de y1, y2, ..., yp, enquanto x contem as mdias das variveis xs. Em (3.31), a
submatriz yy = cov(y) uma matriz pxp de covarincias de y contendo as varincias
de y1, y2, ..., yp na diagonal principal e as covarincias de cada yi com cada yj (i j)
fora da diagonal:

yy

y2
1

= y 2 y1
M
y p y1

y1 y 2
y22
M

yp

y2

L y1 y p

L y2 y p
O
M
L y2 p

Material elaborado pelo Prof. Csar Gonalves de Lima

61
Similarmente, xx = cov(x) uma matriz q x q de covarincias de x1, x2, ..., xp. A
matriz y x um uma matriz p x q que contem as covarincias entre yi com cada xj:
y1 x1

y x
yx = cov(y,x) = E[(y y)(x x)] = 2 1
M

y p x1

y1 x2
y 2 x2
M

y p x2

L y1 x q
L y2 xq

O
M

L y p xq

(3.32)

y
Note a diferena entre cov em (3.31) e cov(y, x) = yx em (3.32). Usamos a notax
o cov de trs maneiras distintas: (1) cov(yi, yj); (2) cov(y) e (3) cov(y, x). A
primeira delas um escalar, a segunda uma matriz simtrica (positiva definida) e a
terceira uma matriz retangular.

3.6. FUNES LINEARES DE VETORES ALEATRIOS

Muitas vezes ns usaremos combinaes das variveis y1, y2, ..., yp de um vetor
aleatrio. Seja [a1, a2, ..., ap] um vetor de constantes. Ento pela expresso (2.16), a
combinao linear usando os as como coeficientes pode ser escrito
z = a1 y1 + a2 y2 + ... + ap yp

(3.33)

3.6.1 Mdia de uma funo linear

Desde que y um vetor aleatrio, a combinao linear z = ay uma varivel


aleatria (univariada). A mdia de z = ay dada no seguinte teorema.
Teorema 3.6A. Se a um vetor p x 1 de constantes e y um vetor p x 1 de variveis
aleatrias, ento a mdia de z = ay dada por

z = E(ay) = aE(y) = a

(3.34)

Suponha que tenhamos diversas combinaes lineares de y com coeficientes constantes:


z1 = a11 y1 + a12 y2 + ... + a1p yp = a1t y
z2 = a21 y1 + a22 y2 + ... + a2p yp = a t2 y
M
zk = ak1 y1 + ak2 y2 + ... + akp yp = a tk y

onde a ti = [ai1, ai2, ..., aip] e y = [y1, y2, ..., yp]. Essas k funes lineares podem ser
escritas na forma:
z = Ay
(3.35)
Material elaborado pelo Prof. Csar Gonalves de Lima

62
onde
z1
z
z = 2 ,
M

zk

a1t a11
t
a 21
a
A = 2 =
M M
t
a k a k1

a12
a 22
M

ak 2

L a1p
L a 2 p
O M

L a kp

possvel termos k > p, mas geralmente k p e as linhas de A so linearmente independentes, de modo que A tem posto completo. Desde que y um vetor aleatrio,
cada zi = a it y uma varivel aleatria, z = [z1, z2, ..., zk] tambm um vetor aleatrio.

Teorema 3.6B. Supondo que y um vetor aleatrio, X uma matriz aleatria, a e b


so vetores de constantes, e A e B so matrizes de constantes. Ento, assumindo que
as matrizes e os vetores em cada produto sejam conformes, temos os seguintes valores esperados:
(i) E(Ay) = AE(y)

(3.36)

(ii) E(aXb) = aE(X) b

(3.37)

(iii) E(AXB) = A E(X)B

(3.38)

Corolrio 1. Se A uma matriz k x p de constantes, b vetor k x 1 de constantes e y


um vetor aleatrio p x 1, ento
E(Ay + b) = AE(y) + b

(3.39)

3.6.2 Varincias e covarincias de uma funo linear


Teorema 3.6C. Se a um vetor px1 de constantes e y um vetor aleatrio px1 com
matriz de covarincias , ento a varincia de z = a y dada por:
2z = var(z) = var(ay) = aa

(3.40)

Ilustrando para p = 3 temos:


var(ay) = var(a1 y1 + a2 y2 + ... + ap yp) = aa

= a12 12 + a 22 22 + a32 32 + 2 a1 a 2 12 + 2 a1 a3 13 + 2 a2 a3 23
Assim, var(ay) = aa envolve todas as varincias e covarincias de y1, y2 e y3.

Corolrio 1. Se a e b so vetores p x 1 de constantes, ento


cov(ay, by) = ab

(3.41)

Material elaborado pelo Prof. Csar Gonalves de Lima

63
Cada varivel zi no vetor aleatrio z = [z1, z2, ..., zk] = Ay em (3.35) tem uma
varincia e cada par (zi, zj), com i j, tem uma covarincia. Essas varincias e covarincias so encontradas na matriz de covarincias de z, que dada no seguinte teorema, como tambm cov(z, w), onde w = By um outro conjunto de funes lineares.

Teorema 3.6D. Sejam z = Ay e w = By, onde A uma matriz k x p de constantes, B


uma matriz m x p de constantes, e y um vetor aleatrio p x 1 com matriz de covarincias . Ento:
(i) cov(z) = cov(Ay) = AA

(3.42)

(ii) cov(z, w) = cov(Ay, By) = AB

(3.43)

Geralmente, k p e a matriz A k x p de posto completo e nesses casos, pelo


Corolrio 1 do Teorema 2.6B, AA positiva definida (assumindo que a matriz
positiva definida). Se k > p, ento pelo Corolrio 2 do Teorema 2.6B, AA positiva semidefinida. Nesses casos, AA ainda uma matriz de covarincias, mas
singular e no pode ser usada como numerador ou denominador da densidade normal
multivariada (ver Captulo 4).
Note que AB uma matriz retangular k x m contendo as covarincias de cada zi
com cada wj, isto , cov(z, w) contem cov(zi, wj), i = 1, 2, ..., k, j = 1, 2, ..., m. Essas
km covarincias podem ser calculadas individualmente por (3.41).

Corolrio 1. Se b um vetor k x 1 de constantes, ento


cov(Ay + b) = AA

(3.44)

EXERCCIOS:
Ver exerccios das pginas 75-76 do livro-texto.

Material elaborado pelo Prof. Csar Gonalves de Lima

64

CAPTULO 4. DISTRIBUIO NORMAL MULTIVARIADA


Para fazermos inferncias, muitas vezes assumimos que o vetor aleatrio de interesse
tem uma distribuio normal multivariada. Antes de desenvolvermos a funo de
densidade normal multivariada, faremos uma reviso da distribuio normal univariada.

4.1 FUNO DENSIDADE NORMAL UNIVARIADA


A distribuio normal padro dada por
g(z) =

1 ( z 2 / 2)
, - < z <
e
2

(4.1)

com E(z) = 0 e var(z) = 1. Quando z tem a densidade (4.1), dizemos que z distribuda como N(0, 1) ou, simplesmente, z ~ N(0, 1).
Para obtermos uma varivel aleatria y com mdia arbitrria e varincia 2,
usaremos a transformao z = (y )/ ou y = z + , de tal forma que E(y) = e
var(y) = 2. Para uma funo contnua e crescente (como y = z + ) ou para uma
funo contnua e decrescente, a tcnica de troca de varivel para integral definida d
f(y) = g(z)

dz
dy

(4.2)

onde |dz/dy| o valor absoluto de dz/dy (ver Hogg & Craig, 1995, p.169). Para usar
(4.2) para encontrar a densidade de y, z e dz/dy devem estar expressos em termos de
y. A densidade g(z) dada em (4.1) e para z = (y )/, temos |dz/dy| = 1/. Assim

f(y) = g(z)

dz
dy

2
2
1
y 1
= g
e ( y ) / 2
=
2

(4.3)

que a densidade normal da varivel y, com E(y) = e var(y) = 2. Quando y tem a


densidade (4.3), dizemos que y ~ N(, 2).
Na prxima seo (4.2) usaremos uma extenso multivariada desta tcnica para
encontrar a funo de densidade da normal multivariada.

4.2 FUNO DE DENSIDADE NORMAL MULTIVARIADA

Iniciaremos com as variveis normais padronizadas independentes z1, z2, ..., zp com i
= 0 e var(zi) = i2 = 1 para todo i e ij = 0 para i j, e as transformaremos em variveis normais multivariadas y1, y2, ..., yp, com mdias, varincias e covarincias arbitrrias.
Material elaborado pelo Prof. Csar Gonalves de Lima

65
Comearemos com um vetor aleatrio z = [z1, z2, ..., zp] onde E(z) = 0 e cov(z) = I e
cada zi ~ N(0,1). Desejamos transformar z em um vetor aleatrio normal multivariado
y = [y1, y2, ..., yp], com E(y) = e cov(y) = , onde um vetor px1 e uma
matriz pxp, positiva definida.
Por (4.1) e uma extenso de (3.12) temos que
g(z1, z2, ..., zp) = g(z ) = g(z1) g(z2) g(zp)
1 ( z12 / 2) 1 ( z22 / 2) 1 ( z 2p / 2)
=
e
e
e

2
2
2

1
2

zi2 / 2
i =1

e z'z/ 2

(4.4)

Se z tem a densidade (4.4) dizemos que z tem uma densidade normal multivariada com vetor de mdias 0 e matriz de covarincias I, ou que z ~ Np(0, I), onde p
a dimenso da distribuio e corresponde ao nmero de variveis em z. Para transformar z em y, com E(y) = e cov(y) = , arbitrrias, definimos
y = 1/2 z +

(4.5)

onde 1/ 2 a matriz (simtrica) raiz quadrada definida em (2.108). De (3.39) e (3.44)


obtemos
E(y) = E( 1 / 2 z + ) = 1 / 2 E(z) + E() = 1 / 2 (0) + =
cov(y) = cov( 1 / 2 z + ) = cov( 1 / 2 z) = 1 / 2 cov(z)( 1 / 2 ) = 1 / 2 1/ 2 =
Note a analogia de (4.5) com y = z + na Seo 4.1.
A densidade de y = 1/ 2 z + obtida fazendo uma analogia com o caso univariado e utilizando a mesma tcnica de troca de variveis:

f (y) = g(z) abs 1/ 2

( )

onde 1/ 2 = 1 / 2

e abs 1/ 2

) o valor absoluto do determinante de

(4.6)
1/ 2

Como a matriz 1/ 2 positiva definida, podemos dispensar o valor absoluto da expresso (4.6) e reescrev-la como

f (y) = g(z) 1/ 2
= g(z)

1/ 2

(4.7)
(4.8)

Material elaborado pelo Prof. Csar Gonalves de Lima

66
Expressando z = 1/ 2 (y ) e usando (4.4) e (4.8), podemos escrever a densidade
de y como
1
( y )' 1 ( y )/2
e
f( y ) =
(4.9)
( 2 ) p | |1/ 2

que a funo densidade normal multivariada com vetor de mdias e matriz de covarincias . Quando y tem a densidade (4.9) dizemos que y distribuda como
Np(, ), ou simplesmente que y ~ Np(, ). O ndice p a dimenso da distribuio
normal p-variada e indica o nmero de variveis envolvidas, isto , indica que y um
vetor p x 1, um vetor p x 1 e uma matriz p x p.
Comparando (4.9) e (4.3) podemos perceber que a distncia padronizada, definida como (y ) 1 (y ), aparece no lugar de (y )2/2 no expoente e que a
raiz quadrada da varincia generalizada || aparece no lugar da raiz quadrada de 2,
no denominador.

4.3 FUNES GERADORAS DE MOMENTOS


(Para maiores detalhes: ver Rencher, 1999, pg. 80-82)
A funo geradora de momentos (f.g.m.) para uma varivel aleatria y definida
como
My(t) = E( e ty )

(4.10)

desde que E( e ty ) exista para um nmero t na vizinhana h < t < h para algum h
R, positivo. A funo geradora de momentos de y ~N(, 2) dada por
My(t) = e t + t

2/2

(4.11)

A f.g.m. caracteriza uma distribuio em alguns aspectos importantes e muito


teis, servindo para gerar os momentos da distribuio. Para uma varivel aleatria
contnua y
ty

My(t) = E( e ) =

ty
e f ( y )dy

ento (trocando a ordem da integrao e diferenciao):


dM y (t )
dt

= M 'y (t ) =

ty
y e f ( y )dy

(4.12)

Material elaborado pelo Prof. Csar Gonalves de Lima

67
Fazendo t = 0 temos o primeiro momento ou a mdia da distribuio

M y(1) (t = 0 ) = M y(1) (0 ) =

y f ( y )dy = E(y)

(4.13)

De modo anlogo, o k-simo momento pode ser obtido usando a derivada de ordem k,
avaliada em t = 0:
M y(k ) (t = 0 ) = E( y k )

(4.14)

O segundo momento E(y2) pode ser usado para encontrar a varincia.


Para um vetor aleatrio y, a funo geradora de momentos (f.g.m.) definida
como

t y1 +t2 y2 +L+t p y p

My(t) = E e 1

) = E( e

t'y

(4.15)

Por analogia com (4.13) temos que:


M y (t = 0 )
t

M y (0 )
t

= E(y)

(4.16)

2 M y (t )

avaliada em tr = ts = 0 fornece E(yrys), que pode ser usada no


t r t s
clculo da covarincia entre yr e ys.

Similarmente,

Teorema 4.3A Se y ~ Np(, ), sua funo geradora de momentos dada por


My(t) = e t' + t' t / 2

(4.18)

Prova: ver Rencher, pg. 81 ou Searle, pg. 43-44.

Corolrio 1. A funo geradora de momentos para y


My(t) = e t' t / 2

(4.22)

Essas duas propriedades da funo geradora de momentos sero muito importantes


nos prximos captulos:
1. Se dois vetores aleatrios tm a mesma funo geradora de momentos, elas tm a
mesma densidade.
2. Dois vetores aleatrios so independentes se e somente se a sua funo geradora
de momentos conjunta puder ser fatorada no produto de suas duas funes geradoras de momento individuais; isto , se y= [ y 1, , y ,2 ] e t= [ t1, , t ,2 ], ento y1 e y2
so independentes se e somente se
My(t) = My (t1) My (t2)
1

(4.23)

Material elaborado pelo Prof. Csar Gonalves de Lima

68
4.4 PROPRIEDADES DA DISTRIBUIO NORMAL MULTIVARIADA
Teorema 4.4A. Seja y ~ Np(, ), seja a um vetor p x 1 de constantes e A uma matriz
k x p de constantes, de posto k p. Ento
(i) z = ay ~ N(a, aa)
(ii) z = Ay ~ Nk(A, AA)
Corolrio 1. Se b um vetor k x 1 de constantes ento
z = Ay + b ~ Nk(A + b, AA)
Teorema 4.4B. Se y ~ Np(, ) ento qualquer subvetor rx1 de y tem uma distribuio normal r-variada com mdias, varincias e covarincias iguais s da distribuio
normal p-variada original.
Corolrio 1. Se y ~ Np(, ) ento qualquer varivel individual yi em y distribuda
como N(i, ii).

Usando a notao de (3.5), na qual o vetor v particionado em dois vetores


denotados por y e x, de dimenses p x 1 e q x 1, respectivamente. Com essa partio,
o vetor de mdias e a matriz de covarincias para v ficam:
y
v=
x


= E(v) = y
x

yy
xy

= cov(v) =

yx
xx

Teorema 4.4C. Se o vetor particionado v = Np+q(, ) ento y e x so index


pendentes se xy = 0.
Corolrio 1. Se y ~ Np(, ), ento quaisquer duas variveis individuais yi e yj so
independentes se ij = 0.
Corolrio 2. Se y ~ Np(, ) e se cov(Ay, By) = AB = 0 ento Ay e By so independentes.

Material elaborado pelo Prof. Csar Gonalves de Lima

69
Teorema 4.4D. Se y e x tm distribuio conjunta normal multivariada com yx 0
ento a distribuio condicional de y dado x, f(y | x), normal multivariada com
vetor de mdia e matriz de covarincias dados por:
1
E(y | x) = y + yx xx
(x x )

(4.26)

cov(y | x) = yy yx xx1 xy

(4.27)

(Prova: ver Rencher, pg. 84-85)


Desde que a expresso (4.26) uma funo linear de x, qualquer par de variveis yi e yj em um vetor normal multivariado exibe uma tendncia linear E(yi | yj) = i
+ (ij /jj)(yj j). Deste modo, a covarincia ij est relacionada com a inclinao da
reta. Nos casos de variveis no normais que exibem uma tendncia curvilnea, ij
pode dar uma indicao muito enganadora da relao, como ilustrado no Exemplo
3.2.
A matriz de covarincias condicionais em (4.26) no envolve x. Por outro lado,
para algumas distribuies no-normais, cov(y | x) uma funo de x.
2 tyx

Corolrio 1. Se v = [y, x1, ..., xq] = [y, x] com = y e = y
, ento

x
yx xx
y | x tem distribuio normal (univariada) com
1
E(y | x) = y + tyx xx
(x x )

(4.33)

var(y | x) = 2y tyx xx1 yx

(4.34)

Como em (4.34), tyx xx1 yx 0 porque xx1 positiva definida, ento

var(y | x) var(y)

(4.35)

Exemplo 4.4(a). Para ilustrar os Teoremas 4.4.A, 4.4B e 4.4C, seja y ~ N3(, ) com

3
= 1 e =

2

4 0 2
0
1 1

2 1 3

i) Para z = y1 2y2 + y3 = [1 2 1] y = ay a = 3 e aa = 19 e pelo Teorema


4.4.A(i), z ~ N(3, 19)
Material elaborado pelo Prof. Csar Gonalves de Lima

70
ii) As funes lineares z1 = y1 y2 + y3 e z2 = 3y1 + y2 2y3 podem ser escritas

y1
1
z1 1 1
z= =
y 2 = Ay
z

3
1
2


2
y3
Ento, pelos Teoremas 3.6B(i) e 3.6D(i),

4
14 4
A = e AA =

6
4 29
4 14 4
e pelo Teorema 4.4A(ii), temos que z ~ N2
.
6
4
29


iii) Para ilustrar a distribuio marginal no Teorema 4.4B, vale notar que y1 ~ N(3, 4),
y2 ~ N(1, 1) e y3 ~ N(2, 3), e que

3 4 0
y1
y ~ N2 1 0 1

3 4 2
y1
y ~ N2 2 2 3

iv) Para ilustrar o Teorema 4.4.C note que 12 = 0 y1 e y2 independentes.

Exemplo 4.4(b). Para ilustrar o Teorema 4.4D, consideremos v ~ N4(, ), onde


2
5
=
2

1

3
3
9 0
0
1 1
2

=
3 1
6 3

7
3 2 3

i) Se v particionado como v = [y1, y2, x1, x2] ento


2
2
y = , x = , yy =
5
1

9 0
0 1 , yx =

3 3
1 2 e xx =

6 3
3
7

De (4.26) e (4.27) obtemos:

E(y | x) = y + yx xx1 (x x )
2 3 3 6 3
= +

7
5 1 2 3

10
9

+
+
3
x
x2
1
x1 + 2
11
11

x 1 = 14 1
2 x1 + 3 x 2
11
3 33
Material elaborado pelo Prof. Csar Gonalves de Lima

71
cov(y | x) = yy yx xx1 xy
9 0 3 3 6 3
=
1 2 3
7
0
1

3 1
1 126 24
3 2 = 33 24
14

10
9

3 + x1 + x2 1 126 24
11
11
Assim, y | x ~ N2
,

14
1
x + 3 x 33 24 14

1
2
11
3 33

Exemplo 4.4(c). Para ilustrar o Corolrio 1 do Teorema 4.4D, continuamos com o


vetor v ~ N4(, ), onde e dados no Exemplo 4.4(b). Se v particionado como
v = [y, x1, x2, x3] ento e ficam

2
5
=
2

1

3
3
9 0
0
1 1
2

=
3 1
6 3

7
3 2 3

i) De (4.33) temos que:


E(y | x1, x2, x3) = y +

,
yx

1
xx
(x x )

2
1 1

= 2 + [0 3 3] 1
6 3

2 3

7

x1 5
x + 2
2

x3 1

95 12
6
9

x1 + x 2 + x3
7
7
7
7

ii) De (4.34) ns obtemos


var(y | x1, x2, x3) = y2 y, x xx1 y x
2
1 1

6 3
= 9 [0 3 3] 1

2 3
7

0
3 = 18

7
3

6
9
18
95 12
Assim, temos que y| x1, x2, x3 ~ N x1 + x 2 + x3 , . Note ainda que
7
7
7
7 7
18
var(y | x1, x2, x3) =
< var(y) = 9, o que ilustra (4.35).
7
Material elaborado pelo Prof. Csar Gonalves de Lima

72
4.5 CORRELAO PARCIAL

A seguir, definiremos a correlao parcial de yi e yj ajustada para um subconjunto de


outros ys. Por convenincia, usaremos a notao dos Teoremas 4.4C e 4.4D, admitindo que y formado por um subconjunto de ys que inclui as variveis yi e yj e x,
pelos outros ys.

4.4D:

Seja v ~ Np+q(, ) e seja v, , e particionadas como no Teorema 4.4C e


y

v = ,
x

yy yx

= y e =

x
xy xx

A covarincia de yi e yj na distribuio condicional de y dado x ser denotada por


ij.rs...q , onde yi e yj so duas variveis em y e x = [yr, ys, ..., yq]. Desse modo

ij.rs...q o (ij)-simo elemento de cov(y | x) = yy yx xx1 xy . Por exemplo: 13.567


representa a covarincia entre y1 e y3 na distribuio condicional de y1, y2, y3, y4 dado
y5, y6 e y7 (neste caso x = [y5 y6 y7]). De modo anlogo, 22.567 representa a
varincia de y2 dado y5, y6 e y7.
Definimos o coeficiente de correlao parcial (populacional) entre yi e yj, na
distribuio condicional de y dado x, onde x = [yr, ys, ..., yq], como

ij.rs...q =

ij.rs...q
ii.rs...q jj.rs...q

(4.36)

O coeficiente de correlao parcial amostral, rij.rs...q , ser discutido posteriormente,


na seo 10.7.
A matriz de correlaes parciais pode ser obtida a partir de (3.28) e de (4.27)
como
y.x = D y.x1 y.x D y.x1

(4.37)

onde y.x = cov(y | x) = yy yx xx1 xy e D y.x = [diag( y.x )]1/2.


A menos que y e x sejam independentes ( y.x = 0), a correlao parcial ij.rs...q
diferente da correlao usual ij = ij

ii jj , podendo at ter sinal contrrio.

Para mostrar isso, vamos expressar ij.rs...q em termos de ij. Primeiramente, vamos
escrever yx em termos de suas linhas,
Material elaborado pelo Prof. Csar Gonalves de Lima

73

yx

y1x1 y1x2

y x y2 x2
= cov(y, x) = 2 1
M
M

y p x1 y p x2

t
L y1xq 1x
t
L y2 xq 2x

O M
t
L y p xq px

(4.38)

onde it x = [ yi x1 , yi x2 , ..., yi xq ] a i-sima linha de yx . Ento, ij.rs...q o (ij)simo elemento de y.x = yy yx xx1 xy que pode ser escrito como
ij.rs...q = ij itx xx1 jx

(4.39)

Supondo que ij seja positivo, ento ij.rs...q < 0 se it x xx1 jx > ij . Desde que xx1
positiva definida, (4.39) mostra que ii.rs...q = ii it x xx1 jx ii .
Exemplo 4.5. Vamos comparar 12 com 12.34 usando e do Exemplo 4.4(b). De
temos que

12 =

12
=
11 22

Da matriz cov(y |x) =

12.34 =

0
=0
(9)(1)

1 126 24
, obtemos
14
33 24

12.34
=
11.34 22.34

24 / 33
=
(126 / 33)(14 / 33)

24
= 0,571
(126)(14)

que mostra a diferena entre o valor da correlao (usual) e a correlao parcial.

EXERCCIOS

Ver exerccios das pginas 90-92 do livro-texto.

Material elaborado pelo Prof. Csar Gonalves de Lima

74

CAPTULO 5. DISTRIBUIO DE FORMAS QUADRTICAS


5.1. SOMAS DE QUADRADOS
Nos dois captulos anteriores discutimos algumas propriedades de funes lineares do
vetor aleatrio y. Agora consideraremos formas quadrticas em y.
Os testes estatsticos comumente encontrados nas anlises de modelos lineares
(regresso ou anlise de varincia, por exemplo) dependem de formas quadrticas, da
forma yAy, onde y um vetor aleatrio e A uma matriz simtrica de constantes.
Mostraremos que certas somas de quadrados tm distribuio quiquadrado, so independentes e levam a testes F.
Exemplo 5.1. Vamos expressar algumas somas de quadrados simples como formas
quadrticas em y. Seja y1, y2, ..., yn uma amostra aleatria de uma populao com
mdia e varincia 2. A soma de quadrados total ser particionada em uma soma
de quadrados de desvios em relao mdia amostral e uma soma de quadrados
devida mdia amostral:

n 2

2
y
=
i yi ny 2 + ny 2 =
i =1
i =1

( yi y ) 2 + ny 2

(5.1)

i =1

A soma de quadrados total pode ser expressa como uma forma quadrtica:
n

yi2

= yy = yI y

i =1

Usando j = [1, 1, ..., 1] podemos escrever a mdia amostral como


1
1 n
y = yi = j' y
n
n i =1
e ento

ny

1
1

1
= n j' y = n j' y j' y = n (y' jj' y ) =
n

n
n
2

1
1
= n (y' J y ) = y' J y
n
n
Podemos ainda escrever

( yi y ) 2 como
i =1

( yi y ) 2 =
i =1

1
1

yI y y' J y = y' I J y
n
n

(5.2)

Material elaborado pelo Prof. Csar Gonalves de Lima

75
A expresso (5.1) pode ser escrita em termos de formas quadrticas como
1

1
yI y = y' I J y + y' J y
n

(5.3)

As matrizes (ncleo) das trs formas quadrticas em 5.3 tm as seguintes propriedades:


1 1

1. I = I J + J
n n

1 1

2. I, I J e J so idempotentes
n n

1 1

3. I J J = 0
n n

Usando teoremas que ainda sero apresentados neste captulo, assumindo normalidade dos ys e essas trs propriedades, concluiremos que

i=1( y i y )2
n

2 e

ny 2 2 tm distribuio quiquadrado e so independentes.

5.2. MDIA E VARINCIA DE FORMAS QUADRTICAS


Teorema 5.2.A Se y um vetor aleatrio com mdia e matriz de covarincias e
se A uma matriz simtrica de constantes, ento
E(yAy) = tr(A) + A

(5.4)

Prova: Por (3.23), = E(yy) que pode ser escrita como


E(yy) = +

(5.5)

Desde que yAy um escalar, ele igual a seu trao. Assim ns temos:
E(yAy) = E[tr(yAy)]
= E[tr(Ayy)]

[por (2.86)]

= tr[E(Ayy)]

[ por (3.5)]

= tr[AE(yy)]

[ por (3.38)]

= tr[A( + )]

[por (5.5)]

= tr[A + A]

[por (2.13)]

= tr(A ) + tr(A)

[por (2.85)]

= tr(A ) + A
Note que como yAy no uma funo linear de y, E(yAy) E(y)AE(y).
Material elaborado pelo Prof. Csar Gonalves de Lima

76
Exemplo 5.2(a) Considere a varincia amostral
s2 =

1 n
( yi y )2

n 1 i =1

(5.6)

Assumindo que os ys so independentemente distribudos com mdia e varincia


2 , ento E(y) = E([y1, y2, ..., yn]) = [, , ..., ] = j e cov(y) = 2 I.
1

Usando A = I J , = 2 I e = j, temos que:


n


1
1
1

2
E ( yi y ) = E y' I J y = tr I J ( 2 I ) + j I J j
n
n


n
i =1

n
1

2
E ( yi y ) = 2 tr I J + 2 j' j n j' j j' j
n

i =1

1
1

= 2 n n + 2 n n 2 = 2 (n 1) + 0
n
n

Assim, temos que


1 n
n
1
2
2
(
)

E( s 2 ) = E
y
y
=
E

( y i y )
i
n 1 i =1
n 1 i =1

1
(n 1) 2 = 2
n 1

(5.7)

ou seja, s 2 um estimador imparcial de 2 e para chegarmos a essa concluso, no


precisamos assumir que os ys tm distribuio normal.

Teorema 5.2B. Se y ~ Np(, ), ento

var(yAy) = 2tr (A )2 + 4AA

(5.8)

Prova em Searle (1971, pg. 57)

Teorema 5.2C. Se y ~ Np(, ) ento a funo geradora de momentos de yAy


dada por
M y'Ay (t) = I 2tA

1/ 2

1
' I (I 2t A )1 1
e 2

(5.9)

Prova em Searle (1971, p. 55)

Material elaborado pelo Prof. Csar Gonalves de Lima

77

Teorema 5.2D. Se y ~ Np(, ), ento


cov(y, yAy) = 2A

(5.11)

Prova em Rencher (2000, p. 97)


Vale notar que yAy uma varivel aleatria escalar v, por exemplo. Ento
cov(y, yAy) um vetor coluna contendo a covarincia de cada yi com v.

Corolrio 1. Seja B uma matriz de constantes k x p. Ento


cov(By, yAy) = 2BA

(5.13)


y
y
Teorema 5.2E Seja v = um vetor aleatrio particionado com E = y e
x
x
x
yy yx
y
cov =
, onde y px1, x qx1, e yx pxq. Seja A uma matriz qxp de

x
xy
xx

constantes. Ento

E(xAy) = tr(A yx ) + xAy

(5.14)

Exemplo 5.2(b). Para estimar xy = E[(x x)(y y)], a covarincia populacional


entre as variveis x e y, usamos a covarincia amostral
s xy =

1 n
(xi x )( yi y )
n 1 i =1

(5.15)

onde (x1, y1), (x2, y2), ..., (xn, yn) uma amostra aleatria bivariada de uma populao
com mdias x e y, varincias x2 e y2 e covarincia xy . Da

s xy =

1 n
(xi x )( yi y ) = 1 x' I 1 J y

n 1
n 1 i =1
n

(5.16)

onde x = [x1, x2, ..., xn] e y = [y1, y2, ..., yn]. Desde que (xi, yi) independente de
(xj, yj) para i j, o vetor v tem vetor mdia e matriz de covarincias
y j
E = y = y
x x x j
y yy yx
cov =

x xy xx

y2 I xy I
, onde I uma matriz identidade n x n.

2
xy I x I
Material elaborado pelo Prof. Csar Gonalves de Lima

78
1

Tomando A = I J , yx = xy I, x = xj e y = yj, temos


n

1
1
1

E x' I J y = tr I J xy I + xj I J yj
n
n
n

1
1

= xy tr I J + xy j' j j' j j' j = xy (n 1)


n
n

Ento:
1 n

(xi x )( yi y ) = 1 xy (n 1) = xy
E

n 1 i =1
n 1

(5.17)

ou seja, s xy um estimador no viciado da covarincia xy .

5.3 DISTRIBUIO QUIQUADRADO NO CENTRAL

Seja z1, z2, ..., zn uma amostra aleatria de uma distribuio normal padro. Como os
zs so independentes e zi ~ N(0, 1), o vetor z = [z1, z2, ..., zn] tem distribuio
Nn(0, I). Por definio
n

zi2

= zz ~ 2 (n)

(5.18)

i =1

isto , a soma de quadrados de n variveis aleatrias independentes e com distribuio normal padro tem distribuio quiquadrado (central) com n graus de liberdade.
Teorema 5.3A Se u ~ 2 (n), ento

E(u) = n

(5.19)

var(u) = 2n

(5.20)

Mu(t) =

(5.21)

(1 2t )n / 2

Supondo que y1, y2, ..., yn sejam independentemente distribudos e cada yi ~ N(i,1),
de tal forma que y ~ Nn(, I), onde = [1, 2, ..., n]. A soma de quadrados

yi2

i =1

yy no tem distribuio quiquadrado central, mas a soma de quadrados de desvios


n

( yi i )

= (y )(y ) tem distribuio 2 (n), j que (yi i) ~ N(0, 1).

i =1

Material elaborado pelo Prof. Csar Gonalves de Lima

79
A densidade de v =

yi2

= yy, onde os ys so independentemente distribu-

i =1

dos como N(i, 1), chamada distribuio quiquadrado no central e denotada como
2 (n, ). O parmetro de no centralidade definido como
1 n 2
1
= i =
2 i =1
2
n

yi2

n
2
E(u) = E ( yi i ) =
i =1

Vale notar que a mdia de v =

i =1

E(v) = E yi2 =
i =1

maior que a mdia de u =


2

i =1

( )

( yi i )

, pois

i =1

E ( yi i ) =

E yi2 =
i =1

(5.22)

(
n

i =1

2
i

var ( yi ) =
i =1

1 = n
i =1

+ i2 = 1 + i2 = n + i2 = n + 2
i =1

i =1

Teorema 5.3B Se v ~ 2 (n, ) ento

E(v) = n + 2

(5.19)

var(v) = 2n + 8

(5.20)

Mv(t) =

(1 2t )

n/2

e [11 (12t )]

(5.21)

Corolrio 1. Se = 0 (que corresponde a i = 0, para todo i), ento E(v), var(v) e


Mv(t) no Teorema 5.3B reduz-se a E(u), var(u) e Mu(t) para o quiquadrado central no
Teorema 5.3.A. Assim
2 (n, 0) = 2 (n)
(5.26)
Teorema 5.3C Se v1, v2, ..., vk so independentemente distribudas como 2 (ni, i),
ento
k
k
k

v
~

n
,

(5.27)
i

i
i

i =1
i =1 i =1
Corolrio 1. Se u1, u2, ..., uk so independentemente distribudas como 2 (ni), ento
k

ui ~ ni
i =1
i =1
k

Material elaborado pelo Prof. Csar Gonalves de Lima

80
5.4 DISTRIBUIES t E F NO CENTRAIS
5.4.1 Distribuio F no central

Se u ~ 2 (p) , v ~ 2 (q) e u e v so independentes, ento o quociente

W=

u/ p
~ F(p, q)
v/q

(5.28)

tem distribuio F (central) com p e q graus de liberdade. A mdia de w


E(w) =

q
q2

(5.29)

Supondo que u ~ 2 (p, ) e v ~ 2 (q), com u e v independentes, ento o quociente


z=

u/ p
~ F(p, q, )
v/q

(5.30)

tem distribuio F no central com parmetro de no centralidade , onde o mesmo parmetro de no centralidade da distribuio de u ~ 2 (p, ). A mdia da varivel z igual a
q 2
1 +

(5.31)
E(z) =
q 2
p
que maior que E(w) em (5.29).
Quando uma estatstica F usada para testar uma hiptese H0, a distribuio
ser central se a hiptese da nulidade for verdadeira e no central se essa hiptese for
falsa. Assim, a distribuio F no central pode ser usada para avaliar o poder de um
teste F. O poder de um teste a probabilidade de rejeitar H0 para um dado valor de .
Se F o percentil superior de ordem de uma distribuio F central, ento o poder
P(p, q, , ) pode ser definido como
P(p, q, , ) = Prob(z > F)

(5.32)

onde z a varivel F no central definida em (5.30). Segundo Gosh (1973) o poder


aumenta se q, ou aumentam, e diminui se p aumenta.

Material elaborado pelo Prof. Csar Gonalves de Lima

81
5.4.2 Distribuio t no central

Se z ~ N(0, 1), u ~ 2 (p), z e u so independentes, ento, por definio


t=

z
~ t( p )
u p

(5.33)

isto , t tem distribuio t-Student (central) com p graus de liberdade.


Supondo que y ~ N(, 1), u ~ 2 (p), y e u independentes, ento
t=

y
~ t(p, )
u p

(5.33)

into , t tem distribuio t-Student no central com p graus de liberdade e parmetro


de no centralidade . Se y ~ N(, 2) o parmetro de no centralidade igual a / ,
j que por (3.4), (3.9) e o Teorema 4.4A(i), y/ ~ N(/, 1).

5.5 DISTRIBUIO DE FORMAS QUADRTICAS

Pelo Teorema 5.3A sabemos que, se y ~ Nn(, I) ento (y )(y ) ~ 2 (n).


Se y ~ Nn(, ), podemos extender esse resultado para
(y ) 1 (y ) ~ 2 (n)
(5.35)
Prova: Para provar (5.35) ns escrevemos (y ) 1 (y ) na forma

(y ) 1 (y ) = (y ) ( 1/ 2 ) 1/ 2 (y )
= [ 1/ 2 (y )][ 1/ 2 (y )] = zz
onde z = 1/ 2 (y ) ~ Nn(0, I). Ento, de (5.18) segue que (y) 1 (y) = zz
~ 2 (n). Vale notar a analogia de (y ) 1 (y ) com a varivel univariada (y

)2/2, que tem distribuio 2 (1) se y ~ N(, 2).


Teorema 5.5A Sejam y ~ Np(, ), A uma matriz p x p simtrica de constantes e de
1
posto r e = A. Ento yA y ~ 2 (r, ) se e somente se A idempotente.
2
Prova em Rencher (2000, pg. 103-104

Corolrio 1. Se y ~ Np(0, I) ento yA y ~ 2 (r) se e somente se A idempotente de


posto r.
Material elaborado pelo Prof. Csar Gonalves de Lima

82
Corolrio 2. Se y ~ Np(, 2I) ento yA y/2 ~ 2 (r, A/22) se e somente se A
idempotente de posto r.
Exemplo 5.5. Vamos estudar a distribuio de (n 1) s 2 / 2 =

( yi y )2 / 2 onde
i =1

y = [y1, y2, ..., yn] ~ Nn(j, 2I). Sabemos que:


n
1
1

( yi y ) 2 = y' I J y e A = I J idempotente.
n
n

i =1

1
1

posto I J = tr I J = n 1 (Teorema 2.13D)


n
n

A = j[I (1/n)J]j = 2 [jj (1/n)jJj] = 2 [jj (1/n)jjjj] =


= 2 [n (1/n)(n) (n)] = 0 =

' A
2 2

=0

Ento, (n 1) s 2 / 2 = y' I J y 2 tem distribuio 2 (n 1).


n

5.6 INDEPENDNCIA DE FORMAS LINEARES E FORMAS QUADRTICAS


Nesta seo discutiremos a independncia de:

1. uma forma linear e uma forma quadrtica. Exemplos: y e s 2 em uma amostra


aleatria ou e s 2 em uma anlise de regresso.
2. duas formas quadrticas. Exemplo: as somas de quadrados devidas regresso e
ao erro numa anlise de regresso.
3. diversas formas quadrticas. Exemplo: as somas de quadrados associadas aos
efeitos principais e interaes em uma anlise de varincia com dois fatores.
Teorema 5.6A Seja B uma matriz k x p de constantes, A uma matriz p x p simtrica
de constantes e y ~ Np(, ). Ento By e yAy so independentes se e somente se
BA = 0.
Prova em Rencher (2000, pg.105) ou Searle (1971, p. 59)
Vale notar que BA = 0 no implica em AB = 0

Corolrio 1. Se y ~ Np(, 2I) ento By e yAy so independentes se e somente se


BA = 0.
Material elaborado pelo Prof. Csar Gonalves de Lima

83
1 n
1 n
2
( yi y )2 , com y ~ Nn(j, 2I).
Exemplo 5.6(a). Sejam y = yi e s =

n i =1
n 1 i =1

podemos escrever: y =

identificando: B =

1
1
1

j' y e s 2 =
y' I J y .
n
n 1
n

1
1
1
j' e A =
I J pelo Corolrio 1, temos que y e
n
n 1
n
1
1 1
s 2 so independentes porque BA = j'
I J = 0
n
n n 1

Teorema 5.6B Sejam A e B matrizes simtricas de constantes. Se y ~ Np(, ) ento


yAy e yBy so independentes se e somente se AB = 0
Ver prova em Rencher (2000, pg.106)
Vale notar que AB = 0 equivalente a BA = 0, pois A e B so simtricas.

Corolrio 1. Se y ~ Np(, 2I) ento yAy e yBy so independentes se e somente se


AB = 0 (ou, equivalentemente, BA = 0).
n

Exemplo 5.6(b). Consideremos a partio yi2 =


i =1

( yi y )2
i =1

1
ela pode ser expressa como: yy = y' I J y + y' J y
n

identificando: A = I J e B =
n

+ ny 2 . Sabemos que:

1
J
n

se y ~ Nn(, 2I), pelo Corolrio 1, as formas quadrticas

( yi y )2 e

ny 2 so

i =1

1 1

independentes se e somente se AB = I J J = 0.
n n

Teorema 5.6C Seja y ~ Nn(, 2I), Ai simtrica de posto ri para i = 1, 2, ..., k e seja
yAy = yA1y + yA2y + ... + yAky, onde A =

A i simtrica de posto r. Ento:


i =1

Material elaborado pelo Prof. Csar Gonalves de Lima

84

(1) yAiy/2 ~ 2 ri , ' A i / 2 2 para i = 1, 2, ..., k


(2) yAiy e yAjy so independentes para todo i j

(3) yAy/2 ~ 2 r , ' A / 2 2

se e somente se quaisquer duas das seguintes afirmaes forem verdadeiras


(a) cada Ai idempotente
(b) AiAj = 0 para todo i j
k

Ai

(c) A =

idempotente

i =1

ou, se e somente se as afirmaes (c) e (d) forem verdadeiras, onde


(d) r =

ri
i =1

Ver prova em Searle (1971, pg. 61-64)


Corolrio 1. Seja y ~ Nn(, 2I), Ai uma matriz simtrica de posto ri para i = 1, 2, ...,

k e yy =

y' A i y . Ento
i =1

(1) cada yAiy ~ 2 ri , ' A i / 2 2 , para i = 1, 2, ..., k


(2) as formas quadrticas yAiy so mutuamente independentes se e somente se
qualquer uma das seguintes afirmaes for verdadeira:
(a) cada Ai idempotente
(b) AiAj = 0 para todo i j
(c) n =

ri
i =1

EXERCCIOS
Ver exerccios das pginas 108-111 do livro- texto.

Material elaborado pelo Prof. Csar Gonalves de Lima

85
APNDICE A.5. CLASSIFICAO DE FORMAS QUADRTICAS
Definio A.5.2. Seja Q(y) = yAy uma forma quadrtica. Ento, quanto sua classificao, temos que:
a) Q(y) > 0, y 0 Q(y) positiva definida (p.d.)
b) Q(y) 0, y 0 e y: Q(y) = 0 Q(y) positiva semidefinida (p.s.d.)
c) Q(y) < 0, y 0 Q(y) negativa definida (n.d.)
d) Q(y) 0, y 0 e y: Q(y) = 0 Q(y) negativa semidefinida (n.s.d.)
e) Q(y) muda de sinal conforme a escolha de y Q(y) no definida (N.D.)
Teorema A.5.1 A classificao de uma forma quadrtica Q(y) = yAy a mesma de
sua matriz ncleo A.
Teorema A.5.2 Seja A uma matriz real e simtrica n x n e = diag(1, 2, ...,n) a
matriz diagonal que exibe as razes caractersticas de A. Ento:
a) i > 0, i A p.d.
b) i 0, i, i = 0 A p.s.d.
c) i < 0, i A n.d.
d) i 0, i, i = 0 A n.s.d.
e) i muda de sinal A N.D.
Teorema A.5.2 A classificao de uma forma quadrtica Q(y) = yAy no se altera
por transformao no singular.
Exemplo A.5.2. Classifique a forma quadrtica Q(y) = yAy, onde
4 2 2
a) A = 2 2 0

2 0 2

= diag (6, 2, 0) Q(y) p.s.d.

4 0 0
b) A = 0 2 0

0 0 2

= diag (4, 2, 2) Q(y) p.d.

1 0 0
c) A = 0 1 0

0 0 2

= diag (1, 1, 2) Q(y) N.D.

Material elaborado pelo Prof. Csar Gonalves de Lima

86

CAPTULO 6. REGRESSO LINEAR SIMPLES


6.1 O MODELO
O modelo de regresso linear simples para n observaes pode ser escrito como:
yi = 0 + 1 xi + i , para i = 1, 2, ..., n

(6.1)

A designao simples indica que existe somente um x para predizer a resposta y, e


linear significa que o modelo (6.1) linear em 0 e 1 [Efetivamente, E(yi) = 0 +
1xi, que linear]. Por exemplo: um modelo tal como yi = 0 + 1 xi2 + i linear em

0 e 1, enquanto o modelo yi = 0 + e 1xi + i no linear.

Neste captulo assumiremos que yi e i so variveis aleatrias e que os valores


de xi so constantes conhecidas, o que implica que os mesmos valores de x1, x2, ..., xn
sero usados em novas amostragens. O caso (mais geral) em que os xs so variveis
aleatrias ser tratado no captulo 10.
Para completar o modelo (6.1) faremos algumas suposies adicionais:
1. E(i) = 0 para todo i = 1, 2, ..., n, ou, equivalentemente, E(yi) = 0 + 1 xi.
2. var(i) = 2 para todo i = 1, 2, ..., n, ou, equivalentemente, var(yi) = 2.
3. cov(i, j) = 0 para todo i j, ou, equivalentemente, cov(yi, yj ) = 0.
A suposio 1 estabelece que o modelo (6.1) correto, implicando que yi depende somente de xi e que toda outra variao em yi aleatria. A suposio 2 estabelece que a varincia de (ou de y) no depende dos valores de xi. Essa suposio tambm conhecida como a suposio de homocedasticidade ou homogeneidade de
varincias. Sob a suposio 3, os s (ou os ys) so no correlacionados entre si. A
suposio de normalidade ser incluida mais tarde na seo 6.3, e os ys (ou os s)
passaro a ser independentes. Todas as suposies foram estabelecidas em termos dos
s ou dos ys. Por exemplo: se var(i) = 2 ento var(yi) = E[yi E(yi)]2 = E( i2 ) = 2.
Qualquer uma dessas suposies pode falhar quando trabalhamos com dados
reais. Um grfico de disperso dos dados poder revelar alguma fuga das suposies
1 e 2 (e, em menor extenso, da suposio 3). Tcnicas para verificar se essas suposies esto satisfeitas sero discutidas no captulo 9.
6.2 ESTIMAO DE 0, 1 E 2
Usando uma amostra de n observaes y1, y2, ..., yn com os valores fixos x1, x2, ...,
xn, ns podemos estimar os parmetros 0, 1 e 2. Para obter 0 e 1 ns usamos o
mtodo dos mnimos quadrados, que no requer qualquer suposio sobre a distribuio dos ys [para estimadores de mxima verossimilhana baseados na normalidade,
ver seo 7.6.2]
Material elaborado pelo Prof. Csar Gonalves de Lima

87
Na abordagem de mnimos quadrados ns buscamos estimadores 0 e 1 que
minimizem a soma de quadrados dos desvios yi yi , entre os n valores yi observados
e seus valores preditos, y = + xi:
i

' =

i =1

i2

( yi yi )

i =1

(yi 0 1 xi )
n

(6.2)

i =1

Note que yi estima E(yi) e no yi; isto , 0 + 1 xi estima 0 + 1 xi e no yi = 0 + 1


xi + i. Para encontrar os valores de e que minimizam ' em (6.2), ns dife0

renciamos (6.2) com respeito a 0 e 1 e igualamos os resultados a zero:

(6.3)

(6.4)

n
'
= 2 yi 0 1 xi = 0

0
i =1
n
'
= 2 yi 0 1 xi xi = 0
1
i =1

As solues para (6.3) e (6.4) so dadas por:


n

1 =

(xi x )( yi y )

xi y i nx y
i =1
n

i =1

xi2 nx 2
i =1

(6.5)

(xi x )2
i =1

0 = y 1 x

(6.6)

Para verificar que 0 e 1 minimizam ' em (6.2), devemos examinar o sinal da


derivada segunda e observar que ' no tem mximo e que a derivada primeira produz um mnimo.
Exemplo 6.2 Estudantes de estatstica alegam que as tarefas de casa no ajudam a
prepar-los para o exame final. Os escores do exame (y) e das tarefas (x) para os 18
alunos da classe foram:
y
95
80
0
0
79
77

x
96
77
0
0
78
64

y
72
66
98
90
0
95

x
89
47
90
93
18
86

y
35
50
72
55
75
66

x
0
30
59
77
74
67

Usando (6.5) e (6.6) obtemos:


Material elaborado pelo Prof. Csar Gonalves de Lima

88
n

1 =

xi y i nx y
i =1
n

xi2 nx 2

81195 18(58,056)(61,389)
80199 18(58,056) 2

= 0,8726

i =1

0 = y 1 x = 61,389 0,8726(58,056) = 10,73


A equao de predio fica:

yi = 10,73 + 0,8726 xi.


O grfico desta reta e os 18 pontos esto plotados na Figura 6.1. A aparente tendncia
linear entre x e y no grfico, no estabelece causa e efeito entre a tarefa de casa e os
resultados no teste. A suposio de que var(i) = 2, constante, para i = 1, 2, ..., 18
parece ser razovel.

100

y: Prova

80
60
40
20
0
0

20

40

60

80

100

x: Tarefa

Figura 6.1. Grfico de disperso dos escores em tarefa e prova, com linha de
regresso.
Note que as trs suposies apresentadas na seo (6.1) no foram usadas na
derivao dos estimadores de mnimos quadrados 0 e 1 . No necessrio que yi
= + xi esteja baseado em E(yi) = 0 + 1 xi; isto , y = + xi pode at ser
0

ajustado a um conjunto de dados para o qual E(yi) 0 + 1 xi.

Entretanto, se as trs suposies esto satisfeitas, os estimadores de mnimos


quadrados 0 e 1 so no viesados e tm a menor varincia dentre todos os estimadores no viesados de 0 e 1.

Material elaborado pelo Prof. Csar Gonalves de Lima

89
Usando as trs suposies, obtemos:
E( 0 ) = 0

(6.7)

E( 1 ) = 1

(6.8)

var( 1 ) =

2
n

(6.9)

( xi x )

i =1

x2
2 1

+ n
var( 0 ) =
n

( x i x )2
i =1

(6.10)

Note que na discusso de E( 1 ) e var( 1 ), por exemplo, ns consideramos uma variao aleatria dos s de amostra para amostra. Foi assumido que os n valores x1,
1

x2, ..., xn permaneceriam os mesmos em amostras futuras, tal que E( 1 ) e var( 1 ) so


constantes.
Em (6.9) ns vimos que a var( 1 ) minimizada quando
mizada. Se os xis variam no intervalo a xi b, ento

i=1 (xi x )2
n

i=1 (xi x )2
n

maxi-

maximizada

se metade dos xi for igual a a e a outra metade for igual a b (assumindo que n par).
Em (6.10), fica evidente que var( 0 ) minimizada quando a mdia x = 0.
O mtodo dos mnimos quadrados no fornece um estimador para var(yi) = 2;
a minimizao de ' s produz 0 e 1 . Em (3.6), 2 = E[yi E(yi)]2 e pela suposio 2 na seo 6.2, a varincia 2 a mesma para cada yi, i = 1, 2, ..., n. Assim,
usando yi como um estimador de E(yi), ns estimamos 2 por:

i=1 ( yi yi )2
n

s =

n 2

i=1 (yi 0 1 xi )

n 2

onde 0 e 1 so dados em (6.5) e (6.6) e SQRes =

SQRes
n2

(6.11)

i=1 ( yi yi )2 . O desvio yi
n

y i

muitas vezes chamado de resduo de yi e SQRes, de soma de quadrados residual ou


soma de quadrados dos erros. Com n2 no denominador, s 2 um estimador no viesado de 2. Intuitivamente, ns dividimos por n 2 ao invs de n 1, porque yi =
+ xi tem dois parmetros estimados e desse modo, ele ser um melhor estimador
0

de E(yi) que y .

Material elaborado pelo Prof. Csar Gonalves de Lima

90
Esperamos que SQRes =

i=1 ( yi yi )2 seja menor que i=1 ( yi y )2 . De fato, usann

do (6.5) e (6.6), ns podemos escrever o numerador de (6.11) na forma:

SQRes =

i=1 ( yi yi )2 = i=1 ( yi y )2
n

( xi x )( yi y )

i =1 n
(xi x )2

(6.13)

i =1

que mostra que

i=1 ( yi yi )2
n

de fato menor que

i=1 ( yi y )2 .
n

6.3 TESTE DE HIPTESES E INTERVALO DE CONFIANA PARA 1


certo que formular hipteses sobre 1 de maior interesse que formular hipteses
sobre 0 desde que nossa prioridade determinar se existe (ou no!) uma relao
linear entre y e x. Nesta seo consideraremos a hiptese H0: 1 = 0, que estabelece
que no existe uma relao linear entre y e x no modelo (6.1). A hiptese H0: 1 = c
(para c 0) de menor interesse.
Para obter um teste para H0: 1 = 0, ns precisamos fazer a suposio que yi ~
N(0 + 1 xi, 2). Ento 1 e s 2 tm as seguintes propriedades:

1. 1 ~ N 1 , 2

i=1 (xi x )2 )
n

2. (n2) s 2 /2 tem distribuio 2 (n 2)


3. 1 e s 2 so independentes
Dessas propriedades segue por (5.34) que

1 1

t=

i (xi x )2

(6.14)

tem distribuio t(n2, ), isto , tem distribuio t-Student com n2 graus de liberdade e parmetro de no centralidade , definido como

( ) =
1
( 1 ) i (xi x )2

E 1
var

Se 1 = 0, ento por (5.33), t ~ t(n 2). Para uma hiptese alternativa bilateral
H1: 1 0, ns rejeitamos H0: 1 = 0 se | t | t / 2 ,n 2 , onde t / 2 ,n 2 o percentil de
ordem (100 /2) da distribuio t e o nvel de significncia do teste.

Material elaborado pelo Prof. Csar Gonalves de Lima

91
Alternativamente, rejeitamos H0: 1 = 0 se p , onde p o p-valor (p-value)
ou nvel descritivo do teste, que neste caso (hiptese alternativa bilateral), calculado
como o dobro da probabilidade de t(n 2) exceda o valor de t observado.
Um I.C.[1, 100(1)%] intervalo de confiana para 1 com 100(1)% de
confiana, dado por:
s

1 t / 2 ,n 2

(6.15)

i (xi x )2

Intervalos de confiana sero definidos e discutidos com detalhes mais tarde na seo
8.6. Um I.C. para yi dado em (8.58) e um intervalo de predio para y dado em
(8.63).
[Ver Exemplo 6.3 na pg.117 do livro do Rencher]

6.4 COEFICIENTE DE DETERMINAO


O coeficiente de determinao r 2 definido como
SQRes
SQReg
r =
=1
=
SQTotal
SQTotal
2

i=1 ( y i yi )2
n
i=1 ( yi y )2
n

(6.16)

onde SQReg a soma de quadrados da regresso, SQRes a soma de quadrados residual e SQTotal, a soma de quadrados total. A SQTotal pode ser particionada como
SQTotal = SQReg + SQRes , isto ,

i=1 ( yi y )2 = i=1 ( yi y )2 + i=1 ( yi yi )2


n

(6.17)

Assim, r2 fornece a proporo da variao em y que explicada pelo modelo ou, equivalentemente, devida regresso em x.
Ns usamos a notao r2 em (6.16) porque o coeficiente de determinao
igual ao quadrado do coeficiente de correlao amostral, r, entre y e x,
n

r=

s xy
s x2 s 2y

(xi x )( yi y )
=

i =1

(6.18)

( xi x ) ( y i y )
i =1

i =1

onde sxy dado por (5.15). Quando x uma varivel aleatria, r estima a correlao
populacional.

Material elaborado pelo Prof. Csar Gonalves de Lima

92
A estatstica t usada para testar H0: 1 = 0, em (6.14), pode ser expressa em termos de
r como segue:
1
t =
(6.19)
2
s i ( xi x )
=

r n 2
1 r

(6.20)

Se H0: 1 = 0 verdadeira, ento a estatstica (6.19) distribuda como t(n 2),


sob a suposio que os xis so fixos e que os yis so independentemente distribudos
como N(0 + 1 xi, 2).
Se x uma varivel aleatria, tal que x e y tm uma distribuio normal bivariada, ento a estatstica (6.20) tambm tem distribuio t(n 2) desde que H0: = 0
seja verdadeira, onde o coeficiente de correlao populacional definido em (3.17).
Entretanto, (6.19) e (6.20) tm distribuies diferentes se H0: 1 = 0 e H0: = 0 forem
falsas. Se 1 0, (6.19) tem distribuio t no central, mas se 0, ento (6.20) no
tem uma distribuio t no central.

EXERCCIOS
Ver exerccios das pginas 119-120 do livro-texto.

Material elaborado pelo Prof. Csar Gonalves de Lima

93

CAPITULO 7. REGRESSO LINEAR MLTIPLA: ESTIMAO


7.1. INTRODUO
Na regresso mltipla ns procuramos predizer uma varivel resposta ou dependente
y, assumindo que ela tem uma relao linear com diversas variveis independentes ou
preditoras x1, x2, ..., xk. Alm de construir um modelo de predio de y, podemos estar interessados na relao entre os valores ys observados e os preditos, quando usaremos o coeficiente de correlao mltipla R (Seo 7.7).
Neste captulo (e nos Captulos 8 e 9), y uma varivel aleatria contnua e os
xs so constantes fixadas (discretas ou contnuas) que so controladas pelo experimentador. O caso no qual os xs so variveis aleatrias aparece no Captulo 10. Na
anlise de varincia (Captulos 11-14), os xs so fixados e discretos.
Exposies aplicadas da regresso mltipla para o caso de x-fixo podem ser
encontradas em: Draper & Smith (1981), Morrison (1983), Myers (1990), Montgomery & Peck (1992), Graybill & Yier (1994), Mendenhall & Sincich (1996), Neter at
al. (1996) e Ryan (1997), dentre outros.
Tratamentos tericos aparecem em: Searle (1971), Graybill (1976), Seber
(1977), Guttman (1982), Kshirsagar (1983), Myers & Milton (1991), Jorgensen
(1993), Wang & Chow (1994), Christensen (1996) e Hocking (1976, 1985, 1996),
dentre outros.
7.2. O MODELO
O modelo de regresso mltipla pode ser expresso como
y = 0 + 1x1 + 2x2 + ... + kxk +

(7.1)

Os s podem ser estimados pelo mtodo dos mnimos quadrados (Seo 7.3.1)
porque o modelo linear nos s. Um modelo que linear nos s mas no linear
nos xs o modelo de superfcie de resposta de segunda ordem
y = 0 + 1x1 + 2x2 + 3 x12 + 4 x22 + 5x1x2+

(7.2)

Para estimar os s em (7.1) usaremos uma amostra de n observaes de y


associados com os xs. O modelo para a i-sima observao

yi = 0 + 1xi1 + 2xi2 + ... + kxik + i , i = 1, 2, ..., n

(7.3)

As suposies para i (ou yi) so anlogas quelas da regresso linear simples


(Seo 6.1), a saber:
1. E(i) = 0 para todo i = 1, 2, ..., n, ou, equivalentemente, E(yi) = 0 + 1xi1 + 2xi2
+ ... + kxik.
2. var(i) = 2 para todo i = 1, 2, ..., n, ou, equivalentemente, var(yi) = 2.
3. cov(i, j) = 0 para todo i j, ou, equivalentemente, cov(yi, yj ) = 0.
Material elaborado pelo Prof. Csar Gonalves de Lima

94
A suposio 1 estabelece que o modelo (7.1) correto, isto , todos os xs
relevantes esto includos no modelo de forma linear; a suposio 2, que a varincia
de y constante e no depende dos xs e a suposio 3, que os ys no so correlacionados com cada outro, o que geralmente acontece em amostras aleatrias (numa
srie temporal ou quando so feitas medidas repetidas numa mesma planta ou animal,
as observaes so, em princpio, correlacionadas). A suposio de normalidade aparecer somente na Seo 7.6.
Quando as trs suposies esto satisfeitas, os estimadores de mnimos quadrados dos s apresentam excelentes propriedades; o que tambm acontece com os
estimadores de mxima verossimilhana, quando assumimos que os ys tm distribuio normal. Qualquer uma dessas trs suposies pode falhar com dados reais. Tcnicas de diagnstico sero discutidas no Captulo 9.
Escrevendo (7.3) para cada uma das n observaes temos

y1 = 0 + 1x11 + 2x12 + + kx1k + 1


y2 = 0 + 1x21 + 2x22 + + kx2k + 2
M

yn = 0 + 1xn1 + 2xn2 + + kxnk + n


Essas n equaes podem ser escritas na forma matricial como

y1 1 x11
y 1 x
21
2 =
M M M

y n 1 x n1

x12 L x1k 0 1
x 22 L x 2 k 1 2
+
M
M M M

x n 2 L x nk k n

ou
y = X +

(7.4)

E as suposies anteriores sobre i (ou yi) podem ser expressas em termos do modelo
(7.4) como:
1. E() = 0 ou E(y) = X.
2. cov() = 2I ou cov(y) = 2I.

Obs: A suposio cov() = 2I inclui as suposies var(i) = 2 e cov(i, j) = 0.


A matriz X em (7.4) n x (k+1). Neste captulo assumiremos que n > (k+1) e
posto(X) = k + 1. Se n < (k+1) ou se existe alguma relao linear entre os xs, a
matriz X no ter posto (coluna) completo. Se os valores xijs forem planejados (escolhidos) pelo pesquisador, a matriz X chamada de matriz do delineamento (design
matrix).
Os s so chamados coeficientes de regresso e para enfatizar o seu efeito coletivo, eles so muitas vezes chamados de coeficientes parciais de regresso. O terMaterial elaborado pelo Prof. Csar Gonalves de Lima

95
mo parcial engloba os sentidos matemtico e estatstico. Matematicamente, a derivada parcial de E(y) com respeito a x1, por exemplo, igual a 1, que indica a mudana
em E(y) com uma unidade acrescida em x1, quando x2, ..., xk so mantidas constantes.
Estatisticamente, 1 mostra o efeito de x1 sobre E(y), na presena dos outros xs. Este
efeito pode ser diferente do efeito de x1 sobre E(y) se os outros xs no estiverem no
modelo. Por exemplo, os valores de 0 e 1 em:
y = 0 + 1x1 + 2x2 +
sero diferentes de 0 e 1 em
y = 0 + 1 x1 + *
Vale notar que, se x1 e x2 forem ortogonais, isto , se x1x2 = 0 ou (x1 x1 j)(x2 x2 j) =
0, onde x1 e x2 so duas colunas de X, ento 0 = 0 e 1 = 1 .
Exemplo 7.2 (Freund & Minton, 1979, pg.36-39) Considere os dados apresentados
na Tabela 7.1. Usando (6.5) e (6.6) da Seo 6.2 e (7.6) da Seo 7.3, obtemos as
equaes de predio de y sobre x1 sozinho, sobre x2 sozinho e sobre x1 e x2:

y = 1.86 + 1.30x1
y = 0.86 + 0.78x2

y = 5.37 + 3.01x1 1.29x2


Como esperado, os coeficientes mudam dos modelos reduzidos para o modelo completo. Note que o sinal do coeficiente de x2 muda de 0.78 para 1.29.
Tabela 7.1. Dados do Exemplo 7.2
Obs.
1
2
3
4
5
6
7
8
9
10
11
12

y
2
3
2
7
6
8
10
7
8
12
11
14

x1
0
2
2
2
4
4
4
6
6
6
8
8

x2
2
6
7
5
9
8
7
10
11
9
15
13

A Figura 7.1 apresenta a disperso de y e x2 e a equao de predio y = 0.86 +


0.78x2. A tendncia linear bastante evidente.
Material elaborado pelo Prof. Csar Gonalves de Lima

96

Figura 7.1. Regresso de y sobre x2 ignorando x1

Na Figura 7.2 temos o mesmo grfico da Figura 7.1, exceto que em cada ponto aparece o valor de x1. Um exame dos valores de y e x2 para cada valor de x1 (2, 4, 6 e 8)
mostra uma inclinao negativa para a relao. Essas relaes negativas so mostradas como regresses parciais de y sobre x2 para cada valor de x1. O coeficiente de
regresso 2 = 1.29 reflete as inclinaes negativas dessas quatro regresses parciais. Outros detalhes sobre os coeficientes de regresso parcial so apresentados na
Seo 7.10.

Figura 7.2. Regresso de y sobre x2 mostrando os valores de x1 em cada ponto


e as regresses parciais de y sobre x2
Material elaborado pelo Prof. Csar Gonalves de Lima

97
7.3. ESTIMAO DE E DE 2
7.3.1. ESTIMADOR DE MNIMOS QUADRADOS DE

Discutiremos a abordagem de mnimos quadrados para estimar os s no modelo


(7.1) ou (7.4). Nenhuma suposio de distribuio de y ser necessria na obteno
dos estimadores.
Procuraremos os estimadores de 0, 1, , k que minimizam a soma de quadrados dos desvios dos n valores observados de y em relao aos valores preditos y .
Por extenso de (6.2), procuramos , , , que minimizem
0

( yi y i )

i2 =
i =1

i =1

(yi 0 1 xi1 2 xi 2 L k xik )


n

(7.5)

i =1

Vale notar que y i = 0 + 1 xi1 + 2 xi 2 + L + k xik estima E(yi) e no yi.


Para obter os estimadores de mnimos quadrados, no necessrio que a equao y i = 0 + 1 xi1 + 2 xi 2 + L + k xik esteja baseado em E(yi). S precisamos postular um modelo emprico que seja linear nos s, que o mtodo dos mnimos quadrados encontrar o melhor ajuste para este modelo.
Para encontrar os valores 0 , 1 , , k que minimizam (7.5), devemos calcular a diferencial de

i2
i =1

em relao a cada j e igualar o resultado a zero para pro-

duzir (k+1) equaes que podem ser resolvidas simultaneamente para os j s. Entretanto o procedimento pode ser bastante simplificado usando a notao matricial.
Teorema 7.3A. Se y = X + , onde X n x (k+1) de posto k +1 < n, ento o valor de
= [ 0 , 1 , , k ] que minimiza (7.5) igual a
-1
= (XX) Xy

(7.6)

Prova: Podemos escrever (7.5) como


n

i2 = =
i =1

(y
n

i =1

x i '

= (y X ) (y X )

= yy 2yX + XX
onde xi a i-sima linha da matriz X.
Material elaborado pelo Prof. Csar Gonalves de Lima

98
Para encontrarmos que minimiza , calculamos a diferencial em relao
a :
'
= 0 2Xy + 2XX

Igualando o resultado a zero, obtemos o sistema de equaes normais:


XX = Xy

(7.8)

Como posto(XX) = k + 1, XX no singular e a soluo de (7.8) (7.6).


Como em (7.6) minimiza a soma de quadrados em (7.5), chamado de
estimador de mnimos quadrados. Vale notar que cada j uma combinao linear
1
de y; isto , = ajy, onde aj a j-sima linha de (XX) X. O significado do terj

mo linear em estimador linear diferente daquele em modelo linear, que indica que
o modelo (7.1) linear nos s.
-1
J mostramos que = (XX) Xy minimiza . Seja b um outro estimador
de que pode ser melhor que , de tal modo que = (y Xb)(y Xb). Agora,
adicionando e subtraindo X , obtemos

= (y X + X Xb) (y X + X Xb)

(7.9)

= (y X ) (y X ) + ( b)XX( b)
+ 2( b)(Xy XX )

(7.10)

O terceiro termo do lado direito de (7.10) nulo porque Xy = XX . O segundo


termo uma forma quadrtica positiva definida, porque X tem posto coluna completo
e ento minimizado quando b = . Assim, conclumos que no existe outro estimador b que seja melhor que .
Observemos que XX (k+1) x (k+1) pode ser obtida como o produto das
colunas de X, e Xy pode ser obtida como o produto das colunas de X e y:
n

xi1
XX = i
M

i xik

i xi1
i xi21

i xi 2
i xi1 xi 2

M
i xi1 xik

M
i xi 2 xik

L
L
L

i xik

i xi1 xik ,

i xik2

i yi

x y

i i1 i

Xy =

i xik yi

Material elaborado pelo Prof. Csar Gonalves de Lima

99
1
Se = (XX) Xy ento

= y X = y y

(7.11)

o vetor de resduos, 1 = y y1 , 2 = y y 2 , ..., n = y y n , que estima no modelo y = X + e pode ser usado para checar a validade do modelo, com respeito s
suposies j apresentadas.
Exemplo 7.3.1(a) Usando os dados da Tabela 7.1 para ilustrar o clculo de , temos
y = [2 3 2 7 6 8 10 7 8 12 11 14]
1 1 1 1 1 1 1 1 1 1 1 1
X = 0 2 2 2 4 4 4 6 6 6 8 8

2 6 7 5 9 8 7 10 11 9 15 13
12 52 102
XX= 52 296 536 , Xy =

102 536 1004

90
482

872

0 5.3754
0.24290 0.22871
0.97476

1
(XX) = 0.24290
0.16207 0.11120 = 1 = 3.0118

2 1.2855
0.22871 0.11120
0.08360

Figura 7.2a. Modelo de regresso ajustado para os dados da Tabela 7.1

Material elaborado pelo Prof. Csar Gonalves de Lima

100
Exemplo 7.3.1(b) O modelo de regresso linear simples do Captulo 6 pode tambm
ser expresso em termos matriciais:
y1
y
y = 2 , X =
M

yn

1 x1
1 x
2

, =
M M

1 x n

yi
1
-1
Xy = i , (XX) =
2
ni xi
i xi yi

1
= 0 =
2

1 ni xi

( x )

i xi
i xi2

n
0
,
XX
=


1
i xi

( x )

)(

i xi2

i xi

i xi

) ( )(
)( ) (

i xi2 i yi i xi i xi yi

i xi i yi + n i xi yi

7.3.2. Propriedades dos estimadores de mnimos quadrados


Teorema 7.3B. Se E( ) = ento um estimador no viesado de .
Prova:

1
1
1
E( ) = E[XX) Xy] = (XX) XE(y) = (XX) XX =

1
Teorema 7.3C. Se cov(y) = 2I, a matriz de covarincias de 2(XX) .

Prova:
1

cov( ) = cov[(XX) Xy] = (XX) Xcov(y)[(XX) X]


1

= (XX) X2I X(XX) = (XX) XX(XX) 2


1

= (XX) 2

Exemplo 7.3.2(a). Usando a matriz (XX) do Exemplo 7.3.1(b) para regresso linear simples, obtemos:

( )

var 0
cov( ) = cov 0 =

1 cov 0 , 1

cov 0 , 1
-1
= 2(XX)

var 1

( )

Material elaborado pelo Prof. Csar Gonalves de Lima

101

cov( ) =

2
ni xi2

( x )

i (xi x )

i xi2

i xi

i xi

i xi2 n x

1
x

Assim

var( 0 ) =

2 i xi2 n

i (xi x )

, var( 1 ) =

i (xi x )

e cov( 0 , 1 ) =

2x

i (xi x )

Observe que os valores de var( 0 ) e var( 1 ) so os mesmos daqueles obtidos em


(6.9) e (6.10). Se x > 0, a cov( 0 , 1 ) < 0 e podemos admitir que a estimativa do
coeficiente angular e do intercepto da reta so inversamente proporcionais. Neste
caso, assumindo que os xs so os mesmos, se o coeficiente angular cresce de uma
amostra para outra, o intercepto decresce.
1

Exemplo 7.3.2(b). Para os dados da Tabela 7.1, (XX) dada no Exemplo 7.3.1(a).
Assim cov( ) dada por
0.24290 0.22871
0.97476
1
2
2

0.24290
0.16207 0.11120
cov( ) = (XX) =

0.22871 0.11120
0.08360
O valor cov( 1 , 2 ) < 0,111202 indica que em amostragens repetidas (usando os
mesmos valores de x1 e x2), e tenderiam a se mover em direes opostas; isto
1

, um acrscimo em um deles seria acompanhado por um decrscimo no outro.

Teorema 7.3D. (Teorema de Gauss Markov) Se E(y) = X e cov(y) = 2I, os estimadores de mnimos quadrados j , para j = 0, 1, ..., k, tm varincia mnima dentre
todos os estimadores lineares no viesados.
Prova: Consideremos um estimador linear Ay de e vamos procurar a matriz A para
a qual Ay um estimador linear no viesado de varincia mnima de . Para que
Ay seja um estimador no viesado de , devemos ter E(Ay) = . Usando a suposio E(y) = X, podemos escrever que
E(Ay) = A E(y) = AX =
que d como condio para que Ay seja um estimador linear no viesado de

AX = I
porque a relao AX = deve ser verdadeira para qualquer valor possvel de .
Material elaborado pelo Prof. Csar Gonalves de Lima

102
A matriz de covarincias de Ay dada por

cov(Ay) = A2IA = 2AA


Como as varincias dos j s esto na diagonal de 2AA, precisamos escolher a
matriz A (sujeito a AX = I) de tal modo que os elementos da diagonal de AA sejam minimizados. Podemos escrever:
1

AA = [A + (XX) X (XX) X] [A + (XX) X (XX) X]


1

= [A (XX) X][A (XX) X] + (XX)

(7.17)

Como a matriz [A (XX) X][A (XX) X] positiva semi-definida (Teoremas 2.6A(ii) e 2.6D), os elementos da sua diagonal so maiores ou iguais a zero.
1
Os elementos da diagonal podem ser iguais a zero se escolhermos A = (XX) X.
O estimador de varincia mnima de resultante
1

Ay = (XX) Xy

(7.18)

que igual ao estimador de mnimos quadrados de .


O Teorema de Gauss Markov muitas vezes apresentado da seguinte maneira:
Se E(y) = X e cov(y) = 2I, os estimadores de mnimos quadrados 0 , 1 , ..., k
so os melhores estimadores lineares no viesados (BLUE best linear unbiased
estimator) de 0, 1, ..., k.
Nesta expresso, best significa menor varincia e linear indica que os estimadores
so funes lineares de y.
Vale observar que o resultado do Teorema 7.3D (Gauss-Markov) vale para
qualquer distribuio de y (no precisamos admitir que y tem distribuio normal).
As nicas suposies usadas na prova so E(y) = X e cov(y) = 2 I. Se essas suposies no forem admitidas, pode ser viesado ou cada j pode ter uma varincia
maior que a varincia associada a algum outro estimador.

Corolrio 1. Se E(y) = X e cov(y) = 2I, o BLUE de a a , onde o estima1


dor de mnimos quadrados = (XX) Xy.
A configurao da matriz X muito importante na estimao dos j s. Como
1
cov( ) = 2(XX) , var( j ) e cov( i , j ) dependem dos valores de xj. Tanto na estimao quanto nos testes de hipteses, existem vantagens em escolher os xs (ou os
xs centrados) ortogonais de tal modo que XX seja diagonal.
Material elaborado pelo Prof. Csar Gonalves de Lima

103
Essas vantagens incluem minimizar a varincia dos j s e maximizar o poder dos testes sobre os js.
Uma quarta propriedade de que y = 0 + 1 x1 + + k x k = x invariante a mudanas lineares simples de escala dos xs, onde x = [1 x1 x2 ... xk].
Sejam as novas variveis zj = cj xj, para j = 1, 2, ..., k, onde os cjs so constantes.
Assim x transformada em z = [1 c1x1 c2x2 ckxk]. O prximo teorema mostra que
y baseado em z o mesmo que y baseado em x.

Teorema 7.3E. Se x = [1 x1 x2 ... xk] e z = [1 c1x1 c2x2 ... ckxk], ento y = x


= ( )z, onde o estimador de mnimos quadrados da regresso de y sobre z.
z

Prova: Podemos escrever z = Dx, onde D = diag(1, c1, c2, ..., ck). Ento, a matriz X
transformada em Z = XD. Substituindo no estimador de mnimos quadrados:
-1
-1
z = (ZZ) Zy = [(XD) (XD)] (XD)y
-1
-1
-1
= D (XX) Xy = D

(7.18)

onde o estimador usual da regresso de y sobre os xs. Ento


-1
( z )z = (D )Dx = x

No corolrio seguinte, a invarincia de y estendida para qualquer transformao de


posto completo dos xs.

Corolrio 1. O valor predito y invariante a transformaes de posto completo


sobre os xs.
Prova: Podemos expressar uma transformao de posto completo sobre os xs como:
1 0'
Z = XH = [j X1]
= [j + X10, j0 + X1H1] = [j , X1H1]
0 H 1
onde H1 no singular e
x11 x12 L x1k
x
x 22 L x 2 k
21

X1 =
M
M
M

x n1 x n 2 L x nk

(7.19)

A partio de X e H feita dessa maneira para transformar somente os xs em X1,


no afetando a primeira coluna de X. Agora z pode ser escrito como:
1
1
z = (ZZ) Zy = H

(7.20)

Material elaborado pelo Prof. Csar Gonalves de Lima

104
Da temos:

y = ( z )z = x

(7.21)

onde z = Hx.
Tambm so invariantes s mudanas da escala dos xs: a varincia amostral s2
(Problema 7.10), a estatstica t-Student (Seo 8.5), a estatstica F (Captulo 8) e o
coeficiente de determinao R2 (Sees 7.7 e 10.3).
7.3.3. Um estimador para 2
O mtodo de mnimos quadrados no produz uma funo dos ys e xs na amostra que
possamos minimizar para obter um estimador de 2. Entretanto ns podemos criar um
estimador no viesado para 2, baseado no estimador de mnimos quadrados . J
sabemos que 2 = E[yi E(yi)]2 e pela suposio 1,

E(yi) = 0 + 1xi1 + 2xi2 + ... + kxik = (xi)


onde (xi) a i-sima linha de X. Assim, 2 = E[yi (xi)]2 e estimaremos a varincia 2 usando uma mdia das varincias das amostras:

n
1
s =
yi (x i )'
n k 1 i =1
2

(7.22)

onde n o tamanho amostral e k o nmero de xs. Note que, pelo Corolrio do Teorema 7.3D, (xi) o BLUE de (xi). Usando (7.7) podemos escrever a expresso
(7.22) como

s2 =
=

1
(y X )(y X )
n k 1

(7.23)

y' y ' X' y


SQRes
=
n k 1
n k 1

(7.24)

onde SQRes = (y X )(y X ) = yy Xy.

Teorema 7.3F. Se s2 definido por (7.22), (7.23) ou (7.24) e se E(y) = X e cov(y)


= 2I, ento
E(s2) = 2
(7.25)
ou seja, s2 um estimador no viesado de 2.

Prova: Usando (7.24) e (7.6) podemos escrever SQRes como uma forma quadrtica
1
SQRes = yy Xy = yy yX(XX) Xy
1
= y[I X(XX) X]y

(7.26)

Material elaborado pelo Prof. Csar Gonalves de Lima

105
Pelo Teorema 5.2A temos que
1

E(SQRes) = tr{[I X(XX) X]2I} + E(y)[I X(XX) X] E(y)


1

= 2 tr[I X(XX) X] + X[I X(XX) X]X


1

= 2{n tr[X(XX) X]} + X X XX(XX) XX


1

= 2{n tr[X(XX) X]}


Desde que XX (k+1) x (k+1), resulta que:

E(SQRes) = 2[n tr(Ik+1)] = 2(n k 1)

2
SQRes
e ento, E(s ) = E
(n k 1) = 2.
=
n k 1 n k 1
2

Corolrio 1. Um estimador no viesado de cov( ) em (7.14) dado por


1
cov( ) = s2(XX)

(7.27)

Observe a correspondncia entre n (k + 1) e yy Xy; existem n termos em yy


e (k + 1) termos em Xy = XX . Uma propriedade correspondente da amostra
que cada x (e ) adicional no modelo, produz uma reduo em SQRes (ver Problema 7.13).
Como SQRes uma forma quadrtica de y, no podemos dizer que um
BLUE. A propriedade tima de s2 dada no teorema seguinte.

( )

Teorema 7.3G. Se E() = 0, cov() = 2I e E i4 = 3 4 para o modelo linear y = X


+ , ento s2 em (7.23) ou (7.24) o melhor (varincia mnima) estimador quadrtico no viesado de 2.

Prova: ver Graybill (1954), Graybill & Wortham (1956) ou Wang & Chow (1994,
pg. 161-163)
Exemplo 7.3.3. Para os dados da Tabela 7.1, temos que:

90
SQRes = yy Xy = 840 [5.3754 3.0118 1.2855] 482

872
= 25.459 s2 = SQRes/(n k 1) = 25.459/(12 2 1) = 2.829

Material elaborado pelo Prof. Csar Gonalves de Lima

106
7.4. GEOMETRIA DE MNIMOS QUADRADOS

Existem duas abordagens bsicas para o grfico de disperso dos pontos na regresso.
Na Figura 6.1, por exemplo, plotamos os pontos (x1, y1), (x2, y2), , (xn, yn). Esta
uma abordagem natural e ns chamaremos o espao resultante de espao das variveis, porque os eixos correspondem s variveis x e y.
Uma outra opo plotar o vetor y = [y1, y2, , yn] como um ponto no espao
n-dimensional com os eixos correspondendo a y1, y2, , yn. Este espao pode ser
chamado espao das observaes y ou espao amostral. Nele ns podemos plotar as
colunas da matriz X. Se existe um nico x, por exemplo, ns podemos plotar os trs
pontos y = [y1, y2, , yn], j = [1, 1, , 1] e x = [x1, x2, , xn].

7.4.1. Espao das variveis

Se existe um x, ento no espao de variveis, ns podemos facilmente plotar os pontos (x1, y1), (x2, y2), ..., (xn, yn) e a linha de regresso y = 0 + 1 x. Como ilustrao
veja a Figura 6.1, onde podemos checar visualmente as suposies do modelo de regresso.
Se existem dois xs, o espao de variveis tridimensional e a equao de regresso y = 0 + 1 x1 + 2 x2 um plano, que ilustrado na Figura 7.3 (ver Rencher,
pg. 137), onde ns plotamos n pontos (x1, y1), (x2, y2), , (xn, yn) e o plano de regresso.
Portanto, no espao de variveis ns plotamos os n pontos em um espao
(k+1)-dimensional com eixos correspondendo a y, x1, x2, , xk. Se k > 1 isso conceitualmente fcil de visualizar, mas difcil ou impossvel de plotar.

7.4.2. Espao amostral

O espao amostral um espao n-dimensional contendo todos os possveis valores


de y, com os eixos correspondendo a y1, y2, , yn. Neste espao, ns plotamos o ponto para y e um ponto para cada coluna de X. Assim, plotamos as colunas de:

y1 1 x11 x12 L x1k


y 1 x
x 22 L x 2 k
2
21

= [y, j, x1, x2, , xk]


M M M
M
M

y n 1 x n1 x n 2 L x nk
que resulta em k + 2 pontos em um espao amostral n-dimensional.
Agora vamos considerar uma abordagem geomtrica para a estimao de .
Por (2.37), sabemos que y = X uma combinao linear das colunas de X:
Material elaborado pelo Prof. Csar Gonalves de Lima

107
y = X = 0 j + 1 x1 + 2 x2 + , + k xk

Para encontrar y = X , geometricamente, consideramos todas as possveis combinaes lineares


Xb = b0j + b1x1 + b2x2 + ..., + bkxk

(7.29)

e buscamos o valor de Xb que est mais prximo de y no sentido de que a distncia


entre y e Xb seja minimizada.
O conjunto de todas as combinaes lineares Xb em (7.29) chamado de espao estimao, porque X pertence a este espao. Dizemos que j, x1, x2, , xn geram
o espao estimao. Se X tem posto completo, a dimenso desse espao k+1. O espao estimao , portanto um subespao do espao amostral n-dimensional. Note
que E(y)= X est no espao estimao com a estimativa y = X .

Figura 7.4. Uma viso geomtrica da estimao de mnimos quadrados.

Na Figura 7.4 ilustramos um espao amostral tridimensional e um espao estimao bidimensional. O plano indicado pelas linhas tracejadas o espao estimao,
gerado pelos dois vetores x (que no aparecem na figura). Note que o espao estimao no o plano formado pelos eixos y1 e y2 e sim, por uma combinao linear de y1,
y2 e y3. Nessa figura fica evidente que o ponto X do espao estimao est bem prximo de y (menor distncia de y), sendo obtido projetando uma linha perpendicular
de y at o espao estimao. O ponto X estar no p da linha perpendicular de y
ao plano do espao estimao se o vetor y X for ortogonal ao espao estimao
formado pelas combinaes lineares Xb das colunas de X. Da, y X ortogonal a
X, o que pode ser expresso como:
X(y X ) = 0

(7.30)

Material elaborado pelo Prof. Csar Gonalves de Lima

108
Da equao (7.30), ns obtemos as equaes normais: Xy = XX , como em
1
(7.8). Esta a prova geomtrica de que = (XX) Xy minimiza o quadrado da distncia de y a X , que pode ser escrita como (y X )(y X ).

7.5. O MODELO NA FORMA CENTRADA

O modelo (7.3) para cada yi pode ser escrito em termos das variveis xs centradas
como:
yi = 0 + 1xi1 + 2xi2 + + kxik + i
= + 1(xi1 x1 ) + 2(xi2 x 2 ) + + k(xik x k ) + i

(7.31)

= 0 + 1 x1 + 2 x 2 + + k xk

(7.32)

onde
e x j = i =1 xij / n , j = 1, 2, , k. Essa forma centrada do modelo til em certas expresses envolvidas em testes de hipteses (Seo 8.1), em pesquisas de pontos influentes (Seo 9.2) e na comparao de resultados deste captulo com os do Captulo
10. Na forma matricial, o modelo centrado (7.31) para y1, y2, , yn fica:
n


y = [j, Xc] +
1

(7.33)

onde j um vetor de uns, 1 = [1, 2, ..., k] e

x11 x1
x x
1

Xc = I J X1 = 21 1
M
n

xn1 x1

x12 x2
x22 x 2

M
xn 2 x2

L x1k xk
L x2 k xk

L x nk x k

(7.34)

onde X1 dado em (7.19). A matriz que pr-multiplica X1 em (7.34) chamada de


matriz de centering. Como em (7.8), as equaes normais para o modelo (7.33) so:


[j, Xc][j, Xc] = [j, Xc]y
1
que pode ser simplificado em
0'
n
0 ( X )' X
c
c

(7.35)

ny
= ( X )' y
1 c

Os estimadores de mnimos quadrados so dados por:

0'
n
=
0 ( X )' X
c
c
1

0'
ny 1 / n
ny
=
( X )' y 0 [( X )' X ] 1 ( X )' y
c
c
c
c
Material elaborado pelo Prof. Csar Gonalves de Lima

109
y


=
[( X )' X ] 1 ( X )' y
c
c
1 c

ou
e

= y

(7.37)

1
1 = [(Xc) Xc] (Xc)y

(7.38)

Esses estimadores so iguais aos dos mnimos quadrados em (7.6) com o ajuste:

0 = 1 x1 + 2 x 2 + ... + k x k = y ( 1 )' x

(7.39)

obtido do estimador de em (7.32), onde x = [ x1 , x 2 , ..., x k ].


Quando expressamos y na forma centrada,
y = + 1 (x1 x1 ) + 2 (x2 x 2 ) + ... + k (xk x k )
o plano de regresso ajustado passa pelo ponto ( x1 , x 2 ,..., x k , y ). A SQRes pode ser
expressa em termos do modelo centrado como:
SQRes =

( yi y )

i =1

( 1 )'(Xc)y

(7.40)

que igual a SQRes = yy Xy em (7.24).


Ns podemos usar (7.37)-(7.39) para expressar 1 e 0 em termos das varincias e covarincias amostrais, o que ser til na comparao desses estimadores com
aqueles para o caso de x-aleatrio no Captulo 10. Primeiramente definimos a matriz
de covarincias amostrais para os xs e um vetor de covarincias entre y e os xs:

S xx

s12

s
= 21
M

s k1

s12
s 22

M
sk 2

L s1k

L s2k
,
M

L s k2

s yx

s y1
s
y2
=
M

s yk

(7.41)

onde s 2j , sij e s yj so anlogos a s2 e sxy definidos em (5.6) e (5.15). Por exemplo:

i =1 ( xi 2 x2 ) 2
n

s 22

n 1

i =1 ( xi1 x1 )( xi 2 x2 )

(7.42)

s12 =

n 1

i =1 ( xi 2 x2 )( yi y )

(7.43)

s y2 =

n 1

(7.44)

Material elaborado pelo Prof. Csar Gonalves de Lima

110
Entretanto, como os xs so fixados, essas varincias e covarincias amostrais no estimam as varincias e covarincias populacionais. Para expressar 1 e 0 em termos
de S xx e s yx , ns precisamos primeiramente escrev-las em termos da matriz centrada Xc, como segue:

S xx =

( X c )' X c
n 1

(7.45)

s yx =

( X c )' y
n 1

(7.46)

Note que (Xc)y contem termos da forma


mostrar que

i =1 ( xij x j ) yi , porque podemos


n

i=1 ( xij x j )( yi y ) = i =1 ( xij x j ) yi


n

[ver Problema 6.2(a)]

De (7.38), (7.45) e (7.46) obtemos:


1 ( X c )' y
1 = (n 1) [(Xc) Xc]
n 1
1
( X )' X c ( X c )' y
= c

n 1
n 1

= (S xx )1 s yx

(7.47)

e de (7.39) e (7.47), obtemos

0 = ( 1 )' x = y ( s yx ) (S xx )1 x

Exemplo 7.5. Para os dados da Tabela 7.1, calculamos


(7.48):
1
6
.
4242
8
.
5455

8.3636

1
1 = (S xx ) s yx =

=
8.5455 12.4545 9.7273

(7.48)

1 e 0 usando (7.47) e

3.0118
1.2855

4.3333

8.5000

0 = y ( s yx ) (S xx )1 x = 7.50 [3.0118 1.2855]


0 = 7.5000 2.1246 = 5.3754

e podemos perceber que esses resultados so idnticos queles obtidos no Exemplo


7.3.1(a).

Material elaborado pelo Prof. Csar Gonalves de Lima

111
7.6. O MODELO NORMAL
7.6.1. Suposies

A partir de agora vamos adicionar s suposies j apresentadas na Seo 7.2, a seguinte suposio:
y ~ Nn(X, 2I) ou ~ Nn(0, 2I)

Sob a hiptese de normalidade, cov(y) = cov() = 2I implica que os ys (ou os s)


so independentes, alm de no correlacionados.
7.6.2. Estimadores de mxima verossimilhana de e 2

Com a suposio de normalidade, podemos obter os estimadores de verossimilhana.


A funo de verossimilhana a densidade conjunta dos ys, que denotamos por
L(,2) e o problema consiste em procurar os valores desconhecidos de e 2 que
maximizam L(,2) para os ys e xs na amostra.
Teorema 7.6A. Se y ~ Nn(X, 2I), onde X n x (k+1) de posto k+1 < n, os estimadores de mxima verossimilhana de e 2 so
1
= (XX) Xy

2 =

1
(y X )(y X )
n

(7.49)
(7.50)

Prova: ver Rencher, pg. 142-143.


Observe que o estimador de mxima verossimilhana em (7.49) o mesmo estimador de mnimos quadrados que aparece no Teorema 7.3A. Porm, o estimador 2 em
(7.50) viesado porque o denominador n ao invs de n k 1. Muitas vezes ns
usamos o estimador s2 dado em (7.23) ou (7.24).
7.6.3. Propriedades de e 2
Teorema 7.6B Supondo que y ~ Nn(X, 2I), onde X n x (k+1) de posto k+1 < n e
= [0, 1, ..., k]. Ento os estimadores de mxima verossimilhana e 2 dados
no Teorema 7.6A tm as seguintes propriedades distribucionais:
-1
(i) ~ Nk+1[, 2(XX) ]
(ii) n 2 /2 ~ 2 (n k 1), ou (n k 1) s2/2 ~ 2 (n k 1)
(iii) e 2 (ou s2) so independentes.
Material elaborado pelo Prof. Csar Gonalves de Lima

112

Prova:
-1
(i) Desde que uma combinao linear de y da forma = Ay, A= (XX) X
-1
uma matriz de constantes, pelo Teorema 4.4A(ii), ~ Nk+1[, 2(XX) ].

Os resultados (ii) e (iii) seguem do Corolrio 2 do Teorema 5.5A e do Corolrio 1


do Teorema 5.6A , respectivamente.
Uma outra propriedade dos estimadores e 2 , sob a suposio de normalidade, que eles so estatsticas suficientes. Intuitivamente, uma estatstica suficiente
para um parmetro se ela sumariza (resume) toda a informao na amostra sobre o
parmetro. Para maiores detalhes, ver Hogg & Craig (1995, pg. 318).
Teorema 7.6C Se y ~ Nn(X, 2I), ento e 2 so conjuntamente suficientes para
e 2.

Prova: ver Rencher (pg. 144)


Desde que e 2 so suficientes, nenhum outro estimador pode melhorar a informao que eles extraem da amostra para estimar e 2.
Teorema 7.6D. Se y ~ Nn(X, 2I), ento e s2 tm a menor varincia dentre todos
os estimadores no viesados de e 2.

Prova: ver Graybill (1976, pg. 176)


Corolrio 1. Se y ~ Nn(X, 2I), ento o BLUE de a a , onde o estimador
de mxima verossimilhana de dado em (7.49).

7.7. O COEFICIENTE DE DETERMINAO R2 NA REGRESSO COM xFIXOS

De (7.40), temos que a soma de quadrados total corrigida, SQT =

( yi y )

, pode

i =1

ser particionada como:


n

( yi y )
i =1

= ( 1 )'(Xc)y + SQRes

(7.54)

SQT = SQReg + SQRes


onde SQReg a soma de quadrados da regresso, que pode ser escrita como

SQReg = ( 1 )'(Xc)y = ( 1 )'(Xc)(Xc) 1 = (Xc 1 )(Xc 1 )

(7.55)

Material elaborado pelo Prof. Csar Gonalves de Lima

113
Nesta forma fica evidente que SQReg devida a 1 = [1, ..., k] (sem o 0). A proporo da soma de quadrados total devida regresso :

R2 =

( X c 1 )' ( X c 1 )

( yi y )2
n
i =1

SQReg
SQT

(7.56)

que conhecida como coeficiente de determinao ou quadrado da correlao mltipla. Esse quociente uma medida da qualidade de ajuste do modelo e indica quo
bem os xs predizem os ys. Uma forma alternativa para a expresso (7.56) :

R2 =

' X' y n y 2
y' y n y 2

(7.57)

A raiz quadrada positiva R, obtida de (7.56), chamada de coeficiente de correlao


mltipla. Se os xs fossem variveis aleatrias, R estimaria a correlao mltipla populacional.
Podemos listar as seguintes propriedades de R2 e R:
1. 0 R2 1. Se todos os s forem nulos, com exceo de 0, R2 = 0. Se todos os ys
forem pontos da superfcie ajustada, isto , se yi = y i , i = 1, 2, ..., n, ento R2 = 1.
2. R = ryy , isto , o coeficiente de correlao mltipla igual correlao simples
entre os yis observados e os y i s ajustados.
3. A incluso de uma nova varivel x no modelo aumenta (nunca diminui!) o valor
de R2.
4. Se 0 = 1 = ... = k = 0, ento

E(R2) =

k
n 1

(7.58)

5. R2 no pode ser particionado em k componentes, cada um atribudo a um xj, a


menos que os xs sejam mutuamente ortogonais, isto , a menos que

n
i =1

( xij x j )( xim x m ) = 0, para j m

6. R2 invariante a transformaes de posto completo sobre os xs e a mudanas de


escala sobre y. Mas no invariante a uma transformao linear conjunta incluindo
y e os xs.
Obs: Nas propriedades 3 e 4 ns vemos que se k uma frao relativamente grande
de n, possvel ter um valor grande de R2 sem qualquer significado. Neste caso, os
xs que no contribuem para predizer y podem parecer importantes (num exemplo
particular), e a equao de regresso estimada pode no ser um estimador til do
modelo populacional. Para corrigir esse abuso, um R2 ajustado, denotado Raj2 , foi
proposto por Ezekiel (1930).
Material elaborado pelo Prof. Csar Gonalves de Lima

114
Para ser calculado, devemos subtrair k/(n 1) de R2, para corrigir o vis quando 0
= = k = 0. Como esta correo pode fazer Raj2 muito pequeno quando os s
forem grandes, uma modificao feita para que Raj2 = 1 quando R2 = 1. Assim Ra2
definido como:

k
2
(n 1)
R
(n 1)R 2 k
n 1

2
Raj =
=
n k 1
n k 1

(7.59)

Exemplo 7.7. Para os dados da Tabela 7.1 no Exemplo 7.2, obtemos R2 por (7.57) e
Raj2 por (7.59).
' X' y n y 2
814.5410 12(7.5) 2
= 0.8457
=
R2 =
y' y n y 2
840 12(7.5) 2

Raj2 =

(n 1)R 2 k
n k 1

11(0.8457) 2
= 0.8114
9

Usando (7.45) e (7.47), podemos expressar R2 em termos das varincias e covarincias amostrais:
-1
-1
(s y x )' S -1
( X c 1 )' ( X c 1 ) (s y x )' S xx (n 1)S xx S xx s y x
xx s y x
2
=
R = n
=
(7.60)
n
2
2
2
s
(
)
y

y
y
i =1 i
( yi y )
i =1

Esta forma de R vai facilitar uma comparao com o R2 para o caso de x-aleatrio na
Seo 10.3.
Geometricamente, R o co-seno do ngulo formado entre y e y corrigido
para suas mdias. A mdia de y1 , y 2 ..., y n y , que mesma mdia de y1, y2, ..., yn.
Assim, as formas centradas de y e y so y y j e y y j, respectivamente. O ngulo
entre eles mostrado na Figura 7.5 [Vale notar que y j est no espao estimao porque um mltiplo da primeira coluna de X].
O co-seno do ngulo igual raiz quadrada de R2, visto que o co-seno entre
y e y dado por:
cos =

(y y j)' (y y j)
[(y y j)' (y y j)][(y y j)' (y y j)]
(y y j)' (y y j)
[(y y j)' (y y j)]

=R

(7.61)
(7.62)

Material elaborado pelo Prof. Csar Gonalves de Lima

115

Figura 7.5. Correlao mltipla R como o co-seno do ngulo entre y y j e y y j

7.8. MNIMOS QUADRADOS GENERALIZADOS: cov(y) = 2V


Vamos considerar os modelos nos quais os ys so correlacionados ou tm diferentes
varincias, de tal modo que cov(y) 2I. Na regresso linear, grandes valores de xi
podem levar a grandes valores de var(yi). Se y1, y2, , yn ocorrem de modo seqencial ao longo do tempo, eles podem ser correlacionados. Para tais casos, usamos o
modelo:
Y = X + ,

cov(y) = = 2V

E(y) = X,

(7.63)

Onde X tem posto coluna completo e V uma matriz positiva definida conhecida. O
uso da notao = 2V, permite a estimao de 2 em alguns contextos convenientes. A matriz V tem n(n1)/2 + n elementos distintos. Se a matriz V desconhecida
os seus elementos no podem ser estimados por uma amostra de n observaes. Em
certas situaes, assumimos uma estrutura mais simples para V, para permitir a sua
estimao.
7.8.1. Estimao de e 2 quando cov(y) = = 2V
Teorema 7.8A. Seja y = X + , E(y) = X e cov(y) = cov() = = 2V, onde X de
posto completo e V uma matriz positiva definida conhecida. Para este modelo, obtemos os seguintes resultados:
(i) O melhor estimador no viesado (BLUE) de dado por

= X' V 1X

X' V 1 y

(7.64)

(ii) A matriz de covarincias de

cov( ) = 2 X' V 1X

(7.65)

Material elaborado pelo Prof. Csar Gonalves de Lima

116
(iii) Um estimador no viesado de 2

s2 =

(y X )' V -1 (y X )
n k 1

y'[V 1 V 1X( X' V 1 X) 1 X' V 1 ]y


=
n k 1

onde dado por (7.64).

(7.66)
(7.67)

Prova: ver Rencher pg. 149.


Teorema 7.8B. Se y ~ Nn(X, 2V), onde X n x (k+1) de posto k + 1 e V uma
matriz positiva definida conhecida, ento os estimadores de mxima verossimilhana
de e 2 so:

= X' V 1X

X' V 1 y

(y X )' V -1 (y X )
=
n
2

Prova: ver Rencher, pg. 150.

Exemplo 7.8.1. Consideremos o modelo centrado apresentado em (7.33)



y = [j, Xc] +
1
com a seguinte estrutura de covarincias
= 2[(1 )I + J] = 2V
1 L
1 L

= 2 M M
M

L 1

(7.68)

na qual todas as variveis tm a mesma varincia 2 e todos os pares de variveis tm


a mesma correlao . Essa estrutura assumida em certos delineamentos com medidas repetidas e correlao intraclasse constante. De (7.64), ns temos que:


= = X' V 1X
1

X' V 1 y

Para o modelo com X = [j, Xc] a matriz X' V 1 X dada por:


Material elaborado pelo Prof. Csar Gonalves de Lima

117
j' V -1 j
j' V -1 X c
X' V X =

-1
-1
( X c )' V j ( X c )' V X c
1

A inversa da matriz V = (1 )I + J dada por

V 1 = a(I bJ)

(7.69)

onde a = 1/(1 ) e b = 1/[1 + (n 1)]. Da ns obtemos:

0'
bn

X' V 1X =

0 a( X c )' X c

(7.70)

bn y
X' V 1y =

a ( X c )' y

(7.71)

Finalmente, obtemos o estimador de como:


= = X' V 1X
1

X' V 1 y =
-1

[( X c )' ( X c )] ( X c )' y

que a mesma expresso que (7.37) e (7.38).


Concluso: os estimadores de mnimos quadrados ordinrios so BLUE para um
modelo de regresso com essa particular estrutura de covarincias com varincias
iguais e correlaes iguais (mnimos quadrados generalizados).

Exemplo 7.8.1a. Ajustando o modelo yi = 0 + 1xi1 + 2xi2 + i, com a estrutura de


covarincias cov(y) = 2I, aos dados do Exemplo 7.2, obtemos:
5.3754
= 3.0118 e cov ( *) =

1.2855
*

0.6871 0.6470
2.7574
0.6871
0.4584 0.3146

0.6470 0.3146
0.2365

Usando os resultados do Teorema 7.8A para ajustar o modelo com estrutura de covarincias cov(y) = 2[(1 )I + J] = 2V, obtemos:
5.3754
= 3.0118 e cov ( ) =

1.2855

0.6871 0.6470
3.4646
0.6871
0.4584 0.3146

0.6470 0.3146
0.2365

Pode-se perceber que as estimativas dos parmetros do modelo de regresso so


iguais ( * = ). As matrizes de cov ( ) e cov ( *) tambm so iguais, com exceo
da var( 0 ).
Material elaborado pelo Prof. Csar Gonalves de Lima

118

7.8.2. Falha de especificao da estrutura de erros.


Suponhamos que o modelo correto y = X + , com matriz de covarincia cov(y) =
2V, como em (7.63), e ns tenhamos usado equivocadamente o estimador de mni1
mos quadrados * = (XX) Xy em (7.6), que ns denotamos por * para distinguir
1
1
1
do estimador correto, = (XV X) XV y. O vetor mdia e a matriz de covarincias de * so:

E( *) =

(7.72)
1

cov( *) = 2(XX) XVX(XX)

(7.73)

Podemos perceber que os estimadores de mnimos quadrados ordinrios so no viesados, mas a matriz de covarincias difere de (7.65). Geralmente, as varincias dos
j s calculadas em (7.73) so maiores que as varincias calculadas em cov( ) =
1

2(XV X) , quando a suposio cov(y) = 2V adequada.

Exemplo 7.8.2. (ver resultados na pg. 152) Suponhamos um modelo de regresso


linear yi = 0 + 1xi + i, onde var(yi) = 2xi e cov(yi, yj) = 0, para i j, ento

cov(y) = 2V = 2diag[x1, x2, ..., xn]


Este um exemplo de mnimos quadrados ponderados, que se refere aos casos onde
V diagonal com funes dos xs na sua diagonal.

Exemplo 7.8.2a. Vamos ajustar o modelo de regresso linear yi = 0 + 1xi + i, onde


var(yi) = 2 xi e cov(yi, yj) = 0, para i j. para os seguintes dados:
x
y

2
2

5
5

6
5

7
8

7
6

8
9

9
7

9
11

10
7

11
15

13
10

15
17

Avaliando o grfico de disperso (Figura 7.3) podemos perceber que uma reta
parece explicar bem o comportamento da resposta y em funo de x. Percebe-se tambm que a variabilidade das respostas aumenta com o valor dos xs.
Ajustando o modelo de regresso linear yi = 0 + 1xi + i, com cov(y) = 2I,
obtemos os seguintes resultados:
0.4343
* =
e cov ( *) =

1.0511

3.0317 0.3080
0.3080
0.0362

Usando os resultados do Teorema 7.8A para ajustar o modelo (correto!) yi = 0


+ 1xi + i, com cov(y) = 2V, onde V = diag[x1, x2, ..., x12], obtemos:
Material elaborado pelo Prof. Csar Gonalves de Lima

119
0.1787

=
e cov ( ) =
1
.
0210

1.1286 0.1328
0.1328
0.0203

Podemos notar que: (i) as estimativas do vetor de parmetros so diferentes; (ii) as


varincias (e a covarincia) das estimativas dos parmetros do modelo no adequado
( *) foram superiores s do modelo adequado ( ).

18
16

14
12
10
8
6
4
2
0
0

10

12

14

16

x
Figura 7.3. Grfico de disperso dos dados do Exemplo 7.8.2a.

7.9. Falha na especificao do modelo


Na seo 7.8.2 ns discutimos algumas conseqncias da falha na especificao de
cov(y). Agora consideraremos as conseqncias de falha na especificao de E(y).
Para estruturar a discusso, suponhamos o modelo y = X + , que pode ser particionado como:

y = X + = [X1 X2] 1 +
2
= X11 + X22 +

(7.81)

Se deixarmos X22 fora do modelo quando ele deveria estar includo (isto ,
quando 2 0), ns estaremos subestimando (underfitting) o modelo. Agora, se incluirmos X22 quando ele deveria ser excludo (isto , quando 2 = 0), estaremos superestimando (overfitting) o modelo.

Material elaborado pelo Prof. Csar Gonalves de Lima

120

Teorema 7.9A. Se ajustarmos o modelo y = X1 1 + * (modelo reduzido) quando o


modelo correto y = X11 + X22 + , com cov(y) = 2I, ento o vetor de mdias e a
-1
matriz de covarincias do estimador de 1 = (X1 X1) X1y so:
1
(i) E( ) = 1 + A2, onde A = (X1X1) X1X2
(7.83)
1

1
(ii) cov( 1 ) = 2(X1X1)

(7.84)

Prova: ver Rencher, pg. 154.


Assim, percebemos que o estimador 1 viesado por uma quantidade que depende
dos valores de xs de X1 e de X2. A matriz A chamada de matriz alias.

Corolrio 1. Se X1 X2 = 0, isto , se as colunas de X1 so ortogonais s colunas de


X2, ento o estimador 1 no viesado, ou seja, E( 1 ) = 1.
Seja x0 = [1, x01, x02, ..., x0n] um valor particular de x para o qual desejamos
estimar E(y0) = (x0). Se particionarmos x0 = [(x01), (x02)] correspondente partio X = [X1, X2] e = [1, 2], ento ns podemos usar y 0 = (x0) ou y 01 = (x01)
para estimar (x0).
1

1
Teorema 7.9B. Seja y 01 = (x01) 1 , onde 1 = (X1 X1) X1y. Ento se 2 0 (subestimao), ns podemos expressar E( y 01 ) em termos de (x01)1 ou (x0):
E( y ) = E[(x01) ] = (x01)(1 + A2) (x01)1
(7.85)
01

E( y 01 ) = E[(x01) 1 ] = (x0) (x02 Ax01)2 (x0)

(7.86)

Ou seja, quando est presente a subestimao, (x01) 1 viesado para estimar (x01)1
e (x0). Quando o ocorre a superestimao, (x0) s um estimador no viesado
desde que E[(x0) ] = (x0) = (x01)1 + (x02)2, que igual a (x01)1 se 2 = 0.
1
Teorema 7.9C Seja = (XX) Xy para o modelo completo particionado como


= 1

2
1
e seja 1 = (X1X1) X1y o estimador para o modelo reduzido. Ento:

Material elaborado pelo Prof. Csar Gonalves de Lima

121
1

(i) cov( 1 ) cov( 1 ) = AB A, que uma matriz positiva definida, onde A =


1
(X1X1) X1X2 e B = X2X2 X2X1A. Assim, var( ) > var( ), e a subestij

mao reduz a varincia dos j s, ou a superestimao aumenta a varincia dos


s.
j

(ii) var[(x01) 1 ] var[(x01) 1 ]


(iii) var[(x0) ] var[(x01) 1 ].

Prova: ver Rencher, pg. 155-156


Note que em (ii) e (iii), o lado esquerdo da desigualdade envolve o modelo completo
e o lado direito, o modelo reduzido. Assim, a subestimao reduz a varincia dos valores preditos e a superestimao, aumenta.

Resumindo:
(i) var( j ) no modelo completo maior que var( j ) no modelo reduzido. A subestimao reduz a varincia dos s mas introduz um vis nas estimativas. Por
j

outro lado, a superestimao aumenta a varincia dos j s.

(ii) var( y 01 ) baseada no modelo reduzido (subestimao) menor que aquela estimada por (x01) 1 , onde 1 vem do modelo completo.
(iii) var( y 0 ) baseada no modelo completo (superestimao) maior que var( y 01 ) baseado no modelo reduzido.

Teorema 7.9D. Se y = X11 + X22 + o modelo correto, ento o modelo reduzido


y = X1 1 + * (subestimao), onde X1 n x (p+1) com p < k, o estimador da varincia

s12 = [(y X1 1 )(y X1 1 )]/(n k 1)

(7.87)

tem valor esperado


1

E( s12 ) = 2 + (X22)[I X1(X1X1) X1]X22 / (n p 1)

(7.88)

Prova: ver Rencher, pg. 157.


Obs: Como a forma quadrtica em (7.88) positiva semidefinida, s2 viesado para
cima na presena de subestimao.
Material elaborado pelo Prof. Csar Gonalves de Lima

122
Resumindo:

A subestimao (ajustar o modelo reduzido quando o completo o correto) leva a


s viesados, y s viesados e s2 viesado.
j

A superestimao (ajustar o modelo completo quando o reduzido o correto) aumenta as varincias dos j s e dos y s

Exemplos 7.9(a) e 7.9(b) Ver grficos e comentrios nas pginas 158 e 159.

7.10. ORTOGONALIZAO
Teorema 7.10A. Se X1X2 = 0, ento o estimador de 1 no modelo completo y = X11
+ X22 + o mesmo estimador de 1 no modelo reduzido y = X1 1 + *.

Prova: ver Rencher, pg. 160.


Vamos considerar agora, um processo de ortogonalizao para melhorar a compreenso do significado dos coeficientes parciais de regresso.
No Exemplo 7.2 ns ilustramos a mudana nas estimativas de um coeficiente
de regresso quando um outro x adicionado no modelo. Vamos usar esses mesmos
dados para examinar essas mudanas. A equao de predio obtida nos Exemplos
7.2 e 7.3.1(a) foi

y = 5.3754 + 3.0118x1 1.2855x2

(7.91)

e a regresso parcial negativa entre y e x2 foi mostrada na Figura 7.2. Usando a ortogonalizao, podemos dar um significado adicional ao termo 1.2855x2.
Para adicionar x2 equao de predio contendo somente x1, ns precisamos
determinar quanto da variao em y devido x2 depois que o efeito de x1 foi explicado, e devemos tambm corrigir para a possvel relao existente entre x1 e x2. Podemos fazer isso examinando a relao entre a variao residual depois da regresso de
y sobre x1 e a variao residual depois da regresso de x2 sobre x1. Esse processo tem
trs passos:

1. Fazer a regresso de y sobre x1 e calcular os resduos. A equao de predio :

y = 1.8585 + 1.3019x1

(7.92)

e os resduos yi y i ( x1 ) esto apresentados na Tabela 7.2, onde y i ( x1 ) indica


que y est baseado na regresso de y sobre x1, como em (7.92)
Material elaborado pelo Prof. Csar Gonalves de Lima

123

2. Fazer a regresso de x2 sobre x1 (incluindo a coluna de uns!). A equao de


predio :
x 2 = 2.7358 + 1.3302 x1
(7.93)
e os resduos x2i x 2i ( x1 ) esto na Tabela 7.2, onde x 2i ( x1 ) indica que foi feita
a regresso de x2 sobre x1, como em (7.93).
3. Agora, fazemos a regresso de y y ( x1 ) sobre x2 x 2 ( x1 ) (sem a coluna de
uns), que fornece:
67
8
y y = 1.2855[x2 x 2 ]
(7.94)
No existe um intercepto em (7.94) porque os dois conjuntos de resduos tm
mdias nulas.
Em (7.94) ns conseguimos uma explicao mais clara do significado do coeficiente de regresso parcial 1.2855 do que em (7.91). Ns usamos a poro no explicada de x2 (depois de retirado o efeito de x1) para predizer a poro no explicada
de y (depois de retirado o efeito de x1).
Desde que x2 x 2 ( x1 ) ortogonal a x1, ajustando a regresso de y y ( x1 ) sobre
x2 x 2 ( x1 ) proporciona o mesmo coeficiente, 1.2855, que quando ajustamos a regresso de y sobre x1 e x2. Assim, 1.2855 representa o efeito adicional de x2 alm do
efeito de x1 e tambm depois de levar em conta a sobreposio entre x1 e x2 em seu
efeito sobre y. A ortogonalidade de x1 e x2 x 2 ( x1 ) torna possvel e simplificada essa
quebra de efeitos.

Tabela 7.2 Dados da Tabela 7.1 e resduos

x1

x2

y y ( x1 )

x2 x 2 ( x1 )

2
3
2
7
6
8
10
7
8
12
11
14

0
2
2
2
4
4
4
6
6
6
8
8

2
6
7
5
9
8
7
10
11
9
15
13

0.1415
-1.4623
-2.4623
2.5377
-1.0660
0.9340
2.9340
-2.6698
-1.6698
2.3302
-1.2736
1.7264

-0.7358
0.6038
1.6038
-0.3962
0.9434
-0.0566
-1.0566
-0.7170
0.2830
-1.7170
1.6226
-0.3774

Material elaborado pelo Prof. Csar Gonalves de Lima

124
Substituindo y ( x1 ) e x 2 ( x1 ) em (7.94) obtemos:
67
8
y y = y ( x1 , x 2 ) y ( x1 ) = 1.2855[x2 x 2 ( x1 ) ]

ou
( y 1.8585 + 1.3019x1) = 1.2855[x2 (2.7358 + 1.3302 x1)]

(7.95)

que se reduz a

y = 5.3754 + 3.0118x1 1.2855x2

(7.96)

que a mesma equao de (7.91). Se fizermos a regresso de y (ao invs do resduo


y y ) sobre x2 x 2 ( x1 ) , obteremos 1.2855x2, mas no conseguiremos obter 5.3754 +
3.0118x1.
A correlao amostral entre os resduos y y ( x1 ) e x2 x 2 ( x1 ) igual correlao parcial amostral entre y e x2 com x1 mantida fixa:

ry 2.1 = ry y , x2 x2

(7.97)

Agora, vamos considerar o caso geral com o modelo completo:

y = X11 + X22 +
e o modelo reduzido

y = X1 1 + *
A seguir, usaremos a abordagem de ortogonalizao para obter um estimador
de 2, seguindo os mesmo trs passos da ilustrao com x1 e x2, quais sejam:

1. Fazer a regresso de y sobre X1 e calcular os resduos y y (X1), onde y (X1) =


1
X1 = X1(X1 X1) X1y
1

2. Fazer a regresso das colunas de X2 sobre X1 e calcular os resduos X2.1 = X2


2 (X1). Se X2 = [x21,..., x2j, ..., x2q], ento o vetor de coeficientes de regresso
X
1
1
de x2j sobre X1 bj = (X1 X1) X1x2j e x 2 j = X1(X1X1) X1X2 = X1A, onde A
1

= (X1 X1) X1X2 a matriz alias definida em (7.83). Note que X2.1 = X2
2 (X1) ortogonal a X1, isto , X1X2.1 = 0. Usando a matriz alias A, a matriz
X
de resduos pode ser expressa como
2 (X1)
X2.1 = X2 X

(7.99)
1

= X2 X1(X1X1) X1 X2
= X2 X1A

(7.100)
Material elaborado pelo Prof. Csar Gonalves de Lima

125
2 (X1). Desde que X2.1 ortogonal
3. Fazer a regresso de y y (X1) sobre X2 X
a X1, ns obteremos o mesmo que no modelo completo y = X1 + X2 .
2

Adaptando a notao de (7.94) e (7.95) isso pode ser expresso por:

y (X1, X2) y (X1) = X2.1 2

(7.101)

Se substituirmos y (X1) = X1 1 e X2.1 2 = X2 X1A em (7.101) e usarmos o


resultado 1 = 1 + A 2 como o estimador em (7.83), obtemos:

y (X1, X2) = X1 1 + (X2 X1A) 2 = X1( 1 + A 2 ) + (X2 X1A) 2


= X1 1 + X2 2
que anlogo a (7.96). Este resultado confirma o fato de que a ortogonalidade
de X1 e X2.1 leva ao estimador 2 em (7.101).

EXERCCIOS

Ver Exerccios nas pg. 163-169

Material elaborado pelo Prof. Csar Gonalves de Lima

126

CAPTULO 8. REGRESSO MLTIPLA: TESTES DE HIPTESES E INTERVALOS DE CONFIANA.


Neste captulo consideraremos testes de hipteses e intervalos de confiana para os
parmetros 0, 1, ..., k de no modelo y = X + . Tambm assumiremos neste
captulo que y ~ Nn(X, 2I), onde X n x (k + 1) de posto k + 1 < n. Os xs so constantes fixadas, como no Captulo 7.

8.1. TESTE DE REGRESSO GLOBAL


Vamos comear com o teste de hiptese de que nenhum dos xs prediz y. Esta hiptese pode ser escrita como:
H0: 1 = 0, onde 1 = [1, ..., k].
Note que no queremos testar H0: = 0, onde = [0, 1, ..., k] = [0, 1].
Para obter um teste de H0: 1 = 0 versus H1: 1 0, ns usamos o modelo
centrado (7.33),


y = [j, Xc] +
1
onde

x11 x1
x x
1

Xc = I J X1 = 21 1
M
n

xn1 x1

x12 x2 L x1k xk
x22 x 2 L x2 k x k

M
M

xn 2 x2 L x nk x k

e X1 contem todas as colunas de X, exceto a primeira. A soma de quadrados total


(corrigida) pode ser particionada como

SQT =

i =1

2
( yi y ) = ( 1 )'(Xc)y + ( yi y )2 ( 1 )' ( Xc )' y
i =1

= ( 1 )'(Xc)y + SQRes = SQReg + SQRes

(8.1)

onde SQRes dada em (7.40) e a SQReg = ( 1 )'(Xc)y claramente devida a 1.


Para construir um teste-F envolvendo SQReg e SQRes, primeiro expressamos
as SQs como formas quadrticas em y, para depois usar os teoremas do Captulo 5
para mostrar que essas SQs tm distribuio qui-quadrado e so independentes.

127
Usando

( yi y )

i =1

e SQRes =

( yi y )

i =1

1
1

= y' I J y de (5.2), 1 = [(Xc) Xc] (Xc)y de (7.38)


n

( 1 )'(Xc)y em (7.40), ns podemos escrever (8.1) como:

y' I J y = SQReg + SQRes


n

-1
-1
1

= yXc[(Xc) Xc] (Xc)y + y' I J y yXc[(Xc) Xc] (Xc)y


n

= yAy + y I J A y
n

(8.2)

onde A = Xc[(Xc) Xc] (Xc)


1
1

Teorema 8.1A As matrizes I J , A = Xc[(Xc) Xc] (Xc) e


n

seguintes propriedades:

I J A tm as
n

(i) A I J = A.
n

(8.3)

(ii) A idempotente e de posto k.


1

(iii) I J A idempotente e de posto n k 1.


n

(iv) A I J A = 0
n

(8.4)

Teorema 8.1B Se y ~ Nn(X, 2I), ento SQReg/2 = ( 1 )(Xc)Xc 1 /2 e SQRes/2


n

= ( yi y )2 ( 1 )' ( X c )' X c 1 2 tm as seguintes distribuies:


i =1

(i) SQReg/2 ~ 2 (k, 1), onde 1 = A /22 = (1)(Xc)Xc1 /22


(ii) SQRes/2 ~ 2 (n k 1)
Teorema 8.1C Se y ~ Nn(X, 2I), ento SQReg e SQRes so independentes, onde
SQReg e SQRes esto definidas em (8.2) e Teorema 8.1B.

128

Teorema 8.1D Se y ~ Nn(X, 2I), a distribuio de


F=

SQReg (k 2 )
2

SQRes [(n k 1) ]

SQReg (k )
SQRes (n k 1)

(8.5)

a seguinte:

(i) Se H0: 1 = 0 falsa, ento F ~ F(k, n k 1, 1), onde 1 = (1)(Xc)Xc1/22


(ii) Se H0: 1 = 0 verdadeira, ento 1 = 0 e F ~ F(k, n k 1).
Ento, rejeitaremos H0: 1 = 0 se F > F(, k, n k 1), onde F(, k, n k 1)
o percentil de ordem 100 da distribuio F-central. Alternativamente, um p-value
pode ser calculado para o teste. O p-value a rea da distribuio F-central calculado
para valores superiores ao valor F calculado, isto , a probabilidade de ocorrer valores superiores ao F calculado.
Os resultados do teste podem ser resumidos na Tabela (8.1) de anlise de varincia. Se H0: 1 = 0, as duas esperanas de quadrados mdios so iguais a 2, e ns
esperamos que o F seja prximo de 1. Se 1 0, ento E[SQReg/k] > 2, porque
XcXc positiva definida, e ns esperamos encontrar um F superior a 1. S rejeitaremos H0 para valores muito grandes da estatstica F.

Tabela 8.1 Anlise de varincia para o teste-F de H0: 1 = 0


C. Variao

g.l.

Devida a 1

S.Q.
SQReg = ( 1 )'(Xc)y

Erro

nk1 SQRes = SQT SQReg

Total

n 1 SQT =

E(Q.M.)
Q.M.
SQReg
2 + 1XcXc1 / k
k
SQRes
2
(n k 1)

( yi y )

i =1

Ns tambm podemos expressar SQReg e SQRes para o teste para H0: 1 = 0, usando
o modelo no centrado y = X + em (7.4):
SQReg = Xy n y 2 e SQRes = yy Xy

(8.6)

que so as mesmas SQs que aparecem na Tabela 8.1.Assim, subtrair n y 2 na SQReg


corresponde a corrigir a SQ para a mdia (ou para 0).

129

Exemplo 8.1 Usando os dados da Tabela 7.1, ilustraremos o teste de H0: 1 = 0, onde
1 = [1, 2]. J sabemos que Xy = [90, 482, 872] e = [5.3754, 3.0118, 1.2855]
As outras quantidades importantes, podem ser calculadas facilmente: yy = 840,
Xy = 814,5410, n y 2 = 675. Ento, por (8.6) temos que:

SQT = yy n y 2 = 840 675 = 165,0000


SQReg = Xy n y 2 = 814,5410 675 = 139,5410
SQRes = yy Xy = 840 814,5410 = 25,4590
Esses resultados podem ser colocados na Tabela 8.2 de anlise de varincia. Como F
= 24.665 > 4.26 = F(5%, 2, 9), rejeitamos a hiptese H0: 1 = 0 e conclumos que, ao
menos, um dos 1 ou 2 no nulo. O p-value 0.000223.

Tabela 8.2. ANOVA para o teste H0: 1 = 0 para os dados do Exemplo 7.1.
C. Variao
Devida a 1
Erro
Total

g.l.
2

S.Q.
139,5410

Q.M.
69,7705

9
11

25,4590
165,0000

2,8288

F
24,665

8.2. TESTE SOBRE UM SUBCONJUNTO DOS s


Em alguns casos, desejamos testar a hiptese que um subconjunto dos xs no til
em predizer y. Um exemplo simples testar H0: j = 0 para um nico j. Se a hiptese H0 rejeitada, ns mantemos j xj no modelo. Como uma outra ilustrao, consideremos o modelo (7.2)

y = 0 + 1x1 + 2x2 + 3 x12 + 4 x22 + 5x1x2+


para o qual desejamos testar a hiptese de que H0: 3 = 4 = 5 = 0.
Sem perda de generalidade, assumiremos que os s a serem testados foram
arranjados por ltimo em , com um correspondente arranjo das colunas de X, Ento
e X podem ser particionadas de acordo com (7.81) e o modelo para as n observaes pode ser escrito como


y = X + = [X1 X2] 1 +
2
= X11 + X22 +

(8.7)

onde 2 contem os s que sero testados. O intercepto 0 dever ser includo em 1.

130
A hiptese de interesse H0: 2 = 0. Se designarmos o nmero de parmetros
em 2 por h, ento X2 n x h, 1 (k h + 1) x 1 e X1 n x (k h + 1). Assim, 1 =
[0, 1, ..., k-h] e 2 = [k-h+1, ..., k]. No exemplo do incio da seo, teramos os
vetores de parmetros 1 = [0, 1, 2] e 2 = [3, 4, 5]. Vale notar que 1 em (8.7)
diferente de 1 em (8.1), quando foi particionado em = [0, 1] e 1 era constitudo de todos os s, com exceo de 0.
Para testar H0: 2 = 0 versus H1: 2 0, ns usamos uma abordagem modelo
completo versus modelo reduzido. O modelo completo dado por (8.7). Sob a hiptese H0: 2 = 0, o modelo reduzido fica:

y = X1 1 + *

(8.8)

Ns usamos a notao 1 e * como na Seo 7.9 porque, geralmente, no modelo re-

duzido, 1 e * sero diferentes de 1 e no modelo completo (a menos que as matrizes X1 e X2 sejam ortogonais). O estimador de no modelo reduzido (8.8) =
1

(X1X1) X1y que, em geral, no o mesmo dos primeiros (k h 1) elementos de


1
= (XX) Xy do modelo completo (8.7) (a menos que X1 e X2 sejam ortogonais).
Para compararmos o ajuste do modelo completo (8.7) com o ajuste do modelo
reduzido (8.8), ns adicionamos e subtramos Xy e 1 X1y soma de quadrados
total yy obtendo a seguinte partio:

yy = (yy Xy) + ( Xy 1 X1y) + 1 X1y


= SQRes + SQ(2 | 1) + SQ( 1 )

(8.9)
(8.10)

onde SQ( 1 ) = 1 X1y do modelo reduzido (8.8) e SQ(2 | 1) = Xy 1 X1y


a soma de quadrados de regresso extra devido a 2, depois de ajustar para 1.
Note que SQ(2 | 1) = Xy 1 X1y tambm pode ser expressa como

SQ(2 | 1) = ( Xy n y 2 ) ( 1 X1y n y 2 )
= SQReg(completo) SQReg(reduzido)
que a diferena entre a soma de quadrados de regresso do modelo completo e a do
modelo reduzido.
Se H0: 2 = 0 verdadeira, podemos esperar SQ(2 | 1) pequena, de modo que
yy em (8.10) seja basicamente composto por SQ( 1 ) e SQRes. Se 2 0, esperamos
que SQ(2 | 1) seja grande e explique a maior parte de yy. Assim ns estamos testando H0: 2 = 0 no modelo completo, no qual no existe qualquer restrio sobre 1.
No estamos ignorando 1 (assumindo que 1 = 0), mas estamos testando H0: 2 = 0
na presena de 1, isto , alm do que 1 contribui para yy.

131
Para desenvolver uma estatstica baseada em SQ(2 | 1), precisamos escrever
1
1
(8.9) em termos de formas quadrticas de y. Usando = (XX) Xy e 1 = (X1X1)
X1y, ficamos com:
1

yy = yy yX(XX) Xy + yX(XX) Xy yX1(X1X1) X1y


1

+ yX1(X1X1) X1y
1

= y[I X(XX) X]y + y[X(XX) X X1(X1X1) X1]y


1

+ yX1(X1X1) X1y

(8.11)

= y(I A1)y + y(A1 A2)y + yA2y

(8.12)

onde A1 = X(XX) X e A2 = X1(X1X1) X1. Vale lembrar que j mostramos que a


matriz (I A1) idempotente, com posto n k 1, onde k + 1 igual ao posto de X e
tambm, ao nmero de elementos de .
1

Teorema 8.2A A matriz A1 A2 = X(XX) X X1(X1X1) X1 idempotente com


posto h, onde h o nmero de elementos em 2.

Prova: ver Rencher pg. 177-178.


Teorema 8.2B Se y ~ Nn(X, 2I) e A1 e A2 esto definidas em (8.11) e (8.12), ento
(i) y(I A1)y/2 ~ 2 (n k 1)
(ii) y(A1 A2)y/2 ~ 2 (h, 1), onde
1

1 = 2[X2X2 X2X1(X1X1) X1 X2]2/22


(iii) y(I A1)y e y(A1 A2)y so independentes.
Teorema 8.2C Seja y ~ Nn(X, 2I) e definindo uma estatstica-F como segue:

F=
=

y' ( A1 A 2 ) y h
SQ( 2 | 1 ) h
=
y' (I A1 ) y (n k 1) SQRes (n k 1)

( ' X' y ' (X )' y ) h


(y' y ' X' y ) (n k 1)

(8.16)

1
1
onde = (XX) Xy do modelo completo y = X + e 1 = (X1X1) X1y, do

modelo reduzido y = X1 1 + *. A distribuio de F em (8.16) :


(i) Se H0: 2 = 0 falsa, ento F ~ F(h, n k 1,1),
1

onde 1 = 2[X2X2 X2X1(X1X1) X1 X2]2/22


(ii) Se H0: 2 = 0 verdadeira, ento 1 = 0 e F ~ F(h, n k 1)

132
De forma similar ao teste desenvolvido na Seo (8.1), rejeitamos H0 se F
F(, h, n k 1), onde F(, h, n k 1) o percentil de ordem (100 ) da distribuio F-central. Alternativamente, ns rejeitamos H0 se p-value < . Desde que
-1
X2X2 X2X1(X1X1) X1 X2 positiva definida, 1 > 0 se H0: 2 = 0 falsa. Isso d
uma justificativa para rejeitar H0 para valores grandes de F.
Resumimos os resultados da anlise de varincia do teste-F na Tabela 8.3, onde
1 (k h + 1) x 1, 2 h x 1, X1 n x (k h + 1) e X2 n x h. Os valores esperados
dos quadrados mdios so dados por
1

E[ SQ( 2 | 1 ) h ] = 2 + 2[X2X2 X2X1(X1X1) X1 X2]2/ h

(8.17)

E[SQRes/(n k 1)] = 2
Mais uma vez, vale notar que se H0 verdadeira, os dois valores esperados so iguais
a 2 e, se H0 falsa, E( SQ( 2 | 1 ) h ) > E[SQRes/(n k 1)]. Esta desigualdade d
uma outra justificativa para rejeitarmos H0 para valores grandes de F.

Tabela 8.3. ANOVA para o testeF de H0: 2 = 0


C. Variao
Devida a 2, ajustada
para 1
Erro
Total

g.l.
h

Somas de Quadrados
SQ(2 | 1)= Xy 1 X1y

nk1 SQRes = yy Xy
n1

SQT = yy n y

Q.M.

SQ(2 | 1)/(h)

SQ( 2 | 1 ) h
SQRes / (n k 1)

SQRes/( nk1)

Exemplo 8.2(a) Considere a varivel dependente y2 nos dados de reao qumica da


Tabela 7.4 (ver Problema 7.52 para uma descrio detalhada das variveis). Para
testar H0: 4 = 5 = 6 = 7 = 8 = 9 = 0, ou seja, testar a utilidade dos termos de
segunda ordem na predio de y2 , usaremos como modelo completo:
y2 = 0 +1x1 +2x2 +3x3 +4 x12 +5 x 22 +6 x32 +7 x1x2 +8 x1x3 +9 x2x3 +
de onde obtemos Xy n y 2 = 339,7888 e SQRes = 60,6755. Para o modelo reduzido:
y2 = 0 + 1 x1 + 2 x2 + 3 x3 + *
ns obtemos 1 X1y n y 2 = 151,0022. A diferena Xy 1 X1y = 188,7866 e
188,7866 6
31,4644
=
= 4,6671, que tem um
a estatstica-F calculada como: F =
60,6755 9
6,7417
p-value de 0,0198.

133
Assim, conclumos que os termos de segunda ordem so teis na predio de y2. De
fato, a estatstica-F para testar se os parmetros do modelo reduzido so nulos igual
a 3,027, com p-value = 0,0623, ou seja, x1, x2 e x3 so inadequados para predizer y2. O
F-global para o modelo completo 5,6000 com p-value = 0,0086.
Teorema 8.2D Se o modelo particionado como em (8.7), ento SQ(2 | 1) = Xy
1 X1y pode ser escrito como:
1
SQ(2 | 1) = 2 [X2X2 X2X1(X1X1) X1X2] 2

(8.18)

= (X2 2 )[I X1(X1X1) X1] X2 2


1
onde 2 obtido da partio de = 1 = (XX) Xy no modelo completo.

2
Em (8.18) fica claro que SQ(2 | 1) devida a 2, como tambm uma correspondncia direta entre SQ(2 | 1) e o parmetro de no centralidade 1 no Teorema 8.2B(ii)
ou no valor esperado do quadrado mdio em (8.17).
Exemplo 8.2(b) Para testar se H0: k = 0, particionamos = [0, 1, ..., k-1 | k] =
1
. A matriz X particionada como X = [X1, xk], onde xk a ltima coluna de X e
k
X1 contem todas as colunas, com exceo de xk. O modelo reduzido y = X1 1 + *,
1
e estimado por = (X1X1) X1y. Como h = 1, a estatstica F em (8.16) fica:
1

( ' X' y ' (X )' y )


F=
(y' y ' X' y ) (n k 1)

(8.20)

que tem distribuio F(1, n k 1) se H0: k = 0.


Exemplo 8.2(c) O teste da Seo (8.1) para todos os coeficientes de regresso, pode
ser obtido usando essa abordagem que envolve o modelo completo e o reduzido. Nes
se caso, particionamos X = [j, X1] e = [0 | 1, ..., k] = 0 . O modelo reduzido
1
y = 0 j + *, para o qual temos
0 = y e SQ( 0 ) = n y 2
Ento SQ(1 | 0) = Xy n y 2 , que a mesma expresso de (8.6).

(8.21)

134
8.3 TESTES F BASEADOS NO COEFICIENTE DE DETERMINAO R2
(para maiores detalhes ver Rencher, pg. 183-184)
8.4 TESTE DA HIPTESE LINEAR GERAL PARA H0: C = 0 E DA HIPTESE H0: C = t
8.4.1. O Teste da hiptese H0: C = 0

A hiptese H0: C = 0, onde C uma matriz q x (k + 1) de coeficientes, de posto q


k + 1, conhecida como hiptese linear geral. A hiptese alternativa H1: C 0.
A formulao H0: C = 0 inclui como casos especiais, as hipteses das Sees
8.1 e 8.2. Por exemplo, a hiptese H0: = 0 na Seo 8.1 pode ser expressa na forma
H0: C = 0 como segue:


H0: C = [0, Ik] 0 = 1 = 0
1
onde 0 um vetor k x 1 de zeros. De modo similar, a hiptese H0: 2 = 0 na Seo 8.2
pode ser expressa como:


H0: C = [01, Ih] 1 = 2 = 0
2
onde 01 uma matriz h x (k h + 1) de zeros e 0, um vetor h x 1 de zeros. A formulao H0: C = 0 tambm permite testar hipteses mais gerais como:
H0: 21 2 = 2 23 + 34 = 1 4 = 0,

que pode ser expressa como:


0 0
0 2 1
H0: 0 0
1 2
3

0 1 0
0 1

0

0
1
2 = 0

3 0
4

A hiptese H0: 1 = 2 = 3 = 4 pode ser expressa em termos de trs diferenas, como por exemplo:
H0: 1 2 = 2 3 = 3 4 = 0,

ou, equivalentemente, como

135

0 1 1 0 0
H0: 0 0
1 1 0

0 0 0
1 1

0

0
1

2 = 0

3 0
4

Teorema 8.4A Se y ~ Nn(X, 2I) e C uma matriz q x (k+1) de posto q k+1,


ento:
1
(i) C ~ Nn[C, 2C(XX) C];
1
1
(ii) SQHip/2 = (C )[C(XX) C] C /2 ~ 2 (q, ),
1

onde = (C)[C(XX) C] C /22;


1

(iii) SQRes/2 = y[I X(XX) X]y/2 ~ 2 (n k 1);


(iv) SQHip e SQRes so independentes.
Prova: ver Rencher, pg. 185.
Teorema 8.4B Se y ~ Nn(X, 2I) e a estatstica:
(C )' [C( X' X) 1 C' ]1 C q
SQHip q
F=
=
(8.27)
SQRes (n k 1)
SQRes / (n k 1)
1
onde C q x (k+1) de posto q k+1 e = (XX) Xy. A distribuio de F em
(8.27) como segue:
(i) Se H0: C = 0 falsa, ento F ~ F(q, nk1, ),
1
1
onde = (C)[C(XX) C] C /22.
(ii) Se H0: C = 0 verdadeira, ento F ~ F(q, nk1).

Vale salientar que:

O teste-F para H0: C = 0 no Teorema 8.4B usualmente chamado de teste da


hiptese linear geral.
O nmero de graus de liberdade (q) igual ao nmero de combinaes lineares
presentes em C.
Rejeitamos H0: C = 0 se F F(, q, nk1), onde F dado em (8.27) e F(, q,
nk1) o percentil de ordem (100) de uma distribuio F com q e (nk1)
graus de liberdade. Alternativamente, rejeitamos H0 se p-value < .
1

Desde que C(XX) C positiva definida, > 0 se H0 falsa e isso justifica rejeitarmos H0 para valores grandes de F.

136
1
1
Nos Teoremas 8.4A e 8.4B, SQHip = (C 0)[C(XX) C] (C 0), que o
quadrado da distncia entre C e o valor sob hiptese para C. A distncia pa-

dronizada pela matriz de covarincias de C . Intuitivamente, se H0: C = 0 verdadeira, C tende a estar prximo de 0, de tal forma que o numerador de F em
(8.27) seja pequeno. Se C muito diferente de 0, o numerador da estatstica F
tende a ser grande.
As esperanas dos quadrados mdios para o teste-F so dados por:
1

E(SQHip/q) = 2 + (C)[C(XX) C] C/q

8.28)

E[SQRes/(n k 1 )] = 2

Se H0: C = 0 verdadeira, E(SQHip/q) e E[SQRes/(nk1)] so iguais a 2; se H0


falsa, E(SQHip/q) > E[SQRes/(nk1)].
Teorema 8.4C Seja z = cy e W = XH, onde H no singular. Ento a estatstica F
em (8.27) no se altera para essas transformaes.
Teorema 8.4D O teste-F no Teorema 8.4B para a hiptese linear geral H0: C = 0
um teste do tipo modelo completo versus modelo reduzido.
Prova: ver Rencher, pg. 187.

Vale observar que o modelo reduzido sob H0


y = X + , sujeito a C = 0

(8.29)

Usando multiplicadores de Lagrange, pode-se mostrar que o estimador de neste


modelo reduzido :
1
1
1
c = (XX) C[C(XX) C] C

(8.30)

1
onde = (XX) Xy estimado no modelo completo irrestrito pela hiptese e o indice c em indica que estimado sujeito condio C = 0. Em (8.29), a matriz
c

X para o modelo reduzido a mesma que a do modelo completo. A soma de quadrados de regresso devida hiptese
SQHip = Xy c Xy

(8.31)

Substituindo c em (8.31), obtemos:


1
1
SQHip = (C )[C(XX) C] C

que a mesma frmula que aparece no Teorema 8.4B para H0: C = 0.

(8.32)

137
Exemplo 8.4.1(a). Em muitos casos, as hipteses podem ser incorporadas diretamente ao modelo para obter o modelo reduzido. Suponha que o modelo completo :
yi = 0 + 1 xi1 + 2 xi2 + 3 xi3 + i

e a hiptese H0: 1 = 22. Ento o modelo reduzido fica:


yi = 0 + 22 xi1 + 2 xi2 + 3 xi3 + i = co + c2( 2xi1 + xi2) + c3 xi3 + i

onde ci indica um parmetro sujeito condio 1 = 22. Os modelos completo e reduzido podem ser ajustados e a diferena SQ(2 | 1) = Xy X1y igual
SQHip calculada por (8.32).
Se C 0, o estimador c em (8.30) um estimador viesado de , mas as varincias dos s em so menores.
cj

Teorema 8.4E. O vetor de mdias e a matriz de covarincias de c em (8.30) so os


seguintes:
1
1
1
(i) E( c ) = (XX) C[C(XX) C] C

(8.33)

1
1
1
1
1
(ii) cov( c ) = 2(XX) 2 (XX) C[C(XX) C] C(XX)

(8.34)

Como a segunda matriz do lado direito de (8.34) positiva semidefinida, os elemen1


tos da diagonal de cov( c ) so menores que aqueles em cov( ) = 2(XX) ; isto ,
var( cj ) var( j ), para j = 1, 2, ..., k.
Exemplo 8.4.1(b). Considere a varivel dependente y1 nos dados de reao qumica
da Tabela 7.4. Para o modelo y1 = 0 + 1 x1 + 2 x2 + 3 x3 + , vamos testar a hiptese H0: 21 = 22 = 3 usando (8.27) no Teorema 8.4B. Essa hiptese pode ser expressa em termos de duas diferenas: H0: 1 2 = 22 3 = 0. Na forma C = 0, usamos a matriz

0 1 1 0
C=

0 0 2 1
e ento obtemos:

0.1214
C =
,
0.6118

0.003366 0.006843
1
C(XX) C =
0.044974
0.006943
1

0.003366 0.006843 0.1214


1 1
F =
[ 0.1214 0.6118]
0.044974 0.6118
5.3449 2
0.006943
= 2.6776, que tem (2; 9) graus de liberdade e um p-value = 0.101.

138
8.4.2 O Teste para H0: C = t

O procedimento para executar esse teste anlogo ao teste de H0: C = 0, mas precisamos admitir que o sistema C = t consistente, isto , precisamos verificar que
posto(C) = posto(C | t).
Teorema 8.4F. Se y ~ Nn(X, 2I) e C uma matriz q x (k+1) de posto q k+1,
ento:
1
(i) C t ~ Nq[C t, 2C(XX) C];
1
1
(ii) SQHip/2 = (C t)[C(XX) C] (C t)/2 ~ 2 (q, ),
1

onde = (C t)[C(XX) C] (C t)/22;


1
(iii) SQRes/2 = y[I X(XX) X] y/2 ~ 2 (n k 1);
(iv) SQHip e SQRes so independentes
Prova: ver Rencher, pg. 189.
Teorema 8.4G Se y ~ Nn(X, 2I) e a estatstica:
F=

SQHip q
(C t )' [C( X' X) 1 C' ]1 (C t ) q
=
SQRes (n k 1)
SQRes / (n k 1)

(8.35)

1
onde C q x (k+1) de posto q k+1 e = (XX) Xy. A distribuio de F em
(8.35) como segue:

(i) Se H0: C = t falsa, ento F ~ F(q, nk1, )


1

onde = (C t)[C(XX) C] (C t)/22


(ii) Se H0: C = t verdadeira, ento F ~ F(q, nk1).

As esperanas dos quadrados mdios para o teste-F de H0: C = t, so dadas por:


1

E(SQHip /q) = 2 + (C t)[C(XX) C] (C t)/q

(8.28)

E(SQRes/(n k 1) = 2

Se H0: C = t verdadeira, E(SQHip/q) e E(SQRes/(nk1) so iguais a 2; se H0


falsa, E(SQHip/q) > E(SQRes/(nk1)

139
8.5 TESTES SOBRE j E a
8.5.1 Testando um j ou uma combinao a

Um teste para um j pode ser obtido usando a abordagem modelo completo versus
modelo reduzido (Seo 8.2) ou a abordagem da hiptese linear geral (Seo 8.4). A
estatstica do teste para a H0: k = 0 usando a abordagem modelo completo versus
modelo reduzido dada por:
' X' y 1 ' ( X1 )' y
F=
y' y ' X' y (n k 1)

(8.37)

que tem distribuio F(1, n k 1) se H0 verdadeira. Neste caso, k o ltimo ,


quando o vetor de parmetros particionado como = [1 | k ] e X particionada
como X = [X1 | xk], onde xk a ltima coluna de X. Desse modo, a matriz X1 no modelo reduzido y = X1 1 + * contem todas as colunas de X, com exceo da ltima.
Para testar H0: a = 0 para uma nica combinao, por exemplo,
a = [0, 2, 2, 3, 1],

usamos a no lugar da matriz C em H0: C = 0. Ento q = 1 e de (8.27) temos:


(a' ) 2
(a' )' [a' ( X' X) 1 a]1 a'
F=
= 2
SQRes / (n k 1)
s a' ( X' X) 1 a

(8.38)

onde s2 = SQRes/(n k 1). A estatstica F em (8.38) tem distribuio F(1, n k 1),


se H0: a = 0 verdadeira.
Para testar H0: j = 0 usando a estatstica de teste da hiptese linear geral em
(8.38), definimos a = [0, ..., 0, 1, 0, ..., 0], onde o nmero 1 est na (j+1)-sima posio. Ento:
2j
F= 2
(8.39)
s g j +1, j +1
1

Onde gj+1, j+1 o (j+1)-simo elemento da diagonal de (XX) . Se H0: j = 0 verdadeiro, F em (8.39) tem distribuio F(1, n k 1). Assim, ns rejeitamos H0 se F >
F(, 1, n k 1) ou, equivalentemente, se p-value .
Como a estatstica F em (8.39) tem 1 e (n k 1) graus de liberdade, podemos
usar equivalentemente a estatstica-t:

140
tj =

(8.40)

( s ) g j +1, j +1

Rejeitamos H0: j = 0 se | tj | > t(/2, n k 1) ou, equivalentemente, se p-value .


Observe ainda que, para um teste bilateral como este, o p-value = 2P(t > tj), onde tj
foi calculado em (8.40).
Para testar H0: 1 = 0, de (8.40) temos que t = 1 /(s) g 22 , que difere da estatstica t = 1 /(s)

i=1 ( xi x ) 2
n

em (6.14). Assim, a menos que os xs sejam ortogo-

nais, testar H0: 1 = 0 no modelo de regresso linear simples yi = 0 + 1 x1i + i d um


resultado diferente de testar a mesma hiptese H0: 1 = 0 no modelo de regresso linear mltipla yi = 0 + 1 xi1 + 2 xi2 + ... + k xik + i.

8.5.2 Testar diversos j s ou diversas combinaes ai

Se o teste em (8.40) for executado ao nvel de significncia para cada 1, 2, ..., k,


o nvel -geral (definido a seguir) ser certamente maior. O mesmo argumento pode
ser usado para testar diversas combinaes ai. Alguns mtodos foram desenvolvidos para proteger contra a inflao do nvel -global quando diversos testes so
feitos.
Mtodo de Bonferroni

Suponhamos que sejam executados k testes de hiptese H0: j = 0, j = 1, 2, ..., k. Seja


Ej o evento que o j-simo teste rejeita H0j quando ela verdadeira, onde P(Ej) = j,
j = 1, 2, ..., k e seja

j =1 j = . Ento o nvel de significncia -global, que tamk

bm chamado experimentwise error rate, pode ser definido como:

-global = P(rejeitar ao mnimo uma H0j, quando H0j verdadeira)


= P(E1 ou E2 ou ... ou Ek) = P(E1 E2 ... Ek)
-global

j=1 P( E j ) = j =1 j
k

(8.41)

Para testar H0j: j = 0, j = 1, 2, ..., k, com j = /k, usamos a estatstica:


j
tj =
(8.42)
s g j +1, j +1
e rejeitamos H0 se | tj | > t(/2k, n k 1). A tabela de Bonferroni de valores crticos
t(/2k) pode ser encontrada em Rencher (1995, pg. 499-500) dentre outros.

141
Para testar H0i: ai = 0, i = 1, 2, ..., d, usamos a estatstica:
(a i ' )' [a i ' ( X' X) 1 a i ] 1 a i '
Fi =
s2

(8.43)

E rejeitamos H0i se Fi > F(/d, 1, n k 1). Os valores crticos F(/d) esto disponveis em diversos pacotes estatsticos. Alternativamente, podemos executar esse teste
calculando o p-value e rejeitar H0 se p-value /d.
Os procedimentos de Bonferroni baseados em t e F so vlidos para qualquer
matriz de covarincias dos j s. Entretanto, o nvel -global do procedimento para
testar H0i: ai = 0, i = 1, 2, ..., d, vlido somente se os coeficientes dos vetores a1,
a2, ..., ad forem especificados a priori (antes de olharmos os dados). Se desejarmos
fixar os coeficientes de ai a posteriori (depois de olharmos os dados), ns devemos
usar o teste de Scheff, que ser descrito no Teorema 8.5A.

Mtodo de Scheff
O procedimento de Scheff produz testes simultneos de H0: a = 0 (ou mesmo para
H0: a = t) para todos os possveis valores de a. Para um dado vetor a, a hiptese H0:
a = 0 testada pela estatstica,
(a' ) 2
(8.44)
F= 2
s a' ( X' X) 1 a
1

onde = (XX) Xy. Para encontrar um valor crtico grande o suficiente para comportar todos os possveis vetores a, vamos usar a distribuio do maxa(F).

Teorema 8.5A
(i) O valor mximo de F em (8.44) dado por
' X' X
(a' ) 2
=
maxa(F) = maxa 2
s a' ( X' X) 1 a
s2

(8.45)

(ii) Se y ~ Nn(X, 2I), ento ' X' X s 2 ~ F(k+1, n k 1). Assim,


(a' ) 2
maxa 2
~ F(k+1, n k 1)
s a' ( X' X) 1 a(k + 1)
Prova: ver Rencher, pg. 194.
Assim, para testar H0: a = 0 para todo e qualquer vetor a (incluindo aqueles
escolhidos a posteriori), calculamos F usando a expresso (8.44) e rejeitamos H0 se
F > (k+1)F(k+1, n k 1).

142
Como uma abordagem alternativa ao Teorema 8.5A, note que a hiptese H0:
a = 0 para todo possvel vetor a implica em H0: = 0, que pode ser testada usando
a estatstica F = ' X' X (k + 1) s 2 (ver Problema 8.6).
Para testar H0j: j = 0 usando (8.44), ns tomamos a = [0, ..., 0, 1, 0, ..., 0],
com o 1 na (j+1)-sima posio. Ento F em (8.44) se reduz a F = 2j s 2 g j +1, j +1 em
em (8.42). Pelo Teorema 8.5.A(ii),
(8.39), e a sua raiz quadrada tj = s g
j

j +1, j +1

rejeitamos H0: a = 0 se | tj | (k + 1) F ( , k + 1, n k 1) . Porm, para um dado


valor de k, ns temos:
t(/2k, n k 1) < (k + 1) F ( , k + 1, n k 1)
(ver Graybill, 1976, p.200) e podemos concluir que:
Os testes de Bonferroni para j s individuais em (8.42) so mais poderosos que
os testes de Scheff.
Para um grande nmero de combinaes lineares a, o teste de Scheff melhor,
porque qualquer nmero de escolhas de a pode ser testado contra um nico valor crtico (k+1)F(, k+1, n k 1), enquanto o valor crtico F(/d, 1, n k 1)
para os testes de Bonferroni em (8.43) aumenta com o nmero de testes, d.
O outro uso para o teste de Scheff para combinaes lineares a escolhidas depois de olhar os dados (post hoc).
Nesta seo assumimos que os testes para H0: j = 0 so executados sem considerar se a hiptese global H0: 1 = 0 foi rejeitada. Se as estatsticas do teste tj =
j s g j +1, j +1 , j = 1, 2, ..., k, em (8.42) forem calculadas somente se H0: 1 = 0 foi

rejeitada usando F em (8.5), ento claramente a taxa de erro global reduzida e os


valores crticos conservativos t(/2k, n k 1) e (k + 1) F ( , k + 1, n k 1) sero
ainda mais conservativos.
Usando este princpio chamado LSD protegido (Least Significant Difference)
(ver Hocking 1996, p.106), ns podemos usar o valor crtico t(/2, n k 1) para
todos os k testes e o nvel -global estar prximo do nvel nominal .
Exemplo 8.5.2. Vamos testar H01: 1 = 0 e H02: 2 = 0 para os dados da Tabela 7.1.
t1 =
t2 =

1
s g11

2
s g 22

3.0118
= 4,4448
2.8288 0.16207

1.2855
= 2,643
2.8288 0.8360

143
Usando um nvel de significncia = 5% para cada teste, rejeitaremos H01 e H02
porque t(0.025, 9) = 2.262.
Os p-values (bilaterais) so 0.00160 e 0.0268, respectivamente.
Se usssemos = 0,05/2 = 0,025 para o teste de Bonferroni, ns no rejeitaramos H02 porque p-value = 0.0268 > 0.025.
Usando o princpio LSD protegido, ns rejeitaramos H02 porque a hiptese global
H0: 1 = 0 foi rejeitada no Exemplo 8.1.

8.6 INTERVALOS DE CONFIANA E INTERVALOS DE PREDIO


Nesta seo vamos considerar uma regio de confiana para , intervalos de confiana para j , a, E(y) e s2, alm de intervalos de predio para futuras observaes.
Vamos assumir que y ~Nn(X, I2).
8.6.1 Regio de confiana para
Se C = I em (8.27), q = k+1 e podemos escrever que:
P[( )XX ( )/(k+1)s2 F(, k+1, nk1)] = 1
onde s2 = SQRes/(nk1). O conjunto de todos os vetores que satisfazem a desigualdade
( )XX( ) (k+1)s2 F(, k+1, nk1)

(8.46)

formam a regio de confiana conjunta 100(1)% para 0 , 1 , ..., k .

8.6.2. Intervalos de confiana para j


Se j 0 em (8.40), podemos escrever que:

j j

t / 2,nk 1 = 1
P t / 2,nk 1
s
g

jj

Resolvendo para j , temos:


P[ j t/2,n-k-1 ( s) g jj j j + t/2,n-k-1 ( s) g jj ] = 1
E podemos escrever que:

j t/2,n-k-1 ( s) g jj

(8.47)

o intervalo de confiana 100(1 )% para j . Da, dizemos que o intervalo dado


em (8.47) contem o verdadeiro valor de j com 100(1)% de confiana.

144
Vale observar que o coeficiente de confiana (1) vale para um nico intervalo de confiana para um dos j s. Para intervalos de confiana para todos os k+1

j s, com coeficiente de confiana global de (1), veja a Seo 8.6.7.


Exemplo 8.6.2. Vamos calcular o I.C.(95%) para cada j usando y2 no conjunto de
dados apresentados na Tabela 7.4. So dados: s = 4.0781, t0.025, 15 = 2.1314 e
65.37550 0.33885 0.31252 0.02041
26.03530
0.33885

.
.
.
.
0
00184
0
00127
0
00043

0
4046
1

, =

(XX) =
0.31252

0.00127
0.00408 0.00175
0.2930

0.02161
1.0338
0.020401 0.00043 0.00176

Para 1 , obtemos por (8.47):

1 t/2,n-k-1 s g11 = 0,4046 (2.1314)(4.0781) 0.00184


= 0,4046 0.3723

1 :

(0,0322; 0,7769)

E para os outros j s:

0 : 26.0353 70.2812 = (96.3165; 44.2459)


2 : 0.2930 0.5551 = (-0.2621; 0.8481)
3 : 1.0338 1.2777 = (0.2439; 2.3115)
Vale observar que o coeficiente de confiana de 95% vale somente para um dos quatro intervalos de confiana.

8.6.3 Intervalo de confiana para a


Se a 0 em (8.44) e pelo Problema 5.12, podemos escrever que o intervalo de confiana (1) para um nico valor de a dado por:
a t/2,n-k-1 (s) a' ( X' X) 1 a

(8.49)

8.6.4 Intervalo de confiana para E(y)


Seja x0 = [1, x01, x02, ..., x0k] uma escolha particular de x = [1, x1, x2, ..., xk]. Note que
x0 no precisa ser um dos xs da amostra; isto , x0 no precisa ser uma linha da

145
matriz X. Entretanto, se x0 estiver muito fora da regio coberta pela amostra, a predio baseada em x0 ser pobre. Seja y0 uma observao correspondendo a x0. Ento

y0 = x0 +
e assumindo que o modelo correto, isto , que E() = 0,

E(y0) = x0

(8.50)

Ns desejamos obter um intervalo de confiana para E(y0), isto , para a mdia da


distribuio dos valores y correspondentes a x0. Pelo Corolrio 1 do Teorema 7.6D, o
BLUE de E(y0) dado por:
678
E ( y 0 ) = x0

(8.51)

E desde que (8.50) e (8.51) so da forma a e a , respectivamente, um intervalo de


confiana 100(1)% para E(y0) = x0 de (8.49) dado por:
x0 t/2,n-k-1 (s) x 0 ' ( X' X) 1 x 0

(8.52)

Este I.C. garante a confiana de 1 para uma nica escolha do vetor x0. Para I.C.s
cobrindo todas as escolhas de x0s, veja a Seo 8.6.7.
Para o caso especial de uma regresso linear simples, temos que o intervalo de
confiana para E(y0) dado por:

(x x )
1
0 + 1 x0 t/2, n-2 (s)
+ n0
n (xi x )2
2

(8.58)

i =1

Vale notar que a largura do intervalo em (8.58) depende que quo longe x0 est de x .

8.6.5. Intervalo de predio para uma observao futura

Um intervalo de confiana para uma observao futura y0 correspondente a um x0


chamado intervalo de predio, porque y0 uma observao individual, sendo uma
varivel aleatria ao invs de um parmetro.
Evidentemente, para termos uma confiana (1) que o intervalo contenha y0,
o intervalo de predio dever ser mais largo que o intervalo de confiana para o parmetro E(y0).
Desde que y0 = x0 + 0, y0 ser predito por y 0 = x0 , que tambm o estimador de E(y0) = x0. As variveis aleatrias y0 e y 0 so independentes porque y0
uma observao futura ser obtida independentemente das n observaes usadas para
calcular y 0 = x0 . A varincia de (y0 y 0 ) dada por:

146
var(y0 y 0 ) = var(y0) + var( y 0 ) = var(x0 + 0) + var(x0 )
1

= 2[1 + x0( XX) x0]

(8.59)

que estimada por s2[1 + x0( XX) x0]. Pode ser mostrado que E(y0 y 0 ) = 0 e que
s2 independente de y0 e de y 0 . Da o intervalo de predio para y0 dado por:
x0 t/2,n-k-1 (s) 1 + x 0 ' ( X' X) 1 x 0

(8.61)

Para o caso da regresso linear simples, a expresso (8.61) se reduz a:

(x x )
1
0 + 1 x0 t/2, n-2 (s) 1 + + n 0
n (xi x )2
2

(8.63)

i =1

Exemplo 8.6.5. Usando os dados da Tabela 6.2 calcule um intervalo de predio 95%
para x0 = 80. Usando (8.63), obtemos:

1 (80 58.056 )
0 + 1 x0 t0.025, 16 (s) 1 + +
18
19530.944

80.5386 2.11998(13.8547)(1.0393)
80.5386 30.5258
Ento, o intervalo (50.0128; 111.0644) contem o verdadeiro valor de y correspondente a x0 = 80, com 95% de confiana. Vale notar que a amplitude do intervalo de predio para y0 bem maior que do intervalo de confiana para E(y0).

8.6.6 Intervalo de confiana para 2

Do Teorema 7.6B(ii) sabemos que (nk1)s2/2 ~ 2 (n k 1) .Portanto


2

( n k 1)s 2
2
P 1 / 2,nk 1

=1

/
2
,
n

1
2

onde 12 / 2,nk 1 o percentil (superior) de ordem 1/2 e 2 / 2,nk 1 o percentil


(inferior) de ordem /2. Resolvendo a desigualdade para 2, obtemos o intervalo de
confiana (1) para a varincia:

(n k 1)s 2
2 / 2,nk 1

(n k 1)s 2
12 / 2,nk 1

(8.65)

147
O intervalo de confiana (1) para o desvio padro dado por

(n k 1)s 2
2 / 2,nk 1

(n k 1)s 2
12 / 2,nk 1

(8.66)

8.6.7 Intervalos simultneos

O coeficiente de confiana (1) para os intervalos obtidos nas Sees 8.6.1-8.6.6


vlido para um nico intervalo em cada caso. Para intervalos mltiplos, ns adaptamos os mtodos da Seo 8.5.2 para testes mltiplos.
Para algumas funes lineares a1, a2, ..., ad escolhidas a priori (antes de
ver os dados), os intervalos de confiana de Bonferroni so dados por:
ai t/2d,n-k-1 (s) a i ' ( X' X) 1 a i , para i = 1, 2, ..., d

(8.68)

Esses intervalos asseguram uma confiana simultnea de (1 ), no mnimo; isto ,


garante uma confiana de (1 ) que cada um dos d intervalos contm o parmetro.
Os intervalos de confiana de Scheff para todas as possveis funes lineares
a (escolhidas a priori ou no) so dados por:
a (s) (k + 1) a' ( X' X) 1 a F ,k +1,n -k -1

(8.69)

Os intervalos construdos por (8.69) tm um coeficiente de confiana global de, no


mnimo, (1 ). Para poucas funes lineares, os intervalos em (8.68) sero mais estreitos, mas para um nmero grande de funes lineares, os intervalos em (8.69) sero
mais estreitos.
Podemos usar os intervalos de Bonferroni em (8.68) para intervalos de confiana para E(y0) = x0 para poucos valores de x0, digamos x01, x02, ..., x0d:
x0i t/2d,n-k-1 (s)

x 0i ' ( X' X) 1 x 0i , para i = 1, 2, ..., d

(8.70)

Os intervalos obtidos tero um coeficiente de confiana global de no mnimo (1).


Para limites de confiana para todos os possveis x0, ns usamos (8.69):
x0 (s) (k + 1) x 0 ' ( X' X) 1 x 0 F ,k +1,n -k -1

(8.71)

Esses intervalos garantem um coeficiente de confiana global de (1). Assim, (8.71)


fornece uma regio de confiana que pode ser aplicada toda superfcie de regresso
para todos os valores de x0. Esses intervalos em (8.69) e (8.71) so devidos a Scheff
(1953) dentre outros.

148
Para intervalos simultneos de predio de d novas observaes y01, y02, ..., y0d
de d valores de x0, digamos x01, x02, ..., x0d, ns podemos usar os intervalos de Bonferroni:
x0i t/2d,n-k-1 (s) 1 + x 0i ' ( X' X) 1 x 0i , para i = 1, 2, ..., d

(8.72)

Para os intervalos de predio de Scheff para y01, y02, ..., y0d, temos:
x0i (s) d [1 + x 0i ' ( X' X) 1 x 0i ]F ,k +1,n -k -1 , para i = 1, 2, ..., d

(8.73)

Esses d intervalos de predio tm assegurado um coeficiente de confiana global de


(1 ), no mnimo.

8.7 TESTES DA RAZO DE VEROSSIMILHANA


(Para maiores detalhes, ver: Rencher, pg. 204).
Os testes desenvolvidos nas Sees 8.1 e 8.2 foram derivados usando mtodos
informais baseados em caractersticas de somas de quadrados que tm distribuio de
qui-quadrado e so independentes. Esses mesmos testes podem ser obtidos de maneira mais formal, atravs de uma abordagem de razo de verossimilhanas.
Ns apresentaremos os principais resultados do teste da razo de verossimilhanas no contexto simples de testar H0: = 0 versus H1: 0. A funo de verossimilhana L(, 2) foi definida na Seo 7.6.2 como a densidade conjunta dos ys.
No nosso caso, supomos que y ~ Nn(X, I2).
O mtodo da razo da verossimilhana consiste em comparar o mximo valor
de L(, 2) restrito por H0: = 0, com o mximo valor de L(, 2) sob a hiptese H1:
0, que no restrita, atravs da razo de verossimilhanas:
LR =

( ) = maxL(0, )
L (, ) maxL(, )

max H 0 L , 2

max H 1

(8.75)

claro que 0 LR 1, porque o mximo de L restrito a = 0 no pode exceder o


mximo irrestrito. Pequenos valores de LR favorecem H1, e grandes valores de LR favorecem H0. Assim, ns rejeitamos H0 se LR c, onde c escolhido de tal forma que
P(LR c) = , se H0 verdadeira. Wald (1943) mostrou que, sob H0,
2ln(LR) ~ 2 (v) ,
para n grande, onde v o nmero de parmetros estimados sob H1 menos o nmero
de estimativas sob H0. No caso de H0: = 0 versus H1: 0, ns temos v = k + 2 1
= k + 1, porque e 2 so estimados sob H1, enquanto somente a varincia 2 estimada sob H0.

149
Teorema 8.7A Se y ~ Nn(X, I2), o teste da razo de verossimilhana para H0: = 0
versus H1: 0 pode ser baseado em
' X' y (k + 1)
F=
(y' y ' X' y ) (n k 1)

E rejeitamos H0 se F > F(, k+1,n-k-1).


Prova: ver Rencher, pg. 206.

Teorema 8.7B Se y ~ Nn(X, I2), ento o teste-F para H0: C = 0 no Teorema 8.4A
equivalente ao teste da razo de verossimilhanas.
Prova: ver Rencher, pg. 207.

EXERCCIOS
Ver os Exerccios das pginas 208-213

150

CAPTULO 9. REGRESSO MLTIPLA: VALIDAO DO MODELO E DIAGNSTICO.


Os modelos lineares ou no lineares so usados freqentemente na anlise de
dados em diversas reas do conhecimento. Nas sees anteriores foram discutidas
algumas aplicaes e anlises em relao ao modelo, tais como estimao de parmetros, construo de intervalos de confiana e testes de hipteses em relao aos
parmetros do modelo ajustado. Porm, sabido que podem existir observaes, que
tm uma grande influncia sobre os resultados do ajuste do modelo linear.
Assim, para um melhor estudo do modelo h a necessidade de se utilizar um
conjunto de tcnicas ou medidas de diagnstico para detectar problemas com o ajuste.
Neste captulo, sero consideradas anlises grficas (mais ou menos subjetivas) e
anlises de resduos, para checar as pressuposies de adequao e validade do modelo. Algumas propriedades dos resduos, tcnicas grficas de diagnstico e da matriz
hat (matriz que coloca chapu) sero desenvolvidas nas sees 9.1 e 9.2. Discutiremos tambm sobre os pontos discrepantes denominados outliers e a influncia de
observaes individuais (observaes influentes) nas sees 9.3 e 9.4.

9.1. RESDUOS E ANLISES GRFICAS DE DIAGNSTICO


O modelo linear mltiplo usual descrito em (7.4) como y = X + assume as pressuposies que a esperana do erro nula, isto , E() = 0 e cov() = 2I, onde y um
vetor nx1, X uma matriz n x (k+1) de posto k+1 < n, e um vetor (k+1)x1. Assumimos que X fixa. O vetor de resduos no observvel, a menos que seja conhecido. Para estimar para certa amostra, usaremos o vetor de resduos:

= y X = y y

(9.1)

como definido em (7.11). Os n resduos em (9.1), 1 , 2 , , n , so usados em vrios grficos e procedimentos para checar a validade e a adequao do modelo.
Antes, consideraremos algumas propriedades do vetor de resduos .
1
Usando o estimador de mnimos quadrados = (XX) Xy em (7.6), o vetor
de valores preditos, y = X , pode ser descrito como:
1
y = X = X(XX) Xy

= Hy
1

(9.2)

onde H = X(XX) X, nxn, chamada hat matrix ou a matriz (que coloca) chapu
em y porque ela transforma y em y (coloca o chapu em y). Na literatura, H tambm
denominada matriz de projeo, porque ela projeta y perpendicularmente em y .

151
A matriz-chapu H simtrica e idempotente. Multiplicando H por X, obtm-se:
1

HX = X(XX) XX = X

(9.3)

Escrevendo X em termos de colunas e usando (2.28), (9.3) fica:


HX = H[j, x1, x2, ..., xk] = [Hj, Hx1, Hx2, ..., Hxk]

de tal forma que


j = Hj

xj = Hxj, j = 1, 2, ..., k

(9.4)

Usando (9.2), o vetor de resduos em (9.1) pode ser expresso em termos de


H e y:

= y y = y Hy = (I H)y

(9.5)

Podemos reescrever (9.5) para expressar o vetor de resduos em termos de :

= (I H)y = (I H)(X )
= (X HX) + (I H)
= (X X) + (I H)
= (I H)

(9.6)

n
Em termos dos elementos hij de H, temos i = i j =1 hij j , i = 1, 2, , n. Ento,

se os hijs forem pequenos (em valor absoluto), estar prximo de .


Agora vamos apresentar oito propriedades sobre , sendo que as quatro primeiras so propriedades populacionais baseadas nas pressuposies que E(y) = X e
cov(y) = 2I. J as quatro ltimas so propriedades amostrais.
E( ) = 0,

(9.7)
1

cov( ) = 2[I X(XX) X] = 2(I H)


1

cov( , y) = 2[I X(XX) X] = 2(I H)


cov( , y ) = O

i =1i

(9.8)
(9.9)
(9.10)

n = j /n = 0,
1

y = SQRes = y[I X(XX) X]y = y(I H)y

(9.11)
(9.12)

y = 0

(9.13)

X = 0

(9.14)

Em (9.7), tem-se que a esperana matemtica do vetor de erros estimados igual ao


vetor nulo, sendo assim, tem-se que o vetor de resduos tem o mesmo valor esperado que o termo de erros .

152
Em (9.8), tem-se que a covarincia entre os erros estimados, cov( ) = 2(I H),
difere da pressuposio cov() = 2I. Ento, os resduos 1 , 2 , , n no so independentes e podem ser correlacionados entre si. Essa correlao entre os erros freqentemente est relacionada com dados recolhidos ao longo do tempo. Quando os
erros do modelo so correlacionados, o modelo de regresso no adequado e ser
prefervel utilizar outros modelos, como por exemplo, um modelo de sries temporais. No entanto, em alguns casos, especificamente se n grande, os hijs tendem a ser
pequenos (para i j) e a dependncia mostrada na cov( ) no afeta indevidamente os
grficos de diagnstico e outras tcnicas para validao de modelos.

(a)

(b)

(c)

(d)

Figura 1: Grficos de disperso dos resduos versus a ordem de coleta ou tempo.


Assim, deve-se construir um grfico de disperso dos resduos versus a ordem
de coleta dos dados (ou a seqncia de tempo), que possibilita identificar a existncia
de correlao entre os erros.

Se o grfico de disperso dos resduos versus a ordem de coleta dos dados (ou a
seqncia de tempo) mostra uma aleatoriedade dos pontos em torno de uma
faixa horizontal centrada em i = 0 [ver Figura 1(a)], ento no h indicaes da
influncia do tempo ou da ordem de coleta no conjunto de dados.

153

Se o grfico de disperso dos resduos versus a ordem de coleta dos dados (ou a
seqncia de tempo) mostra alguma tendncia [ver Figura 1(b)], isso pode indicar que a varincia dos erros no constante, aumentando com o tempo, por
exemplo, podendo implicar no uso da anlise de mnimos quadrados ponderados.
Se o grfico de disperso dos resduos versus a ordem de coleta dos dados (ou a
seqncia de tempo) mostra uma tendncia linear ou quadrtica [ver Figuras 1(c)
e 1(d)], um termo linear ou quadrtico em relao ao tempo deve ser acrescentado no modelo de regresso (DRAPER & SMITH, 1996).
Os i s so correlacionados com cada yj em (9.9), mas no so correlacionados com
os y j s em (9.10).
Algumas propriedades amostrais dos resduos so dadas em (9.11)-(9.14). A
mdia amostral dos resduos zero, como mostrado em (9.11). Em (9.12), pode ser
visto que e y so correlacionados na amostra desde que y seja o numerador de:

ry =

' (y yj)

( )(y yj) (y yj)


t

' y

( )(y yj) (y yj)


t

Por (9.13), e y so ortogonais e, portanto,

ry = 0

(9.15)

Similarmente, por (9.14), ortogonal a cada uma das colunas de X e


rx j = 0,

para j =1, 2, , k

(9.16)

Como a correlao entre os erros estimados e os valores preditos (ys estimados)


igual a zero, ento o grfico de disperso (1 , y1 ) , (2 , y 2 ) , , (n , y n ) , de versus
y , no deve mostrar padres sistemticos. Da mesma forma, por (9.16), os grficos
dos resduos versus cada uma das colunas x1, x2, , xk devem mostrar somente variaes aleatrias. A presena de alguma tendncia pode sugerir que a varincia dos
erros no constante, que o modelo de regresso no linear ou ainda que a existem
pontos discrepantes.
Esses grficos so teis para checar o modelo. Os tipos de padres sistemticos
que podem ocorrer so semelhantes queles j mostrados nas Figuras 1(b), (c) e (d) e
sugerem, respectivamente: heterocedasticidade das varincias, efeito linear de xi no
removido e a necessidade de incluir termos extras em xi (o quadrtico xi2, por exemplo) ou transformaes na varivel y.
Um outro grfico utilizado no diagnstico do modelo o grfico de probabilidade normal dos resduos, denominado de QQ-plot. Se o modelo no correto,
vrios grficos envolvendo os resduos podem mostrar detalhes do modelo ajustado,
como: outliers, tendncias, ou varincias no constantes.

154
Consideraremos diversas abordagens para detectar outliers na Seo 9.3 e para
encontrar pontos influentes na Seo 9.4. Antes, porm, discutiremos algumas propriedades da matriz chapu, H, na Seo 9.2.

9.2 A MATRIZ (QUE COLOCA O) CHAPU OU HAT MATRIX


1

Notou-se em (9.2) que a matriz-chapu H = X(XX) X simtrica e idempotente.


Agora ns apresentaremos algumas propriedades adicionais dessa matriz, que sero
teis na discusso de outliers e pontos influentes nas Sees 9.3 e 9.4.
Para o modelo centrado
y = j + Xc1 +

(9.17)

temos que:

y = j + Xc 1 +

(9.18)

e a matriz chapu Hc = Xc(XcXc) Xc, onde Xc dada em (7.37) como

x11 x1
x x
1

Xc = I J X1 = 21 1
M
n

xn1 x1

x12 x2
x22 x2
M
xn 2 x2

K x1k xk
K x2 k x k

K xnk xk

Por (7.37) e (7.38), podemos escrever (9.18) como:


1

1
1
y = y j + Xc(XcXc) Xcy = j' y j + Hcy = J + H c y

n
n

( 9.19)

onde J uma matriz nxn de 1s [ver (2.7)]. Comparando (9.19) e (9.2), temos:
H=

1
1
1
J + Hc = J + Xc(XcXc) Xc
n
n

(9.20)

Agora, examinaremos algumas propriedades dos elementos hij de H.


Teorema 9.2A. Se X nx(k+1) de posto k + 1 < n e se a primeira coluna de X j,
1
ento os elementos hij de H = X(XX) X tm as seguintes propriedades
(i) 1/n hii 1 para i = 1, 2, ... , n.
(ii) 0,5 hij 0,5 para j i.
1

(iii) hii = 1/n + (x1i x1 )(XcXc) (x1i x1 ), onde x1i = [xi1, xi2, ..., xik], x1 =
[ x1 , x2 , ..., xk ] e (x1i x1 ) a i-sima linha da matriz centrada Xc.
(iv) tr(H) =

i =1 hii =

k + 1.

155
Prova:

(i) O limite inferior de hii segue de (9.20) porque (XcXc) positiva definida. Desde
que H simtrica e idempotente, usaremos a relao H = H2 para encontrar um limite superior de hii. Assumindo hi como a i-sima linha de H. Ento,
hii = hihi = [hi1 hi 2

= hii2 +

hi1
h
L hin ] i 2
M

hin

hij2

(9.21)

i j

Dividindo ambos os lados de (9.21) por hii (que so positivos porque hii 1/n), obtemos:
n h2
ij
1 = hii +
(9.22)
i j hii
que implica em hii 1.
(ii) (Chatterjee and Hadi 1998, p.18) Podemos escrever (9.21) na forma:

hii = hii2 + hij2 +

hir2

r i, j

ou

hii hii2 = hij2 +

hir2

r i, j

Ento, hij2 hii hii2 , e desde que o mximo valor de hii hii2 1/4, ns temos que

h2ij 1/4 para todo j i.


(iii) Segue de (9.20); ver Problema 9.2(b).
(iv) Ver Problema 9.2(c).

Pelo Teorema 9.2A(iv), vemos que quando n aumenta, os valores de hii tendem a di1
minuir. A funo (x1i x1 )(XcXc) (x1i x1 ) do Teorema 9.2A (iii) uma distncia
padronizada. Esta distncia (de Mahalanobis) foi definida em (3.25) para uma matriz
de covarincia populacional. Se XcXc proporcional a uma matriz de covarincia
1
amostral [ver (7.45)], (x1i x1 )(XcXc) (x1i x1 ) produz uma boa medida da distncia relativa de cada ponto x1i ao centro dos pontos representado por x1 .

156
9.3 OUTLIERS

Em alguns casos, o modelo parece ser correto para a maioria dos dados, mas algum
valor de resduo pode ser muito maior (em valor absoluto) do que os outros. Tal
ponto chamado de outlier pode ocorrer devido a um erro no registro, uma observao
de outra populao, ou simplesmente uma observao no usual da distribuio assumida. Por exemplo, se os erros i ~ N(0, 2), i = 1, , n, um valor | i | > 3 pode
ocorrer com freqncia 0,0027.
Segundo DRAPER & SMITH (1996), levando em conta esses aspectos, tais
observaes discrepantes devem merecer uma ateno especial e no simplesmente
serem rejeitadas sem qualquer estudo. Se nenhuma explicao aparente para o outlier
for encontrada, o conjunto de dados pode ser analisado:

Sem a observao discrepante, se ela no tiver um efeito relevante sobre a anlise de regresso ou,

Com o ponto discrepante, se ele exercer uma influncia grande sobre as estimativas dos parmetros.

A terceira possibilidade usar mtodos robustos que acomodam a presena de


outliers, ver Huber (1973), Andrews (1974), Hampel (1974), Welsch (1975),
Devlin, Gnansdesikan, e Kettenring (1975), Mosteller a Tukey (1977), Birch
(1980), e Krasher e Welsh(1982).

Uma tcnica adequada para se detectar outliers consiste em plotar os resduos


versus i ou y i versus i, o nmero da observao. Em nossas anlises de resduos,
precisamos lembrar que, por (9.8), a varincia dos resduos no constante,

var( i ) = 2 (1 hii).

(9.23)

Pelo Teorema 9.2A(i), hii 1; por isso var( i ) ser menor se hii 1. Pelo Teorema 9.2A(iii), hii ser grande se x1i for distante de x1 , onde x1i = [xi1, xi2,... ,xik] e x1
= [ x1 , x2 , ..., xk ]. Por (9.23), tais observaes tendero a ter menores resduos, o
que parece ser desastroso porque o modelo menos apropriado quando estiver mais
distante de. Um resduo pequeno para um ponto onde x1i distante de x1 deve acontecer porque o modelo ajustado tender a passar prximo de um ponto isolado da nuvem de pontos, com um resultado pobremente ajustado para o resto dos dados. Isto
pode mascarar uma inadequao do verdadeiro modelo na regio de x1i.
Uma verificao adicional de que grandes valores de hii so acompanhados por
pequenos resduos produzida pela seguinte desigualdade (ver Problema 9.4)

i2
1
hii +
1
n
'

(9.24)

Por razes implcitas em (9.23) e (9.24), desejvel padronizar os resduos para que
tenham a mesma varincia. Basicamente, existem dois mtodos de padronizao.

157
Para o primeiro mtodo de padronizao, usamos var( i ) = 2(1 hii) em (9.23)
para obter os resduos padronizados
i
ri =
1 hii
que tm mdia 0 e varincia 1. Substituindo por s produz-se o resduo studentizado:
i
ri =
(9.25)
s 1 hii
onde s2 = SQRes/(n k 1) definido em (7.24). O uso de ri no lugar de i elimina o
efeito de locao (devido a hii) no tamanho dos resduos, como discutido a seguir em
(9.23).
Um segundo mtodo de padronizao de resduos usa uma estimativa de que
exclui a isima observao, ou seja:
ti =

i
s(i ) 1 hii

(9.26)

onde s(i) calculado com as (n 1) observaes remanescentes depois de omitir a observao (yi, xi) = (yi, 1, xi1, ... , xik), em que yi o i-simo elemento de y e xi a isima linha de X [ver (9.32)]. Se a i-sima observao um outlier, ela se mostrar
mais provvel como outlier com a padronizao em (9.26), que chamado de resduo
padronizado externamente ou resduo padronizado deletado ou R-student.
Uma outra opo examinar os resduos deletados (deleted residuals). O i-simo resduo deletado (i), calculado com (i ) baseado nas n 1 observaes com
(yi , xi) omitido:
(i ) = yi y (i ) = yi xti (i )
(9.27)
Por definio
1
(i ) = (X(i)X (i)) X(i)y(i)
(9.28)
onde X(i) a matriz (n 1)x(k 1) obtida deletando-se xti = [1, xi1, ... , xik0], que a isima linha de X, e y(i), (n1)x1, o correspondente vetor y depois de deletar yi. O
vetor (i ) pode ser obtido sem precisar deletar (yi ,xi):
i
1
(i ) =
(XX) xi
(9.29)
1 hii
(ver Problema 9.5). Usando (9.29), o resduo deletado = yi xi em (9.27)
(i )

pode ser expresso em termos de i e hii:

(i ) =

1 hii

(i )

(9.30)

158
(ver Problema 9.6). Ento os n resduos deletados podem ser obtidos sem calcular as
n regresses. O resduo escalonado (scaled residual) ti em (9.26) pode ser expresso
em termos de (i ) em (9.30) como:
ti =

(i )

( )

var (i )

(9.31)

(ver Problema 9.7). A varincia amostral deletada s(i2 ) usada em (9.26) definida
como s(i2 ) = SQRes(i)/(n k 1), onde SQRes(i) = y t(i) y(i) t(i) Xt(i) y(i), que pode ser
encontrado sem excluir a i-sima observao:
s(i2 ) =

SQRes (i )
n k 1

SQRes i2 (1 hii )
n k 1

(9.32)

(ver Problema 9.8).


Uma outra opo para deteco de outlier consiste em plotar os resduos ordinrios i = yi xi versus os resduos deletados (i ) de (9.27) ou (9.30). Se o ajuste
no mudar substancialmente quando a i-sima observao deletada no clculo de
, os pontos plotados devero estar prximos de uma reta com um coeficiente angular igual a 1. Todos os pontos que estiverem relativamente distantes desta linha so
outliers em potencial.
Se um outlier de uma distribuio com uma mdia diferente, o modelo pode
ser expresso como E(yi)= xi + , onde xi a i-sima linha de X. Este o chamado
shift-mean outlier model. A distribuio de ti em (9.26) ou (9.31) t(n k 1), e ti
pode, portanto, ser usado no teste de hipteses H0: = 0. Se n testes forem feitos, um
ajuste de Bonferroni para os valores crticos pode ser usado, ou podemos simplesmente focar nos ti-valores mais altos.
Para usar os n resduos deletados em (9.30) para validao ou seleo do modelo, definiremos a Soma de Quadrados de Predio (prediction sum of squares PRESS):
n
n 2

(9.33)
PRESS = (i ) = i
i =1
i =1 1 hii
Um resduo (i ) correspondente a um alto valor de hii contribui mais para o PRESS.
Para um dado conjunto de dados, PRESS pode ser uma melhor medida que a SQRes
de quo bem o modelo ir predizer observaes futuras. O PRESS utilizado na
comparao de modelos alternativos, quando o objetivo a predio. Preferencialmente, sero utilizados modelos com menores valores de PRESS.

159

9.4. OBSERVAES INFLUENTES E LEVERAGE


Na Seo 9.3 enfatizamos a procura por outlier que no foram ajustados ao modelo.
Nesta seo, consideraremos o efeito que uma observao (yi ,xi) eliminada tem nas
estimativas e X . Uma observao que causa um maior impacto nessas estimativas uma observao influente. Um ponto (yi ,xi) potencialmente influente se ele
um outlier na direo y ou se ele est distante do centro dos xs.
Ilustraremos observaes influentes para o caso de um x na Figura 9.2. Os pontos 1 e 3 so extremos na direo x; os pontos 2 e 3 provavelmente aparecem como
um outlier na direo y. Embora o ponto 1 seja um extremo em x, ele no influenciar na inclinao ou no intercepto da reta. J o ponto 3 ter uma relevante influncia
na inclinao e no intercepto da reta, se a linha de regresso passar prxima a 3. O
ponto 2 tambm influente, mas muito menos do que o ponto 3.
Portanto, os pontos influentes so mais encontrados em reas onde pouco ou
nenhum outro dado coletado. Tais pontos podem se ajustar muito bem, s vezes em
detrimento do ajuste de outros dados.
Para investigar a influncia de tais observaes, comearemos com y = Hy em
(9.2), onde os elementos so:
y i =

hij y j = hii yi +
j =1

hij y j

(9.34)

j i

Por (9.22), se hii grande (prximo a 1), ento os hijs, j i , so todos pequenos, e yi
contribui muito mais que os outros ys para. Por isso, hii chamado leverage (alavanca) de yi. Pontos com alto leverage tm alto potencial para influenciar o resultado
da regresso. Em geral, se uma observao (yi, xi) tem um valor de hii prximo de 1,
ento a equao de regresso estimada estar prxima de yi; isto , |yi y i | ser pequeno.
Pelo Teorema 9.2.A(iv), o valor mdio dos hiis (k+1)/n. Hoaglin e Welsch
(1978) sugerem que um ponto com hij > 2(k +1)/n um ponto com alto leverage.
Alternativamente, ns podemos simplesmente examinar alguma observao cujo
valor de hii seja maior em relao a outros valores de hii.
Em termos de ajustamento de modelos para um conjunto de dados, pontos com
alto leverage podem ser tambm bons ou maus, como ilustrado pelos pontos 1 e 3 na
Figura 9.2. O ponto 1 deve reduzir a varincia de 0 e 1 . Por outro lado, o ponto 3
alterar drasticamente o modelo ajustado. Se o ponto 3 no o resultado de um registro incorreto, o pesquisador deve escolher entre dois modelos ajustados concorrentes.
Tipicamente, o modelo que ajusta o conjunto de dados deve ser preferido at que
pontos adicionais possam ser observados em outras reas.
Para formalizar a influncia de um ponto (yi, xi), consideramos o efeito da excluso dele em e y = X . A estimativa de obtida com a excluso da i-sima ob-

160
1
servao (yi) definida em (9.28) como: (i ) = (X(i)X(i)) X(i)y(i). Podemos comparar
e pela mdia da Distncia de Cook, definida como:

(i )

t
(
(i ) ) X' X ( (i ) )
D =

(9.35)

(
y (i ) y ) t X' X (y (i ) y )
D =

(9.36)

(k + 1)s 2

que pode ser escrita como:


i

(k + 1)s 2

em que Di proporcional Distncia Euclidiana Ordinria entre y (i ) e y . Portanto,


se Di grande, a observao (yi, xi) tem substancial influncia em e y . Uma forma
mais conveniente computacionalmente de Di dada por:

ri2 hii

Di =
k + 1 1 hii

(9.37)

Exemplo 9.1. Ns ilustraremos diversas ferramentas de diagnstico para dados qumicos da Tabela 7.4 usando y1. Na Tabela 9.1 ns apresentaremos i , hii e algumas
funes das sees 9.3 e 9.4.
A orientao para hii na Seo 9.4 : 2(k+1)/n = 2(4)/19 = 0,421. O nico valor
de hii que excede 0,421 o primeiro, h11 = 0,430. Portanto, a primeira observao tem
potencial para influenciar o ajuste do modelo, mas essa influncia no aparece em t1
= 0,383 e D1 = 0,029. Outros valores relativamente grandes de hii correspondem s
observaes 2, 11, 14, 15, 16, e 17. Destas, somente a observao 14 tem um valor
(absoluto) muito grande de ti. A observao 12 tem valores grandes de i , ri, ti e Di e
, potencialmente, um outlier influente.
O valor de PRESS como definido em (9.33) PRESS = 130,76, que pode ser
comparado a SSE = 80,17.

161

Tabela 9.1. Resduos e medidas influentes para os dados qumicos com varivel
dependente y1.
Obs
Nmero

yi

y i

hii

ri

ti

Di

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

41.50
33.80
27.70
21.70
19.90
15.00
12.12
4.30
19.30
6.40
37.60
18.00
26.30
9.90
25.00
14.10
15.20
15.90
19.60

42.19
31.00
27.74
21.03
19.40
12.69
12.28
5.57
20.22
4.76
35.68
13.09
27.34
13.51
26.93
15.44
15.44
19.54
19.54

-0.688
2.798
-0.042
0.670
0.495
2.307
-0.082
-1.270
-0.917
1.642
1.923
4.906
-1.040
-3.605
-1.929
-1.342
-0.242
-3.642
0.058

0.430
0.310
0.155
0.139
0.129
0.140
0.228
0.186
0.053
0.233
0.240
0.164
0.146
0.245
0.250
0.258
0.258
0.217
0.217

-0.394
1.457
-0.020
0.313
0.230
1.076
-0.040
-0.609
-0.408
0.811
0.954
2.320
-0.487
-1.795
-0.964
-0.674
-0.121
-1.780
0.028

-0.383
1.520
-0.019
0.303
0.222
1.082
-0.039
-0.596
-0.396
0.801
0.951
2.800
-0.474
-1.956
-0.961
-0.661
-0.117
-1.937
0.027

0.029
0.239
0.000
0.004
0.002
0.047
0.000
0.021
0.002
0.050
0.072
0.264
0.010
0.261
0.077
0.039
0.001
0.220
0.000

162

CAPTULO 10. REGRESSO MLTIPLA: XS ALEATRIOS.


Nos captulos 7-9 ns assumimos que os xs eram fixos, isto , que eles permaneciam
constantes em amostras repetidas. Em muitas aplicaes de regresso, os xs so
variveis aleatrias. Neste captulo, obteremos estimadores e testes estatsticos para
modelos de regresso com xs aleatrios. Muitos destes estimadores e testes estatsticos so os mesmos daqueles para xs fixos, porm suas propriedades de alguma forma so diferentes.
No caso de x-aleatrio, (k + 1) variveis y, x1, x2, , xk so mensuradas em
cada um dos n indivduos ou unidades experimentais na amostra. Estes n vetores de
observaes produzem os dados:
y1
y2
M
yn

x11
x21
M
xn1

x12 L x1k
x22 L x2 k
M
M
xn 2 L xnk

(10.1)

As linhas dessa matriz so vetores aleatrios do segundo tipo descrito na Seo 3.1.
As variveis y, x1, x2, , xk em uma linha so correlacionadas e possuem varincias
diferentes, isto , para o vetor aleatrio [y, x1, x2, , xk]= [y, x], temos:
y
x
y
cov 1 = cov =
M
x

xk

onde no uma matriz diagonal. Os vetores [linhas da matriz (10.1)] so ordinria


e mutuamente independentes (no correlacionados) se eles provm de uma amostra
aleatria.
Nas sees (10.1)-(10.4) ns assumimos que y e os xs tm distribuio normal
multivariada. Muitos dos resultados nas sees (10.5)-(10.7) no necessitam da suposio de normalidade.
10.1. MODELO DE REGRESSO NORMAL MULTIVARIADA

A estimao e os resultados dos testes nas sees (10.1)-(10.4) so baseados na suposio de que [y, x1, x2, , xk] = [y, x] distribuda como Nk+1(, ) com:
y


= 1 = y
M
x

k

(10.2)

163
yy y1 L yk

1 y 11 L 1k

=
= yy
M
M
M yx

k1
kk
ky

tyx

xx

(10.3)

onde x o vetor de mdias dos xs, yx o vetor das covarincias entre y e os xs e


xx a matriz de covarincia dos xs. Pelo Corolrio 1 do teorema 4.4D, temos,
E(y | x) = y + tyx xx1 (x x )

= 0 + 1t x

(10.4)
(10.5)

onde
0 = y tyx xx1 x

(10.6)

1 = xx1 yx

(10.7)

Pelo Corolrio 1 do Teorema 4.4D, ns tambm obtemos


var(y | x) = yy tyx xx1 yx = 2

(10.8)

A mdia, E(y | x) = y + tyx xx1 (x x ) , funo linear de x, mas a varincia,


2 = yy tyx xx1 yx , no funo de x. Assim sob suposio de normalidade, (10.4)
e (10.8) fornecem um modelo linear com varincia constante, que anlogo ao caso
de x-fixo. Note, no entanto, que E(y | x) = 0 + 1t x em (10.5) no admite curvatura
como em E(y) = 0 + 1 x + 2 x2. Assim E(y | x) = 0 + 1t x representa um modelo que
linear tanto nos xs quanto nos s. Isto difere do modelo linear no caso x-fixo que
requer somente linearidade nos s.

10.2 ESTIMAO NA REGRESSO NORMAL MULTIVARIADA

Antes de obtermos os estimadores de 0, 1 e 2 em (10.6)-(10.8), ns devemos estimar primeiramente e . Estimadores de mxima verossimilhana de e so
dados no seguinte teorema.
Teorema 10.2A. Se (y1, x1t ), (y2, x t2 ), , (yn, x tn ) [linhas da matriz em (10.1)] constituem uma amostra aleatria de Nk+1(, ), com e dados em (10.2) e (10.3), os
estimadores de mxima verossimilhana so
y
= y =
(10.9)

x
x

n 1
n 1 s yy
=
S=

n s tyx
n

s tyx

S xx

(10.10)

164
onde as parties em e S so anlogas s parties de e em (10.2) e (10.3). Os
elementos da matriz de covarincias amostrais, S, so definidos em (7.41) e (10.14) a
seguir.
Prova: ver Rencher, pg. 230-231.
Note que na forma particionada, a matriz de covarincias amostrais S pode ser
escrita como em (10.10):
s yy
s1 y
=
S xx M

s ky

s
S = yy
s yx

s tyx

s y1 L s yk
s11 L s1k

M
M

s k1 L s kk

(10.14)

onde syx o vetor de covarincias amostrais entre y e os xs e Sxx a matriz de covarincias amostrais para os xs. Por exemplo:

i =1 ( yi y )(xi1 x1 )
n

sy1 =
s11 =

n 1

(xi1 x1 )2
n
i =1

n 1

i =1 (xi1 x1 )(xi 2 x2 )
n

s12 =

n 1
[ver (7.42)-(7.44)]. Por (5.7) temos que E(syy) = yy e E(sjj) = jj. Por (5.17), temos
que E(syj) = yj e E(sij) = ij. Assim, E(S) = , onde dado em (10.3). Por conta desses resultados, conclumos que S um estimador imparcial de , mas o estimador de
n 1
mxima verossimilhana =
S viesado.
n
Os estimadores de mxima verossimilhana para 0, 1 e 2 so dados no teorema apresentado a seguir.

Teorema 10.2B. Se (y1, x1t ), (y2, x t2 ), , (yn, x tn ) uma amostra aleatria de Nk+1(,
), com e dados em (10.2) e (10.3), os estimadores de mxima verossimilhana
de 0, 1 e 2

0 = y styxS xx1x

(10.15)

1 = S xx1s yx

(10.16)

s2 = syy s tyxS xx1s yx

(10.17)

Prova: ver Rencher, p. 232.


Note que o estimador da varincia, s2, foi corrigido para vis.

165

Teorema 10.2C. O estimador de mxima verossimilhana de uma funo de um ou


mais parmetros a mesma funo do correspondente estimador. Isto , se o estimador de mxima verossimilhana do vetor ou matriz de parmetros , ento g( )
o estimador de mxima verossimilhana de g( ).

Prova: ver Hogg and Craig (1995) p.265.


Exemplo 10.2(a). Ns ilustramos o uso da propriedade da invarincia do Teorema
10.2C obtendo uma matriz de correlao amostral R como o estimador de mxima
verossimilhana da matriz de correlao populacional P (assumindo normalidade
multivariada). Por (3.28), a relao entre P e dada por P = D1D1 , onde D =
[diag()]1/2, de forma que:
1
,
D1 = diag
11

22

, L,

pp

O estimador de mxima verossimilhana de 1 jj 1 jj , onde

jj =

1 n
yij y j
n i =1

)2

1 = diag 1 / 11 , 1 / 22 , L, 1 / pp e ento ns obtemos:


Assim, D

jk
1 D
1 =
P = D
jj kk

i =1 (yij y j )( yik yk ) n
n
n
i =1 (yij y j )2 n i =1 ( yik yk )2
n

i =1 (yij y j )( yik yk )
n
n
i =1 (yij y j )2 i =1 ( yik yk )2

( )

= r jk = R

que a matriz de correlaes amostrais rjk.


Os estimadores 0 , 1 e s2 tm uma propriedade de varincia mnima anloga a
dos estimadores correspondentes nos casos de ys normal e xs fixos no Teorema
7.6D. Pode ser demonstrado que e S em (10.9) e (10.10) so estatsticas suficientes
para e . Assim, com algumas propriedades adicionais que podem ser demonstradas, segue que , e s2 so estimadores no viesados de varincia mnima de 0, 1
2

e (ver Graybill 1976, p.380).

166
Os estimadores de mxima verossimilhana 0 e 1 em (10.15) e (10.6) so as
mesmas funes algbricas das observaes que os estimadores de mnimos quadrados apresentados em (7.47) e (7.48) para o caso de xs fixos. Os estimadores em
(10.15) e (10.16) so tambm idnticos aos estimadores de mxima verossimilhana
para o caso de ys normal e xs fixos na Seo 7.6.2 (ver Problema 7.17). No entanto,
mesmo que os estimadores nos casos de ys normal e xs fixos sejam os mesmos, suas
distribuies so diferentes. Quando y e xs so variveis normais multivariadas, 1
no tem distribuio normal multivariada, como no caso de xs fixos com y normal
[ver Teorema 7.6B(i)].
Agora demonstraremos que o vetor de coeficientes de regresso 1 em (10.16)
pode ser expresso em termos das correlaes amostrais. Por analogia a (10.14), a matriz de correlao amostral para (y, x1, x2, ,xk) pode ser escrita na forma particionada como:
1
r
t
1y
ryx
= r2 y
R xx
M
rky

1
R=
ryx

ry1 ry 2 L ryk
1 r12 L r1k

r21 1
r2 k

M
M
M
rk1 rk 2 L 1

(10.18)

onde ryx o vetor de correlaes entre y e os xs e Rxx a matriz de correlao para os


xs. Por exemplo,
ry2 =

r12 =

s y2
s 2y s 22

s12
s12 s 22

i =1 ( yi y )(xi 2 x2 )
n
n
i =1 ( yi y )2 i =1 (xi 2 x2 )2

i =1 (xi1 x1 )(xi 2 x2 )
n
n
i =1 (xi1 x1 )2 i =1 (xi 2 x2 )2

Por analogia a (3.29), R pode ser convertida em S por S = DRD, onde D =


[diag(S)]1/2, que pode ser escrita na forma particionada como:
s y
0

D= 0

M
0

s11
0
M
0

0
s22
M
0

L
L
L

0
0
s
0 = y
0

M
skk

0'
D x

Usando a forma particionada de S em (10.14), S = DRD pode ser escrita como:

167
s
S = yy
s yx

s tyx s 2y
=
S xx s y D xryx

t
s y ryx
Dx

D x R xx D x

(10.19)

De tal forma que


Sxx = Dx Rxx Dx

(10.20)

syx = sy Dx ryx

(10.21)

onde Dx = diag(s1, s2, , sk) e sy =

s 2y =

s yy o desvio padro amostral de y.

Quando (10.20) e (10.21) so substitudos em (10.16), obtemos uma expresso para


1 em termos da correlao,
1 = s y D x 1R xx1ryx

(10.22)

Os coeficientes de regresso 1 , 2 , , k em 1 podem ser padronizados de


tal forma a mostrar os efeitos dos x-valores padronizados (algumas vezes chamados
de z-scores). Ns ilustraremos isso para k = 2. O modelo na forma centrada [ver
(7.31) e uma expresso que segue (7.39)] :
y i = y + 1 ( xi1 x1 ) + 2 ( xi 2 x2 )

Isto pode ser expresso em termos de variveis padronizadas como


x x s
x x
y i y
s
= 1 1 i1 1 + 2 2 i 2 2
sy
s y s1 s y s2

onde sj =

(10.23)

s jj o desvio padro amostral de xj. Ento definimos os coeficientes pa-

dronizados como:

j =

sj
sy

Estes coeficientes freqentemente so citados como beta weights ou coeficientes


betas. Desde que sejam usados com variveis padronizadas (xij x j )/sj em (10.23),
os s podem ser prontamente comparados entre eles, enquanto os s no podem
j

ser comparados. [A diviso por sj em (10.23) costumeira, porm no necessria;


os valores relativos de s1 1 e s2 2 so os mesmos que aqueles de s1 1 /sy e s2 2 /sy].
Os beta weights podem ser expressos na forma vetorial como
1
1 =
D x 1
sy
Usando (10.22), tambm pode ser escrito como:

1 = R xx1 ryx

(10.24)

168
Note que 1 em (10.24) no o mesmo que 1 no modelo reduzido em (8.8).
Note tambm a analogia de 1 = R xx1 ryx em (10.24) a 1 = S xx1s yx em (10.16). Em
efeito, Rxx e rxy so a matriz de covarincia e o vetor de covarincia das variveis padronizadas. Substituir S xx1 e s yx por R xx1 e ryx conduz aos coeficientes de regresso
para variveis padronizadas.
Exemplo 10.2(b). As seis variveis hematolgicas seguintes foram medidas em 51
trabalhadores (Royston, 1983):
y = contagem de linfcitos

x3 = contagem de clulas brancas

x1 = concentrao de hemoglobina

x4 = contagem de neutrfilos

x2 = packed cell volume

x5 = serum lead concentration

Os dados esto na Tabela 10.1 (pginas 236-237 do livro do Rencher). Temos:


y = 22.902,

x' = [15.108, 45.196, 53.824, 25.529, 21.039]

3.255 0.422 0.268


0.691 1.494
1.494 5.401 10.155 1.374
1.292

Sxx = 3.255 10.155 200.668 64.655


4.067 ,

0
.
422
1
.
374
64
.
655
56
.
374
0
.
579

0.268 1.292
4.067 0.579 18.078

1.535
4.880

syx = 106.202

3
.
753

3.064

Por (10.15)-(10.17) ns obtemos:


0.491
0.316

1 = S xx1 s yx = 0.837

0.882
0.025

0 = y styxS xx1x = 22.902 1.355 = 21.547


s2 = syy s tyxS xx1s yx = 90.2902 83.3542 = 6.9360

As correlaes so dadas por:


1.000
0.774

Rxx = 0.277

0.068
0.076

0.774
1.000
0.308
0.079
0.131

0.277
0.308
1.000
0.608
0.068

0.068 0.076
0.079
0.131

0.608
0.068 ,

1.000
0.018
0.018
1.000

0.194
0.221

ryx = 0.789

0.053
0.076

169
Por (10.24), o vetor de coeficientes padronizados dado por:

1 = R xx1 ryx

0.043
0.077

= 1.248

0
.
697

0.011

A partir desses valores, percebe-se a maior importncia das variveis x3 e x4 no modelo de regresso mltipla.

10.3. R2 NA REGRESSO NORMAL MULTIVARIADA

Nos casos de xs fixados, ns definimos R2 como a proporo da variao em y devida regresso [ver (7.56)]. Nos casos de xs aleatrios, ns obtemos R como uma estimativa da correlao mltipla populacional entre y e os xs. Ento R2 o quadrado
da correlao mltipla amostral.
O coeficiente de correlao mltipla populacional y|x definido como a correlao entre y e a funo linear w = y + tyx xx1 (x x ) , isto ,

y |x = corr(y, w) =

yw
y w

(10.25)

(Usamos o subscrito y | x para distinguir y |x de , a correlao entre y e x no caso


bivariado normal; ver sees 3.2, 6.4 e 10.4). Por (10.4), w igual a E(y | x), que o
anlogo populacional de y = 0 + 1t x1 , o valor predito de y na amostra. Como x
varia aleatoriamente, o valor predito populacional w = y + tyx xx1 (x x ) torna-se
uma varivel aleatria.
facilmente estabelecido que cov(y, w) e var(w) possuem o mesmo valor:
cov(y, w) = var(w) = tyx xx1 yx

(10.26)

Ento, a correlao mltipla populacional y |x em (10.25) passa a ser:

y|x =

cov( y, w)
=
var ( y ) var (w)

tyx xx1 yx

yy

e o coeficiente de determinao populacional ou quadrado da correlao mltipla


populacional y2|x dado por

y2|x

tyx xx1 yx

yy

(10.27)

170
Agora ns listamos algumas propriedades de y |x e y2|x :
1. y |x a correlao mxima entre y e qualquer funo linear de x, x:

y |x = max y |' x

(10.28)

Esta uma definio alternativa de y |x que no baseada na distribuio normal multivariada como a definio em (10.25).
2. y2|x pode ser expresso em termos de determinantes:

y2|x = 1

yy xx

(10.29)

onde e xx so definidos em (10.3).


3. y2|x invariante a transformaes lineares em y ou nos xs; isto , se u = ay e v
= Bx, onde B no singular, ento

u2| v = y2|x

(10.30)

(Note que v aqui no o mesmo que vi usado na prova do teorema 10.2A).


4. Usando var(w) = tyx xx1 yx em (10.26), y2|x em (10.27) pode ser escrito na
forma:

y2|x =

var ( w)
var ( y)

(10.31)

Uma vez que w = y + tyx xx1 (x x ) a equao de regresso populacional,

y2|x em (10.31) representa a proporo da varincia de y que pode ser atribuda


relao da regresso com as variveis em x. Neste sentido, y2|x anlogo R2
= SQReg/SQTotal no caso xs fixos em (7.56).
5. Por (10.8) e (10.27), var(y|x) pode ser expresso em termos de y2|x :

var(y|x) = yy tyx xx1 yx = yy yy y2|x


= yy (1 y2|x )

(10.32)

6. Se considerarmos y w como um resduo, ento y w no correlacionado com


os xs:

cov(y w, x) = 0
(Ver Problema 10.8).

(10.33)

171
Podemos obter um estimador de mxima verossimilhana para y2|x substituindo os parmetros em (10.27) pelos estimadores em (10.14):
2

R =

styxS xx1s yx

(10.34)

s yy

Usamos a notao R2 ao invs de y2|x por que (10.34) reconhecido como tendo a
mesma forma de R2 para o caso de xs fixos em (7.60). Referimos-nos a R2 como o
coe-ficiente de determinao amostral ou como o quadrado da correlao mltipla
amostral. A raiz quadrada de R2,
R=

s tyxS xx1s yx

s yy

(10.35)

o coeficiente de correlao mltipla amostral.


Agora listaremos diversas propriedades de R e R2, algumas das quais so anlogas s propriedades de y2|x vistas anteriormente:
1. R igual correlao amostral entre y e y = 0 + 1 x1 + + k xk = 0 + 1t x :

R = ryy

(10.36)

2. R igual a mxima correlao amostral entre y e qualquer combinao linear


dos xs, ax:

R = max ry|a'x
a

(10.37)

3. R2 pode ser expresso em termos de correlaes:


t
R2 = ryx
R xx1ryx

(10.38)

onde ryx e Rxx so obtidas da matriz de correlao amostral R particionada como


em (10.18).
4. R2 pode ser obtido de R 1 :

R2 = 1

1
r yy

(10.39)

onde r yy o primeiro elemento da diagonal de R 1 . Usando os outros elementos da diagonal de R 1 , a relao em (10.39) pode ser estendida para dar a correlao mltipla de qualquer xj com outros xs e y. Assim, de R 1 ns obtemos
correlaes mltiplas, ao contrrio das correlaes simples em R.

172
5. R2 pode ser expresso em termos de determinantes:

R2 = 1
=1

S
s yy S xx

(10.40)

R
R xx

(10.41)

onde Sxx e Rxx so definidos em (10.14) e (10.18).


6. De (10.24) e (10.38), podemos expressar R2 em termos dos beta weigths:
t
1
R2 = ryx

(10.42)

onde 1 = R xx1 ryx .


7. Se y2|x = 0, o valor esperado de R2 dado por

E(R2) =

k
n 1

(10.43)

Ento R2 viesado quando y2|x zero [isto anlogo a (7.58)].


t
8. R2 max ryj2 , onde ryj um elemento de ryx
= (ry1, ry2, , ryk).
j

9. R2 invariante a transformaes lineares de posto completo em y ou nos xs.


Exemplo 10.3. Para os dados hematolgicos da Tabela 10.1, Sxx, syx, Rxx e ryx foram
obtidos no Exemplo 10.3(b). Usando (10.34) ou (10.38), ns obtemos:

R2 = 0,9232
Ou seja, a proporo da varincia de y que pode ser atribuda relao da regresso
com as variveis em x muito alta.
10.4 TESTES E INTERVALOS DE CONFIANA

Para o caso de xs aleatrios, testes de razo de verossimilhana podem ser obtidos


para as hipteses correspondentes quelas para xs fixos no Captulo 8. Para todas as
hipteses no caso de xs aleatrios, a estatstica do teste resultante tambm a mesma
do caso anlogo aos xs fixos (Captulo 8). Quando H0 verdadeira, a distribuio da
estatstica do teste a mesma para xs fixos ou aleatrios, a saber, F central em ambos os casos. Entretanto, quando H0 falsa, a distribuio difere. Para xs fixos, a
distribuio da estatstica do teste F no-central, mas para o caso de xs aleatrios, a
estatstica do teste no distribuda como F no-central.

173
Para ilustrar esses comentrios, considere o teste para H0: 1 = 0, onde 1 = (1,
2, , k). A estatstica F para xs fixos dada em (8.5), (8.22) e (8.23) como:

( ' X' y ny ) k
F=
(y' y ' X' y ) (n k 1)
2

R2 k
1 R 2 (n k 1)

(10.44)

Para xs fixos e y normal, F distribuda como F(k, n k 1) se H0: 1 = 0 verdadeira e distribuda como F no-central se 1 0 (ver Teorema 8.1D). Quando (y, x)
normal multivariada, F em (10.44) tambm distribuda como F(k, n k 1) quando H0: y2|x = 0 verdadeira (Anderson 1984, pp. 138-139), mas quando y2|x 0, F
no tem distribuio F no-central.
tyx xx1 yx
2
2
= 0, que leva a yx = 0,
Note que por (10.27), y |x = 0 leva a y |x =

yy

desde que xx positiva definida. Ento por (10.7), 1 = xx1 yx = 0 e H0: y2|x = 0
equivalente a H0: 1 = 0.
A estatstica F em (10.44) pode ser obtida pela abordagem da razo de
verossimilhana no caso de xs aleatrios (Anderson 1984, pp. 140-142).

Teorema 10.4A. Se (y1, x1t ), (y2, x t2 ), , (yn, x tn ) uma amostra aleatria de Nk+1(,
), com e definidos em (10.2) e (10.3), o teste da razo de verossimilhana para
H0: 1 = 0 ou, de forma equivalente, H0: y2|x = 0 pode ser baseado na estatstica F

definida em (10.44). Ns rejeitamos H0 se F F(, k,n k 1).


Prova: ver Rencher, pg. 241-242.
Quando k = 1 (regresso linear simples), F se reduz a F = (n 2) r2/(1 r2),
onde r a correlao entre y e x dada em (6.18). Ento pelo Problema 5.12:
r (n 2 )
t=
1 r2
[ver (6.20)] tem uma distribuio t com (n 2) graus de liberdade quando (y, x) tem
distribuio normal bivariada com = 0.
Se (y, x) tem distribuio normal bivariada e 0, ento var(r) = (1 2)2/n e a
funo
n (r p )
u=
(10.50)
1 2
tem distribuio aproximada normal padro quando n grande.

174
Entretanto, a distribuio de u aproxima-se da normal muito vagarosamente quando n
aumenta (Kendall e Stuart 1969, p.236). Seu uso questionvel para n < 500.
Fisher (1921) encontrou uma funo de r que se aproxima da normalidade muito mais rapidamente que (10.50) e que pode ser usada com n bem menores que o estipulado para (10.50). Alm disso, a varincia quase independente de . A funo de
Fisher
1 1+ r
1
z = ln
(10.51)
= tanh (r )
2 1 r
onde tanh 1 (r ) a inversa da tangente hiperblica de r. A mdia e a varincia aproximada de z so:
1 1+
E(z) ln
(10.52)
= tanh 1 ( )
2 1
1
var(z)
(10.53)
n3
Ns podemos usar a transformao z de Fisher em (10.51) para testar hipteses como
H0: = 0 ou H0: 1 = 2. Para testar H0: = 0 versus H0: 0 para uma amostra de
tamanho n ns calculamos
z tanh 1 ( 0 )
v=
(10.54)
1 (n 3)
que tem distribuio aproximadamente normal padro N(0, 1), onde z = tanh 1 (r ) .
Ns rejeitamos H0 se |v| z/2, onde z/2 o percentil de ordem (100 /2) da distribuio normal padro. Para testar H0: 1 = 2 versus H0: 1 2 para duas amostras independentes de tamanhos n1 e n2 que produzem correlaes amostrais r1 e r2, ns calculamos:
z1 z2
v=
(10.55)
1 (n1 3) + 1 (n2 3)
e rejeitamos H0 se |v| z/2, onde z1 = tanh 1 (r1 ) e z2 = tanh 1 (r2 ) .
Para obter um intervalo de confiana para , ns notamos que desde que z em
(10.51) aproximadamente normal, podemos escrever:

z tanh 1 ( )

P z / 2
z / 2 1
1 n3

(10.56)

Resolvendo a desigualdade para , ns obtemos o intervalo de confiana (1 ) aproximado:


z
z

tanh z / 2 tanh z + / 2
n3
n3

(10.57)

175
Alm dos testes de mxima verossimilhana, tais como no Teorema 10.4A,
outra abordagem para justificar os testes F no caso de xs aleatrios discutida por
Graybill (1976), pp.381-385. Desde que a distribuio condicional de y para um dado
valor de x seja normal (Corolrio 1 do Teorema 4.4D), a distribuio do vetor de observaes y = [y1, y2, , yn] para um dado valor da matriz X normal multivariada.
Portanto, uma estatstica de teste como (8.16) tem distribuio F para o valor dado de
X quando H0 verdadeira. Entretanto, a distribuio F-central depende somente dos
graus de liberdade; ela no depende de X. Assim, sob H0, a estatstica tem uma distribuio F para todos os valores de X. Entretanto, quando H0 falsa, o parmetro de
no-centralidade no caso de xs fixos depende do valor de X [Teorema 8.2C(i)] e,
portanto, a distribuio F no-central no se mantm para o caso de xs aleatrios.
Os intervalos de confiana para os js na seo 8.6.2 permanecem vlidos para
o caso de xs aleatrios porque a distribuio condicional de y dado x normal. Assim o coeficiente de confiana (1 ) para o caso de xs fixos se mantm para o caso
de xs aleatrios. Entretanto, o comprimento esperado do intervalo difere nos dois
casos.
Um intervalo de confiana para y2|x foi dado por Helland (1987).
Exemplo 10.4(a). Para os dados hematolgicos na Tabela 10.1, ns obtemos R2 =
0,9232 no Exemplo 10.3. O teste F geral de H0: 1 = 0 ou H0: y2|x = 0 realizado
usando F em (10.44):

F=

0.9232 5
R2 k
=
= 108.158
1 R 2 (n k 1) (1 0.9232) 45

Como p-valor < 0.0001 ns rejeitamos H0 e conclumos que nem todos os coeficientes de regresso so simultaneamente nulos.
Exemplo 10.4(b). Para ilustrar a transformao z de Fisher em (10.51) e o seu uso
para comparar dois coeficientes de correlao de amostras independentes em (10.55),
ns dividimos os dados hematolgicos da Tabela 10.1 em duas sub-amostras de tamanhos n1 = 26 e n2 = 25 (as primeiras 26 observaes e as ltimas 25 observaes). Para
a correlao entre as variveis y e x1 das duas amostras, ns obtemos r1 = 0.4994 e r2
= 0.0424. A transformao z de (10.51) para cada um dos valores dado por:

z1 = tanh 1 (r1 ) = 0.5485

z2 = tanh 1 (r2 ) = 0.0425

Para testar H0: 1 = 2, ns usamos a estatstica aproximada (10.55) para obter:


v=

0.5485 0.0425
= 1.6969
1 (26 3) + 1 (25 3)

Como 1.6969 < z0.025 = 1.96, ns no rejeitamos H0 e conclumos que os dois coeficientes de correlao so iguais.

176
Para obter os limites do intervalo de confiana 95% aproximado para 1, ns usamos
(10.57):
Limite inferior para 1:

1.96

tanh 0.5485
= 0.1389
23

1.96

Limite superior para 1: tanh 0.5485 +


= 0.7430
23

Para 2, os limites so dados por:


Limite inferior para 2:

1.96

tanh 0.0425
= 0.3587
22

1.96

Limite superior para 2: tanh 0.0425 +


= 0.4303
22

Vale notar (Figura 1) que os dois intervalos se sobrepe (tm pontos em comum), indicando que a hiptese H0: 1 = 2 deva ser aceita.

Figura 1. Intervalos de confiana para os coeficientes de correlao 1 e 2

10.5 EFEITO DE CADA VARIVEL EM R2.

A contribuio de uma varivel xi na correlao mltipla R ser, em geral, diferente


de sua correlao bivariada com y. Isto , o acrscimo em R2 quando xj adicionada
2
2
no igual a ryx
. Esse acrscimo em R2 pode ser maior ou menor que ryx
. Pode-se
j
j
ver claramente que as relaes com outras variveis podem render uma varivel parcialmente redundante, o que pode reduzir a sua contribuio em R2, mas no intuiti2
vamente aparente como a contribuio de xj em R2 possa exceder ryx
. Este fenmej
no foi ilustrado numericamente por Flury (1989) e Hamilton (1987).
Nesta seo, ns daremos uma quebra nos fatores que determinam quanto cada
2
varivel adicionada a R2 e mostraremos como o aumento em R2 pode exceder ryx
j
(Rencher 1993). Primeiramente ns introduziremos uma nova notao. A varivel de
interesse denotada por z, que pode ser uma das variveis xs ou uma nova varivel
adicionada aos xs. Ns faremos as seguintes definies adicionais de notao:

177
2
R yw
o quadrado da correlao mltipla entre y e w = [x1, x2, , xk, z]
2
R yx
o quadrado da correlao mltipla entre y e x = [x1, x2, , xk]
2
Rzx
= s tzx S xx1s zx s z2 o quadrado da correlao mltipla entre z e x.

ryz a correlao simples entre y e z


ryx = [ ryx1 , ryx2 , , ryxk ] o vetor de correlaes entre y e x
rzx = [ rzx1 , rzx 2 , , rzx k ] o vetor de correlaes entre z e x

zx = R xx1 rzx o vetor de coeficientes de regresso padronizados (beta weights)


da regresso de z sobre x [ver 10.24]
O efeito de z sobre o valor de R2 est formulado no teorema seguinte.
Teorema 10.5A. O aumento em R2 devido varivel z pode ser expresso como
2
R yw

2
R yx

(
ryz ryz )2
=
2
1 Rzx

(10.58)

onde ryz = zx ryx o valor predito de ryz baseado na relao de z para os xs.
Prova: Ver Problema 10.18 do livro do Rencher

Desde que o lado direito de (10.58) positivo, R2 no pode diminuir com a incluso
de uma varivel, que uma verificao da propriedade 3 na Seo 7.7. Se z
2
ortogonal a x (isto , rzx = 0) ento zx = 0, o que implica que ryz = 0 e Rzx
= 0. Neste
2
2
caso, (10.58) pode ser escrito como R yw
= R yx
+ ryz2 , que verifica a propriedade 5 da
Seo 7.7.

claro no Teorema 10.5A que a contribuio de z em R2 pode ser menor ou


maior que ryz2 . Se o valor de ryz prximo de ryz, a contribuio de z menor que
ryz2 . Existem trs maneiras em que a contribuio de z pode exceder ryz2 : (1) ryz
2
substancialmente superior a ryz; (2) ryz e ryz so de sinais opostos, e (3) Rzx
grande.

Em muitos casos, pode ser til ao pesquisador saber porque uma varivel contribuiu mais (ou menos) que o esperado. Por exemplo, a admisso em uma universidade ou escola profissional pode estar baseada em notas prvias e no escore obtido
em um teste nacional. Um candidato a entrar numa universidade com vagas limitadas
submete suas notas e o escore obtido no teste. Pode-se entrar em uma equao de
regresso para predizer a sua nota mdia no primeiro ano da universidade. Pode-se

178
encontrar que o escore obtido no teste aumentou o valor de R2 somente um pouco acima do que o baseado exclusivamente nas notas. Este pequeno acrscimo em R2 pode
desapontar os responsveis pela admisso, que esperavam que o escore no teste nacional pudesse ser um preditor mais til que as notas. Pode ser benfico aos elaboradores de tais testes saber precisamente porque o teste contribuiu menos que as
notas.
No Teorema 10.5A, ns temos disponvel a informao especfica necessria
para o elaborador do teste. Para ilustrar o uso de (10.58), seja y a nota mdia no
primeiro ano da universidade, seja z o escore no teste nacional e sejam x1, x2, , xk as
notas do indivduo em diversas reas. Por (10.58), o aumento em R2 devido a z igual
2
a ryz ryz 2 1 Rzx
onde se v que z soma pouco a R2 se ryz est prximo de ryz.
Ns podemos examinar os coeficientes em r = ryx para determinar qual dos coe-

) (

yz

zx

ficientes ryx j em ryx tem o maior efeito. Esta informao poderia ser usada para redesenhar as questes de forma a reduzir este particular ryx j . Tambm pode ser possvel
2
2
aumentando o valor de Rzx
(e assim reduzindo
aumentar a contribuio de z em R yw
2
1 Rzx
). Isto pode ser feito planejando as questes no teste nacional de tal forma que
o escore z seja mais correlacionado com as notas x1, x2, , xk.

Theil e Chung (1988) propuseram uma medida da importncia relativa de uma


varivel na regresso mltipla baseada na teoria da informao.
2
Exemplo 10.5. Para os dados hematolgicos da Tabela 10.1, R yw
= 0.92318 j foi
encontrado no Exemplo 10.3. Pelo Teorema 10.5A, o acrscimo em R2 devido a uma
2
2
2
varivel z tem o breakdown R yw
R yx
= ryz ryz 2 1 Rzx
, onde z representa qualquer uma das 5 variveis xs e x representa as outras quatro variveis. Os valores de
2
2
2
ryz , ryz, Rzx
, R yw
R yx
e a estatstica F so apresentados a seguir para cada varivel assumindo o lugar de z:

z
x1
x2
x3
x4
x5

ryz
0.2101
0.2486
0.0932
0.4822
0.0659

ryz
0.1943
0.2210
0.7890
0.0526
0.0758

2
Rzx

0.6332
0.6426
0.4423
0.3837
0.0979

) (

2
2
R yw
R yx

0.00068
0.00213
0.86820
0.29945
0.00011

F
0.400
1.250
508.600
175.400
0.064

p-valor
0.53
0.26
< 0.0001
< 0.0001
0.81

O valor da estatstica F corresponde aos testes parciais em (8.25), (8.37) e (8.39) para
a significncia do acrscimo em R2 devido a cada varivel.

179
Uma varivel de interesse a x4, cujo valor de ryz = 0.0526 o menor dentre as
cinco variveis. Apesar desta baixa correlao individual com y, a varivel x4 contri2
que as outras variveis. Isso ilustra como a contribuio de uma
bui mais para R yw
varivel pode ser aumentada na presena de outras variveis, como refletido em ryz .
A diferena entre os dois maiores contribuidores x3 e x4 pode revelar muito ao
2
devida principalmente sua correlao
pesquisador. A contribuio de x3 em R yw
com y, enquanto virtualmente todo o efeito de x4 vem da sua associao com as outras
variveis, como refletido em ryz .
10.6. PREDIO PARA DADOS NO-NORMAIS

Nesta seo, ns consideramos uma abordagem para a modelagem e estimao no


caso de xs aleatrios, que lembra muito mnimos quadrados no caso de xs fixos.
Considerando que [y, x] = [y, x1, x2, , xk] no tem distribuio normal multivariada ns desejamos encontrar uma boa funo t(x) para predizer y. Para encontrar
um valor predito t(x) que seja prximo a y, ns escolheremos a funo t(x) que minimiza o quadrado mdio do resduo E [ y t (x)]2 , onde a esperana est calculada na
distribuio conjunta de y, x1, x2, , xk. Esta funo dada no teorema seguinte.

Teorema 10.6A. Para o vetor aleatrio [y, x], a funo t(x) que minimiza o
quadrado mdio do resduo E [ y t (x)]2 dada por t(x) = E(y | x).
Prova: ver pg. 248 do livro do Rencher.
No caso da normal multivariada, a funo de regresso E(y | x) uma funo
linear de x [ver (10.4) e (10.5)]. Entretanto, em geral, E(y | x) no linear. Para uma
ilustrao de uma E(y | x) no linear, ver Exemplo 3.2, no qual ns temos E(y | x) =
1 + 4x 2x2 2 .
Se restringirmos t(x) a funes lineares de x, ento o resultado timo ser a
mesma funo linear que do caso normal multivariado [ver (10.6) e (10.7)]:

Teorema 10.6B. A funo linear t(x) que minimiza E [ y t (x)]2 dada por t(x) = 0
+ 1t x, onde

0 = y tyx xx1 x
1 = xx1 yx

Prova: Ver Problema 10.20.

(10.59)
(10.60)

180
Ns podemos encontrar estimadores 0 e 1 para 0 e 1 em (10.59) e (10.60)
minimizando o quadrado mdio do resduo amostral,

i =1 (yi 0 1xi )
n

n . Os re-

sultados so dados no teorema seguinte.


Teorema 10.6C. Se (y1, x1t ), (y2, x t2 ), , (yn, x tn ) uma amostra aleatria com vetor
de mdias e matriz de covarincia
s
s tyx
y
= , S = yy

x
s yx S xx

n
ento os estimadores 0 e 1 que minimizam i =1 yi 0 1xi

)2

n so dados por:

0 = y styxS xx1x

(10.61)

1 = S xx1s yx

(10.62)

Prova: ver Problema 10.2.1.


Os estimadores 0 e 1 em (10.61) e (10.62) so os mesmos estimadores de mxima
verossimilhana do caso normal [ver (10.15) e (10.16)].

10.7. CORRELAES PARCIAIS AMOSTRAIS


Correlaes parciais foram introduzidas nas Sees 4.5 e 7.10. Assumindo normalidade multivariada, a correlao parcial populacional ij.rs...q a correlao entre yi e
yj na distribuio condicional de y dado x, onde yi e yj esto em y e os ndices r, s, ,
q representam todas as variveis em x. Por (4.36),

ij.rs...q =

ij.rs...q
ii.rs...q jj .rs...q

(10.63)

onde ij.rs...q o (ij)-simo elemento de y. x = cov(y|x). Para populaes normais,


y. x = yy yx xx1 xy , onde yy , yx , xx e xy so obtidas da matriz de covarincia particionada:
y
cov = =
x

yy

xy

yx
xx

[ver (3.31)]. A matriz de correlaes parciais (populacional) ij.rs...q pode ser encontrada por (4.37):

181
1
1
1
1
y.x = D y.x
y.x D y.x
= D y.x
( yy yx xx1 xy ) D y.x

onde D y.x = diag y.x

(10.64)

)]1 / 2 .

Para obter o estimador de mxima verossimilhana R y.x. = rij.rs...q de y.x em


(10.64), ns usamos a propriedade de invarincia dos estimadores de mxima verossimilhana [Teorema 10.2C] para obter:
R y.x = D s 1 ( S yy S yxS xx1S xy ) D s 1

(10.65)

onde

[ (

D s = diag S yy - S yxS xx1S xy

)]

1/ 2

As matrizes S yy , S yx , S xx e S xy so obtidas da matriz de covarincias amostrais particionada de forma anloga a :


S yy
S=
S xy

S yx
S xx

onde

S yy

s 2y1

s
= y 2 y1
M

s y p y1

s y1 y 2
s 2y 2
M
s y p y2

L s y1 y p
s y1 x1

s
L s y2 y p
y x
e S yx = 2 1

M
M

L s 2yp
s y p x1

s y1 x2
s y2 x2
M
s y p x2

L s y1 xq
L s y 2 xq

L s y p xq

so estimadores das matrizes yy e yx . Assim o estimador de mxima verossimilhana de ij.rs...q em (10.63) rij .rs...q , o (ij)-simo elemento de R y.x em (10.65).
Agora ns consideramos duas outras expresses para a correlao parcial e
mostramos que elas so equivalentes a rij .rs...q . Para simplificar a exposio, ns ilustramos com r12.3 . A correlao parcial amostral de y1 e y2 com y3 mantido fixo usualmente dado por:
r12 r13r23
r12.3 =
(10.66)
2
1 r132 1 r23

)(

onde r12 , r13 e r23 so as correlaes ordinrias entre y1 e y2, y1 e y3 e y2 com y3,
respectivamente. No teorema seguinte, ns relacionamos r12.3 a duas definies precedentes de correlao parcial.

182
Teorema 10.7A. A expresso para r12.3 em (10.66) equivalente a um elemento de
R y.x em (10.65) e tambm igual a ry1 y1 , y 2 y 2 de (7.97), onde y1 y1 e y2 y 2
so os resduos da regresso de y1 sobre y3 e de y2 sobre y3.

Prova: ver pg. 251-253.

Para o caso geral rij .rs...q onde i e j so ndices pertinentes a y e r, s, , q so


ndices associados com x, ns definimos o vetor residual yi y i (x) , onde y i (x) o
vetor de valores preditos da regresso de y sobre x. [Note que i usado diferentemente em rij .rs...q e yi y i (x) ]. No Teorema 10.7A, r12.3 foi encontrado como sendo
igual a ry1 y1 , y 2 y 2 , a correlao ordinria entre os dois resduos, sendo equivalente
correlao parcial definida como um elemento de R y.x em (10.65). No teorema seguinte, estendemos a definio para os vetores y e x.
Teorema 10.7B. A matriz de covarincias amostrais do vetor de resduos yi y i (x)

equivalente a S yy S yxS xx1S xy em (10.65), isto , S y y = S yy S yxS xx1S xy .


Prova: ver pg. 254 do livro do Rencher.
Exerccio 10.7. Ns ilustramos algumas correlaes parciais para os dados hematolgicos da Tabela 10.1. Para encontrar ry1.2345 , por exemplo, ns usamos (10.65), R y.x

= D s 1 ( S yy S yxS xx1S xy ) D s 1 . Neste caso, y = [y, x1] e x = [x2, x3, x4, x5]. A matriz S
particionada fica:
1.535 4.880 106.202 3.753
3.064
90.290
1.535
0.691 1.494
3.255 0.422 0.268

4.880
1.494 5.401 10.155 1.374
1.292 S yy
S=
= S
106
.
202
3
.
255
10
.
155
200
.
668
64
.
655
4
.
067

xy
3.753
0.422 1.374 64.655 56.374
0.579

4.067 0.579 18.078


3.064 0.268 1.292
A matriz D s obtida como:

[ (

D s = diag S yy - S yxS xx1S xy

)]

1/ 2

0
2.645
= Ds =
0.503
0

Ento:
1.0000 0.0934
R y.x =
1.000
0.0934

S yx
S xx

183
Assim, ry1.2345 = 0.09934. Por outro lado, ry1 = 0.1943.
Para encontrar ry 2.1345 , ns temos y = [y, x2] e x = [x1, x3, x4, x5]. Assim
90.290 4.880
S yy =

4.880 5.401
As outras matrizes correspondentes S yx , S xx e S xy podem ser calculadas facilmente.
Com a matriz diagonal D s = diag(2.670, 1.389) ns podemos calcular:
1.000 0.164
R y.x =
1.000
0.164
Assim, ry 2.1345 = 0.164, que pode ser comparada com ry2 = 0.221.
Para encontrar ry 3.45 ns temos y = [y, x1, x2, x3] e x = [x4, x5]. Por exemplo:

S yy

90.290
1.535
=
4.880

106.202

1.535
0.691

4.880 106.202
1.494
3.255

1.494 5.401 10.155

3.255 10.155 200.668

a matriz diagonal D s dada por:


D s = diag(9.462, 0.827, 2.297, 11.219)
e ns temos
1.000 0.198 0.210 0.954
0.198 1.000 0.792 0.304

R y.x =
0.210 0.792 1.000 0.324

0.954 0.304 0.324 1.000


Assim, por exemplo, ry1.45 = 0.198, ry 3.45 = 0.954, r12.45 = 0,792 e r23.45 = 0.324.
Neste caso, R y.x pouco mudou de R yy , que dada por:

R yy

1.000
0.194
=
0.221

0.789

0.194 0.221 0.789


1.000 0.774 0.277

0.774 1.000 0.308

0.277 0.308 1.000

Ou seja, a correlao entre y e x1 (ry1 = 0.1944) est muito prxima da correlao parcial entre y e x1, condicionada aos valores de x4 e x5 ( ry1.45 = 0.198), indicando uma
baixa correlao entre x1 e x4 e entre x1 e x5.
EXERCCIOS (ver pg. 256-258 do livro do Rencher)

184

CAPTULO 11. MODELOS DE ANLISE DE VARINCIA


Em muitas situaes experimentais, um pesquisador aplica diversos tratamentos ou combinaes de tratamentos a unidades experimentais escolhidas ao acaso
e ento deseja comparar as mdias dos tratamentos para alguma resposta y.
Na anlise de varincia (ANOVA) ns usamos modelos lineares para facilitar
as comparaes dessas mdias. O modelo muitas vezes expresso com mais parmetros do que pode ser estimado (superparametrizao), o que resulta em uma matriz X
que no de posto completo. Ns consideraremos procedimentos para estimao e
testes de hipteses para tais modelos de posto incompleto.
Muito do que for desenvolvido neste captulo aplicvel somente a modelos
balanceados, que so aqueles que tm um nmero igual de observaes em cada
casela ou combinao de tratamentos. Modelos desbalanceados sero tratados no Captulo 14.
11.1 MODELOS DE POSTO INCOMPLETO
Na seo 11.1.1 ns ilustraremos um modelo com um fator (one-way model) e na
seo 11.1.2, um modelo com dois fatores (two-way model).
11.1.1 MODELO COM UM FATOR (one-way model)
Suponhamos que um pesquisador tenha desenvolvido dois aditivos qumicos para
melhorar o desempenho da gasolina. Para formular um modelo, devemos iniciar com
a noo de que sem aditivos, um litro proporciona uma mdia de quilmetros.
Ento se o aditivo qumico 1 adicionado, espera-se que a quilometragem aumente
de 1 quilmetros por litro, e se o aditivo qumico 2 adicionado, a quilometragem
deve aumentar de 2 quilmetros por litro.
O modelo pode ser expresso como
y1 = + 1 + 1 ,

y2 = + 2 + 2

onde y1 a quilometragem por litro para um tanque de gasolina contendo o aditivo 1


e 1 um erro aleatrio. As variveis y2 e 2 so definidas similarmente. O pesquisador deseja estimar os parmetros , 1 e 2 e testar hipteses como H0: 1 = 2.
Suponhamos que o experimento consista em encher os tanques de seis carros
idnticos com gasolina, e ento colocar o aditivo 1 nos tanques de trs carros e o aditivo 2 nos outros trs tanques. Ns podemos escrever um modelo para cada uma das
seis observaes como segue:
y11 = + 1 + 11

y12 = + 1 + 12

y13 = + 1 + 13

y21 = + 2 + 21

y22 = + 2 + 22

y23 = + 2 + 23

(11.1)

185
ou
yij = + i + ij,

i = 1, 2

j = 1, 2, 3

(11.2)

onde yij a quilometragem/litro observada no j-simo carro que contem o i-simo


aditivo em seu tanque e ij um erro aleatrio associado. As seis equaes em (11.1)
podem ser escritas matricialmente como:
y11 1 1 0
y 1 1 0
12

y13 1 1 0
=

y
1
0
1
21

y 22 1 0 1

y 23 1 0 1

11

12

+ 13
1 21
2
22

23

(11.3)

ou

y = X
+
Em (11.3), X uma matriz 6x3 de posto 2 porque a primeira coluna igual
soma da segunda e terceira colunas, que so linearmente independentes. Desde que X
no tem posto completo, os teoremas dos Captulos 7 e 8 no podem ser usados diretamente para estimar = [, 1, 2] e testar hipteses. Assim, por exemplo, , 1 e 2
= (X' X) 1X' y em (7.6) porque a inversa de (XX)
no podem ser estimados por
no existe.
Para explorar mais o modelo (11.3), reconsideremos o significado dos seus parmetros. O parmetro foi introduzido como a mdia antes de colocar os aditivos
qumicos, e 1 e 2 representam o acrscimo devido aos aditivos 1 e 2, respectivamente. No entanto, o modelo (11.2) no pode suportar somente esta caracterizao.
Por exemplo, se = 15, 1 =1 e 2 = 3, o modelo fica:

y1j = 15 + 1 + 1j = 16 + 1j,

j = 1, 2, 3.

y2j = 15 + 3 + 1j = 18 + 2j,

j = 1, 2, 3.

(11.4)

Mas a partir de (11.4) ns no conseguimos determinar que = 15, 1 =1 e 2 = 3,


porque o modelo tambm pode ser escrito como:

y1j = 10 + 6 + 1j = 16 + 1j, j = 1, 2, 3.
y2j = 10 + 8 + 2j = 18 + 2j, j = 1, 2, 3.
ou, alternativamente como

y1j = 25 9 + 1j = 16 + 1j, j = 1, 2, 3.
y2j = 25 7 + 2j = 18 + 2j, j = 1, 2, 3.
ou de infinitas outras maneiras.

186
Assim, em (11.1) ou (11.2), , 1 e 2 no so nicos e, portanto no podem ser
estimados. Com trs parmetros e posto(X) = 2, o modelo dito superparametrizado.
Note que mesmo aumentando o nmero de observaes para cada um dos dois aditivos, no mudaremos o posto de X.
Existem diversas maneiras de remediar esta falta de unicidade dos parmetros
no modelo superparametrizado. Trs dessas abordagens so:
1) redefinir o modelo usando dois novos parmetros que sejam nicos;
2) usar o modelo superparametrizado, mas colocar algumas restries sobre os
parmetros de modo a torn-los nicos;
3) ainda no modelo superparametrizado, trabalhar com combinaes lineares dos
parmetros que sejam nicas e possam ser estimadas.
A seguir, ilustraremos essas trs tcnicas:
1. Para reduzir o nmero de parmetros, considere a ilustrao em (11.4),

y1j = 16 + 1j e y2j = 18 + 1
Os valores 16 e 18 so as mdias depois que os dois tratamentos foram aplicados.
Em geral, essas mdias podem ser chamadas 1 e 2 e o modelo pode ser escrito
como:

y1j = 1 + 1j e y2j = 2 + 2j
As mdias 1 e 2 so nicas e podem ser estimadas. O modelo redefinido para as
seis observaes em (11.1) ou (11.2) tomam a seguinte forma:

y11 1 0
11
y 1 0

12
12

y13 1 0 1 13
=
+
y 21 0 1 2 21
y 22 0 1
22

y 23 0 1
23
que pode ser escrito como: y = W + . A matriz W de posto completo e ns
podemos usar (7.6) para estimar como:

= (W' W) 1W' y

Esta soluo chamada de reparametrizao (e o modelo, modelo de mdias de


caselas).

187
2. Uma outra alternativa para reduzir o nmero de parmetros consiste em incorporar
restries sobre os parmetros , 1 e 2. Denotamos os parmetros restritos como
, 1 e 2 . Em (11.1) e (11.2), a restrio 1 + 2 = 0, tem o efeito de definir

como a nova mdia depois dos aditivos qumicos serem aplicados e 1 e 2 ,


como desvios dessa mdia. Com essa restrio, y1j = 16 + 1j e y2j = 18 + 2j so-

mente podero ser escritos como:

y1j = 17 1 + 1j

y2j = 17 + 1 + 2j

Agora este modelo nico porque no existe outra maneira de express-lo, de tal
forma que 1 + 2 = 0. Tais restries so chamadas de condies marginais.
O modelo yij = + i + ij, sujeito restrio 1 + 2 = 0, pode ser expresso no
formato de um modelo de posto completo, substituindo 2 = 1 para obter y1j =

+ 1 + 1j e y2j = 1 + 2j. As seis observaes podem ser escritas na forma matricial como:

y11 1 1
y 1 1
12

y13 1 1
=

y 21 1 1
y 22 1 1

y 23 1 1

11

12
13
+
1 21
22

23

ou

y = X** +
A matriz X* de posto completo e os parmetros e 1 podem ser estimados.

3. Como ns examinamos os parmetros no modelo ilustrado em (11.4), vimos algumas combinaes lineares que so nicas. Por exemplo, as combinaes 1 2 =
2, + 1 = 16 e + 2 = 18, permanecem inalteradas para os possveis valores de
, 1 e 2. Tais combinaes nicas podem ser estimadas.

11.1.2 MODELO COM DOIS FATORES (two-way model)


Suponha que um pesquisador deseje medir o efeito de duas diferentes vitaminas e
dois diferentes mtodos de administrar essas vitaminas sobre o ganho de peso de
frangos. Isto leva a um modelo com dois fatores (two-way model). Sejam 1 e 2 os
efeitos das duas vitaminas e sejam 1 e 2 os efeitos dos dois mtodos de administrao. Se o pesquisador assume que esses efeitos so aditivos (sem interao) o modelo pode ser escrito como
y11 = + 1 + 1 + 11
y12 = + 1 + 2 + 12
y21 = + 2 + 1 + 21
y22 = + 2 + 2 + 22

188
ou como

yij = + i + j + ij, para i = 1, 2 e j = 1, 2

(11.5)

onde yij o ganho de peso do (ij)-simo frango e ij o erro aleatrio associado (para
simplificar a exposio usaremos somente uma repetio para cada combinao vitamina-mtodo). Na forma matricial, o modelo (aditivo) pode ser expresso como

y11 1 1 0 1 0 11
y 1 1 0 0 1 1
12 =
2 + 12
(11.6)
y 21 1 0 1 1 0 21

1
y 22 1 0 1 0 1 22
2
ou
y = X +

Na matriz X, a terceira coluna igual primeira coluna menos a segunda coluna, e a quinta coluna igual primeira coluna menos a quarta coluna. Assim, o
posto(X) = 3, e a matriz XX, de dimenso 5 x 5, no tem uma inversa. Mais uma
vez, muitos dos teoremas dos Captulos 7 e 8 no so aplicveis. Note que aumentar o
nmero de repeties, aumenta o nmero de linhas da matriz X mas no altera o
posto(X), que continua igual a 3.
Desde que posto(X) = 3, somente trs parmetros nicos so possveis, a
menos que sejam impostas condies marginais sobre os cinco parmetros. Existem
diversas maneiras de reparametrizar o modelo com o intuito de reduzir para trs o
nmero de parmetros no modelo. Por exemplo, considere os parmetros 1, 2 e 3
definidos como

1 = + 1 + 1 ,

2 = 2 1

3 = 2 1

O modelo pode ser escrito em termos dos s como


y11 = ( + 1 + 1) + 11 = 1 + 11
y12 = ( + 1 + 1) + (2 1) + 12 = 1 + 3 + 12
y21 = ( + 1 + 1) + (2 1) + 21 = 1 + 2 + 21
y22 = ( + 1 + 1) + (2 1) + (2 1) + 22 = 1 + 2 + 3 + 22

Na forma matricial, o modelo fica:


y11 1
y 1
12 =
y 21 1

y 22 1

0 0
11
1

0 1

2 + 12
1 0 21
3
1 1
22

ou
y = Z +

(11.7)

189
O posto(Z) = 3 e ns temos um modelo de posto completo onde pode ser estimado
por = (Z' Z) 1Z' y , fornecendo estimativas de 2 = 2 1 e 3 = 2 1, que so de
interesse do pesquisador.
Na seo 11.2.2 ns discutiremos mtodos para mostrar que funes lineares
tais como ( + 1 + 1), (2 1) e (2 1) so nicas e estimveis, mesmo quando ,
1, 2, 1 e 2 no so nicas e nem estimveis.
Consideraremos agora restries sobre os parmetros. Desde que posto(X) = 3
e existem cinco parmetros no modelo, ns precisamos de duas condies marginais
(linearmente independentes). Se essas duas restries forem escolhidas apropriadamente, os cinco parmetros passam a ser nicos e estimveis. Denotaremos os parmetros restritos por , i e j e consideraremos as seguintes condies:

1 + 2 = 0

1 + 2 = 0,

de tal modo que i e j correspondem a desvios de mdias. Para mostrar isso, comearemos por escrever o modelo na forma:
y11 = 11 + 11

y12 = 12 + 12

y21 = 21 + 21

y22 = 22 + 22

(11.8)

onde ij = E(yij) a mdia do ganho de peso com vitamina i e mtodo j. As mdias


so apresentadas na Tabela 11.1 e os parmetros 1 , 2 , 1 e 2 esto definidos
como efeitos das colunas () e das linhas (). As mdias na Tabela 11.1 esto definidas como segue:

i =

1
( i1 + i 2 ), j = 1 1 j + 2 j e = 1 (11 + 12 + 21 + 22 )
2
2
4

O efeito da primeira coluna, 1 = 1 , o desvio da mdia da vitamina 1 para a


mdia geral (depois dos tratamentos) e nico. Os parmetros 2 , 1 e 2 so definidos de modo similar.
Tabela 11.1 Mdias e efeitos para o modelo (11.8)

Coluna 1

Coluna 2

Mdia
(linhas)

Efeito
(linhas)

Linha 1

11

21

1 = 1

Linha 2

12

22

2 = 2

Mdia (colunas)

Efeito (colunas)

1 = 1

2 = 2

190
Da tabela 11.1 ns obtemos:

1 + 2 = 1 + 2 2 = 2 2 = 0

(11.9)

e similarmente, 1 + 2 = 0. Deste modo, com as condies marginais 1 + 2 = 0


e 1 + 2 = 0, os novos parmetros (redefinidos) so nicos e significativos.
Em 11.5 ns assumimos que os efeitos de vitamina e mtodo so aditivos. Para
tornar essa noo mais precisa, escreveremos o modelo (11.5) em termos de =

, i = i e j = j , como:
i j = + ( i ) + ( j ) + (i j i j + )
= + i + j
O termo ij i j + , que necessrio para balancear a equao, est associado com a interao de vitaminas e mtodos. Para que i e j sejam efeitos aditivos, a interao i j i j + deve ser nula. A interao ser estudada no Captulo 13.

11.2 ESTIMAO

Nesta seo, consideraremos a estimao de e de funes lineares de no modelo


y = X + , de posto incompleto. A normalidade de y ainda no ser assumida.
11.2.1 Estimabilidade de

Consideremos o modelo:
y = X + ,

onde E(y) = X, cov(y) = 2I, X n x p, de posto k < p n. [Dizemos que a matriz


X n x p, de posto k < p n para indicar que X de posto (coluna) incompleto; isto
, k = posto(X) < p e k = posto(X) < n. Isto inclui o caso k < p < n]. Neste modelo
de posto incompleto, os p parmetros em no so nicos. Agora investigaremos se
pode ser estimada. Usando o mtodo dos quadrados mnimos, buscamos um valor
de que minimize:
' = (y X ) (y X )
= yy 2 Xy + XX

(11.10)

que pode ser diferenciado com respeito a e igualado a 0 para produzir o sistema de
equaes lineares:

191
XX = Xy

(11.11)

Desde que X no tem posto completo, XX no tem inversa comum e o sistema no


tem soluo nica, mas tem (um nmero infinito de) solues:
Teorema 11.2A. Se X n x p, de posto k < p n, o sistema de equaes lineares
XX = Xy consistente.

Prova: Pelo Teorema 2.8F (pg.37), o sistema dito consistente se e somente se

XX(XX) Xy = Xy
(11.12)

onde (XX) qualquer inversa generalizada de (XX). Pelo Teorema 2.8C(iii) (pg.

35), tem-se que XX(XX) X = X e (11.12) est verificado.


Desde que as equaes normais XX = Xy so consistentes, uma soluo dada
pelo Teorema 2.8D como

= (XX) Xy

(11.13)

onde (XX) qualquer inversa generalizada de (XX). Para uma particular inversa

generalizada (XX) , o valor esperado de

E( ) = (XX) XE(y) = (XX) XX

(11.14)

Assim, um estimador no viesado de (XX) XX e como (XX) XX I, no

um estimador no viesado de . A expresso (XX) XX no invariante para

escolhas diferentes de (XX) , isto , E( ) diferente para cada escolha de (XX) .


Ento, no estima .
Ser que existem algumas funes lineares de y que so estimadores no viesados
dos elementos de ? Isto , existe alguma matriz A, tal que E(Ay) = ?
Se existe, ento:

= E(Ay) = E[A(X + )] = E(AX) + E(A) = AX.


Desde que esta igualdade deve ser verdadeira para todo , temos que AX = Ip. Mas
pelo Teorema 2.4(i), posto(AX) < p porque o posto de X menor que p. Desde que
AX no pode ser igual a Ip, no existem funes das observaes que produzem estimadores no viesados dos elementos de .

192
Exemplo 11.2.1. Consideremos o modelo yij = + i + ij, i = 1, 2 e j = 1, 2, 3, em
(11.2). Ento a matriz X e o vetor so dados em (11.3) como

1
1

1
X=
1
1

1 0
1 0

1 0
,
0 1
0 1

0 1


= 1

2

Pelo Teorema 2.2.C(i) e pelo Corolrio 1 do Teorema 2.8B obtemos:

6 3 3

XX = 3 3 0 e (XX) =

3 0 3

0
0 0
0 1 / 3 0

0 0 1 / 3

O vetor Xy dado por

1 1 1 1 1 1
Xy = 1 1 1 0 0 0

0 0 0 1 1 1

onde y =

i=1 j =1 yij

e yi =

y11
y
12 y
y13
= y1
y 21 y
y 22 2

y 23

j =1 yij . Ento

0
0 0

= (XX) Xy = 0 1 / 3 0

0 0 1 / 3

y 0
y = y
1 1
y 2 y 2

1
yi . Para encontrar E( ), precisamos de E( yi ). Desde que E() = 0,
3
temos que E(ij) = 0 e da:
onde yi =

1 3
1 3
1 3
1

E( yi ) = E yij = E ( yij ) = E + i + ij = (3 + 3 i ) = + i
3 j =1 3 j =1
3 j =1
3

0
E( ) = + 1

+ 2

193
O mesmo resultado obtido usando (11.14)
0
0 0
E(
) = (XX) XX = 0 1 / 3 0

0 0 1 / 3

6 3 3 0
3 3 0 = +
1

1
3 0 3 2 + 2

11.2.2. Funes Estimveis de

Tendo estabelecido que no podemos estimar , a prxima dvida se podemos estimar alguma combinao linear dos s, digamos . Por exemplo, na Seo 11.1.1
consideramos o modelo yij = + i + ij e encontramos que , 1 e 2 em = [, 1,
2] no so nicos, mas a funo linear 1 2 = [0, 1, 1]
nica. Para mostrar que
funes do tipo 1 2 podem ser estimadas, precisamos definir o que uma funo
estimvel .
Uma funo linear dos parmetros dita ser estimvel se existe uma combinao
linear das observaes com um valor esperado igual a ; isto , estimvel se
existe um vetor a tal que E(ay) = .
No prximo teorema consideraremos trs mtodos para determinar se uma particular
funo linear estimvel.
Teorema 11.2B. No modelo y = X + , onde E(y) = X e X n x p de posto k < p
n, a funo linear estimvel se e somente se qualquer uma das seguintes condies satisfeita:
(i) uma combinao linear das linhas de X, isto , existe um vetor a tal que:
aX =
(11.15)
ou que posto(X M ) = posto(X);
(ii) uma combinao linear das linhas de XX ou uma combinao linear das
colunas de XX, isto , existe um vetor r tal que:
rXX = ou XXr =
(11.16)
ou que posto(XX M ) = posto(XX);
(iii) (ou ) tal que

XX(XX) =
ou
(XX) XX =

onde (XX) qualquer inversa generalizada (simtrica) de XX.

(11.17)

194
Prova: Para (i) e (ii), vamos provar a parte se e para (iii), as partes se e somente
se.
(i) Se existe um vetor a tal que = aX, ento usando este vetor a, temos:

E(ay) = aE(y) = aX =
(ii) Se existe uma soluo r para XXr = , ento definindo a = Xr, temos

E(ay) = E(rXy) = rXE(y) = rXX =

(iii) Se XX(XX) = ento (XX) uma soluo de XXr = , na parte (ii).


Por outro lado, se estimvel, ento XXr = tem um vetor soluo que

pode ser encontrado como r = (XX) . A substituio em XXr = d (11.17).

Exemplo 11.2.2(a). Para o modelo yij = + i + ij no Exemplo 11.2.1, a matriz X e o


vetor so dados como:

1
1

1
X=
1
1

1 0
1 0

1 0
,
0 1
0 1

0 1


= 1

2

Vamos mostrar que 1 2 = [0, 1, 1]


= estimvel, usando as trs condies
do Teorema 11.2B.
(i) Encontrar um vetor a tal que aX = = [0,
1, 1, 0, 0] , ento
1 1
1 1

1 1
aX = [0, 0, 1, 1, 0, 0]
1 0
1 0

1 0

1, 1]. Vamos considerar a = [0, 0,


0
0

0
= [0, 1, 1] =
1
1

Existem outras escolhas para a, que satisfazem aX = , como por exemplo: a =


[1, 0, 0, 0, 0, -1] ou a = [2, 1, 0, 0, 1, 2]. De forma mais simples, para mostrar
que = [0, 1, 1]
estimvel, basta verificar que posto(XM ) = posto(X).
Tambm podemos obter a partir de E(y):

195

E ( y11 )
E( y )
12

E ( y13 )
= aX = a E(y) = [0, 0, 1, 1, 0, 0]
= E(y13) E(y21)
E ( y 21 )
E ( y 22 )

E ( y 23 )
= + 1 ( + 2) = 1 2,
que ilustra o Teorema 11.2D, que ser visto adiante.
(ii) A matriz XX dada no Exemplo 11.2 como

6 3 3
XX = 3 3 0

3 0 3
Precisamos encontrar um vetor r tal que XXr = = [0, 1, 1]. Tomando r =
[0, 1/3, 1/3], temos:
0 0
6 3 3
XXr = 3 3 0 1 / 3 = 1 =


3 0 3 1 / 3 1
Certamente, existem outros valores possveis de r, tais como r = [-1/3, 2/3, 0].
De modo alternativo mais simples, dizemos que = [0, 1, 1]
estimvel
porque posto(XX M ) = posto(XX).

(iii) Usando a inversa (XX) = diag[0, 1/3, 1/3] dada no Exemplo 11.2.1, temos
0 0 1 1
6 3 3 0 0
XX(XX) = 3 3 0 0 1 / 3 0 = 0 1 0

3 0 3 0 0 1 / 3 0 0 1

Para = [0, 1, 1], a condio (iii) fica:

0 1 1 0 0
XX(XX) = 0 1 0 1 = 1 =


0 0 1 1 1

Um conjunto de funes {
1, 2, ..., m} dito linearmente independente se os
vetores de coeficientes 1, 2, ..., m so linearmente independentes.
O nmero de funes linearmente independentes dado no prximo teorema.

196

Teorema 11.2C. No modelo de posto incompleto y = X + , o nmero de funes


estimveis linearmente independentes de igual ao posto de X.
(Prova: ver Graybill, 1976, pp. 485-486)
Do Teorema 11.2B(i), vimos que xi estimvel para i = 1, 2, ..., n, onde xi
a i-sima linha da matriz X. Como toda linha de X estimvel, podemos dizer que
X estimvel. Do mesmo modo, do Teorema 11.2B(ii), toda linha de XX estimvel e ento, XX estimvel. De fato, toda funo estimvel pode ser obtida de
X ou de XX:

Teorema 11.2D. No modelo y = X + , onde E(y) = X e X n x p de posto k < p


n, qualquer funo estimvel pode ser obtida tomando uma combinao linear
das linhas (elementos) de X ou das linhas de XX.
Prova:
Obter de X resulta diretamente do Teorema 11.2.B(i). Para mostrar que
pode ser obtida de XX, precisamos notar que desde que E(Xy) = XX, o vetor
XX estimvel. Pelo Teorema 11.2B(ii), pode ser expressa como = rXX
para algum r. Ento E(rXy) = rXE(y) = rXX = .
Assim podemos examinar combinaes lineares das linhas de X e de XX para
ver quais funes dos parmetros so estimveis. No prximo exemplo, ilustraremos
o uso de combinaes lineares das linhas de X para obter um conjunto de funes estimveis dos parmetros.

Exemplo 11.2.2(b). Consideremos o modelo (11.6) na Seo 11.1.2 com

1
1
X=
1

1 0

1 0
1 0 0 1
, =
0 1 1 0

0 1 0 1


1
2

1
2

Para examinar o que estimvel, tomamos combinaes lineares aX das linhas de X


para obter trs linhas linearmente independentes. Por exemplo, se subtrairmos a primeira linha de X da terceira e multiplicarmos por , obteremos:
[0 1 1 0 0]
= 1 + 2,
que envolve somente os s. Subtrair a primeira linha de X da terceira pode ser expresso como aX = [1 0 1 0]X = x1 + x3, onde x1 e x3 correspondem primeira e terceira linhas de X, respectivamente.

197
Subtrair a primeira linha das outras linhas de X e, posteriormente, subtrair as
segunda e terceira linhas da quarta linha, resulta em:

1 1
0 0

0 1

0 0

1 0
0 1 1

1 0 0

0 0 0

Multiplicando as trs primeiras linhas da matriz resultante por , obtemos o seguinte


conjunto de trs combinaes linearmente independentes:

1 = + 1 + 1 ,

2 = 2 1,

2 = 2 1

Essas funes so idnticas s funes 1, 2 e 3 usadas na Seo 11.1.2 para reparametrizar para um modelo de posto completo. Assim, nessa seo, funes linearmente independentes e estimveis dos parmetros foram usadas como novos parmetros.
Observe que no Exemplo 11.2.2(b) as duas funes estimveis 2 1 e 2 1
so tais que os coeficientes dos 's ou dos s somam zero. Toda combinao linear
desse tipo chamada de contraste.

11.3. ESTIMADORES
11.3.1 Estimadores de
Dos Teoremas 11.2B(i) e (ii) temos os estimadores ay e rXy para , onde a e r
satisfazem = aX e = rXX, respectivamente. Um terceiro estimador de
, onde
uma soluo de XX
= Xy. No teorema seguinte, discutiremos al
.
gumas propriedades de rXy e

Teorema 11.3A. Seja uma funo estimvel de no modelo y = X + , onde


qualquer soluo do sistema de
E(y) = X e X n x p de posto k < p n. Seja
= Xy, e seja r qualquer soluo para XXr = . Ento os
equaes normais XX
e rXy tm as seguintes propriedades:
dois estimadores
) = E(rXy) =
(i) E(
= rXy para qualquer
e qualquer r
(ii)
e rXy so invariantes para escolhas de
ou r.
(iii)

198
Prova:
) = E(
) = (XX)XX. Pelo Teorema 11.2B(iii),
(i) De (11.14), E(

) =
(XX) XX = e ento E(

(ii) Pelo Teorema 11.2B(ii), se estimvel, = rXX para algum r. Multi = Xy por r obtemos rXX
= rXy e, desde que rXX =
plicando XX
= rXy.
, temos que
(iii) Para mostrar que rXy invariante a escolhas de r, sejam r1 e r2 tais que
= r1Xy e r2XX
= r2Xy. Desde que
XXr1 = XXr2 = . Ento r1XX
XXr1 = XXr2, temos que r1Xy = r2Xy. E claro que cada um deles
.
igual a
Exemplo 11.3.1. No Exemplo 11.2.2(a) mostramos que a funo = 1 2 estimvel. Para estimar 1 2 com rXy, usamos r = [0 1/3 1/3] do Exemplo 11.2.2(a)
para obter:
y11
y
12
1 1 1 1 1 1
y
rXy = [0 1/3 1/3] 1 1 1 0 0 0 13 =

y 21
0 0 0 1 1 1
y 22

y 23
y
y
y
= [0 1/3 1/3] y1 = 1 2 = y1 y 2

3
3
y 2
1
1 3
2
3
3
onde y = i =1 j =1 yij , yi = j =1 yij e yi = yi = j =1 yij .
3
3
, primeiro precisamos encontrar uma soluPara obter o mesmo resultado usando
= Xy
o do sistema XX

6 3 3 y
3 3 0 = y

1 1
3 0 3 2 y 2
ou
6 + 3 1 + 3 2

= y

3 + 3 1

= y1

+ 3 2

= y 2

199
Como a primeira equao redundante ( a soma da segunda e terceira equaes),
podemos tomar como uma constante arbitrria e da obter

1 =

1
y1 = y1
3

2 =

1
y 2 = y 2
3

Assim

0
1

= = y + 1

1 1

2 y 2
1
=
Para estimar 1 2 = [ 0 1 1] = , podemos tomar = 0 para obter
= y y . Mantendo arbitrrio, obtemos:
[0 y1 y 2 ] e
1
2


= [0 1 1] y = y ( y ) = y y

1
2
1
2
1

y 2
= (XX) Xy no nico para o modelo de posto incompleto y =
Desde que
) tambm no nica. EntreX + com cov(y) = 2I, a matriz de covarincia cov(

tanto, para uma particular (simtrica) inversa generalizada (XX) , podemos usar o
Teorema 3.6(D)i para obter a sua matriz de covarincias:

) = cov[(XX) Xy] = (XX) X(2I)X[(XX) ]


cov(

= 2(XX) XX(XX)

(11.18)

A expresso (11.18) no invariante para escolhas de (XX) . A varincia de


ou de rXy dada no teorema seguinte.

Teorema 11.3B. Seja uma funo estimvel no modelo y = X + , onde X n x

p de posto k < p n e cov(y) = 2I. Seja r qualquer soluo para XXr = e seja
= Xy. Ento, a varincia de
ou de rXy tem as sequalquer soluo para XX
guintes propriedades:

(i) var(rXy) = 2rXXr = 2r


) = 2(XX)
(ii) var(
) nica, ou seja, invariante para as escolhas de r ou de (XX).
(iii) var(

200
Prova:

(i) var(rXy) = rXcov(y)Xr = rX(2I)Xr = 2rXXr = 2r

) = cov(
) = 2(XX) XX(XX) ,
(ii) var(

) = 2(XX) .
mas, por (11.17), (XX) XX = e ento, var(

(iii) Para mostrar que r invariante para r, tomemos r1 e r2 tais que XXr1 = e
XXr2 = . Multiplicando essas duas equaes por r2 e r1, ns obtemos
r2XXr1 = r2 e r1XXr2 = r1. Os lados esquerdos dessas duas igualdades
so iguais, porque eles so escalares. Portanto os lados direitos das equaes
tambm so iguais (r2 = r1).

Para mostrar que (XX) invariante para escolhas de (XX) , tomemos G1


e G2, duas inversas generalizadas de XX. Pelo Teorema 2.8C(v),

XG1X = XG2X
Multiplicando ambos os lados por a, tal que aX = [ver o Teorema 11.2
B(i)], obtemos:

aXG1Xa = aXG2Xa ou

G1 = G2

Teorema 11.3C. Se 1 e 2 so duas funes estimveis no modelo y = X + ,


onde X n x p de posto k < p n e cov(y) = 2I, a covarincia de seus estimadores
dada por:
, 2
) = 2r12 = 21r2 = 21(XX)2
cov(1
onde XXr1 = 1 e XXr2 = 2.
(Prova: ver Problema 11.12)

Teorema 11.3D. Se uma funo estimvel no modelo y = X + , onde X n x


e rXy so os melhores estimadores
p de posto k < p n, ento os estimadores
no viesados (BLUE) de .
Prova:
Seja ay um estimador linear de , com ay = rXy + cy (sem perda de generalidade), isto , a = rX + c, onde r uma soluo para = rXX. Para provar
que ay um estimador no viesado , ns devemos ter:
= E(ay) = aX = rXX + cX = (rXX + cX)

Isso vale para todo , e ento temos:


= rXX + cX

201
Desde que = rXX, segue que cX = 0. Usando (3.40) e cX = 0, obtemos:
var(ay) = avar(y)a = a2I a = 2aa

= 2(rXXr + rXc + cXr +cc)


= 2(rXXr + cc)
Assim, para minimizar var(ay), devemos minimizar cc = i ci2 . Mas cc um mnimo quando c = 0, que compatvel com cX = 0. Portanto a = rX e o BLUE da
funo estimvel ay = rXy.

11.3.2. Um estimador de 2
Por analogia com (7.23) ns definimos

)(y X
)
SQRes = (y X

(11.19)

qualquer soluo do sistema de equaes normais XX


= Xy. Duas exonde
presses alternativas para SQRes so
Xy
SQRes = yy +

(11.20)

SQRes = y[I X(XX) X] y

(11.21)

Para um estimador de , ns definimos:

s2 =

SQRes
nk

(11.22)

onde n o nmero de linhas de X e k = posto(X).

Teorema 11.3E. Para s2 definido em (11.22) para um modelo y = X + de posto


incompleto, com E(y) = X e cov(y) = 2I, temos as seguintes propriedades:
(i) E(s2) = 2.
[ou para escolhas de inversas generalizadas
(ii) s2 invariante para as escolhas de

(XX) ].
Prova:

(i) Usando (11.21) temos que E(SQRes) = E{y[I X(XX) X] y} e pelo Teorema
5.2A.

E(SQRes) = tr{[I X(XX) X] 2 I} + X[I X(XX) X]X


Mas

X[I X(XX) X]X = XX XX(XX) XX

= XX XX = 0

202
E pelos Teoremas 2.11.A(i), (ii) e (iii) temos que

2 tr{[I X(XX) X]} = 2{tr(I) tr[X(XX) X]} = (n k)2

invariante para
, e portanto SQRes =
(ii) Sabemos que X estimvel; que X
)(y X
) em (11.19) tambm invariante. Para mostrar que SQRes em
(y X

(11.21) invariante para escolhas de (XX) , basta notar que X(XX) X tambm
invariante, pelo Teorema 2.8C(v).

11.3.3. Modelo Normal


Para o modelo de posto incompleto y = X + , assumiremos que:

y ~ Nn(X, 2 I) ou ~ Nn(0, 2 I)
Com a suposio de normalidade ns podemos obter estimadores de mxima verossimilhana.

Teorema 11.3F. Se y ~ Nn(X, 2 I), onde X n x p de posto k < p n, ento os estimadores de mxima verossimilhana de e 2 so dados por

= (XX)Xy

2 =

(11.23)

1
) ( y X
)
(y X
n

(11.24)

Prova:
A funo de verossimilhana L(X, 2) e o seu logaritmo ln L(X, 2) podem ser escritos da mesma forma que a do modelo de posto completo em (7.51) e (7.52):

L(X, 2) =

e ( y X )'( y X )/2
n/ 2

(11.25)

(2 )
2

n
n
1
ln L(X
, 2) = ln(2) ln 2 2 (y X)' (y X)
2
2
2

(11.26)

Diferenciando ln L(X
, 2) em relao e 2 e igualando a zero temos:
= Xy
XX

2 =

(11.27)

1
)(y X
)
(y X

(11.28)

em (11.28) qualquer soluo de (11.27). Se (XX) qualquer inversa geneonde


ralizada de XX, uma soluo para (11.27) dada por:
= (XX)Xy

(11.29)

203
em (11.29) a mesma do estiA forma do estimador de mxima verossimilhana
2 viesado. Ns usamos
mador de mnimos quadrados em (11.13), mas o estimador
muitas vezes o estimador no viesado s2 dado em (11.22).

Para uma particular inversa generalizada (XX) , o vetor de mdias e a matriz


so dados em (11.14) e (11.18), como:
de covarincias para
) = (XX)XX
) = 2(XX)XX(XX)
E(

e cov(

e de s2.
No prximo teorema, apresentaremos algumas propriedades adicionais de
Teorema 11.3G. Se y ~ Nn(X
, 2 I), onde X n x p de posto k < p n, ento os es e s2 (corrigido para o vis) tm as seguintes
timadores de mxima verossimilhana
propriedades:

~ Np[(XX)XX
(i)
, 2(XX) XX(XX) ]

(ii) (n k)s2/2 ~ 2 (n k )
e s2 so independentes.
(iii)
Prova: Basta adaptar a prova do Teorema 7.6B para o caso de modelo de posto incompleto.
so vlidos para uma
O valor esperado, a matriz de covarincias e a distribuio de

ou (XX). O teoreparticular (XX) , ao passo que s2 invariante para escolhas de

ma seguinte uma adaptao do Corolrio 1 do Teorema 7.6D.


Teorema 11.3H. Se y ~ Nn(X
, 2 I), onde X n x p de posto k < p n, e se

tem varincia mnima dentre todos os estimadores


uma funo estimvel, ento

no viesados.
tem varincia mnima dentre
No Teorema 11.3D foi mostrado que o estimador

todos os estimadores lineares no viesados. Com a suposio de normalidade adicio tem varincia mnima dentre todos os estimadores no
nada no Teorema 11.3H,

viesados.

11.4. REPARAMETRIZAO
A reparametrizao foi definida e ilustrada na Seo 11.1.1. Agora vamos formalizar
e estender essa abordagem para obter um modelo baseado em parmetros estimveis.

204
Na reparametrizao, transformamos um modelo de posto incompleto y = X
+
, onde X n x p de posto k < p n, em um modelo de posto completo y = Z + ,
onde Z n x k, de posto k e = U
um conjunto de k funes estimveis linearmente independentes de . Assim Z = X
e podemos escrever
Z = ZU
= X

(11.30)

onde X = ZU. Desde que U k x p de posto k < p, a matriz UU no singular pelo


Teorema 2.4A(iii) e ns podemos ps-multiplicar ZU = X por U para resolver para
Z em termos de X e U:
ZUU = XU
Z = XU(UU)

(11.31)

Para estabelecer que Z de posto completo, note que posto(Z) posto(ZU) =


posto(X) = k. No entanto, Z no pode ter posto maior que k porque Z tem k colunas.
Assim, posto(Z) = k e o modelo y = Z + de posto completo e podemos usar os
Teoremas dos Captulos 7 e 8, como por exemplo: o sistema de equaes normais
1
ZZ = Zy tem soluo nica = (ZZ) Zy.
No modelo reparametrizado de posto completo y = Z + , o estimador no
viesado de 2 dado por:
s2 =

1
SQRes
(y Z )(y Z ) =
nk
nk

(11.32)

tambm so iguais, Z = X
,e
Desde que Z = X
, os estimadores Z e X

SQRes em (11.19) e SQRes em (11.32) tambm so iguais, ou seja:


)(y X
) = (y Z )(y Z )
(y X

(11.33)

O conjunto U
= somente um conjunto de funes estimveis e linearmente
= um outro conjunto de funes estimveis e linearmente
independentes. Seja V
independentes. Ento existe uma matriz W tal que y = W
+ . Agora, uma funo
estimvel
pode ser expressa como uma funo de ou de :

= b = c

Ento
.
= b = c

Essa outra reparametrizao d o mesmo estimador de


.

(11.34)

205
Exemplo 11.4. Ns ilustraremos uma reparametrizao para yij = + i + ij, i = 1, 2 e
j = 1, 2. Na forma matricial, o modelo pode ser escrito como

1
1
y = X
+ =
1

1 0
1 0

0 1

0 1

11

+ 12
1 21
2
22

Desde que X tem posto 2, existem duas funes estimveis e linearmente independentes (ver Teorema 11.2C). Podemos escolher essas funes de diversas maneiras,
uma das quais + 1 e + 2. Assim:


1 + 1 1 1 0
= =
=
1 = U
2 + 2 1 0 1
2
1
1
Para reparametrizar em termos de , podemos usar Z =
0

0
1
1
de tal modo que: Z =
0

0
0

0
1 + 1
0 1 1 + 1
= X.

= =
1 2 2 + 2

1
2 + 2

Note que a matriz Z pode ser obtida diretamente usando (11.31). fcil verificar que
ZU = X:
1
1
ZU =
0

0
1
0 1 1 0 1

=
1 1 0 1 1

1
1

1 0
1 0
=X
0 1

0 1

11.5. CONDIES MARGINAIS

A tcnica de impor condies marginais foi introduzida e ilustrada na Seo 11.1.


Condies marginais fornecem restries (lineares) que tornam os parmetros nicos
e individualmente estimveis. Um outro uso dessas condies marginais impor restries sobre as estimativas de tal forma a simplificar as equaes normais.
Seja X (n x p) de posto k < p n. Ento pelos Teoremas 11.2B(ii) e 11.2D,
XX representa um conjunto p funes estimveis de . Se uma condio marginal

206
for uma funo estimvel de , ela pode ser expressa como uma combinao linear
das linhas de XX e no contribuir em nada para a deficincia de posto de X ou
de XX
= Xy.
para obter um vetor soluo
Importante: as condies marginais devem ser funes no estimveis de .

A matriz X n x p de posto k < p n. Aqui a deficincia no posto de X p k.


Desde modo, para que todos os parmetros sejam nicos ou para obter um vetor solu , devemos definir condies marginais que completem essa deficincia
o nico
= 0, onde T uma
de posto. Assim, definiremos condies marginais T = 0 ou T
matriz (p k) x p, de posto p k, tal que T seja um conjunto de funes no estimveis de .
Teorema 11.5A. Se y = X + , onde X n x p de posto k < p n, e se T uma
matriz (p k) x p, de posto p k, tal que T um conjunto de funes no estimveis
que satisfaz XX
= Xy e T
= 0.
de , ento existe um vetor nico
Prova: Os dois conjuntos de equaes y = X + e 0 = T + 0 podem ser combinados como:

y X

=

+
0 T
0

(11.35)

Desde que as linhas de T so linearmente independentes e no so funes das liX


X
nhas de X, a matriz (n+pk) x p de posto p. Ento [X T] uma maT
T
triz quadrada p x p, de posto p, e o sistema de equaes

[X'

X
y
T']
= [X' T']
T
0

(11.36)

tem como soluo nica:


= [X' T'] X

[X'

-1
y
T'] = (XX + TT) Xy
0

(11.37)

em (11.37) tambm satisfaz o sistema de equaes normais XX


=
A soluo
Xy, desde que, por (11.36):
= Xy + T0
(XX + TT)
+ TT
= Xy
XX
= 0 e ento (11.38) reduz-se a XX
= Xy.
Mas T

(11.38)

207
Exemplo 11.5. Consideremos o modelo yij = + i + ij, i = 1, 2, j = 1, 2, como no
Exemplo 11.4. No Problema 11.5(b) ser mostrado que a funo 1 + 2 no estimvel. A condio marginal 1 + 2 = 0 pode ser expressa como [0 1 1] = 0 e a
matriz (XX + TT) calculada como:
4 2 2 0
4 2 2

XX + TT = 2 2 0 + 1 [0 1 1] = 2 3 1

2 0 2 1
2 1 3
ento

2 1 1
1
(XX + TT) = 1 2 0
4
1 0 2
-1

Com Xy = [ y

y1

y2 ] e utilizando (11.37), obtemos:

= (XX + TT)1Xy

2 1 1 y
1
= 1 2 0 y1

4
1 0 2 y 2
2 y y1 y 2
y
1

=
2 y1 y
= y1 y

4
y 2 y
2 y 2 y

(11.39)

em (11.39) tambm
porque y1 + y2 = y e yi = yi / 2 . Para mostrar que
= Xy, basta verificar que:
soluo do sistema de equaes normais XX

4 2 2 y y
2 2 0 y y = y

1
1
2 0 2 y 2 y y 2
ou
4 y + 2( y1 y ) + 2( y 2 y ) = y
2 y + 2( y1 y ) = y1
2 y + 2( y 2 y ) = y 2
Simplificando temos:
2 y1 + 2 y 2 = y , 2 y1 = y1 e 2 y 2 = y 2
e a igualdade se verifica porque: y1 = y1 /2, y 2 = y 2 /2 e y1 + y 2 = y /2.

208
A seguir consideraremos hipteses sobre os s no modelo y = X + , onde X n x
p de posto k < p n. Nesta seo assumiremos que y ~ Nn(X, 2 I).

11.6. TESTANDO HIPTESES


11.6.1. Hipteses testveis
Podemos mostrar que, a menos que uma hiptese possa ser expressa em termos de
funes estimveis, ela no pode ser testada [ver Searle (1971), pg.193-196]. Isso
leva seguinte definio:
Uma hiptese tal como H0: 1 = 2 = ... = q dita ser testvel se existe um conjunto
de funes estimveis linearmente independentes { 1t , t2 , ... , tt } tal que H0
verdadeira se e somente se 1 = 2 = ... = t = 0.
Para testar H0: 1 = 2 = ... = q fcil encontrar um conjunto de (q 1) funes
estimveis e linearmente independentes do tipo ci i , denominadas contrastes 1 ,
como por exemplo:

1t = (q 1)1 (2 + 3 + ... + q)
t2 = (q 2)2 (3 + ... + q)

M
tq 1 = q1 q.
Esses q 1 contrastes constituem um conjunto de funes estimveis e linearmente
independentes tais que
1

1t (q - 1)
1
1 L 1 1 2 0
t
(q 2) 1 L 1 1 3 0
2 = 0

=
M M
M
M
M
M M M
t


0
0 L 1 1 q 1 0
q 1 0

q
se e somente se 1 = 2 = ... = q.

Nota: toda combinao do tipo

c
i

um contraste se

=0

209
Para ilustrar hipteses testveis, suponha que temos um modelo

yij = + i + j + ij para i = 1, 2, 3 e j = 1, 2, 3,
e a hiptese de interesse H0: 1 = 2 = 3. Tomando combinaes lineares das linhas
de X, ns obtemos as duas funes estimveis linearmente independentes 1 2 e
1 + 2 23. A hiptese H0: 1 = 2 = 3 verdadeira se e somente se 1 2 e
1 + 2 23 forem simultaneamente iguais a zero. Portanto H0 uma hiptese testvel e equivalente a:

1 2 0
H0:
=
1 + 2 2 3 0

(11.40)

Agora ns discutiremos testes para hipteses testveis. Na seo 11.6.2 ns


descrevemos o procedimento que baseado no mtodo modelo completo versus modelo reduzido, da Seo 8.2. Desde que (11.40) da forma H0: C = 0, ns podemos
usar alternativamente o teste da hiptese linear geral, apresentado na Seo 8.4.1.
Essa abordagem discutida na Seo 11.6.3.

11.6.2. Modelo Completo e Modelo Reduzido


Suponha que estejamos interessados em testar H0: 1 = 2 = ... = q no modelo de
posto incompleto y = X + , onde p x 1 e X n x p de posto k < p n. Se H0
testvel, ns podemos encontrar um conjunto de t funes estimveis e linearmente
independentes { 1t , t2 , ... , tt } tais que H0: 1 = 2 =... = q seja equivalente a:

1t 0
t
0

H0: 1 = 2 =
M M
t
t 0
Tambm possvel encontrar:

tt +1

2 = M
t
k
tais que as k funes 1t , t2 , ..., tt , tt +1 , ...., tk so estimveis e linearmente
independentes, onde k = posto(X). Seja


= 1.
2
Agora, ns podemos reparametrizar o modelo de posto incompleto y = X + para o
modelo de posto completo:

210

y = Z + = Z11 + Z22 + ,
onde Z = [Z1 M Z2] particionada conforme o nmero de elementos em 1 e 2.
Para a hiptese H0: 1 = 0, o modelo reduzido y = Z2 2 + *. Pelo Teorema
7.10A, a estimativa de 2 no modelo reduzido a mesma estimativa de 2 no modelo
completo se as colunas de Z2 forem ortogonais s colunas de Z1, isto , se Z2Z1 = 0.
Para os modelos balanceados, que ns consideramos neste captulo, a ortogonalidade
geralmente se verifica. Deste modo, usaremos 2 e 2 , ao invs de 2 e 2 .
Desde que y = Z + um modelo de posto completo, a hiptese H0: 1 = 0
pode ser testada como na Seo 8.2. Os resultados so apresentados na Tabela 11.2,
que anloga Tabela 8.3. Note que o nmero de graus de liberdade, t, associado
SQ(1 | 2), igual ao nmero de funes estimveis e linearmente independentes necessrias para expressar a hiptese H0.

Tabela 11.2 Anlise de varincia para testar H0: 1 = 0 no modelo reparametrizado


balanceado
Fonte de Variao

g.l.

Somas de quadrados

Devida a 1 ajust. 2

SQ(1 | 2) = Zy t2 Z2y

SQ( 1 | 2 ) t
SQRes (n k )

Resduo

nk

SQRes = yy Zy

Total

n1

SQT = yy n y 2

Na Tabela 11.2 a soma de quadrados Zy obtida no modelo completo y =

Z + e a soma de quadrados '2 Z2y, no modelo reduzido y = Z2 2 + *, que assume que a hiptese H0: 1 = 0 verdadeira. Esse procedimento envolvendo a reparametrizao bastante interessante, mas na prtica a obteno da matriz Z pode consumir muito tempo. Veremos que esse passo pode ser evitado. De (11.20) e (11.33),
ns temos que:
Xy = yy Zy
yy
de onde obtemos:

Xy = Zy

(11.41)

representa qualquer soluo do sistema de equaes normais XX


= Xy.
onde
De modo similar, correspondente ao modelo y = Z2 2 + *, ns temos o modelo reduzido y = X2 2 + *, obtido quando assumimos 1 = 2 = ... = q. Ento,

211

X2y = Z2y

2
2

(11.42)

qualquer soluo do sistema de equaes normais X2X2


= X2y. Ns
onde
2
2
podemos usar muitas vezes as condies marginais (restries nos parmetros) para
e
em modelos balanceados.
encontrar
2
Na Seo 11.7.3 ns notaremos que se Z2Z1 = 0 em um modelo reparametrizado de posto completo, pelo Teorema 7.10A, a estimativa de 2 no modelo reduzido a mesma estimativa de 2 no modelo completo.

Teorema 11.6A. Considere o modelo particionado y = X + = X11 + X22 + ,


onde X n x p de posto k < p n. Se X2X1 = 0 (ver Seo 11.7.3), a estimativa de
2 no modelo reduzido y = X2 2 + * a mesma que 2 no modelo completo.
Prova: ver pg. 286 do livro do Rencher.
No modelo balanceado de posto incompleto considerado neste captulo, a ortogonali , ao invs de
dade de X1 e X2, geralmente, se verifica. Deste modo, usaremos 2 e
2

e .
2

Tabela 11.3 Anlise de varincia para testar H0: 1 = 2 = ... = q no modelo


balanceado de posto incompleto.
Fonte de Variao

g.l.

Somas de quadrados

Devida a 1 ajust. 2

Xy
X2y
SQ(1 | 2) =
2

SQ(1 | 2 ) t
SQRes (n k )

Resduo

nk

Zy
SQRes = yy

Total

n1

SQT = yy n y 2

O teste de H0: 1 = 2 = ... = q pode ser apresentado na Tabela 11.3, onde


Xy a soma de quadrados obtida do modelo completo y = X + e
X2y
2
obtido do modelo y = X22 + , que foi reduzido pela hiptese H0: 1 = 2 = ... = q.
Note que o nmero de graus de liberdade, t, para SQ(1 | 2) o mesmo de SQ(1 | 2)
da Tabela 11.2, que neste caso, corresponde ao nmero de funes estimveis e linearmente independentes usadas para expressar H0. Geralmente, tem-se que t = q 1.
Um conjunto de (q 1) funes estimveis e linearmente independentes j foi apresentado no incio da Seo 11.6.1. O teste apresentado na Tabela 11.3 ser ilustrado
na Seo 11.7.2.

212

11.6.3 Hiptese Linear Geral H0: C = 0


Como ilustrado em (11.40), uma hiptese como H0: 1 = 2 = 3 pode ser expressa na
forma H0: C = 0. Ns podemos testar essa hiptese de uma maneira anloga quela
usada para o teste da hiptese linear geral para o modelo de posto completo da Seo
8.4.1.

Teorema 11.6B. Se y ~ Nn(X, 2 I), onde X n x p de posto k < p n, se C m x p


de posto m k tal que C um conjunto de m funes estimveis linearmente inde = (XX)Xy, ento:
pendentes, e se

(i) C(XX) C no singular e invariante a escolhas de (XX) .

~ Nm[C, 2C(XX) C)].


(ii) C
)[C(XX)C]1C
/ 2 ~ 2 (m, ), onde
(iii) SQHip /2 = (C

= (C)[C(XX) C] C/22.

(iv) SQRes /2 = y[I X(XX) X]y /2 ~ 2 (n k).


(v) SQHip e SQRes so independentes.
Prova:

c1t
t
c
(i) Desde que C = 2 um conjunto de m funes estimveis linearmente inde M
t
c m

pendentes, ento pelo Teorema 11.2B(iii) ns temos que ci(XX) XX = ci, para
i = 1, 2, ..., m. Ento

C(XX) XX = C

(11.43)

que pode ser escrita como o produto [C(XX) X]X = C. Ento, ns podemos usar
o Teorema 2.4A(i) para obter a desigualdade:

posto(C) posto[C(XX) X] posto(C).

De onde tiramos que posto[C(XX) X] = posto(C) = m. Agora, pelo Teorema


2.4A(iii), que estabelece que posto(A) = posto(AA), ns podemos escrever:

posto(C) = posto[C(XX) X]

= posto[C(XX) X][C(XX) X]

= posto[C(XX) XX(XX) C]

Por (11.43), C(XX) XX = C e temos que:

posto(C) = posto[C(XX) C]

213

Portanto a matriz C(XX) C m x m no singular. [Note que tambm assumimos

que (XX) simtrica] A invarincia de C(XX) C segue do Teorema 2.8C(v).

(ii) Por (3.36) e (11.14), ns obtemos:

) = CE(
) = C(XX) XX
E(C

Por (11.43), C(XX) XX = C, ento

) = C
E(C

(11.44)

Por (3.42) e (11.18), ns temos que

) = C cov(
) C = 2C(XX) XX(XX) C
cov(C
Por (11.43),

) = 2C(XX) C
cov(C

(11.45)

~ Np[(XX) XX, 2(XX) XX(XX)]. Ento, pelos


Pelo Teorema 11.3G(i),
Teoremas (11.44), (11.45) e Teorema 4.4.A(ii),

~ Nm[C, 2C(XX) C)]


C
) = 2C(XX) C. Desde que 2[C(XX) C] 1C(XX) C/2 =
(iii) De (ii), cov(C
I, o resultado (iii) se verifica usando o Teorema 5.5A.

(iv) Este resultado j foi estabelecido no Teorema 11.3G(ii).


e SQRes so independentes. Portanto SQHip = (C
)
(v) Pelo Teorema 11.3G(iii),

1
e SQRes so independentes [ver Seber (1977, pg.17-18) para
[C(XX) C] C
uma prova que funes contnuas de variveis aleatrias independentes e vetores
so independentes]. Para uma prova mais formal, veja o Problema 8.4B.

Teorema 11.6C Seja y ~ Nn(X, 2 I), onde X n x p de posto k < p n, e sejam C,


como definidos no Teorema 11.6B. Ento se H0: C = 0 verdadeira, a estaC e
tstica
F =

SQH / m
SQRes / (n k)

1
(
C )' [C( X' X) C'] (C ) m
=

SQRes (n k )

distribuda como F(m, n k).

(11.46)

214

11.7 UMA ILUSTRAO DE ESTIMAO E TESTE DE HIPTESE


Suponha que tenhamos o modelo aditivo (sem interao):

yij = + i + j + ij,

i = 1, 2, 3 e j = 1, 2

e que estejamos interessados em testar H0: 1 = 2 = 3 e H0: 1 = 2. As seis observaes podem ser escritas na forma y = X + como

y11 1
y 1
12
y 21 1
=
y 22 1
y31 1

y 32 1

1 0 0 1 0 11
1 0 0 0 1 1 12
0 1 0 1 0 2 21
+
0 1 0 0 1 3 22
0 0 1 1 0 1 31

0 0 1 0 1 2 32

(11.47)

A matriz XX dada por:

6
2

2
XX =
2
3

2 2 2 3 3
2 0 0 1 1
0 2 0 1 1

0 0 2 1 1
1 1 1 3 0

1 1 1 0 3

e o posto de X e de XX igual a 4.

11.7.1 Funes Estimveis


A hiptese H0: 1 = 2 = 3 pode ser escrita como ( equivalente a) H0: 1 2 = 0 e
H0: 1 3 = 0. Assim H0 testvel se 1 2 e 1 3 forem estimveis. Para checar a estimabilidade de 1 2, escrevemos

1 2 = [0, 1, 1, 0, 0, 0] = 1
e ento ns notamos que 1 pode ser obtida de X como
[1, 0, 1, 0, 0, 0]X = [0, 1, 1, 0, 0, 0]
e de XX como
[0, 1/2, 1/2, 0, 0, 0]XX = [0, 1, 1, 0, 0, 0]
Alternativamente, ns podemos obter 1 2 como uma combinao linear das
linhas de E(y) = X:

215

E(y11 y21) = E(y11) E(y21)


= + 1 + 1 ( + 2 + 1) = 1 2.
Utilizando essas trs abordagens, podemos verificar que a funo 1 3 tambm estimvel e concluir que a hiptese H0: 1 = 2 = 3 testvel e equivalente a:

2 0
H0: 1
=
1 3 0
Para comprovar que as duas funes 1 = [0 1 1 0 0 0] = 1 2 e 2
= [0 1 0 1 0 0] = 1 3 so estimveis, bastaria mostrar que:

posto[XX M 1] = posto[XX] e que posto[XX M 2] = posto[XX].


que facilmente verificado quando usamos um programa estatstico adequado, como
o proc iml do SAS.

11.7.2 Testando uma hiptese


Como notado no incio da Seo 11.7.1, H0: 1 = 2 = 3 equivalente a H0: 1 2
= 0 e H0: 1 3 = 0. Como so necessrias duas funes estimveis e linearmente
independentes dos s para expressar H0: 1 = 2 = 3, a soma de quadrados para
testar essa hiptese tem dois graus de liberdade. De modo similar, H0: 1 = 2 test = Xy dado
vel com um grau de liberdade. O sistema de equaes normais XX
por:

6
2

2
3

2 2 2 3 3
2 0 0 1 1
0 2 0 1 1

0 0 2 1 1
1 1 1 3 0

1 1 1 0 3

y
y
1 1
2 y2
=
3 y3
1 y1

2 y 2

(11.48)

Se impusermos as condies marginais (restries) 1 + 2 + 3 = 0 e 1 + 2 = 0,


ns obtemos as seguintes solues para o sistema:

= y

onde y =

1 = y1 y ,

2 = y2 y ,

1 = y1 y ,

2 = y 2 y

ij yij

6 , yi =

j yij

2 e y j =

3 = y3 y

i yij

(11.49)

3 para i = 1, 2, 3 e j = 1, 2.

216
Se impusermos as condies sobre os parmetros e as estimativas, as equaes
(11.49) fornecem estimativas nicas de parmetros com significado nico. Assim, por
exemplo, 1 passa a ser 1 = 1 , o desvio esperado da mdia devida ao tratamento 1 e y1 y uma estimativa razovel. Por outro lado, se as condies forem
usadas somente para obter estimativas e no forem impostas sobre os parmetros,
ento 1 no nico e y1 y no estima um parmetro. Neste caso 1 = y1 y
[como dado por (11.49)] para
pode ser usado somente com outros elementos em
de funes estimveis .
obter estimativas
Ns procederemos como exposto na Tabela 11.3 para testar H0: 1 = 2 = 3.
Primeiramente, para o modelo completo, precisamos calcular SQ(, 1, 2, 3, 1, 2)
Xy, que denotaremos por SQ(, , ). Por (11.48) e (11.49), obtemos:
=

Xy =
SQ(, , ) =
1

y
y

L 2 1
M

y 2

2
y2 3 yi2 y2 2 y j y2
SQ(, , ) =
+

+ 3 6
2
6
6
i
1
=

j =1

(11.50)

A soma de quadrados dos resduos dada por:


Xy =
SQRes = yy

ij

yij2

2
y2 3 yi2 y2 2 y j y2

3 6
2
6
6
i =1
j =1

X2y da Tabela 11.3, ns usamos o modelo reduzido yij = + + j +


Para obter
2
ij = + j + ij, onde 1 = 2 = 3 = e ( + ) substitudo por . O sistema de
= X2y para o modelo reduzido fica:
equaes normais X2X2
2

6 3 3 y
3 3 0 = y

1 1
3 0 3 2 y 2

(11.51)

Usando a condio 1 + 2 = 0, a soluo para o sistema (11.51) facilmente obtida


como:
= y ,
1 = y1 y ,
2 = y 2 y
(11.52)
[Observe que essa soluo a mesma obtida no modelo completo em (11.49)]
Por (11.51) e (11.52), ns temos:

217
2
y2 2 y j y2

SQ(, ) = 2 X2y =
+

j =1 3
6
6

(11.53)

Abreviando SQ(1, 2, 3 | , 1, 2) por SQ( | , ), ns temos:


2
3 2
Xy
X2y = yi y
SQ( | , ) =
2

6
i =1 2

(11.54)

Tabela 11.4 Anlise de varincia para testar H0: 1 = 2 = q.


Fonte de Variao

g.l.

Somas de quadrados

Devida a ajust. ,

3 yi2 y2

SQ( | , ) =

2
6
i =1

Resduo

SQRes =

SQT =

Total

yij2

( y

2
i i

2 y2 6 2

SQRes 2

Xy

ij

yij2
ij

y2
6

Esses resultados esto resumidos na Tabela 11.4, observando que no foi includa a
soma de quadrados SQ( | , ).

11.7.3 Ortogonalidade das Colunas de X


As estimativas de , 1 e 2 dadas em (11.52) para o modelo reduzido so as
mesmas de , 1 e 2 dadas em (11.49) para o modelo completo. A soma de quadra Xy em (11.50). De fato, a ex X2y em (11.53) claramente uma parte de
dos
2
presso (11.54) pode ser expressa como SQ( | , ) = SQ(), e (11.50) como
SQ(, , ) = SQ() + SQ() + SQ(). Esses resultados simplificados so devidos
essencialmente ortogonalidade na matriz X em (11.47), como notado no Teorema
11.6A.
As colunas de X em (11.47) no so ortogonais a todas as outras colunas, mas
ns podemos obter trs grupos de colunas ortogonais se cada coluna depois da primeira for centrada usando a mdia da coluna. Para tanto usamos [ver Seo 7.5]:

x11 x1
x x
1

Xc = I J X1 = 21 1
M
n

xn1 x1

x12 x2 L x1k xk
x22 x2 L x2 k xk

M
M

xn 2 x2 L xnk xk

onde X1 a matriz formada pelas colunas de X, com exceo da primeira. E obtemos:

218

2
3
2
3
1

3
1

3
1

3
1

[j, Xc] =
1

1
3
1

3
2
3
2
3
1

3
1

1
1
3
2
1
1

3
2
1
1

3
2
1
1

3
2
2
1
3
2
2
1

3
2

1

2
1

2
1

2
1

2
1

2
1

(11.55)

Os trs grupos de colunas mostrados em [j, Xc] so ortogonais. Assim, por


exemplo, cada uma das colunas 2, 3 e 4 ortogonal a cada uma das colunas 5 e 6,
mas as colunas 2, 3 e 4 no so ortogonais entre si. Note que posto[j, Xc] = 4, porque
a soma das colunas 2, 3 e 4 0 e das colunas 5 e 6 tambm 0. Assim, posto[j, Xc] =
posto[X] = 4. Vale lembrar ainda que os estimadores dos parmetros 1 no modelo

centrado y = [j, Xc] + so iguais aos estimadores de 1 no modelo no centrado,
1
y = X + .
Ns ilustraremos o uso de condies marginais para obter uma ortogonalizao
que de posto completo. Para tanto, considere o modelo com dois fatores com interao:

yijk = + i + j + ij + ijk, i = 1, 2,

j = 1, 2, k = 1, 2

(11.56)

Matricialmente o modelo fica:


y111 1
y 1
112
y121 1


y122 = 1
y 211 1


y 212 1
y 1
221
y 222 1

1
1
1
1
0
0
0
0

0
0
0
0
1
1
1
1

1
1
0
0
1
1
0
0

0
0
1
1
0
0
1
1

1
1
0
0
0
0
0
0

0
0
1
1
0
0
0
0

0
0
0
0
1
1
0
0

0 111
1
0 112
2
0 121

1
0 122
2 +
0 211

11
0 212
12
1 221

21
1 222
22

(11.57)

Condies marginais teis so evidentes no sistema de equaes normais, que


dado por:

219
)
8 + 4( 1 + 2 ) + 4( 1 + 2 ) + 2( 11 + 12 + 21 + 22 ) = y
)
4 + 4 i + 2( 1 + 2 ) + 2( i1 + i 2 ) = yi ,
i = 1, 2
)
4 + 2( 1 + 2 ) + 4 j + 2( 1 j + 2 j ) = y j ,
j = 1, 2
)
2 + 2 i + 2 j + 2 ij = y ij ,

i = 1, 2,

(11.58)

j = 1, 2

A soluo das equaes em (11.58) ser simplificada pelas seguintes condies marginais:

1 + 2 = 0,
1 + 2 = 0
i1 + i 2 = 0,

i = 1, 2

1 j + 2 j = 0,

j = 1, 2.

(11.59)

Em (11.57), a matriz X 8x9 e posto(X) = 4, porque as primeiras cinco colunas


podem ser expressas como combinaes lineares das quatro ltimas colunas, que so
linearmente independentes. Assim, XX 9x9 e tem uma deficincia de posto de 9
4 = 5. Entretanto, existem seis condies marginais em (11.59). Esta aparente discrepncia resolvida notando-se que existem somente trs restries entre as quatro
ltimas equaes em (11.59), j que podemos obter qualquer uma das quatro a partir
das outras trs. Para ilustrar, ns obtemos a primeira equao 11 + 12 = 0, das ltimas trs. Adicionando a terceira e a quarta equao, temos 11 + 21 + 12 + 22 = 0. E
substituindo a segunda, 21 + 22 = 0, obtemos a primeira, 11 + 12 = 0
Ns podemos obter uma ortogonalizao de posto completo impondo as condies marginais em (11.59) sobre os parmetros e usando essas relaes para expressar os parmetros redundantes em termos dos quatro parmetros , 1, 1 e 11. [Note
que, por convenincia, no sero usados asteriscos para indicar os novos parmetros]. Isto d:

2 = 1,

2 = 1 ,

12 = 11,

21 = 11,

22 = 11.

(11.60)

Observe que o ltimo resultado obtido da condio 22 = 12 = (11) = 11.


Usando (11.60), ns podemos expressar as oito observaes yijk em (11.56) em
termos de , 1, 1 e 11:
y11k = + 1 + 1 + 11 + 11k, k = 1, 2
y12k = + 1 + 2 + 11 + 12k

= + 1 1 11 + 12k, k = 1, 2

220
y21k = + 2 + 1 + 21 + 21k

= 1 1 11 + 21k, k = 1, 2
y22k = + 2 + 2 + 22 + 22k

= 1 1 + 11 + 22k, k = 1, 2
A matriz redefinida X fica:
1
1

1
1

1
1

1
1
1
1
1
1
1
1

1
1
1
1
1
1
1
1

1
1
1

1
1

1
1

que uma matriz de posto completo com colunas ortogonais. Os mtodos apresentados nos Captulos 7 e 8 podem ser usados para estimao e teste de hipteses.
Exerccios: ver pg. 296-299 do livro do Rencher.

221

CAPTULO 12. ANLISE DE VARINCIA COM UM FATOR (ONE


WAY): CASO BALANCEADO
A modelo de anlise de varincia (ANOVA) com um fator foi ilustrado em exemplos
nas Sees 11.1-11.5. Agora, ns analisaremos este modelo de forma mais completa.
Para resolver as equaes normais, ns usaremos tanto condies marginais quanto
uma abordagem com inversas generalizadas. Para testar hipteses na Seo 12.4, ns
usaremos as abordagens modelo completo versus modelo reduzido e hiptese linear
geral. Na Seo 12.6 discutiremos contrastes sobre mdias, incluindo os polinmios
ortogonais. Neste captulo somente consideraremos modelos balanceados. O caso
desbalanceado ser discutido no Captulo 14.

12.1 O MODELO COM UM FATOR (ONE WAY)


O modelo balanceado com um fator pode ser expresso como segue:
yij = + i + ij,

i = 1, 2, ..., k , j = 1, 2, ..., n

(12.1)

Se 1, 2. ..., k representam os efeitos de k tratamentos, cada um aplicado a n unidades experimentais, ento yij a resposta da j-sima observao dentre as unidades que
receberam o i-simo tratamento. Por exemplo, num experimento agrcola, os tratamentos podem ser diferentes tipos de fertilizantes ou diferentes quantidades de um
certo fertilizante. Por outro lado, em algumas situaes experimentais, os k grupos
podem representar amostras de k populaes cujas mdias ns desejamos comparar,
populaes que no so criadas pela aplicao de tratamentos. Por exemplo, suponha
que desejamos comparar o tempo mdio de vida de diversas marcas de baterias.
As trs suposies que fazem parte do modelo so:
1. E(ij) = 0 para todo i, j;
2. var(ij) = 2 para todo i, j;
3. cov(ij, rs) = 0 para todo (i, j) (r, s).
Muitas vezes ns adicionamos a suposio que:
4. ij ~ N(0, 2).
Adicionalmente, tambm usamos as restries (condies marginais):
5.

i=1 i = 0.
k

A mdia do i-simo tratamento ou populao pode ser denotada por i. Assim,


E(yij) = i, e usando a suposio 1, ns temos i = + i. Tambm podemos escrever
(12.1) na forma:
yij = i + ij,

i = 1, 2, ..., k , j = 1, 2, ..., n

Nesta forma do modelo, uma hiptese de interesse H0: 1 = 2 = ... = k.

(12.2)

222
12.2 FUNES ESTIMVEIS
Para ilustrar o modelo (12.1) na forma matricial, seja k = 3 e n = 2. As seis equaes
resultantes, yij = + i + ij, i = 1, 2, 3 e j = 1, 2, podem ser expressas como:
y11
+ 1 11
1
y
+
1
1
12

12

y 21
+ 2 21
1
+ =
=
y 22
+ 2 22
1
y31
+ 3 31
1

1
y32
+ 3 32

1
1
0
0
0
0

0
0
1
1
0
0

0
0
0

0
1

11

12

1 + 21
2 22

31
3

32

(12.3)

ou y = X + . Em (12.3), X 6x4 e tem posto 3. Assim = [, 1, 2, 3] no


nico e no estimvel; portanto, os parmetros individuais , 1, 2 e 3 no podem
ser estimados, a menos que estejam sujeitos a restries (condies marginais). Em
geral, a matriz X para o modelo balanceado com um fator kn x (k+1) e de posto k.
Na seo 11.2.2 discutiu-se sobre funes estimveis . No problema 11.10
mostrou-se que no modelo balanceado com um fator, os contrastes sobre os is so
estimveis, isto , i ci i estimvel se e somente se i ci = 0. Por exemplo,
contrastes como 1 2 e 1 + 2 23 so estimveis.
Se impusermos uma condio marginal sobre os is e denotarmos os parmetros restritos por e i , ento , 1 , 2 , , k so estimveis. Sob a condio
usual,
onde

i=1 i = 0, esses parmetros so definidos como = e i = i ,


k
= i =1 i k . Para visualizarmos isso, reescreveremos (12.1) e (12.2) na
k

forma E(yij) = + i para obter:

k
i =1

+ i

i =1

= +

i =1

(12.4)

Ento, de i = + i , ns temos:

i = i = i

(12.5)

12.3 ESTIMAO DE PARMETROS


12.3.1 Resolvendo o Sistema de Equaes Normais
Estendendo (12.3) para o caso geral com k tratamentos e n repeties, o modelo com
um fator pode ser escrito na sua forma matricial como:

223

y 1 j j 0 L 0 1
y j 0 j L 0 1
2 =
2 + 2
M M M M
M M

M
y k j 0 0 L j k
k

(12.6)

ou

y = X +
onde j e 0 tm dimenses n x 1, e yi e i, so definidos como
yi1
y
yi = i 2 e i =
M

yin

i1

i2
M

in

De (12.6), as equaes normais XX = Xy tm a forma:


kn
n

M
n
onde y =

ij yij

e y i =

n n L n
n 0 L 0
0 n L 0

M M
M
0 0 L n

y
y
1 1
2 = y 2

M M
k y k

(12.7)

j yij .

Na Seo 12.3.1a ns encontraremos uma soluo de (12.7) usando condies


marginais e na Seo 12.3.b, uma outra soluo usando uma inversa generalizada de
XX.

12.3.1a Condies marginais


As (k+1) equaes normais em (12.7) podem ser expressas como:
kn + n 1 + n 2 + ... + n k = y
n + n i = yi , i = 1, 2, ..., k

Usando a condio marginal

y
= y
kn

(12.8)

i =1 i = 0, a soluo para (12.8) dada por:


k

e i =

yi
= yi y ,
n

i = 1, 2, ..., k

Na forma vetorial, essa soluo para XX = Xy expressa como:

(12.9)

224
y

= y1 y

y k y
Se a condio

(12.10)

i=1 i = 0 for imposta sobre os parmetros, os elementos de


k

sero

estimadores nicos dos parmetros (restritos) = e i = i em (12.4) e


(12.5). Por outro lado, os estimadores em (12.9) ou (12.10) so usados em funes estimveis. Por exemplo, pelo Teorema 11.3A(ii), o estimador de = 1 2 dado
por :
= 1 2 = y1 y ( y 2 y ) = y1 y 2

Pelo Teorema 11.3D, tais estimadores so BLUE. Se ij ~ N(0, 2), ento pelo Teorema 11.3H, os estimadores so estimadores no viesados de varincia mnima.

12.3.1b Inversa Generalizada

Pelo Corolrio 1 do Teorema 2.8B, uma inversa generalizada de XX em (12.7)


dada por:
0 0 L 0
0 1 / n L 0

(XX) =
M
M
M

0 0 L 1 / n

(12.11)

Ento por (11.13) e (12.7), uma soluo para as equaes normais obtida por:
0

= (XX)Xy = y1
M

yk

(12.12)

Os estimadores em (12.12) so diferentes daqueles em (12.10), mas eles fornecem as mesmas estimativas de funes estimveis. Por exemplo, usando de (12.12)
para estimar = 1 2, obtemos:
= 1 2 = y1 y 2
que a mesma estimativa que aquela obtida na Seo 12.3.1a usando de (12.10).

225
12.3.2 Um estimador para 2

Na suposio 2 para o modelo com um fator em (12.1), ns temos que var(ij) = 2


para todo i, j. Para estimar 2, ns usamos (11.22):

s2 =

SQRes

, onde SQRes = yy Xy = y[I X(XX) X]y


k ( n 1)

O posto da matriz idempotente I X(XX) X igual a kn k = k(n1) porque

posto(I) = tr(I) = kn, posto(X) = k e posto[X(XX) X] = k [ver Teorema 2.13D].


Ento s2 = SQRes/k(n1) um estimador no viesado de 2 [ver Teorema 11.3E(i)].
Usando de (12.12), ns podemos expressar SQRes da seguinte forma:
SQRes = yy Xy =
=

yij2

ij

yij2

yi yi

i =1 j =1

i =1

yi2
n

(12.13)

Podemos mostrar ainda (ver Problema 12.3) que (12.13) pode ser escrito como:
SQRes =

(yij yi )2

(12.14)

ij

Assim, a varincia amostral s2 pode ser calculada de duas formas:

ij (yij yi )

s2 =

(12.15)

k (n 1)

ij yij2 i yi2

k (n 1)

(12.16)

12.4 TESTANDO A HIPTESE H0: 1 = 2 = ... = K


Usando o modelo em (12.2), a hiptese de igualdade das mdias pode ser expressa
como H0: 1 = 2 = ... = k. A hiptese alternativa que, no mnimo, duas mdias so
diferentes. Usando i = + i [ver (12.1) e (12.2)], essa hiptese pode ser expressa
como H0: 1 = 2 = ... = k, que testvel porque ela pode ser escrita em termos de
(k1) contrastes estimveis linearmente independentes, por exemplo, H0: 1 2 =
1 3 = ... = 1 k = 0 (ver o segundo pargrafo na Seo 11.6.1). Na Seo
12.4.1 ns desenvolveremos o teste usando a abordagem do modelo completo versus
modelo reduzido, e na Seo 12.4.2, a abordagem usando a hiptese linear geral. No
modelo y = X + , y kn x 1 e X kn x (k+1). Por toda a Seo 12.4 ns assumiremos que y ~ Nkn(X, 2I).

226

12.4.1 Modelo Completo versus Modelo Reduzido


A hiptese
H0: 1 = 2 = ... = k

(12.17)

H0: 1 = 2 = ... = k

(12.18)

equivalente a

onde os i s esto sujeitos condio marginal

i=1 i = 0. Com esta restrio, H0


k

em (12.18) tambm equivalente a


H0: 1 = 2 = ... = k = 0

(12.19)

O modelo completo, yij = + i + ij, para i = 1, 2, ..., k e j = 1, 2, ..., n, expresso na forma matricial como y = X + . Se o modelo completo escrito em termos de e i , como yij = + i + ij, ento o modelo reduzido sob H0 em (12.19)
yij = +ij. Na forma matricial, temos y = j + , onde j kn x 1. Para ser consistente com o modelo completo y = X + , ns escrevemos o modelo reduzido como

y = j +

(12.20)

Para o modelo completo, a soma de quadrados SQ(, ) = Xy dada como


uma parte de (12.13) como:
yi2

SQ(, ) = Xy =
i n
onde a soma de quadrados SQ(, 1, 2, ..., k) abreviada para SQ(, ). Para o mo
delo reduzido em (12.20), o estimador = (XX) Xy e a soma de quadrados
Xy so dados por:
y
1
= (jj) jy = = y

(12.21)

kn

y2
jy
SQ() = = y y =
(12.22)
kn
onde j kn x 1. Da Tabela 11.3, a soma de quadrados para os s ajustada para
dada por:
SQ( | ) = SQ(, ) SQ() =

= n ( yi y )2

yi2
y2

n
kn

(12.23)
(12.24)

i =1

O teste resumido na Tabela 12.1 usando SQ( | ) de (12.23) e SQRes de


(12.13). A distribuio quiquadrado e a independncia de SQ( | ) e SQRes seguem
de resultados estabelecidos na Seo 11.6.2.

227

Tabela 12.1 Anlise de varincia para testar H0: 1 = 2 = ... = k no modelo


com um fator.
F. de Variao
Tratamentos

g.l.
k1

Somas de quadrados
SQ( | ) =

Resduo

k(n 1) SQRes =

yi2
y2

n
kn

yij2

ij

Total

kn 1 SQT =

yij2
ij

yi2
n

Q.M.

SQ( | )
k 1

QM ( | )
QMRes

SQRes
k ( n 1)

y2
kn

Para facilitar a comparao de SQ( | ) em (12.23) com o resultado da abordagem da hiptese linear geral na Seo 12.4.2, ns vamos expressar SQ( | ) como

uma forma quadrtica em y. De (11.13), = (XX) Xy e Xy = yX(XX) Xy.


Ento, com (12.21) e (12.22), ns podemos escrever:
y2

-1
SQ( | ) = Xy = yX(XX) Xy yj(jj) jy
kn

jj'
= yX(XX) Xy y y
kn

= y X( X' X) X' J kn y
kn

(12.25)

onde j kn x 1. Usando alguns resultados da resposta do Problema 12.3, podemos expressar (12.25) como:
J 0 L 0
J J L J

1 0 J L 0 1 J J L J
SQ( | ) = y

(12.26)
y
M kn M M
M
n M M

0 0 L J
J J L J

(k 1) J

1 J
=
y
kn M

J
L
(k 1) J L
M
J
L

J
J
y
M
(k 1) J

(12.27)

onde J em (12.26) e (12.27) n x n.

Exemplo 12.4.1 Os trs mtodos (A, B, C) de armazenar alimentos congelados foram


comparados por Daniel (1974, pg.196). A varivel resposta foi quantidade de cido
ascrbico (em mg/100g). Os dados esto apresentados na Tabela 12.2.

228

Tabela 12.2 cido ascrbico (mg/100g) de trs mtodos de armazenamento


A

Totais ( yi )

14.29
19.10
19.09
16.25
15.09
16.61
19.63
120.06

20.06
20.64
18.00
19.56
19.47
19.07
18.38
135.18

20.04
26.23
22.74
24.04
23.37
25.02
23.27
164.71

Mdias ( yi )

17.15

19.31

23.53

Para fazer um teste comparando as mdias dos trs mtodos, ns calculamos:

y2
= 8398,0001,
(3)(7)

yi2
7 = 8545,3457
i =1
3

yij2

= 8600,3127.

i =1 j =1

Ento podemos obter as somas de quadrados, usando as frmulas j apresentadas:


yi2
y2
SQ( | ) =

= 8545,3457 8398,0001 = 147,3456


(3)(7)
i =1 7
3

SQRes =

yij2
i =1 j =1

SQTotal =

i =1 j =1

yi2
7 = 8600,3127 8545,3457 = 54,9670
i =1
3

yij2

y2
= 8600,3127 8398,0001 = 202,3126
(3)(7)

Essas somas de quadrados podem ser usadas para obter um teste-F, como mostrado na Tabela 12.3. O pvalue para F = 24,1256 8,0710-6 (que geralmente indicado como p < 0.0001). Assim, ns rejeitamos a hiptese H0: 1 = 2 = 3, de que as
mdias dos trs mtodos so iguais.

Tabela 12.3 Anlise de varincia para os dados de cido Ascrbico da Tabela 12.2
Fonte de Variao

g.l.

S.Q.

Q.M.

Mtodo

147,3456

73,6728

Resduo

18

54,9670

3,0537

Total

20

202,3120

F
24,1256

229

12.4.2 Hiptese Linear Geral


Para simplificar a exposio, ns ilustraremos todos os resultados nesta seo com
k = 4. Neste caso, = [, 1, 2, 3, 4] e a hiptese H0: 1 = 2 = 3 = 4. Usando
trs contrastes estimveis linearmente independentes, a hiptese pode ser escrita na
forma:
1 2 0
H0: 1 3 = 0
1 4 0
que pode ser expressa como H0: C = 0, onde
0 1 1 0 0
C = 0 1 0 1 0
0 1 0 0 1

(12.28)

Essa matriz C em (12.28) usada para expressar H0: 1 = 2 = 3 = 4, no nica.


Outros contrastes podem ser usados em C, por exemplo:
0 1 1 0 0
C1 = 0 0
1 1 0 ou C2 =
0 0 0
1 1

0 1 1 1 1
0 1 1 0 0

0 0 0
1 1

De (11.13) e Teorema 11.6B(iii), ns temos:


SQHip = (C )[C(XX) C] (C )

= yX(XX) C[C(XX) C] C(XX) Xy

(12.29)

Usando C em (12.28) e (XX) em (12.11), ns obtemos:


0

0 1 1 0 0 0
1

C(XX) C = 0 1 0 1 0 0
n

0 1 0 0 1 0
0

0
1
0
0
0

0
0
1
0
0

0
0
0
1
0

0
0
0

0
1

0 0 0
1 1 1

1 0 0

0 1 0
0 0 1

2 1 1
1
C(XX) C = 1 2 1
n
1 1 2

Para encontrarmos a inversa de (12.30), ns a escrevemos na forma:

(12.30)

230
1
C(XX) C =
n

1 0 0 1 1 1

1

0 1 0 + 1 1 1 = (I3 + j3 j3)
0 0 1 1 1 1 n

Ento, de (2.53), a sua inversa :

I 31 j3 j3 ' I 31
1

[C(XX) C] = n I 3
=
n
I

J3

3
1

1
+
j
'
I
j
3 3 3

(12.31)

onde J3 3x3 e j3 3x1. Para C(XX) X em (12.29), ns obtemos:

0'
jn ' jn ' 0'
1
1
C(XX) X = jn ' 0' jn ' 0' = A
n
n
jn ' 0'
0' jn '

(12.32)

onde jn e 0 so vetores 1xn.


Usando (12.31) e (12.32), a matriz-ncleo da forma quadrtica para SQHip em
(12.29) pode ser expressa como:
1 1
1

X(XX) C[C(XX) C] C(XX) X = An I 3 J 3 A


4 n
n

1
1
AI3A
AJ3A
n
4n

(12.33)

O primeiro termo de (12.33) dado por

jn

1
1 j n
AA =
n
n 0

jn
0
jn
0

jn
0
0

jn

3J n

1
1 J n
AA =
n
n J n

J n

Jn
Jn
0
0

Jn
0
Jn
0

0'
jn ' jn ' 0'
j ' 0' j ' 0'
n
n

jn ' 0'
0' jn '
Jn
0
0

Jn

(12.34)

pois jnjn = Jn e jn 0 = 0, onde 0 n x n. De modo similar (ver Problema 12.10) o segundo termo de (12.33) dado por:

9Jn

1
1 3 J n
AJ3A =
4n
4n 3 J n

3 J n

3Jn
Jn
Jn
Jn

3Jn
Jn
Jn
Jn

3Jn
J n
Jn

Jn

(12.35)

231
Ento (12.33) pode ser escrito como:

12 J n

1
1
1 4 J n
AJ3A =
(4AA)
4n
4n
4n 4 J n

4 J n

4Jn
4Jn
0
0

4Jn
0
4Jn
0

4Jn
0
0

4Jn

9Jn

1 3 J n

4n 3 J n

3 J n

3Jn
Jn
Jn
Jn

3Jn
Jn
Jn
Jn

3Jn
J n
Jn

Jn

3J n

1 J n
=
4n J n

J n

Jn
3J n
Jn
Jn

Jn
Jn
3J n
Jn

Jn
J n
1
B
=
J n 4n

3J n

(12.36)

Vale notar que a matriz para SQHip em (12.36) a mesma matriz para SQ( | ) em
(12.27) com k = 4.
Para completar, ns expressaremos SQHip em (12.29) em termos dos yijs. Comearemos escrevendo (12.36) na forma:

4 J n

1
1 0
B =
4n
4n 0

0
J n

1
10

B=
4n
n0

0
Jn
0
0

0
4Jn
0
0
0
0
Jn
0

0
0
4Jn
0

0
J n

0 1 J n

0 4n J n

4Jn
J n

Jn
Jn
Jn
Jn

Jn
Jn
Jn
Jn

Jn
J n
Jn

Jn

0
0
1

J4n
0 4n

Jn

Usando y = [y1, y2, y3, y4] como definido em (12.6), SQHip em (12.29) igual a:

1
SQHip = yX(XX) C[C(XX) C] C(XX) Xy = y B y
4n

J n
0
1
= [y1, y2, y3, y4]
0
n

0
Jn
0
0

0
0
Jn
0

0
0
0

Jn

y1
y
2 1 yJ4n y
y 3 4n

y 4

232
1
SQHip =
n
=

1
n

1
1
y i ' J n y i 4n yJ4n y = n
i =1
4

yi2
i =1

y i ' jn jn ' y i
i =1

1
yj4n j4ny
4n

1 2
y
4 n

que idntica a SQ( | ) em (12.23).

12.5 ESPERANA MATEMTICA DOS QUADRADOS MDIOS


As esperanas matemticas dos quadrados mdios [E(QM)s] para uma anlise de
varincia com um fator so dadas na Tabela 12.4. As esperanas so definidas como
E[SQ( | )/(k1)] e E[SQres/k(n1)]. O resultado dado em termos dos parmetros

i , tais que

i=1 i = 0.
k

Tabela 12.4 Esperana dos quadrados mdios para um modelo de


anlise de varincia com um fator
F. variao

g.l.

S.Q.

Tratamentos

k1

SQ( | )

k(n 1)

SQRes

Resduo
Total

kn 1

ij

yij2

E(Q.M.)

Q.M.

SQ( | )
k 1
SQRes
k ( n 1)

2 +
2

n k 2
i
k 1 i =1

y2

kn

Se H0: 1 =... = k = 0 verdadeira, E[SQ( | )/(k1)] e E[SQRes/k(n1)]


so iguais a 2, e ns esperamos F bem prximo de 1. Por outro lado, se H0 falso,
E[SQ( | )/(k1)] > E[SQRes/k(n1)] e ns esperamos F > 1. Ento ns rejeitaremos
H0 para valores grandes de F.
As E(QM)s apresentadas na Tabela 12.4 podem ser calculadas usando o modelo yij = + i + ij em E[SQ(|)] e E(SQRes). Nas Sees 12.5.1 e 12.5.2, ns
calculamos as E(QM)s usando mtodos matriciais similares queles das Sees
12.4.1 e 12.4.2.

233

12.5.1 Modelo Completo versus Modelo Reduzido


Para o termo do resduo na Tabela 12.4, ns temos:

E[SQres] = E[y[I X(XX) X]y] = k(n1)2

(12.37)

que j foi provado no Teorema 11.3E(i). Usando uma abordagem modelo completo
versus modelo reduzido, a soma de quadrados para os s ajustado para dada por
(12.25). Assim

E[SQ( | )] = E{yX(XX) Xy y[(1/kn)Jkn]y}

= E[yX(XX) Xy] E{y[(1/kn)Jkn]y}

(12.38)

Pelo Teorema 5.2A, temos que:

E[yX(XX) Xy] = tr[X(XX) X2I] + (X)X(XX) X(X)

= 2 tr[X(XX) X] + XX(XX) XX

= 2 tr[X(XX) X] + XX

(12.39)

Pelo Teorema 2.13F, a matriz X(XX) X idempotente. Ento, pelos Teoremas


2.13D e 2.8C(v),

tr[X(XX) X] = posto[X(XX) X] = posto(X) = k

(12.40)

Para avaliar o segundo termo do lado direito de (12.39), ns usamos XX em (12.7) e


tambm = [ , 1 , 2 , ..., k ] sujeito

i=1 i = 0. Ento
k

k
1

XX = n[ , 1 , 2 , ..., k ] 1

M
1

1
1
0
M
0

1
0
1
M
0

L 1
L 0
L 0

M
L 0



1
M

k

= n k + i i , + 1 , L , + k



1
M

k

2
2
2

= n k + ( + i ) i = n k + i + i

i
i

XX
= kn + n i

(12.41)

Usando (12.40) e (12.41), E[yX(XX) Xy] em (12.39) fica:

E[yX(XX) Xy] = k2 + kn + n i
i

(12.42)

234
Para o segundo termo do lado direito de (12.38), ns obtemos:

1

1

E y' J kn y = 2tr J kn + X J kn X
kn

kn


kn
2
kn
1
=
+
Xjkn( jkn)X
kn
kn
1
= 2 +
(Xjkn)( jknX)
kn

(12.43)

Usando X como dado em (12.6), jknX fica:

jn
j
jknX = [jn, jn, ..., jn] n
M

jn

jn
0
M
0



1
M

k

0 L 0
jn L 0
M
M

0 L jn

= [kn, n, n, ..., n] 1
M

k

(Obs: jnjn = n)

= kn + n i =1 i = kn

(Obs:

i=1 i
k

= 0)

Ento, o segundo termo do lado direito de (12.43) dado por:


2

2
1
1
k 2n2
2
(Xjkn)( jknX) =
( jknX) =
= kn
kn
kn
kn

e (12.43) fica:
2
1

E y' J kn y = 2 + kn

kn

(12.44)

Agora, usando (12.42), (12.43) e (12.44), E[SQ( | )] em (12.38) fica:

E[SQ( | )] = 2 tr[X(XX) X] + XX 2
2

1
(Xjkn)( jknX)
kn
2

= k2 + kn + n i (2 + kn )
i

= (k 1)2 + n i
i

(12.45)

235

12.5.2 Hiptese Linear Geral


Para simplificar a exposio, ns usaremos k = 4 para ilustrar os resultados nesta
seo, como foi feito na Seo 12.4.2. Como mostrado na Seo 12.4.2, temos que:

1
SQHip = (C )[C(XX) C] (C )

1 4 2
1 2
y i
y em (12.23). Note que para k = 4, C

n i =1
4 n

3 x 5 [ver (12.28)] e C(XX) C 3x3 [ver (12.30)]. Para obter E[SQ( | )], notamos, primeiramente, que por (11.44), (11.45) e (12.31), E(C ) = C, cov(C ) =
1

2C(XX) C e [C(XX) C] = n I 3 J 3 . Da, pelo Teorema 5.2.A,


4

e o mesmo que SQ( | ) =

1
E[SQ( | )] = E{(C )[C(XX) C] (C )}

1
= tr{[C(XX) C] cov(C )} + [E(C )][C(XX) C] E(C )

= tr{[C(XX) C] 2C(XX) C} + n(C) I 3 J 3 C


4

= 2tr(I3) + n
C I 3 J 3 C
4

= 32 + n
C' C C' J 3C
4

(12.46)

Usando C em (12.28), ns obtemos:

0 0 0 0 0
0
3 1 1 1

CC = 0 1 1 0 0

1 0
0 1 0
0 1 0 0
1

(12.47)

0
0
0
0
0
0
9 3 3 3

CJ3C = 0 3
1
1
1

1
1
1
0 3
0 3
1
1
1

(12.48)

De (12.47) e (12.48), ns temos que:


1
1
CC CJ3C = (4CC CJ3C)
4
4

236
0 0 0 0 0
0
3 1 1 1

1
1
0 1 3 1 1
CC CJ3C =
4
4

0 1 1 3 1
0 1 1 1 3
0
0
1
= 0
4
0
0

0
4
0
0
0

0
0
4
0
0

0
0
0
4
0

0
0 0
0 1
0
1
0 0 1
4
0
0 1
0 1
4

0
1
1
1
1

0
1
1
1
1

0
1
1

1
1

0 0' 1 0 0'
=

0 I 4 4 0 J 4
Desse modo, o segundo termo do lado direito de (12.46) dado por:

0 0'
0 0'
1
1

n
C' C C' J 3C = n

0 J
4
4

0 I 4

0 0' 1
= n[ , 1 , 2 , 3 ]

0 I 4 2

3

= n i
i

= n i ,
i

0 0'
1
n[ , 1 , 2 , 3 ]

4
0 J 4

1
n0
4

i i i i i i ]
pois



1

2
3


1

2
3

i=1 i = 0
k

Portanto, (12.46) fica:


E[SQ( | )] = 32 + n i
i

(12.49)

237
Este resultado para o caso especial de k = 4. Para um nmero genrico de tratamentos, k, ns temos:
E[SQ( | )] = (k 1)2 + n i

12.6 CONTRASTES

Ns notamos na Seo 12.2 que uma combinao linear


mente se

i=1 ci i estimvel se e sok

i=1 ci = 0. Na seo 12.6.1, ns desenvolveremos um teste de significnk

cia para tais contrastes. Na Seo 12.6.2, ns mostraremos que se os contrastes so


formulados apropriadamente, a soma de quadrados de tratamentos pode ser particionada em (k1) somas de quadrados independentes para contrastes. Na Seo 12.6.3,
ns desenvolveremos contrastes polinomiais ortogonais para o caso especial no qual
os tratamentos tm nveis quantitativos igualmente espaados.
12.6.1 Teste de Hiptese para um Contraste

Para o modelo com um fator, um contraste


a

i=1 ci i
k

i=1 ci i , onde i=1 ci = 0, equivalente


k

desde que:

i=1 ci i
k

i=1 ci ( + i ) = i=1 ci
k

i=1 ci i
k

i=1 ci i
k

Uma hiptese de interesse :


H0:

i=1 ci i = 0
k

ou

que representa uma comparao de mdias se

H0:

i=1 ci i = 0

i=1 ci
k

(12.50)

= 0. Por exemplo, a hiptese:

H0: 31 2 3 4 = 0
pode ser escrita como:
H0: 1 =

1
(2 + 3 + 4)
3

que compara 1 com a mdia de 2, 3 e 4.


A hiptese em (12.50) pode ser expressa como H0: c = 0, onde c = [0, c1, c2, ..., ck]
e = [, 1, 2. ..., k]. Assumindo y ~ Nkn(X, 2I), H0 pode ser testada usando o
Teorema 11.6. Neste caso, ns temos m = 1 e a estatstica do teste fica:

238
1
(
c' )' [c' ( X' X) c] (c' )
F =
=

SQRes / k (n 1)

(c' )2

(12.51)

s 2 i =1 ci2 n
k

2
k
c
y
i
i

i =1
,
k
2
2
s
c n
i =1 i

(12.52)

onde s2 = SQRes/k(n 1) e (XX) e so dados por (12.11) e (12.12). A soma de

( )2

quadrados para o contraste c'

c' (X' X ) c ou n

2
k
c
y
i
i

i =1

i =1 ci2 .
k

12.6.2 Contrastes ortogonais

Dois contrastes ci e cj so ditos ortogonais se cicj = 0.. Ns mostraremos que se


ci e cj so ortogonais, eles so independentes. Desde que ns assumimos normalidade, ci e cj so independentes se
cov(ci, cj) = 0

(12.53)

[veja o Problema (12.15)].

Pelo Teorema 11.3C, cov(ci, cj) = 2 ci(XX) cj. Por (12.11), (XX) =
diag(0, 1/n, 1/n, ..., 1/n), ento:

cov(ci, cj) = ci(XX) cj = 0 se cicj = 0

(12.54)

(assumindo que o primeiro elemento de ci zero para todo i). Por um argumento similar ao utilizado nas provas dos Teoremas 5.6B e 11.6B(v), as somas de quadrados
2

(ci) /ci(XX) ci e (cj) /cj(XX) cj tambm so independentes. Assim, se dois


contrastes so ortogonais, os contrastes so independentes e suas correspondentes somas de quadrados so independentes.
Agora, mostraremos que no modelo balanceado com um fator, a soma de quadrados de tratamentos pode ser particionada em k 1 somas de quadrados independentes devido k 1 contrastes mutuamente ortogonais.
Teorema 12.6A No modelo balanceado com um fator, se y ~ Nkn(X, 2I) e se H0:
1 = 2 = ... = k expressa como C = 0, onde as linhas de C = [c1, c2, ..., ck1] so

1
mutuamente ortogonais, ento SQHip = (C )[C(XX) C] (C ) pode ser particionada como:
2
k 1
ci '
SQHip =
(12.55)

(
)
i =1 c i ' X' X ci
2

onde as somas de quadrados (ci ) /ci(XX) ci, i = 1, 2, ..., k 1, so independentes.

( )

239

Prova: Por (12.54), C(XX) C uma matriz diagonal com ci(XX) ci, i = 1, 2, ...,
k1, na diagonal. Assim, com (C ) = [c1 , c2 , ..., ck1 ], segue (12.55).
Desde que as linhas c1, c2, ..., ck1 de C so ortogonais, a independncia das
somas de quadrados dos contrastes segue de (12.53) e (12.54)

Exemplo 12.6.2(a). Vamos ilustrar o uso de contrastes ortogonais com os dados de


cido ascrbico da Tabela 12.2. Considere os contrastes 21 2 3 e 2 3.
Por (12.50), eles podem ser expressos como

21 2 3 = 21 2 3 = [0, 2, 1, 1]
= c1

2 3 = 2 3 = [0, 0, 1, 1]
= c2
As hipteses H01: c1 = 0 e H02: c2 = 0, comparam o primeiro tratamento com
os outros dois e o segundo tratamento com o terceiro, respectivamente. As mdias
dos tratamentos so dadas na Tabela 12.2 como y1 = 17.15, y 2 = 19.31 e y3 =
23.53. Por (12.52), as somas de quadrados para os dois contrastes so:
SQ1 =

n i =1 ci yi
k

i=1 ci2
k

7[2(17.15) 19.31 23.53]


=
= 85.0584
4 +1+1
2

7[19.31 23.53]
SQ2 =
= 62.2872
1+1
Por (12.52), as estatsticas F correspondentes so:
F1 = SQ1/s2 = 85.0584/3.0537 = 27.85
F2 = SQ2/s2 = 62.2872/3.0537 = 20.40

onde s2 = 3.0537, foi obtido da Tabela 12.3. Ambos F1 e F2 so superiores ao


valor tabelado F(0.05; 1, 18) = 4.41. Os pvalues so 0.0000511 e 0.000267, respectivamente.
Vale notar que o total das somas de quadrados dos dois contrastes igual soma
de quadrados de tratamentos (SQTrat = 147.3456), que j foi calculada no Exemplo 12.4.1: SQ1 + SQ2 = 85.0584 + 62.2872 = 147.3456 = SQTrat.
A partio da soma de quadrados de tratamentos no Teorema 12.6A foi provada para
o modelo com um fator. Para completar ns mostraremos agora que isso se estende
para modelos de maior ordem.
Um modelo balanceado de efeitos fixos tal como o modelo de dupla ou tripla
classificao tipicamente envolve uma partio da soma de quadrados total yy, em
uma soma de formas quadrticas representando as somas de quadrados de interesse,
yy = SQ() + yAy + yBy + ...,

(12.56)

240
onde cada A, B, ... idempotente. Por exemplo, consideremos um modelo com dois
fatores (two-way) e com interao como em (1.5) e (11.56),
yijk = + i + j + ij + ijk
(12.57)
i = 1, 2, ..., a,

j = 1, 2, ..., b

k = 1, 2, ..., n

Para este modelo, a soma de quadrados total pode ser expressa como:
J
yy = y
y + yAy + yBy + yCy + yDy
(12.58)
abn
onde y(J/abn)y = SQ(), yAy devida ao fator A, yBy devida ao fator B, yCy
devida interao e yDy = SQRes.
Agora, vamos mostrar que cada uma das formas quadrticas em (12.56) ou
(12.58), podem ser particionadas em somas de quadrados independentes devidas a
contrastes ortogonais.
Teorema 12.6B. Seja yAy representando uma das formas quadrticas em (12.56),
seja A uma matriz simtrica e idempotente de posto r, seja N = abn e seja o vetor
aleatrio Nx1 y ~ NN(X, 2I). Ento existem r matrizes idempotentes A1, A2, ..., Ar
tais que A = A1 + A2 + ... + Ar, posto(Ai) = 1 para i = 1, 2, ..., r e AiAj = 0, para i j.
Alm disso, yAy pode ser particionado como
yAy =

y' A i y

(12.59)

i =1
2

onde cada yAi y ~ (1, i) e yAi y e yAj y so independentes para i j (note que i
um parmetro de no-centralidade).
Prova: Desde que A N x N de posto r e simtrica e idempotente, ento pelo Teorema 2.13C, r de seus autovalores so iguais a 1 e os outros N k, iguais a zero.
Usando a decomposio espectral (2.103), ns podemos expressar A na forma:

A=

vi vi ' =

Ai

i =1

i =1

(12.60)

onde v1, v2, ..., vr so os autovetores normalizados correspondentes aos autovalores


no nulos e Ai = vivi. Facilmente, podemos mostrar que posto(Ai) = 1 e que AiAj
= 0 para i j, e Ai simtrica e idempotente. Ento pelo Corolrio 2 do Teorema
5.5A e o Corolrio 1 do Teorema 5.6B, yAiy ~ 2 (1, i) e yAiy e yAjy so independentes.
Desde que a matriz I em yy = yIy idempotente, o Teorema 12.6B pode ser
aplicado a yy do lado esquerdo de (12.56) como tambm para os termos individuais
do lado direito de (12.56). Os N autovetores de I so mutuamente ortogonais. Na
ilustrao em (12.58), ns temos SQ() = y(J/abn)y. A matriz J/abn idempotente
com um autovalor igual a 1 e todos os outros iguais a zero. O autovetor de J/abn
correspondente a 1 proporcional a j (ver Problema 12.17). Desde que os N autovetores de I so mutuamente ortogonais, os autovetores das matrizes dos outros termos,

241
tais como yAy so ortogonais a j. Usando (12.60), ns podemos escrever yAy na
forma:
yAy =

y' Ai y =

y' (vi vi ') y =

(vi ' y )2

i =1

i =1

i =1

Desde que cada vi ortogonal ao autovetor j de SQ(), ns temos que vij = 0. Como
os elementos de vi somam zero, viy um contraste dos elementos de y.
No caso balanceado que ns estamos considerando nesta seo, um contraste
viy dos elementos de y equivalente a um contraste das mdias dos tratamentos.
Esses contrastes so ortogonais porque os autovetores (vi) de matrizes simtricas, tal
como A, so ortogonais [ver Teorema 2.12C(ii)].
Exemplo 12.6.2(b). Usando um modelo com um fator, ns mostraremos que contrastes ortogonais de mdias de tratamentos podem ser expressos em termos de contrastes das observaes e que os coeficientes desses contrastes formam autovetores. Por simplicidade de exposio, usaremos k = 4. O modelo fica:
yij = + i + ij,

i = 1, 2, 3, 4,

j = 1, 2, ..., n

A soma de quadrados em (12.56) pode ser escrita como:


yy = SQ() + SQ( | ) + SQRes
y2
y2
=
+ X' y
+ (yy Xy)

kn
kn

Com k = 4, a soma de quadrados para tratamentos, yAy = SQ( | ), tem trs


graus de liberdade. Qualquer conjunto com trs contrastes ortogonais das mdias
de tratamentos serve para ilustrar. Como exemplo, consideremos:
c1 = [0, 1, 1, 0, 0]
,

c2 = [0, 1, 1, 2, 0]
e

c3 = [0, 1, 1, 1, 3]
,

onde = [, 1, 2, 3, 4]. Assim, ns comparamos a mdia do primeiro tratamento com a do segundo; a mdia dos dois primeiros tratamentos com a do terceiro; e a mdia dos trs primeiros tratamentos com a do ltimo, respectivamente.
Usando o formato de (12.55), ns podemos escrever esses trs contrastes como:
c1'

c1' (X' X ) c1
c 2 '

c 2 ' (X' X ) c 2
c3 '

c3 ' (X' X ) c3

y1 y2
2/ n

y1 + y2 2 y3
6/ n

y1 + y2 + y3 3 y4
12 / n

242

onde (XX) = diag(0, 1/n, ... ,1/n) dada em (12.11) e = [0, y1 , y 2 , y3 , y4 ]


dada em (12.12).

Para escrever essas quantidades na forma v1y, v2y e v3y (contrastes dos yijs
ao invs de contrastes das mdias yi s), ns podemos iniciar com:
y1 y2
=
2/ n

1
2/ n

n y
n y1 j
2j

j =1 n

j =1 n

1
[1, 1, ..., 1, 1, 1, ..., 1, 0, 0, ..., 0]y
2/ n

= v1y
onde o nmero de 1s em v1y n, o nmero de 1s n e o nmero de 0s 2n.
1
[jn, jn, 0, 0] e v1v1 = 2n/2n = 1. Similarmente, temos que v2
Assim v1 =
2/ n
1
1
=
[jn, jn, 2jn, 0] e v3 =
[jn, jn, jn, 3jn].
6/ n
12 / n
A seguir mostraremos que v1, v2 e v3 servem como autovetores na decomposio espectral [ver (2.103)] da matriz A em SQ( | ) = yAy. Desde que A idempotente de posto 3, tem trs autovalores iguais a 1. A decomposio espectral de A :
A = v1v1 + v2v2 + v3v3

jn
jn
j

1 n
1 jn
[jn, jn, 0, 0] +
[jn, jn, 2jn, 0]
=
2n 0
6 n 2 jn

0
0
jn

1 jn
+
[jn, jn, jn, 3jn]
12n jn

3 jn
Jn

1 J n
=
2n 0

Jn
Jn
0
0

0 0
Jn
0 0 1 J n
+
0 0 6 n 2 J n

0 0
0

Jn

2 Jn

Jn

2 Jn

2 Jn

4 Jn

0
0
0

243

Jn

1 Jn
+
12n J n

3 J n
3 Jn

1 Jn
A=
4n J n

J n

Jn

Jn

Jn

Jn

Jn

Jn

3Jn

3 Jn

Jn

Jn

3Jn

Jn

Jn

3 Jn

Jn

Jn

3Jn
3 J n
3Jn

9 Jn

Jn
J n
Jn

3Jn

que coincide com a matriz ncleo da forma quadrtica para SQ( | ) em (12.27) com
k = 4. Para SQ() = y2 /4n, ns temos que:
y2
2
j j '
= y 4n 4 n y = (v0y)
4n
4n

onde v0 = j4n/2 n . Pode ser mostrado facilmente que v0v0 = 1 e que v0v1 = 0. Tambm claro que v0 um autovetor de j4nj4n/4n, porque j4nj4n/4n tem um autovalor
igual a 1 e os outros iguais a zero, tal que j4nj4n/4n j est na forma da decomposio
espectral com j4n/2 n como o autovetor correspondente ao autovalor 1 [ver Problema 12.17(b)].

12.6.3 Contrastes Polinomiais Ortogonais


Suponha que os tratamentos em uma anlise de varincia com um fator tenham nveis
quantitativos igualmente espaados, como por exemplo, 5, 10, 15 e 20 libras de fertilizante por parcela. O pesquisador pode ento desejar investigar como a resposta varia com os nveis de fertilizante. Ns podemos checar se existe uma tendncia linear,
quadrtica ou cbica, ajustando o modelo de regresso polinomial de terceira ordem:

yij = 0+ 1xi + 2 xi2 + 3 xi3 + ij


i = 1, 2, 3, 4,

(12.61)

j = 1, 2, ..., n

onde x1 = 5, x2 = 10, x3 = 15 e x4 = 20. Ns mostraremos agora que os testes sobre os


s em (12.61) podem ser feitos usando contrastes ortogonais sobre as mdias yi ,
que so estimativas de i no modelo de ANOVA

yij = + i + ij = i + ij,

i = 1, 2, ..., k , j = 1, 2, ..., n

(12.62)

A soma de quadrados para testar H0: 3 = 0 usando a abordagem do modelo completo


versus modelo reduzido :
Xy 1 X1y
(12.63)

244
onde do modelo completo em (12.61) e 1 do modelo reduzido com 3 = 0 [ver
(8.9), (8.20) e Tabela 8.3].
A matriz X da representao matricial do modelo da forma:
1 x1 x12 x13

M
M
M M
1 x x 2 x 3
1
1
1

2
3
1
x
x
x

2
2
2
M M
M
M

2
3
1 x2 x2 x2
X=
2
3
1
x
x
x
3
3
3

M M
M
M

2
3
1 x3 x3 x3
1 x4 x42 x43

M
M
M
M

1 x x 2 x 3

4
4
4

(12.64)

Para testar H0: 3 = 0, ns podemos usar as expresses:


32
' X' y 1 ' X1' y
F=
ou
F
=
(12.65)
s2
s 2 g 33
onde X1 consiste das trs primeiras colunas de X em (12.64), s2 = SQRes/(n 3 1) e
1
g33 o ltimo elemento da diagonal de (XX) .
Agora ns desenvolveremos esse teste usando a abordagem modelo completo
versus modelo reduzido, utilizando contrastes.
Como as colunas de X no so ortogonais, as somas de quadrados dos s, anlogas a (12.65), no so independentes. Assim, a interpretao em termos do grau de
curvatura para E(yij) mais difcil. Por isso, ns buscaremos ortogonalizar as colunas
de X de tal forma que as SQs venham a ser independentes.
Para simplificar os clculos, a primeira transformao consiste em dividir por 5
os nveis x1 = 5, x2 = 10, x3 = 15 e x4 = 20. A matriz transformada X 4nx4 em (12.64)
dada por:

245

M
1

1
M

1
X=
1
M

1
1

M
1

1 12

M
1
2
M
2
3
M
3
4
M
4

M
12
22
M
22
32
M
32
42
M
42

13

M
13

23
M

23
= [x 0 , x 1 , x 2 , x 3 ]
33
M

33
43

M
4 3

onde x0 = j 4n x 1. Note que pelo Teorema 8.4C, as estatsticas F resultantes, tais


como em (12.65) no sero afetadas por esta transformao.
Para obter colunas ortogonais, ns usamos o procedimento de ortogonalizao
da Seo 7.10 baseado na regresso das colunas de X sobre outras colunas e tomar os
resduos. Comearemos ortogonalizando x1. Denotando a primeira coluna por x0, ns
usamos (7.100) para obter:
1

x1.0 = x1 x0(x0x0) x0x1


1

= x1 j(jj) j x1 = x1 j(4n) n xi
i =1

= x1 x j

(12.66)

O vetor de resduos x1.0 ortogonal a x0 = j:

j'x1.0 = j(x1 x j) = jx1 x jj = 4n x 4n x = 0


Aplicamos o procedimento sucessivamente s outras duas colunas de X. Para
transformar a terceira coluna x2, tal que ela seja ortogonal s duas primeiras colunas,
ns usamos (7.100) para obter:
1

x2.01 = x2 Z1(Z1Z1) Z1x2

(12.68)

onde Z1 = [j, x1.0] uma matriz n x 2. A matriz Z1Z1 dada por:

0
j'
j' j
Z1Z1 =
[
j
x
]
=
1.0

0 x ' x [por (12.67)]


1 .0 1 .0
x1.0 '

Ento (12.68) fica:

x2.01

0
j' j
= x2 Z1(Z1Z1) Z1x2 = x2 [j x1.0]

0 x1.0 ' x1.0


1

j'
x ' x2
1 .0

246

x2.01 = x2

j' x 2
x 'x
j 1.0 2 x1.0
j' j
x1.0 ' x1.0

(12.69)

O vetor de resduos x2.01 ortogonal a x0 = j e a x1.0, porque:

j'x2.01 = 0 e x1.0x2.01 = 0

(12.70)

A quarta coluna de Z fica:

x3.012 = x3

j' x3
x 'x
x 'x
j 1.0 3 x1.0 2.01 3 x 2.01
j' j
x1.0 ' x1.0
x 2.01' x 2.01

(12.71)

que ortogonal s trs primeira colunas, j, x1.0 e x2.01.


Assim, ns transformamos y = X
+ em

y = Z
+

(12.72)

onde as colunas de Z so mutuamente ortogonais e os elementos de so funes


dos s. As colunas de Z so dadas em (12.66), (12.69) e (12.71):

z 0 = j,

z1 = x1.0,

z2 = x2.01,

z3 = x3.012.

Agora, ns avaliaremos z0, z1, z2 e z3 para a nossa ilustrao, onde x1 = 1, x2 = 2, x3 =


3 e x4 = 4. Por (12.66), ns obtemos:

z1 = x1.0 = x1 x j = x1 2.5j
= [1.5, ..., 1.5, 0.5, ..., 0.5, 0.5, ..., 0.5, 1,5, ..., 1,5]
que ns multiplicamos por 2 para obter valores inteiros:

z1 = x1.0 = [ 3, ..., 3, 1, ..., 1, 1, ..., 1, 3, ..., 3]

(12.73)

Vale notar que multiplicar por 2, preserva a ortogonalidade e no afeta os valores da


estatstica F.
Para obter z2 = x2.01 por (12.69), ns calculamos:
4

ni =1 xi2
j'x 2
=
=
j' j
4n

i =1 i 2
4

30
= 7.5
4

x1.0 ' x 2
n 3(12 ) 1(22 ) + 1(32 ) + 3(42 )
50
=
=
= 2.5
2
2
2
2
x1.0 ' x1.0
20
n (3) + (1) + (1) + (3)

Ento, usando (12.69) obtemos:

247

12
1
3 1

M
M M
M


12
1
3 1
2


1
2

1 1
M
M
M M
2


1
1
1
2

z2 = x2 7.5j 2.5 x1.0 = 2 7.5


2.5 =
1
1 1
3


M
M
M M
2
1
1 1
3


4 2
1
3 1

M
M M
M


4 2
1
3 1

(12.74)

Similarmente, usando (12.71) ns obtemos:


z3 = [1, ..., 1, 3, ..., 3, 3, ..., 3, 1, ..., 1]

(12.75)

Assim, a matriz Z fica:


1 1
1 3
M
M
M
M

1 3
1 1

3
1 1 1
M
M
M
M

1 1 1
3

Z=
1
1 1 3

M
M
M
M
1
1 1 3

3
1
1
1
M
M
M
M

1
3
1
1
No Apndice apresentamos um programa no proc iml do SAS que ortogonaliza as colunas da matriz X, modificada de (12.64).
importante notar que, como X = Z, ns podemos encontrar os s em termos dos s ou ento os s em termos dos s. Para obter os s em termos dos s,
1
devemos pr-multiplicar ambos os lados da igualdade por X e depois por (XX) ,
1
1
obtendo = (XX) XZ. A matriz resultante do produto (XX) XZ fornece as
combinaes dos s que reproduzem os s (ver programa no Apndice). Na nossa
ilustrao, essas relaes so dadas por (ver Problema 12.23):

248

0 = 0 51 + 52 353,

1 = 21 52 +

2 = 2 253

3 =

16.7
3
0.3

(12.76)

0.3

Desde que as colunas de Z = [j, z1, z2, z3] so ortogonais, temos que ZZ =
diag[jj, z1z1 , z2z2, z3z3], temos que:
j' y j' j

= (ZZ)1Zy = z 1 ' y z 1 ' z 1


z 2 ' y z 2 ' z 2

z3 'y z3'z3

(12.77)

A soma de quadrados de regresso (no corrigida para 0) :


SQ(
) = Zy =

(z i ' y )2

i =0

zi 'zi

(12.78)

onde z0 = j. Por um argumento similar quele em (12.54), as somas de quadrados do


lado direito de (12.78) so independentes.
2

Como as somas de quadrados SQ(i ) = (z i ' y ) z i ' z i , i = 1, 2, 3, so independentes, cada SQ(i ) testa a significncia de . Vale informar que, para um k geral:
i

SQ(i |0, 1, 2, ..., i-1, i+1, ..., k) = SQ(i)

Em termos dos i s, pode ser mostrado que cada SQ(i) testa a significncia de
na presena de , , ..., . Por exemplo, para k (o ltimo ), a soma de quai

i 1

drados pode ser expressa como:


SQ(k) =

(z k ' y )2
zk 'zk

= Xy 1 X1y

(12.79)

(ver Problema 12.25), onde do modelo completo y = X + e 1 , do modelo reduzido y = X1 1 + , em que 1 contem todos os s com exceo de k e X1 consiste de todas as colunas de X, exceto a ltima.
2

A soma de quadrados SQ(i ) = (z i ' y ) z i ' z i equivalente soma de quadrados para o contraste das mdias y1 , y 2 , ..., yk , como em (12.52). Por exemplo:

z1y = 3y11 3y12 ... 3y1n y21 y22 ... y2n +


+ y31 + y32 + ... + y3n + 3y41 + 3y42 + ... + 3y4n

249
n

= 3 y1 j

y2 j

j =1

j =1

y3 j

+ 3 y4 j

j =1

j =1

= 3 y1 y2 + y3 + 3 y4
= n(3 y1 y 2 + y3 +3 y4 )
4

z1y = n ci yi
i =1

onde c1 = 3, c2 = 1 , c3 = 1 e c4 = 3. Similarmente,
4

z1z1 = n(3)2 + n(1)2 + n(1)2 + n(3)2 = n ci2


i =1

Ento:
2

(z1' y )2
z1' z1

n ci yi

=
= i =14
n ci2

n ci yi
i =1

ci2

i =1

i =1

que a soma de quadrados para o contraste em (12.52). Note que os coeficientes 3,


1, 1 e 3 correspondem tendncia linear. Igualmente,

z2y = n( y1 y 2 y3 + y4 ),
cujos coeficientes mostram uma tendncia quadrtica, e z3y pode ser escrito como

z3y = n( y1 +3 y 2 3 y3 + y4 ),
com coeficientes que exibem um padro cbico.
Esses contrastes de mdias yi s tm uma interpretao significativa em termos da forma da curva de resposta. Por exemplo, suponha que os yi s estejam sobre
uma reta. Ento para algum b0 e b1, ns temos que:

yi = b0 + b1xi = b0 + b1i,

para i = 1, 2, 3, 4

porque xi = i. Neste caso, o contraste linear no nulo e os contrastes quadrtico e cbico so nulos:
3 y1 y 2 + y3 +3 y4 = 3(b0 + b1) (b0 + 2b1) + (b0 + 3b1) + 3(b0 + 4b1) = 10b1
y1 y 2 y3 + y4

= b0 + b1 (b0 + 2b1) (b0 + 3b1) + (b0 + 4b1) = 0

y1 +3 y 2 3 y3 + y4 = b0 b1 + 3(b0 + 2b1) 3(b0 + 3b1) + (b0 + 4b1) = 0


Similarmente, se os yi s seguem uma tendncia quadrtica, ento os contrastes linear e cbico so nulos.

250
Em muitos casos no necessrio procurar os coeficientes de polinmios ortogonais usando o processo de ortogonalizao ilustrado nessa seo. Tabelas de polinmios ortogonais esto disponveis em Rencher (1995, p.529) ou Guttman (1982, p.
349-354), dentre outros. A Tabela 12.5 apresenta os coeficientes de polinmios ortogonais para k = 3, 4 e 5 nveis.

Tabela 12.5 Coeficientes de Polinmios Ortogonais para k = 3, 4 e 5.


Tendncia
Linear
Quadrtico
Cbico
4o grau

k=3

k=4

k=5

3 2

-2

-1

-1

1 2

-1

1 1

Na Tabela 12.5, ns podemos visualizar algumas relaes entre os coeficientes


para cada valor de k. Por exemplo, se k = 3 e as trs mdias y1 , y 2 e y3 tm uma
relao linear, ento y 2 y1 igual a y3 y 2 , isto

y3 y 2 = y 2 y1
ou

y3 y 2 ( y 2 y1 ) = y3 2 y 2 + y1 = 0
Se esta relao entre as trs mdias no se verificar, ns temos um componente quadrtico na curvatura.
Similarmente, para k = 4, o componente cbico y1 + 3 y 2 3 y3 + y4
igual diferena entre o componente quadrtico para y1 , y 2 e y3 e o componente
quadrtico para y 2 , y3 e y4 :
y1 + 3 y 2 3 y3 + y4 = y 2 2 y3 + y4 ( y1 2 y 2 + y3 )

251

Apndice Programas do proc iml do SAS


1) Programa para ortogonalizar as colunas da matriz X, modificada de (12.64)
proc iml;
options nocenter ps=1000;;
reset noprint; reset fuzz;
X={1 1 1 1,
1 1 1 1,
1 2 4 8,
1 2 4 8,
1 3 9 27,
1 3 9 27,
1 4 16 64,
1 4 16 64};
X0=X[,1]; X1=X[,2]; X2=X[,3]; X3=X[,4];
Beta1_0 = INV(T(X0)*X0)*T(X0)*X1;
X1_0 = 2*(X1-X0*Beta1_0);
Z0Z1=X0||X1_0;
Beta2_10 = inv(t(Z0Z1)*Z0Z1)*t(Z0Z1)*X2;
X2_10 = X2-Z0Z1*Beta2_10;
Z0Z1Z2=X0||X1_0||X2_10;
Beta3_210 = inv(t(Z0Z1Z2)*Z0Z1Z2)*t(Z0Z1Z2)*X3;
X3_210 = (X3-Z0Z1Z2*Beta3_210)/0.3;
Z0=X0; Z1=X1_0; Z2=X2_10; Z3=X3_210;
Z = Z0||Z1||Z2||Z3;
print X Z;

Resultando em:
X
1
1
1
1
1
1
1
1

1
1
2
2
3
3
4
4

1
1
4
4
9
9
16
16

1
1
8
8
27
27
64
64

Z
1
1
1
1
1
1
1
1

2) Comandos para obter os s em funo dos s


XLX = t(X)*X;
XLZ = t(X)*Z;
BetaTeta = inv(XLX)*XLZ;
print BetaTeta;

Resultando em:
1
0
0
0

BETATETA
-5
2
0
0

5
-35
-5 55.666667
1
-25
0 3.3333333

-3
-3
-1
-1
1
1
3
3

1
1
-1
-1
-1
-1
1
1

-1
-1
3
3
-3
-3
1
1

252
3) Comandos para verificar que X = Z
y = {2, 3, 6, 8, 9, 10, 7, 6};
Beta = inv(t(X)*X)*t(X)*y;
XBeta = X*Beta;
Teta = inv(t(Z)*Z)*t(Z)*y;
ZTeta = Z*Teta;
print Beta Teta, XBeta ZTeta;

Resultando em:
BETA
-0.5
1.0833333
2.5
-0.583333

TETA
6.375
0.725
-1.875
-0.175

XBETA
2.5
2.5
7
7
9.5
9.5
6.5
6.5

ZTETA
2.5
2.5
7
7
9.5
9.5
6.5
6.5

4) Comandos para calcular as SQs associadas a 0, 1, 2 e 3 que somadas, reproduzem SQReg


SQReg = t(Teta)*t(Z)*y;
SQ_Teta0 = (t(Z0)*y)**2/(t(Z0)*Z0);
SQ_Teta1 = (t(Z1)*y)**2/(t(Z1)*Z1);
SQ_Teta2 = (t(Z2)*y)**2/(t(Z2)*Z2);
SQ_Teta3 = (t(Z3)*y)**2/(t(Z3)*Z3);
SQ_Teta = SQ_Teta0 + SQ_Teta1 + SQ_Teta2 + SQ_Teta3;
print SQReg, SQ_Teta0 SQ_Teta1 SQ_Teta2 SQ_Teta3 SQ_Teta;

Resultando em:
SQREG
375.5
SQ_TETA0
325.125

SQ_TETA1
21.025

SQ_TETA2
28.125

SQ_TETA3
1.225

SQ_TETA
375.5

253

CAPTULO 13. ANLISE DE VARINCIA COM DOIS FATORES


(TWO-WAY): CASO BALANCEADO
O modelo com dois fatores e sem interao foi ilustrado na Seo 11.12, no Exemplo
12.2.2(b) e na Seo 11.7. Neste captulo, ns consideramos a anlise de varincia
(ANOVA) com dois fatores e com interao. Na Seo 13.1, ns discutimos o modelo e suas suposies. Na Seo 13.2, ns consideramos funes estimveis envolvendo efeitos principais e interao. Na Seo 13.3, ns discutimos a estimao dos parmetros, incluindo a soluo do sistema de equaes normais usando condies marginais (restries) e tambm baseada na inversa generalizada. Na Seo 13.4, ns desenvolvemos um teste de hiptese para a interao usando a abordagem do modelo
completo versus modelo reduzido, e obtemos testes de hipteses para efeitos principais usando tanto a abordagem da hiptese linear geral como a do modelo completo
versus modelo reduzido. Na Seo 13.5, ns derivamos a esperana dos quadrados
mdios pela definio clssica e tambm usando a abordagem da hiptese linear geral. Em todo o captulo ns consideramos somente o modelo com dois fatores balanceado. O caso desbalanceado ser coberto no Captulo 14.
13.1 O MODELO COM DOIS FATORES
O modelo balanceado com dois fatores pode ser especificado como segue:
yijk = + i + j + ij + ijk,
i = 1, 2, ..., a,

j = 1, 2, ..., b,

(13.1)
k = 1, 2, ..., n

O efeito do i-simo nvel do fator A i e j o efeito devido ao j-simo nvel do


fator B. O termo ij representa a interao AB entre o i-simo nvel do fator A e o jsimo nvel do fator B. Se uma interao est presente, a diferena 1 2, por exemplo, no estimvel e a hiptese H0: 1 = 2 = ... = a no pode ser testada. Na Seo
13.4, ns discutimos modificaes dessa hiptese que so testveis.
Existem duas situaes experimentais nas quais o modelo (13.1) pode surgir.
Na primeira situao, os fatores A e B representam dois tipos de tratamentos, por
exemplo, vrias quantidades de nitrognio e de potssio aplicadas em um experimento agrcola. Ns aplicamos cada uma das ab combinaes dos nveis de A e B a n unidades experimentais selecionadas ao acaso. Na segunda situao, as populaes existem naturalmente, por exemplo, sexo (macho e fmea) e preferncia poltica (Democratas, Republicanos e Independentes). Uma amostra aleatria de n observaes
obtida de cada uma das ab populaes.
Suposies adicionais que formam parte do modelo so as seguintes:
1. E(ijk) = 0 para todo i, j, k;
2. var(ijk) = 2 para todo i, j, k;
3. cov(ijk, rst) = 0 para todo (i, j, k) (r, s, t).

254
Uma outra suposio que ns adicionamos algumas vezes ao modelo :
4. ijk ~ N(0, 2) para todo i, j, k.
Da suposio 1 temos que E(yijk) = + i + j + ij e podemos reescrever o modelo na forma:
yijk = ij + ijk,
i = 1, 2, ..., a,

(13.2)

j = 1, 2, ..., b,

k = 1, 2, ..., n

onde ij = E(yijk) = + i + j + ij a mdia de uma observao aleatria na (ij)-sima casela. Na prxima seo ns consideramos funes estimveis dos parmetros i,
j e ij.

13.2 FUNES ESTIMVEIS


Na primeira parte desta seo, ns usamos a = 3, b = 2 e n = 2 com o propsito de
apresentar alguns resultados. Para esse caso especial, o modelo (13.1) fica:
yijk = + i + j + ij + ijk,
i = 1, 2, 3, j = 1, 2,

(13.3)

k = 1, 2

As 12 observaes em (13.3) podem ser expressas na forma matricial como:


y111 1
y 1
112
y121 1


y122 1
y 211 1


y 212 = 1
y 1
221
y 222 1
y 1
311
y312 1
y 1
321
y322 1

1
1
1
1
0
0
0
0
0
0
0

0
0
0
0
1
1
1
1
0
0
0

0
0
0
0
0
0
0
0
1
1
1

1
1
0
0
1
1
0
0
1
1
0

0
0
1
1
0
0
1
1
0
0
1

1
1
0
0
0
0
0
0
0
0
0

0
0
1
1
0
0
0
0
0
0
0

0
0
0
0
1
1
0
0
0
0
0

0
0
0
0
0
0
1
1
0
0
0

0
0
0
0
0
0
0
0
1
1
0

0
0
0

0
0

0
0

0
0

0
1

0 0 1 0 1 0 0 0 0 0 1

111

1 112
2 121


3 122
1 211

2 + 212

11 221
12 222

21 311
22 312

31 321
32 322

(13.4)

ou

y = X
+ ,
onde y 12x1, X 12x12 e 12x1.(Se adicionarmos uma outra repetio, tal que n
= 3, ento y 18x1, X 18x12, mas permanece 12x1). A matriz XX dada por:

255
12
4

4
6

6
XX =
2

2
2

2
2

4
4
0
0
2
2
2
2
0
0
0

4
0
4
0
2
2
0
0
2
2
0

4
0
0
4
2
2
0
0
0
0
2

6
2
2
2
6
0
2
0
2
0
2

6
2
2
2
0
6
0
2
0
2
0

2
2
0
0
2
0
2
0
0
0
0

2
2
0
0
0
2
0
2
0
0
0

2
0
2
0
2
0
0
0
2
0
0

2
0
2
0
0
2
0
0
0
2
0

2
0
0
2
0
0
0
0
0
0
2

2
0
0

2
0

2
0

0
0

0
0

0 0 2 0 2 0 0 0 0 0 2

(13.5)

A partio em XX corresponde quela em X de (13.4), onde existe uma coluna para


, trs colunas para os trs s, duas colunas para os dois s e seis colunas para os
seis s.
Em ambas X e XX, as seis primeiras colunas podem ser obtidas como combinao linear das seis ltimas colunas, que so linearmente independentes. Por isso,
posto(X) = posto(XX) = 6 [em geral, posto(X) = ab].
Como posto(X) = 6, ns podemos encontrar seis funes lineares dos parmetros que sejam estimveis e independentes (ver Teorema 11.2C). Pelo Teorema 11.2D
ns podemos obter essas funes estimveis de X
. Usando as linhas 1, 3, 5, 7, 9 e 11
, ns obtemos E(yijk) = ij = + i + j + ij, para i = 1, 2, 3 e j = 1, 2:
de E(y) = X

11 = + 1 + 1 + 11,

12 = + 1 + 2 + 12,

21 = + 2 + 1 + 21,

22 = + 2 + 2 + 22,

31 = + 3 + 1 + 31,

32 = + 3 + 2 + 32.

(13.6)

Essas mdias tambm podem ser obtidas das seis ltimas linhas de XX
(ver Teorema 11.2D). Tomando combinaes lineares das seis equaes em (13.6), obtemos as
seguintes funes estimveis (por exemplo, 1 = 11 21 e 1 = 12 22):

11 = + 1 + 1 + 11
1 = 1 2 + 11 21 ou

1 = 1 2 + 12 22

2 = 1 3 + 11 31 ou

2 = 1 3 + 12 32

3 = 1 2 + 11 12

ou

3 = 1 2 + 21 22

ou

3 = 1 2 + 31 32

4 = 11 12 21 + 22
5 = 11 12 31 + 32

(13.7)

256
Expresses alternativas para 4 e 5 tm a forma:

ij ij ij + ij
i, i = 1, 2, 3,

j, j = 1, 2,

(13.8)
i i,

j j.

Para o caso geral, com a nveis do fator A e b nveis do fator B, ns tambm conseguimos obter funes estimveis da forma (13.7) e (13.8).
Em 4 e 5 de (13.7), ns vemos que existem contrastes estimveis nos ijs,
mas em 1, 2 e 3 (e nas suas expresses alternativas) no existem contrastes estimveis nos s e nos s, exclusivamente. (Isso tambm verdadeiro no caso geral.)
Para obter uma nica expresso envolvendo somente 1 2, para mais tarde
ser usada para comparar os s num teste de hipteses (ver Seo 13.4.2b), ns fazemos a mdia de 1 e 1:

1
1
1
(1 + 1) = 1 2 + (11 + 12) (21 + 22)
2
2
2

(13.9)

= 1 2 + 1 2
Para 1 3, ns temos:
1
1
1
(2 + 2) = 1 3 + (11 + 12) (31 + 32)
2
2
2

(13.10)

= 1 3 + 1 3
Similarmente, fazendo a mdia de 3, 3 e 3, ns temos:
1
1
1
(3 + 3 + 3) = 1 2 + (11 + 21 + 31) (12 + 22 + 32)
3
3
3
= 1 2 + 1 2

(13.11)

De (13.1) e da suposio 1 da Seo 13.1, ns temos (para a, b e n gerais):


E(yijk) = E( + i + j + ij + ijk)
i = 1, 2, ..., a,

j = 1, 2, ..., b,

k = 1, 2, ..., n

ou

ij = + i + j + ij

(13.12)

Na Seo 11.1.2, ns mostramos que para um modelo aditivo (sem interao) as condies marginais sobre os s e s levam a novos parmetros s e s, que
podem ser expressos como desvios das mdias, como i = i , por exemplo.
Agora, ns estenderemos essa formulao para um modelo com interao para ij:

257

ij = + ( i ) + ( j ) + (ij i j + )
= + i + j + ij

(13.13)

onde

= , i = i , j = j ,
ij = ij i j +

(13.14)

Com estas definies, segue que:


a

= 0,

ij

= 0,

j =1

i =1

= 0, para todo j = 1, 2, ..., b

(13.15)

i =1
b

ij

= 0, para todo i = 1, 2, ..., a

j =1

Usando (13.12), ns podemos escrever i , j e ij em (13.14) em termos dos


parmetros originais. Por exemplo, i fica:

i = i =

1 b
1 a b

ij ab ij
b j =1
i =1 j =1

1 b
1 a b
= + i + j + ij
+ i + j + ij
b j =1
ab i =1 j =1

b
b

1
b + b i + j + ij

b
j =1
j =1

a
b
a b

ab + b i + a j + ij

ab
i =1
j =1
i =1 j =1

= + i + + i
= i + i

(13.16)

Similarmente, temos:

j = j + j

(13.17)

ij = ij i j +

(13.18)

258

13.3 ESTIMADORES DE E 2
Ns consideramos a estimao de funes estimveis na Seo 13.3.1 e a estimao de 2 na Seo 13.3.2.

13.3.1 Resolvendo o Sistema de Equaes Normais e Estimando


Discutiremos duas abordagens para resolver o sistema de equaes normais XX =
Xy e para obter estimativas de uma funo estimvel .
13.3.1a Condies marginais

De X e y em (13.4), ns obtemos Xy para o caso especial de a = 3, b = 2 e n = 2:


Xy = [y, y1, y2, y3, y1, y2, y11, y12, y21, y22, y31, y32]

(13.19)

Baseado em Xy em (13.19) e XX em (13.5), ns escrevemos o sistema de equaes


normais, para a, b e n gerais, como:
a
b
a
b
abn + bn i =1 i + an j =1 j + n i =1 j =1 ij = y

b
b
bn + bn i + n j =1 j + n j =1 ij = yi,

i = 1, 2, ..., a

a
a
an + n i =1 i + an j + n i =1 ij = yj,

j = 1, 2, ..., b

n + n i + n j + n ij = yij,

i = 1, 2, ..., a
j = 1, 2, ..., b

(13.20)
a

Com as condies marginais i = 0,


i =1

j = 0,

ij = 0 e

ij = 0, a soluo do

j =1

i =1

j =1

sistema de equaes normais (13.20) dada por:

=
j =
ij =

y
= y
abn

y j
an
yij
n

i =

yi
= yi y
bn

= y j y

(13.21)

y j
yi
y

+ = yij yi y j + y
bn
an
abn

Esses so estimadores no viesados dos parmetros , i , j e ij em (13.14), sujeitos s condies marginais de (13.15). Se essas condies no forem impostas sobre os parmetros, ento os estimadores em (13.21) no so estimadores no viesados

259
dos parmetros individuais, mas os estimadores podem ser usados em funes estimveis. Por exemplo, consideremos a funo estimvel em (13.9) (para a = 3,
b = 2),
1
1
= 1 2 + (11 + 12) (21 + 22)
2
2
Pelo Teorema 11.3A e por (13.21), o estimador de dado por:
1
1
= 1 2 + ( 11 + 12 ) ( 21 + 22 )
2
2

= ( y1 y ) ( y 2 y ) +

1
( y11 y1 y1 + y )
2

1
1
( y12 y1 y2 + y ) ( y 21 y 2 y1 + y )
2
2

1
( y 22 y 2 y2 + y )
2

Como y11 + y12 = 2 y1 e y 21 + y 22 = 2 y 2 , o estimador se reduz a:


1
1
= 1 2 + ( 11 + 12 ) ( 21 + 22 ) = y1 y 2
2
2

(13.22)

1
1
(11 + 12) (21 + 22) o mesmo estimador
2
2

que ns teramos para 1 2 , usando 1 e 2 como estimadores de 1 e 2 :


Este estimador de 1 2 +

( 1 2 ) = 1 2 = ( y1 y ) ( y 2 y ) = y1 y 2
Pelo Teorema 11.3D, tais estimadores so BLUE. Se ns tambm assumirmos
que ijk ~ N(0, 2), ento pelo Teorema 11.3H, os estimadores so estimadores no
viesados de varincia mnima.

13.3.1b Inversa Generalizada


Pelo Corolrio 1 do Teorema 2.8B, uma inversa generalizada de XX em (13.5)
dada por:

(XX) =

1
2

0 0
0 I
6

(13.23)

onde os 0s so matrizes 6x6. Ento por (11.13) e (13.19), uma soluo para o sistema de equaes normais para a = 3 e b = 2 dada por:

= (XX) Xy

= [0, 0, 0, 0, 0, 0, y11 , y12 , y 21 , y 22 , y31 , y32 ]

(13.24)

260
Os estimadores em (13.24) so diferentes daqueles em (13.21), mas eles fornecem os mesmos estimadores para funes estimveis. Por exemplo, para = 1 2
1
1
+ (11 + 12) (21 + 22) em (13.9), ns temos:
2
2

= 1 2 +

1
1
( 11 + 12 ) ( 21 + 22 )
2
2

1
[ y11 + y12 ( y 21 + y 22 )]
2

=0 0+

Como y11 + y12 = 2 y1 e y 21 + y 22 = 2 y 2 , o estimador se reduz a:


1
= (2 y1 2 y 2 ) = y1 y 2
2
que idntico ao estimador obtido em (13.22) usando de (13.21).
13.3.2 Um Estimador para 2
Para o modelo com dois fatores em (13.1), a suposio 2 estabelece que var(ijk) = 2
para todo i, j, k. Para estimar 2, ns usamos (11.22), s2 = SQRes/ab(n1), onde abn
o nmero de linhas de X e ab = posto(X). Por (11.20) e (11.21), ns temos que:

SQRes = yy Xy =
=

yij yij

i =1 j =1 k =1

i =1 j =1

yijk2 n yij2
ijk

yijk2

13.25)

ij

Tambm pode ser mostrado [ver Problema 13.10] que:

SQRes =

(yijk yij )2

(13.26)

ijk
2

Assim, s pode ser calculado de duas formas:


2

s =

ijk (yijk yij )2


ab(n 1)

ijk yijk2 nij yij2


ab(n 1)

Pelo Teorema 11.3E, garantimos que E(s2) = 2.

(13.27)

(13.28)

261
13.4 TESTANDO HIPTESES

Nesta seo ns consideramos testes de hipteses para os efeitos principais A e B e


para a interao AB. Por toda seo, ns assumimos que y ~ Nabn(X, 2I). Por convenincia, algumas vezes usaremos a = 3 e b = 2 nas ilustraes.
13.4.1 Teste para a interao

Na Seo 13.4.1a, ns expressamos a hiptese de interao em termos de parmetros


estimveis e nas Sees 13.4.1b e 13.4.1c, ns discutimos duas abordagens para o
teste modelo completo versus modelo reduzido.
13.4.1a. A Hiptese de Interao

Por (13.8), sabemos que contrastes estimveis nos ijs tm a forma

ij ij ij + ij,

i i,

j j

(13.29)

Agora ns mostraremos que a hiptese de interao pode ser escrita em termos dessas
funes estimveis.
B
A
1
2
3

11
21
31

12
22
32

Figura 13.1 Mdias de caselas para o modelo em (13.2) e (13.12)

Para o modelo ilustrativo em (13.3) com a = 3 e b = 2, as mdias de caselas ij


em (13.12) so dadas na Figura 13.1. O efeito B no primeiro nvel de A 11 12; o
efeito B no segundo nvel de A 21 22 e no terceiro nvel de A 31 32. Se esses
trs efeitos forem iguais, no existe interao. Se ao menos um dos efeitos for diferente dos outros dois, ns temos uma interao. A hiptese de no interao pode ento ser expressa como:
H0: 11 12 = 21 22 = 31 32
(13.30)
Para mostrar que essa hiptese testvel, primeiramente escreveremos as trs
diferenas em termos dos ijs usando (13.12). Para as primeiras duas diferenas em
(13.30), ns obtemos:
11 12 = + 1 + 1 + 11 ( + 1 + 2 + 12)
= 1 2 + 11 12

21 22 = + 2 + 1 + 21 ( + 2 + 2 + 22)
= 1 2 + 21 22

262
Ento a igualdade 11 12 = 21 22 em (13.30) fica:

1 2 + 11 12 = 1 2 + 21 22
ou

11 12 21 + 22 = 0

(13.31)

Por (13.29), a funo 11 12 21 + 22 do lado esquerdo de (13.31) um contraste


estimvel. Similarmente, a terceira diferena em (13.30) fica:

31 32 = + 3 + 1 + 31 ( + 3 + 2 + 32) = 1 2 + 31 32
e quando igualada a 21 22 = 1 2 + 21 22, ns obtemos:

21 22 31 + 32 = 0

(13.32)

Por (13.29), a funo 21 22 31 + 32 do lado esquerdo de (13.32) estimvel. Assim, as duas expresses em (13.31) e (13.32) so equivalentes hiptese de no interao em (13.30) sendo, pois, uma hiptese testvel.
Como a hiptese de interao pode ser expressa em termos de funes estimaveis de ijs que no envolvem is e js, ns podemos usar uma abordagem do tipo
modelo completo versus modelo reduzido.
Ns no podemos obter um modelo reduzido de (13.1) ou (13.3) admitindo que
ij = 0, porque ij no estimvel. Entretanto, ij = ij i j + em (13.14)
estimvel [ ij pode ser estimado sem vis por ij = yij yi y j + y ]. Usando
(13.13), o modelo pode ser expresso em termos de parmetros sujeitos s condies
marginais de (13.15) como:
yijk = + i + j + ij + ijk

(13.33)

Agora podemos obter um modelo reduzido de (13.33) assumindo que ij = 0.


No teorema seguinte, mostramos que H0: ij = 0 para todo i, j, equivalente hiptese de interao expressa como (13.30) ou como (13.31) e (13.32). Desde que essas
trs expresses envolvem a = 3 e b = 2, ns continuamos com este caso especial.
Teorema 13.4A. Considere o modelo (13.33) para a = 3 e b = 2. A hiptese H0:
ij = 0, para i = 1, 2, 3 e j = 1, 2, equivalente a (13.30),

H0: 11 12 = 21 22 = 31 32

(13.34)

21 + 22 0
H0: 11 12
=
21 22 31 + 32 0

(13.35)

e forma equivalente:

obtida de (13.31) e (13.32).

263
Prova: Para estabelecer a equivalncia de ij = 0 e a primeira igualdade em (13.35),
ns encontramos uma expresso para cada ij admitindo que ij = 0. Para 12 e

12
, por exemplo, ns usamos (13.18) para obter:

12
= 12 1 2 +

(13.36)

Assumindo que 12
= 0, temos que:

12 = 1 + 2

De modo similar, de (13.18) e as igualdades 11


= 0, 21
= 0 e 22
= 0, obtemos:

11 = 1 + 1 ,

21 = 2 + 1 , 22 = 2 + 2 .

Quando essas quantidades so substitudas em 11 12 21 + 22, obtemos:

11 12 21 + 22 = 1 + 1 ( 1 + 2 )
( 2 + 1 ) + ( 2 + 2 ) = 0
que a primeira igualdade em (13.35). A segunda igualdade em (13.35) obtida
de forma similar.
Para mostrar que a primeira igualdade em (13.34) equivalente primeira igualdade em (13.35), ns substitumos ij = + i + j + ij em 11 12 = 21 22:
0 = 11 12 21 + 22
= + 1 + 1 + 11 ( + 1 + 2 + 12)
( + 2 + 1 + 21) + ( + 2 + 2 + 22)
= 11 12 21 + 22.
De modo similar, a segunda igualdade em (13.34) equivalente segunda igualdade em (13.35).
Na Seo 13.4.1b, ns obtemos um teste para a interao baseado nas equaes
normais e na Seo 13.4.1c, obtemos o teste baseado em uma inversa generalizada.
13.4.1b Teste Modelo Completo versus Modelo Reduzido Baseado nas Equaes
Normais.

Nesta seo ns desenvolvemos o teste modelo completo versus modelo reduzido


para a interao, usando as equaes normais. Ns expressamos o modelo completo
em termos de parmetros sujeitos s condies marginais, como em (13.33):
yijk = + i + j + ij + ijk

(13.37)

264
onde = , i = i , j = j e ij = ij i j + so dados
em (13.14). O modelo reduzido sob H0: ij = 0 para todo i e j
yijk = + i + j + ijk

(13.38)

Desde que consideramos um modelo balanceado, os parmetros , i e j (sujeitos s condies marginais) no modelo reduzido (13.38) so os mesmos que aqueles
do modelo completo (13.37) [em (13.44), tambm fica mostrado que as estimativas
nos dois modelos so idnticas].
Usando a notao do Captulo 12, a soma de quadrados para testar H0: ij = 0 :
SQ( | , , ) = SQ(, , , ) SQ(, , )

(13.39)

Os estimadores , i , j e ij em (13.21) so estimadores no viesados de , i ,

j e ij . Estendendo Xy em (13.19) para a e b gerais, ns obtemos:


SQ(, , , ) = Xy = y +
= y y +

i yi +

j y j +

ij yij

i =1

j =1
b

i =1 j =1

( yi y )yi

(y j y )y j +
j =1

i =1

(yij yi y j + y )yij
i =1 j =1

2
y2 y j
y2
y2 yi2
=
+

+

abn j an
abn
abn i bn

yij2
y2 j
yi2
y2

+
(13.40)

ij n
an
abn
bn
j
i

yij2
(13.41)
=
n
ij
Note que ns obteramos o mesmo resultado usando de (13.24) [estendido para a e

b gerais].

Para o modelo reduzido em (13.38), a matriz X1 e o vetor X1y para a = 3 e b =


2 consistem das primeiras seis colunas de X em (13.4) e os primeiros seis elementos
de Xy em (13.19). Assim, obtemos:

265

12
4

4
X1X1 =
4
6

4
4
0
0
2
2

4
0
4
0
2
2

4
0
0
4
2
2

6
2
2
2
6
0

6
2
2
e
2
0

y
y
1
y
X1y = 2
y3
y1

y2

(13.42)

Da forma em (13.42), ns vemos que para a e b gerais, o sistema de equaes normais para o modelo reduzido fica:
a
b
abn + bn i =1 i + an j =1 j = y
b
bn + bn i + n j =1 j

= yi,

i = 1, 2, ..., a

a
an + n i =1 i + an j

= yj,

j = 1, 2, ..., b

Usando as condies marginais

(13.43)

i i = 0 e j j = 0, ns obtemos as solues:

y j
y
y
= y , i = i = yi y j =
= y j y
abn
bn
an
(13.44)

que so as mesmas solues do modelo completo (13.21), como j era esperado no


caso de um modelo balanceado.
A soma de quadrados para o modelo reduzido calculada como:
2
2
y2 j
yi2
y
y2
y

SQ(, , ) = 1 X1y =
+

abn j an
abn
abn i bn

e a diferena em (13.39) dada por:


SQ( | , , ) = SQ(, , , ) SQ(, , )

ij

yij2

y2
i
n
i bn

y2 j

y2
abn

an

(13.45)

A soma de quadrados do resduo dada por:


SQRes = yy Xy =

ijk

2
yijk

ij

yij2
n

(13.46)

Em termos de mdias ao invs de totais, (13.45) e (13.46) podem ser expressas como:

266
SQ( | , , ) = n

(yij yi y j + y )2

(13.47)

ij

SQRes =

(yijk yij )2

(13.48)

ijk

[ver Problema 13.13(b)]. Existem ab parmetros envolvidos na hiptese H0: ij = 0,


i = 1, 2, ..., a, j = 1, 2, ..., b. Entretanto, as (a + b) condies marginais

para j = 1, 2, ..., b e

j ij

i ij

=0

= 0 para i = 1, 2, ..., a impem a 1 + b 1 = a + b 2

restries. Com a condio adicional

i j ij

= 0, temos um total de a + b 2 + 1

= a + b 1 restries. Assim, o nmero de graus de liberdade para SQ( | , , )


igual a ab (a + b 1) = (a 1)( b 1).
Para testar H0: ij = 0, para todo i, j, ns usamos a estatstica:
F=

SQ( | , , ) (a 1)(b 1)
SQRes ab(n 1)

(13.49)

que tem distribuio F[(a1)( b1); ab(n 1)] se H0 verdadeira (ver Seo 11.6.2).

13.4.1c Teste Modelo Completo versus Modelo Reduzido Baseado em uma Inversa Generalizada
Ns agora consideramos um desenvolvimento matricial para SQRes e SQ( | , , )

baseado em uma inversa generalizada. Por (11.21), SQRes = y[I X(XX) X]y.
Para nosso modelo ilustrativo com a = 3 e b = 2, a matriz XX dada em (13.5) e

uma inversa generalizada (XX) dada em (13.23). A matriz X(XX) X, 12x12,


dada por:
J 0 L 0
jj' 0 L 0

1 0 J L 0 1 0 jj' L 0

X(XX) X =
=
2 M M
M 2 M
M
M

0 0 L J
0 0 L jj'

(13.50)

onde J e 0 so matrizes 2x2 e j um vetor 2x1 (ver Problema 13.17). O vetor y em


(13.4) pode ser escrito como:
y = [y11, y12, y21, y22, y31, y32]

(13.51)

onde yij = [yij1, yij2], para i = 1, 2, 3 e j = 1, 2. Por (11.21), (13.50) e (13.51), SQRes
fica:

267

SQRes = y[I X(XX) X]y = yy yX(XX) Xy


=

yijk2 2 y ij ' jj yij


ijk

yijk2

ij

ijk

1
2

yij2
ij

que igual quela obtida em (13.6) com n = 2. Para SQ( | , , ), ns temos:


SQ( | , , ) = SQ(, , , ) SQ(, , )
= Xy 1 X1y

= y[X(XX) X X1(X1X1) X1] y

(13.52)

onde X(XX) X dado em (13.50) e X1 consiste das seis primeiras colunas de X em


(13.4). A matriz X1X1 dada em (13.42) e uma inversa generalizada (no trivial!) de
X1X1 :
1
0

1 0

(X1X1) =

12 0
0

0
3
0
0
0
0

0
0
3
0
0
0

0
0
0
3
0
0

0
0
0
0
2
0

0
0
0

0
0

(13.53)

Ento
J J
J J
4J 2J
2J 4J J
J J
J

J J
1 J J 4J 2J

X1(X1X1) X1 =

12 J
J 2J 4J J
J
J J
J J 4 J 2 J

J J
J 2 J 4 J
J

(13.54)

onde J 2x2. Para a diferena entre (13.50) e (13.54), ns obtemos:


J
J
J
J
2J 2J
2 J
2J
J
J
J
J

J
2J 2J
J
J
1 J

X(XX) X X1(X1X1) X1 =

12 J
J 2J
2J
J
J
J
J
J
J
2 J 2 J

J
J
J 2J
2 J
J

(13.55)
onde J 2x2.

268

Para mostrar que SQ( | , , ) = y[X(XX) X X1(X1X1) X1]y em (13.52)


igual formulao de SQ( | , , ) mostrada em (13.45), ns primeiramente escrevemos (13.45) na notao matricial:
3

i =1 j =1

yij2

yi2

2
i =1 4
3

y2 j

j =1

y2
1
1
1
1
+
= y A B C +
D y (13.56)
12
4
12
6
2

Agora ns precisamos encontrar A, B, C e D. Para

i =1 j =1

yij2
2

1
yAy, ns temos,
2

por (13.50) e (13.51), que:


3

i =1 j =1

yij2

1 3 2 2
= yij
2
2 i =1 j =1
jj' 0 L 0 y 11
0 jj' L 0 y
1
12
= [y11, y12, ..., y32]
M
2
M
M M


0 0 L jj' y 32

(13.57)

1
yAy
2

onde
J 0 L 0
0 J L 0

A=
M M
M

0 0 L J

A = X(XX) X. Para o se2


gundo termo em (13.56), ns primeiramente escrevemos yi e yi2 como:
e J 2x2. Note que por (13.50) ns tambm temos que

yi =

yijk
jk

yi1k + yi 2k
k

j
= yi1j + yi2j = [yi1, yi2]
j

y
j
jj' jj' y i1
yi2 = [yi1, yi2] [j, j] i1 = [yi1, yi2]

j
jj' jj' y i 2
y i 2

Ento

269
J
J

3 y2
0
1
4i = 4 [y11, y12, ..., y32] 0
i =1

J
J
0
0
0
0

0
0
J
J
0
0

0
0
J
J
0
0

0
0
0
0
J
J

0
0
0

0
J

y 11
y
12
M

y 32

(13.58)

1
yBy
4

Similarmente, o terceiro termo de (13.56) pode ser escrito como:

y2 j

j =1

J
0

1 J
= y
6 0
J

0
J
0
J
0
J

J
0
J
0
J
0

0
J
0
J
0
J

J
0
J
0
J
0

0
J
0
1
y = yCy
J
6
0

(13.59)

Para o quarto termo de (13.56), ns temos:


y =

yijk

= yj12,

ijk

y2
1
=
yj12 j12y = yJ12y = yD y
(13.60)
12
12
onde j12 12x1 e J12 12x12. Para ficar de conformidade com A, B e C em (13.57)
(13.58) e (13.59), podemos escrever D = J12 como:

J
J

J
D = J12 =
J
J

J
J
J
J
J
J

J
J
J
J
J
J

J
J
J
J
J
J

J
J
J
J
J
J

J
J
J

J
J

onde J 2x2.
Agora, combinando (13.57)-(13.60), obtemos a forma quadrtica em (13.56):

270
J
J
J
J
2J 2J
2 J

2
J
J

J
J

J
2J 2J
J
J
1
1
1
1 J
1
A B C+
D=

2
4
12
12 J
J 2J
2J
J
J
6
J
J
J
J
2 J 2 J

J
J
J 2J
2 J
J
(13.61)

que a mesma de (13.55). Assim a verso matricial de SQ( | , , ) em (13.52)


igual SQ( | , , ) em (13.45); isto :
yij2
y2 j
yi2
y2

y[X(XX) X X1(X1X1) X1]y =

+
n
an
bn
abn
ij
j
i

13.4.2 Testes para Efeitos Principais


Na Seo 13.4.2a, ns desenvolvemos um teste para os efeitos principais usando uma
abordagem modelo completo versus modelo reduzido. Na Seo 13.4.2b, um teste para os efeitos principais obtido usando a abordagem da hiptese linear geral. Durante
boa parte dessa seo, usamos a = 3 e b = 2, onde a o nmero de nveis do fator A e
b o nmero de nveis do fator B.

13.4.2a Abordagem Modelo Completo versus Modelo Reduzido


Se a interao est presente no modelo com dois fatores, ento por (13.9) e (13.10),
ns no podemos testar H0: 1 = 2 = 3 (para a = 3) porque 1 2 e 1 3 no
so estimveis. De fato, no existem contrastes estimveis nos s ou nos s sozinhos [ver Problema 13.2]. Assim, se existe interao, o efeito do fator A diferente
para, no mnimo, algum nvel do fator B e vice-e-versa.
Para examinar o efeito principal do fator A, ns consideramos i = i ,
como definido em (13.14), que pode ser escrito como:
1 a b
1 b
i = i = ij
ij
ab i =1 j =1
b j =1
=

1
b

1
1 a

ij a ij = b
j =1
i =1

( ij j )

(13.62)

j =1

A expresso dentro dos parntesis, ij j , o efeito do i-simo nvel do fator A no


j-simo nvel do fator B. Assim em (13.62), i = i expresso como o efeito
mdio do i-simo nvel do fator A (calculado sobre todos os nveis de B). Esta definio leva condio marginal i i = 0.

271
Desde que os i s so estimveis [ver (13.21) e o comentrio seguinte], ns
podemos us-los para expressar a hiptese para o fator A. Para a = 3, temos:
H0: 1 = 2 = 3

(13.63)

H0: 1 = 2 = 3 = 0

(13.64)

que equivalente a

porque

i i = 0.

A hiptese H0: 1 = 2 = 3 em (13.63) estabelece que no existe efeito do


fator A quando calculado sobre todos os nveis de B. Usando i = i , a hiptese pode ser expressa em termos das mdias:
H0: 1 = 2 = 3 ,

que pode ser escrita como


H0: 1 = 2 = 3

Os valores para as mdias de caselas na Figura 13.2 ilustram uma situao na qual H0
acontece na presena de interao.

mdia

11 = 5

12 = 1

1 = 3

21 = 4

22 = 2

2 = 3

31 = 3

32 = 3

3 = 3

Figura 13.2 Mdias de caselas ilustrando 1 = 2 = 3 na presena de interao


Pelo fato de H0 em (13.63) ou (13.64) basear-se em um efeito mdio, muitos
textos recomendam que a interao AB seja testada primeiramente, e se ela resultar
significativa, ento os efeitos principais no devem ser testados. Entretanto, com o
efeito principal de A sendo definido como o efeito mdio sobre os nveis de B e similarmente para o efeito principal de B, os testes de A e B podem ser executados mesmo
se AB for significativa. Evidentemente, as interpretaes requerem maior cuidado, e o
efeito de um fator pode mudar se o nmero de nveis do outro fator for alterado. Mas
em muitos casos podemos ganhar informaes importantes sobre esses efeitos na presena da interao.

272
Sob H0: 1 = 2 = 3 = 0, o modelo completo em (13.33) se reduz a:
yijk = + j + ij + ijk

(13.65)

Devido ortogonalidade do modelo balanceado, os estimadores de , j e ij em


(13.65) so os mesmos do modelo completo. Se usarmos , j e ij em (13.21) e
elementos de Xy em (13.19), estendido para valores a, b e n, gerais, ns obtemos:
SQ(, , ) = y

+ j y j +
j =1

ij yij
i =1 j =1

que, por (13.40), resulta em


2
2
y2 y j y2 yij
SQ(, , ) =
+

abn ij n
abn j an

y2 j y2
yi2
bn an + abn
j
i

(13.66)

De (13.40) e (13.66), ns temos:


SQ( | , , ) = SQ(,, , ) SQ(, , )
a y2
y2
i
=

bn
abn
i =1

(13.67)

Para o caso especial de a = 3, ns vimos por (13.7) que existem duas funes
estimveis linearmente independentes envolvendo os trs s [ver (13.9) e (13.10)] e,
portanto, SQ( |, , ) tem dois graus de liberdade. Em geral a SQ( | , , ) tem
(a 1) graus de liberdade. De forma anloga, para o fator B ns obtemos:
SQ( | , , ) = SQ(,, , ) SQ(, , )
b y2
y2
j
=

(13.68)
an
abn
j =1
que tem (b 1) graus de liberdade. Em termos das mdias, ns podemos expressar
(13.67) e (13.68) como:
SQ( | , , ) = bn

( yi y )2
i =1
b

SQ( | , , ) = an y j y

)2

(13.69)
(13.70)

j =1

importante notar que a abordagem modelo completo versus modelo reduzido


que leva SQ( | , , ) em (13.67) no pode ser expressa em termos matriciais

como SQ( | , , ) = y[X(XX) X X1(X1X1) X1]y, em (13.52). A abordagem


matricial apropriada para a interao porque existem funes estimveis dos ijs
que no envolvem ou os is ou os js. No caso do efeito principal de A, entretanto, ns no podemos obter X1 deletando as colunas de X correspondentes a 1, 2
e 3 porque os contrastes da forma 1 2 no so estimveis sem envolver os ijs
[ver (13.9) e (13.10)].

273
Se ns adicionarmos as somas de quadrados do fator A, fator B e interao em
(13.67), (13.68) e (13.45), obtemos:
yij2
y2
SQTrat = ij

abn
n
que a soma de quadrados geral de tratamentos, SQ(, , | ). No teorema seguinte
garantimos que as trs somas de quadrados so independentes.

Teorema 13.4B. Se y ~ Nabn(X, 2I) ento as somas de quadrados SQ( | , , ),


SQ( | , , ) e SQ( | , , ) so independentes.
Prova: Segue do Teorema 5.6C; ver Problema 13.23.

Usando (13.45), (13.46), (13.67) e (13.68) ns obtemos o quadro de anlise de varincia dado na Tabela 13.1.

Tabela 13.1. Quadro de ANOVA para um modelo com dois fatores e com interao
Fonte de Variao
Fator A
Fator B

g.l.
a1
b1

Soma de Quadrados
yi2 y2
bn abn
i =1
a

j =1

Interao AB

(a 1)(b 1)

ij

Resduo

ab(n 1)

y2 j

y2

an
abn

yij2

y j
y2
y2
i
+
n
abn
j an
i bn

2
yijk

y2

abn

ijk

Total

abn 1

ijk

ij

2
yijk

yij2
n

A estatstica de teste para o fator A :


F=

SQ( | , , ) (a 1)
SQRes ab(n 1)

(13.71)

que distribuda como F[(a 1), ab(n 1)] se H0: 1 = 2 =...= a = 0 verdadeira.
Para o Fator B, ns usamos SQ( | , , ) em (13.68) e a estatstica F correspondente
dada por:
SQ( | , , ) (b 1)
F=
(13.72)
SQRes ab(n 1)

274
que distribuda como F[(b 1); ab(n 1)] se H0: 1 = 2 =...= b = 0 verdadeira.
Na Seo 13.4.2b essas estatsticas F so obtidas utilizando a abordagem baseada na
hiptese linear geral. As distribuies F podem ser justificadas pelo Teorema 11.6C.

Exemplo 13.4.2. O contedo da mistura de trs tipos de queijo feitos por dois metodos foi anotado por Marcuse (1949) (formato alterado). Duas peas de queijo foram
medidas para cada tipo e cada mtodo. Designando Mtodo como o fator A e Tipo
como o fator B, ento a = 2, b = 3 e n = 2. Os dados so apresentados na Tabela 13.2
e os totais so mostrados na Tabela 13.3.
Tabela 13.2 Contedo da mistura de dois queijos de cada um de trs diferentes tipos
e de dois mtodos.
Tipo
Mtodo
1
2

39.02

35.74

37.02

38.79

35.41

36.00

38.96

35.58

35.70

39.01

35.52

36.04

Tabela 13.3. Totais dos dados da Tabela 13.2.


Fator B
Fator A

Total

y11 = 77.81

y12 = 71.15

y13 = 73.02

y1 = 221.98

y 21 = 77.97

y 22 = 71.10

y 23 = 71.74

y 2 = 220.81

Total

y1 = 155.78

y2 = 142.25

y3 = 144.76

y = 442.79

Utilizando as frmulas (13.67), (13.68), (13.45) e (13.46), ns obtemos as seguintes


somas de quadrados:
SQ( | , , ) =

SQ( | , , ) =

SQ( | , , ) =

yi2 y2
bn abn = 0,114075
i =1
a

y2 j

j =1

an

ij

yij2

y2
= 25,900117
abn
2

y j y2
yi2

+
= 0,302550
n
abn
j an
i bn

275
SQRes =

2
yijk

ijk

SQTotal =

ij

yijk2
ijk

yij2
n

= 0,661950

y2
= 26,978692
abn

Com essas SQs ns podemos calcular os quadrados mdios e as estatsticas F, como


mostrado na Tabela 13.4.

Tabela 13.4. Anlise de Varincia para os dados de queijo da Tabela 13.2.


Fonte de Variao

g.l.

SQ

QM

p-value

Mtodo

0,114075

0,114075

1,034

0,3485

Tipo

25,900117

12,950058

117,381

< 0,0001

Interao

0,302550

0,151275

1,371

0,3233

Resduo

0,661950

0,110325

Total

11

26,978692

Somente o teste F para Tipo significativo, porque da tabela apropriada temos


que F(0,05; 1, 6) = 5.99 e F(0,05; 2, 6) = 5.14. Note que na Tabela 13.2, a diferena
entre as duas repeties em cada casela bem pequena, exceto para a casela com mtodo 1 e tipo 3. Isto sugere que as rplicas podem ser medidas repetidas (rplicas) ao
invs de verdadeiras repeties; isto , o experimentador pode ter medido a mesma
pea de queijo duas vezes ao invs de medir duas peas diferentes de queijo.

13.4.2b Abordagem baseada na Hiptese Linear Geral


Ns podemos obter SQ( | , , ) para a = 3 e b = 2 utilizando uma abordagem baseada na hiptese linear geral. Usando i = i + i em (13.16) a hiptese
H0: 1 = 2 = ... = a pode ser expressa em (13.63) como H0: 1 1 = 2 2 =
3 3 , ou como:

1
1
1
( 11 + 12 ) = 2 + ( 21 + 22 ) = 3 + ( 31 + 32 )
(13.72)
2
2
2
[veja tambm (13.9) e (13.10)]. As duas igualdades em (13.72) podem ser expressas
na forma:
H0: 1 +

1
1
1
1

1 + 2 11 + 2 12 3 2 31 2 32 0
H0: =
=
1
1
1
1
2 + 21 + 22 3 31 32 0

2
2
2
2

276
Re-arranjando a ordem dos parmetros para corresponder ordem em = [, 1, 2,
3, 1, 2, 3, 11, 12, 21, 22, 31, 32] em (13.4), ns temos:
1
1
1
1

1 3 + 2 11 + 2 12 2 31 2 32 0
H0: =
=
1
1
1
1
2 3 + 21 + 22 31 32 0

2
2
2
2

(13.73)

que pode ser escrito na forma H0: C = 0 com:


0 0.5 0.5
0 1 0 1 0 0 0.5 0.5 0
C=
0 0.5 0.5 0.5 0.5
0 0 1 1 0 0 0

(13.74)

Pelo Teorema 11.6B(iii), a soma de quadrados correspondente a H0: C = 0

1
SQHip = (C )[C(XX) C] C

(13.75)

Substituindo = (XX) Xy de (11.13), a SQHip em (13.75) fica:

SQHip = yX(XX) C[C(XX) C] C(XX) Xy = yAy

(13.76)

Usando C de (13.74), (XX) de (13.23) e X de (13.4), ns obtemos:

C(XX) X =

C(XX) C =

1
4

1 1 1 1 0 0 0 0 1 1 1 1
0 0 0 0 1 1 1 1 1 1 1 1

(13.77)

1
4

2 1
4 2 1

1
1 2 e [C(XX) C] = 3 1 2

(13.78)

Ento A = X(XX) C[C(XX) C] C(XX) X em (13.76) fica:


2 J J J
1
J 2 J J
A =

12
J J 2 J

(13.79)

onde J 4x4. Essa matriz pode ser expressa como:

0
2 J J J
3 J 0
J J J
1
1
1
0 3J 0
J J J
A =
J 2 J J =

12
12
12
J J 2 J
0
J J J
0 3 J
Para calcular yAy ns redefinimos y em (13.51) como:

(13.80)

277
y 11
y
12 y 1
y
y = 21 = y 2 , onde yi =
y 22 y
y 31 3

y 32

yi1
y
i2

(13.81)

Ento (13.76) fica:


3 J 4
1
SQHip = yAy =
[y1, y2, y3] 0
12
0
=

3
12

yi 'J 4yi
i =1

3J4
0

1
1
yJ12y =
12
4

0 y1
1
0 y 2
yJ12y
12
3 J 4 y 3

y i ' j4 j4 ' y i 12

yj12 j12 y

i =1

yi2
y2
=

12
4
i

que igual SQ( | , , ) em (13.67) com a =3 e b = 2.


A soma de quadrados para testar o efeito principal do fator B pode ser obtida
similarmente usando essa abordagem baseada na hiptese linear geral.

13.5 ESPERANA DOS QUADRADOS MDIOS

Ns definimos a esperana do quadrado mdio como uma avaliao direta do valor


esperado da soma de quadrados e tambm pelo mtodo matricial baseado no valor esperado de formas quadrticas.
13.51 Abordagem baseada nas Somas de Quadrados

Os valores esperados dos quadrados mdios correspondentes s somas de quadrados


da Tabela 13.1 so dados na Tabela 13.5. Note que elas so expressas em termos de
i , j e ij sujeitos s condies marginais i = 0, j = 0 e ij = ij = 0.
i

As E[QM]s podem ser derivadas inserindo o modelo yijk = + i + j + ij + ijk


de (13.33) nas somas de quadrados e a partir da, calcular o valor esperado. Ns ilustramos essa abordagem para a primeira E[QM] da Tabela 13.5.

278
Tabela 13.5 Esperana dos quadrados mdios para uma ANOVA com dois fatores
Fonte
A

AB
Resduo

SQ

QM

SQ( | , , )

SQ( | , , )
a 1

SQ( | , , )

SQ( | , , )

E[QM]
+ bn
2

SQ( | , , )
b 1

2 + an
j

SQ( | , , )
(a 1)(b 1)

2 + n
ij

SQRes
ab(n 1)

SQRes

a 1

b 1

ij

(a 1)(b 1)
2

yi2 y2
bn abn em (13.67),
i =1
ns primeiramente notamos que usando a suposio 1 da Seo 13.1, podemos escrever as suposies 2 e 3 na forma:

Para encontrar o valor esperado de SQ( | , , ) =

2
E( ijk
) = 2 para todo i, j, k

(13.82)

E( ijk , rst ) = 0, para (i, j, k) (r, s, t)

(13.83)

Usando esses resultados, de acordo com a suposio 1 e as condies marginais em


2

(13.15), ns podemos mostrar que E( y2 ) = a2b2n2 + abn2, como segue:


2

E(

y2 )

= E yijk = E + i + j + ij + ijk
ijk

ijk

= E abn + bn i + an j + n ij + ijk

i
j
ij
ijk


2
2
2
2

= E a b n + 2abn ijk + ijk


ijk

ijk

2
2
= a 2b 2 n 2 + E ijk
+ E ijk rst
ijk

ijk rst

E( y2 ) = a 2b 2 n 2 + abn2

279
Da mesma forma, podemos mostrar que:
a
a

2
2
E yi2 = ab 2 n 2 + b 2 n 2 i + abn2
i =1

i =1

(13.84)

[ver Problema 13.27]. Assim,

a yi2 y2
1
SQ( | , , )

E
= a 1 E bn abn
a 1

i =1
2

b 2 n 2 i i
1 ab 2 n 2
abn 2 a 2 b 2 n 2
abn 2
=
+
+

bn
bn
bn
a 1
bn
bn

1
2
2
(
)
a

+
bn

a 1
i

Os outros valores esperados da Tabela 13.5 podem ser obtidos similarmente (ver Problema 13.28).

13.5.2 Abordagem baseada na Forma Quadrtica

Ns agora obteremos o primeiro valor esperado da Tabela 13.5 usando a abordagem


matricial. Vamos ilustrar com a = 3, b = 2 e n = 2. Por (13.75) temos que:

1
E[SQ( | , , )] = E{(C )[C(XX) C] C }

(13.85)

A matriz C contem funes estimveis e, portanto, por (11.44) e (11.45), ns temos

1
que E(C ) = C e cov(C ) = 2C(XX) C. Se ns definimos G = [C(XX) C] ,
2x2, ento pelo Teorema 5.2A, (13.85) fica:

E[SQ( | , , )] = E[(C )G(C )]


= tr[G cov(C )] + [E(C )] G [E(C )]
1

= tr[G 2 G ] + (C) G (C)

= 22 + C[C(XX) C] C

(13.86)

= 2 + H

(13.87)

onde H = C[C(XX) C] C. Usando C em (13.74) e [C(XX) C] em (13.78), H


igual a:

280
0
0

0
0

1 0
H=
3 0

0
0

0
0

0 0 0

8 4 4 0 0
4
4 2 2 2
4
8 4 0 0 2 2
4
4 2
4 4
0
0

8 0 0 2 2 2 2
0 0 0
0
0
0
0

4
0

0
0
0 0 0
4 2 2 0 0

0
2

0
2

0
1

0
1

0
1

4 2 2 0 0
2
4 2 0 0

2
1

2
1

1
2

1
2

1
1

2
4 2 0 0
2 2
4 0 0

1
1

1
1

2
1

2
1

1
2

2 2

4 0 0

0
2
2

4
0

0
1

1
1

2
2

Que pode ser escrita como:


0 0 0 0 0 0 0 0 0 0 0 0
0 12 0 0 0 0 6 6 0 0 0 0

0 0 12 0 0 0 0 0 6 6 0 0

0 0 0 12 0 0 0 0 0 0 6 6
0 0 0 0 0 0 0 0 0 0 0 0

1 0 0 0 0 0 0 0 0 0 0 0 0
H=
3 0 6 0 0 0 0 3 3 0 0 0 0

0 6 0 0 0 0 3 3 0 0 0 0
0 0 6 0 0 0 0 0 3 3 0 0

0 0 6 0 0 0 0 0 3 3 0 0

0 0 0 6 0 0 0 0 0 0 3 3
0 0 0 6 0 0 0 0 0 0 3 3
0 0 0 0 0 0 0 0
0 4 4 4 0 0 2 2

0 4 4 4 0 0 2 2

0 4 4 4 0 0 2 2
0 0 0 0 0 0 0 0

1 0 0 0 0 0 0 0 0

3 0 2 2 2 0 0 1 1

0 2 2 2 0 0 1 1
0 2 2 2 0 0 1 1

0 2 2 2 0 0 1 1

0 2 2 2 0 0 1 1
0 2 2 2 0 0 1 1

0 0 0 0
2 2 2 2
2 2 2 2

2 2 2 2
0 0 0 0

0 0 0 0
1 1 1 1

1 1 1 1
1 1 1 1

1 1 1 1

1 1 1 1
1 1 1 1

(13.88)

281

0 0' 0' 0'


0 0' 0' 0'

1 0 A11 0 A12 1 0 B11 0 B12


H=

0
0 3 0 0
0
0
3 0 0

0 A 21 0 A 22
0 B 21 0 B 22

(13.89)

onde A11 = 12I3, B11 = 4j3j3, B12 = 2j3j6, B21 = 2j6j3, B22 = j6j6

0'
6 j2 ' 0'

A12 = 0' 6 j2 ' 0' ,


0'
0' 6 j2 '

6 j 2
A21 = 0
0

0
6 j2

0
0
6 j2

0
0
3 j2 j2 '

A22 = 0
3 j2 j2 '
0
0
0
3 j2 j2 '
Se escrevermos em (13.4) na forma:

= [, , 1, 2, ]
onde = [1, 2, 3] e = [11, 12, 21, 22, 31, 32], ento H em (13.87) fica:

H =

1
1
1
1
1
A11 + A12 + A21 + A22 B11
3
3
3
3
3
1
1
1
B12 B21 B22
3
3
3

e como A12 = A21 e B12 = B21, temos que:

H =

1
2
1
1
2
1
A11 + A12 + A22 B11 B12 B22
3
3
3
3
3
3

Se particionarmos = [1, 2, 3], onde i = [i1, i2], ento:

j2 ' 0' 0'


12
=
0' j2 ' 0'
3
0' 0' j2 '

2
A12
3

1
= 4
2
3

j2 ' 1
3
j ' = 4
i i
2 2
i =1
j2 ' 3

Agora, usando A11, A22, B11, B12 e B22 em (13.89), obtemos:


3

H = 4 + 4 i i +
i =1

= 4
i =1

i ' j2 j2 ' i
i =1

4
j3 j3
3

4
1
j3 j6 j6 j6
3
3

i2

+ 4 i i +
i =1

yi2
i =1

4 2 4
1
2
3
3
3

(13.90)

282
Expressando i, e em termos das mdias, (13.90) pode ser escrita na forma:
3

i =1

i =1

H = 4 ( i + i )2 = 4 i

(13.91)

Por uma abordagem alternativa que leva a (13.91), note que desde que E(C )
= C, (13.86) pode ser escrita como:

1
E[SQ( | , , )] = 22 + [E(C )][C(XX) C] [E(C )]

(13.92)

1
Por (13.75), SQ( | , , ) = SQHip = (C )[C(XX) C] C . Assim, por (13.92),
ns podemos obter E[SQ( | , , )] substituindo C em SQ( | , , ) por C e

adicionando 22. Para ilustrar, ns substitumos yi e y por E( yi ) e E( y ) em


3

SQ( | , , ) = 4 i =1 ( y i y ) em (13.69). Primeiro ns encontramos E( yi ):


1
1
E( yi ) = E yijk = E yijk
4 jk
4 jk

1
= E + i + j + ij + ijk
4 jk

( )

4 + 4 i + 2 j + 2 ij

j
j

= + i + + i

1
4

(13.93)

De modo similar:

E( y ) = + + +

(13.94)

Ento,
2

E[SQ( | , , )] = 22 + 4 [E ( yi ) E ( y )]

= 22 + 4 ( + i + + i i )
i

= 2 + 4 ( i i + i )2
2

= 22 + 4 i
i

[por (13.16)]

283

APNDICE
Programa do SAS para clculo das somas de quadrados usando as frmulas das
formas quadrticas correspondentes.
proc iml;
y = {39.02,38.79,35.74,35.41,37.02,36.00,38.96,39.01,35.58,35.52,35.70,36.04};
X = {1 1 0 1 0 0 1 0 0 0 0 0,
1 1 0 1 0 0 1 0 0 0 0 0,
1 1 0 0 1 0 0 1 0 0 0 0,
1 1 0 0 1 0 0 1 0 0 0 0,
1 1 0 0 0 1 0 0 1 0 0 0,
1 1 0 0 0 1 0 0 1 0 0 0,
1 0 1 1 0 0 0 0 0 1 0 0,
1 0 1 1 0 0 0 0 0 1 0 0,
1 0 1 0 1 0 0 0 0 0 1 0,
1 0 1 0 1 0 0 0 0 0 1 0,
1 0 1 0 0 1 0 0 0 0 0 1,
1 0 1 0 0 1 0 0 0 0 0 1};
n = nrow(y);
X0 = X[,1];
XA = X[,2:3];
XB = X[,4:6];
XAB = X[,7:12];
* Clculo da soma de quadrados total - SQTotal;
P = I(n) - J(n,n,1)/n;
SQTotal = t(y)*(P)*y;
glTotal = round(trace(ginv(P)*P));
* Clculo da soma de quadrados de resduos - SQRes;
PR = I(n) - X*ginv(t(X)*X)*t(X);
SQRes = t(y)*(PR)*y;
glRes = round(trace(ginv(PR)*PR));
QMRes = SQRes/glRes;
* Clculo da soma de quadrados da interao - SQAxB;
X1 = X[,1:6];
Beta1 = ginv(t(X1)*X1)*t(X1)*y;
* Beta do modelo com mi, A e B;
SQ1 = t(Beta1)*t(X1)*y;
* Calcula SQ(mi,A,B);
SQmiABAB = t(y)*(X*ginv(t(X)*X)*t(X))*y; * Calcula SQ(mi,A,B,AB);
PAB = X*ginv(t(X)*X)*t(X) - X1*ginv(t(X1)*X1)*t(X1);
SQAB = t(y)*PAB*y;
* Calcula SQ(AB);
glAB = round(trace(ginv(PAB)*PAB));
* Calcula gl da interao AxB;
QMAB = SQAB/glAB;
FAB = QMAB/QMRes;
* Clculo da soma de quadrados do fator A - SQ(A);
PA = XA*ginv(t(XA)*XA)*t(XA) - J(12,12,1)/n;
SQA = t(y)*PA*y;
glA = round(trace(ginv(PA)*PA));
QMA = SQA/glA;
FA = QMA/QMRes;
* Clculo da soma de quadrados do fator B - SQ(B);
PB = XB*ginv(t(XB)*XB)*t(XB) - J(12,12,1)/n;
SQB = t(y)*PB*y;
glB = round(trace(ginv(PB)*PB));
QMB = SQB/glB;
FB = QMB/QMRes;
* Imprime o quadro
print 'Mtodo
'
print 'Tipo
'
print 'Interao'
print 'Resduo '
print 'Total
'

de
''
''
''
''
''

anlise de varincia ANOVA (pg. 252);


SQA glA QMA FA;
SQB glB QMB FB;
SQAB glAB QMAB FAB;
SQRes glRes QMRes;
SQTotal glTotal;

284
Resultando em:
Metodo

SQA
0.114075

GLA
1

SQB
25.900117

Tipo

GLB
QMB
2 12.950058

Interao

SQAB
0.30255

GLAB
2

Resduo

SQRES
0.66195

GLRES
6

SQTOTAL
26.978692

GLTOTAL
11

Total

QMA
FA
0.114075 1.0339905
FB
117.381

QMAB
FAB
0.151275 1.3711761
QMRES
0.110325

Clculo das somas de quadrados, utilizando a abordagem do modelo completo versus


modelo reduzido.
BetaA = ginv(t(XA)*XA)*t(XA)*y;
SQA = t(BetaA)*t(XA)*y - t(y)*(J(12,12,1)/n)*y ;
BetaB = ginv(t(XB)*XB)*t(XB)*y;
SQB = t(BetaB)*t(XB)*y - t(y)*(J(12,12,1)/n)*y ;
BetaAB = ginv(t(XAB)*XAB)*t(XAB)*y;
SQAB = t(BetaAB)*t(XAB)*y - t(y)*(J(12,12,1)/n)*y - SQA - SQB;

Verificando a estimabilidade de algumas funes lineares dos parmetros, utilizando a condio (iii) do Teorema 11.2B (pg. 171).
(1) = 1 2
L1 = {0 1 -1 0 0 0 0 0
ver = t(X)*X*ginv(t(X)*X);
verL1 = L1*ver;
print L1 verL1;

0};

Resultando em:
L1
0

VERL1
0
0.75

-1

-0.75 0

0.25

0.25

0.25

-0.25 -0.25 -0.25

O que indica que a funo = 1 2 no estimvel no modelo (13.1)

285
(2) = 1 2 +
L2 = {0 3 -3 0
verL2 = L2*ver;
print L2 verL2;

1
1
(11 + 12 + 13) (21 + 22 + 23)
3
3
0

-1

-1

-1};

Resultando em:
L2
0
3
VERL2
0
3

-3

-1

-1

-1

-3

-1

-1

-1

O que indica que a funo = 1 2 +

estimvel no modelo (13.1).

1
1
(11 + 12 + 13) (21 + 22 + 23)
3
3

Clculo da soluo do modelo (13.1) admitindo as condies marginais apresentadas na seo 13.3.1a.
T = {0 1 1 0 0 0 0 0 0 0 0 0,
0 0 0 1 1 1 0 0 0 0 0 0,
0 0 0 0 0 0 1 1 1 0 0 0,
0 0 0 0 0 0 0 0 0 1 1 1,
0 0 0 0 0 0 1 0 0 1 0 0,
0 0 0 0 0 0 0 1 0 0 1 0,
0 0 0 0 0 0 0 0 1 0 0 1};
rank_T = round(trace(ginv(T)*T));
W = X//T;
rank_W = round(trace(ginv(W)*W));
yr = y//j(7,1,0);
Beta_r = inv(t(W)*W)*t(W)*yr;

*
*
*
*
*

Resultando em:
BETA_R
36.899167
0.0975
-0.0975
2.0458333
-1.336667
-0.709167
-0.1375
-0.085
0.2225
0.1375
0.085
-0.2225

12 rows

1 col

(numeric)

Determina o posto da matriz T;


Junta as matrizes X e T;
Calcula o posto da matriz W = X//T;
Completa o vetor y com 7 zeros;
Beta sujeito s condies marginais;

286

Verificando a estimabilidade da funo linear = 1 2 admitindo as condies marginais apresentadas na seo 13.3.1a, utilizando a condio (iii) do Teorema 11.2B (pg. 171).
ver = t(W)*W*ginv(t(W)*W);
L1 = {0 1 -1 0 0 0 0 0
verL1 = L1*ver;
print L1 verL1;

0};

Resultando em:
L1
0

-1

VERL1
0
1

-1

Observe que a funo linear = 1 2 passa a ser estimvel no modelo admitindo as condies marginais apresentadas na seo 13.3.1a.

287

CAPTULO 14. ANLISE DE VARINCIA: DADOS DESBALANCEADOS


14.1 INTRODUO
As estruturas experimentais consideradas nos Captulos, 11, 12 e 13 envolveram um mesmo nmero de observaes em cada casela ou combinao de tratamentos. Ns trataremos agora do caso desbalanceado, no qual o nmero de observaes
varia de uma casela para outra.
O modelo superparametrizado ou de posto incompleto admite efeitos principais e interao. Para exemplos de modelos superparametrizados ver (11.2), (11.5),
(12.1) e (13.1). Tais modelos tm servido bem para o caso balanceado, mas certas
tentativas para generalizar o modelo superparametrizado para o caso desbalanceado
tm levado a resultados contraditrios.
Speed, Hocking e Hackney (1978) e Hocking (1996, Captulo 13) resumiram
os mtodos mais comuns de anlise de dados desbalanceados para modelos com dois
fatores, tal como yijk = + i + j + ij + ijk e delinearam as hipteses a serem testadas em cada caso. A hiptese usual de interesse para os efeitos principais que os
nveis de um fator no diferem quando avaliados sobre os nveis do outro fator [ver
comentrios que seguem a (13.64)].
A nica abordagem que testa esta hiptese o mtodo de quadrados mdios
ponderados (weight squares means) [originalmente proposto por Yates (1934); ver
Morrison (1983, pp. 407-412)] e uma modernizao, baseada no modelo de mdias de
caselas. As hipteses testadas por outros mtodos so funes das mdias de caselas
ponderadas pelas freqncias de caselas, nij, que podem no ser naturais, a menos
que os nijs das amostras sejam, de certo modo, uma caracterstica da populao. Os
mtodos seguintes testam hipteses que so enganosas:
o mtodo de mdias no ponderadas (unweighted means) de Searle (1971) e
Winer (1971);
o mtodo de ajuste de constantes de Rao (1965, pp. 211-215), Searle (1971, p.
139) e Snedecor e Cochran (1967) e
o mtodo da varivel dummy ou da regresso.
Modelos para um fator e para dois fatores com dados desbalanceados so cobertos nas Sees 14.2 e 14.3, nas quais usamos o modelo de mdias de caselas para
identificar claramente as hipteses que esto sendo testadas em cada caso.

288
14.2 MODELO COM UM FATOR
O modelo desbalanceado com um fator
yij = + i + ij

(14.1)

= i + ij

(14.2)

i = 1, 2, ..., k, j = 1, 2, ..., ni
i .i . d

Para fazer inferncias, assumimos que os ijs ~ N(0, 2).

14.2.1 Estimao e Teste de Hiptese

Para estimar os is, ns iniciamos escrevendo as N =

i =1 ni observaes para o mok

delo (14.2) na forma:


y = W +

(14.3)

onde
1
M

0
M
W =
0
M

0
M

L 0
M
L 0

L 0
M
,
L 0
M

L 1
M

0 L 1

0
M
0
1
M
1
M
0
M

1

= 2
M

k

O sistema de equaes normais dado por: WW = Wy, onde WW =


diag[n1, n2, ..., nk] e Wy = [ y1 , y2 , ..., yk ], com yi =

j =1 yij . Desde que a


ni

matriz W de posto completo, ns temos, por (7.6) que:


1

onde yi =

j =1 yij
ni

ni .

= (WW) Wy

(14.4)

y1
y
= y = 2
M

yk

(14.5)

289
Para testar H0: 1 = 2 = ... = k, ns comparamos o modelo completo em (14.2)
e (14.3) com o modelo reduzido yij = + ij , onde o valor comum de 1, 2, ..., k
sob H0. (Ns no usaremos a notao no modelo reduzido porque no existe o
parmetro no modelo completo yij = i + ij).
Na forma matricial, as N observaes no modelo reduzido podem ser escritas
como y = j + , onde j Nx1 e N =

i =1 ni . Para o modelo completo, ns temos


k

que SQ(1, 2,..., k) = Wy e para o modelo reduzido, SQ() = jy = N y2 ,


onde y = ij yij N . A diferena SQ(1, 2,..., k) SQ() igual soma de
quadrados de regresso SQReg em (8.6), que denotamos por SQEntre [soma de quadrados entre (between) grupos]:
SQEntre = Wy jy =

yi yi

N y2

(14.6)

i =1

yi2
y2
=

N
i =1 ni
k

(14.7)

onde y = ij yij e y = ij yij N . De (14.7), ns vemos que SQEntre tem (k 1)


graus de liberdade. A soma de quadrados de resduos dada por (7.24) como:
ni

SQRes = yy Wy =

yij2

i =1 j =1

yi2

i =1 ni
k

(14.8)

que tem N k graus de liberdade. Essas somas de quadrados esto sumarizadas na


Tabela 14.1.
Tabela 14.1 ANOVA do modelo desbalanceado com um fator
Fonte de Variao

Somas de quadrados

g.l.

Entre

yi2
y2
SQEntre =

N
i =1 ni

Resduo

SQRes =

ni

yij2
i =1 j =1
k

Total

SQTotal =

ni

yi2
n
i =1 i

Nk

y2
N

N1

yij2
i =1 j =1

k1

290
As somas de quadrados SQEntre e SQRes da Tabela 14.1 tambm podem ser
escritas na forma:
k

ni ( yi y )2

SQEntre =

(14.9)

i =1
k

SQRes =

ni

(yij yi )2

(14.10)

i =1 j =1
i .i . d

Se assumirmos que yij ~ N(i, 2), ento pelo Teorema 8.1D, uma estatstica para
testar H0: 1 = 2 = ... = k dada por:
F=

SQEntre (k 1)
SQRes (N k )

(14.11)

que tem distribuio F(k 1, N k), se H0 verdadeira.


Exemplo 14.2.1. Os resultados de cinco mquinas de enchimento (filling machines) so apresentados na Tabela 14.2 (Ostle & Mensing, 1975, p.359). A anlise
de varincia mostrada na Tabela 14.3. A estatstica F calculada por (14.11). No
existem diferenas significantes (p = 0.176) entre as mdias ponderadas de peso lquido de latas enchidas pelas cinco mquinas.
Tabela 14.2. Peso lquido de latas enchidas por cinco mquinas (A-E)
A

11.95
12.00
12.25
12.10

12.18
12.11

12.16
12.15
12.08

12.25
12.30
12.10

12.10
12.04
12.02
12.02

Tabela 14.3. Anlise de varincia para os dados de peso lquido na Tabela 14.2.
Fonte

g.l.

SQ

QM

Entre

0.05943

0.01486

Resduo

11

0.08472

0.00770

Total

15

0.14414

1.9291

p-valor
0.176

291
14.2.2 Contrastes

Um contraste nas mdias populacionais definido com = c11 + c22 + ... + ckk,
onde

i=1 ci = 0. O contraste pode ser expresso como = c, onde c = [c1, c2, ..., ck]
k

e = [1, 2, ..., k].


c2 y 2

O melhor estimador no viesado (BLUE) de dado por = c = c1 y1 +


+ ... + ck y [ver (14.5) e o Corolrio 1 do Teorema 7.3D]. Por (3.40), var( )
k

= c(WW) c = 2 i =1 ci2 ni , porque WW = diag(n1, n2, ..., nk). Por (8.38), a es1

tatstica F para testar H0: = 0

(c' )' [c' (W' W )1 c] (c' )


1

F=

s2

(
F=

) (

k
cy 2
i =1 i i

s2

k
c2
i =1 i

ni

(14.12)

(14.13)

onde s2 = SQRes/(N k) com SQRes dado por (13.48) ou (14.10). Ns nos referimos
ao numerador de (14.13) com a soma de quadrados do contraste.
Se H0 verdadeira, a estatstica F em (14.12) ou (14.13) tem distribuio F(1;
N k), e ns rejeitamos H0: = 0 se F F(1; N k), ou se p , onde p o p-valor e
, o nvel de significncia do teste.
k
k
J sabemos que dois contrastes = i =1 ai yi e = i =1 bi yi so ditos ortogo-

nais se

i=1 ai bi = 0. Entretanto, no caso de dados desbalanceados, dois contrastes


k

ortogonais deste tipo no so independentes.


i .i . d

Teorema 14.2A Se yij ~ N(i, 2) no modelo desbalanceado (14.2), ento dois


k
k
contrastes = i =1 ai yi e = i =1 bi yi so independentes se e somente se

i=1 ai bi
k

ni = 0.

Prova: Vamos expressar os dois contrastes na notao vetorial = a y e = b y ,


onde y = [ y1 , y 2 , ..., y k ]. Por (7.14):
0 L 0
1 n1
0 1n L 0
2

1
2
2
2
cov( y ) = (WW) = M
M
M = D

0 L 1 nk
0

292
Por (3.41), temos que:

cov( , ) = cov(a y , b y ) = acov( y )b = 2aDb


k

ai bi
i =1 ni

= 2

(14.14)

Pelo Teorema 4.4C, e so independentes se e somente se

i=1 ai bi
k

Ns nos referimos aos contrastes cujos coeficientes satisfazem

ni = 0.

i=1 ai bi
k

ni = 0

como contrastes ortogonais ponderados. Se definirmos (k 1) contrastes deste tipo,


eles particionaro a soma de quadrados de tratamentos, SQEntre, em (k 1) somas de
quadrados independentes, cada uma com um grau de liberdade. Os contrastes ortogo-

nais no ponderados que satisfazem somente

i=1 ai bi = 0 no so independentes
k

(ver Teorema 14.2A) e eles no recompem a soma de quadrados de tratamentos


(como j foi provado para o caso de dados balanceado; ver Teorema 12.6A).
Na prtica, os contrastes ortogonais ponderados so de menor interesse que os
contrastes ortogonais no ponderados, porque ns podemos no desejar escolher os
ais e bis baseados nos nis das amostras. Esses nis raramente refletem caractersticas
populacionais que desejamos levar em conta. Entretanto, no necessrio que as somas de quadrados sejam independentes para procedermos com os testes. Se usarmos
contrastes ortogonais no ponderados com

i=1 ai bi = 0, o teste da hiptese linear


k

geral baseado em (14.12) ou (14.13) testa cada contraste ajustado para os outros contrastes (ver Teorema 8.4D).

Exemplo 14.2.2A Suponha que desejamos comparar as mdias dos trs tratamentos
e que os coeficientes dos contrastes ortogonais = a e = b so dados por a =
[2, 1, 1] e b = [0, 1, 1] com as hipteses correspondentes:

H01: 1 =

2 + 3

e
H02: 2 = 3
2
Se os tamanhos amostrais dos trs tratamentos forem, por exemplo, n1 = 10, n2 = 20 e
n3 = 5, os dois contrastes estimados:

= 2 y1 y 2 y3

= y 2 y3

no so independentes e as correspondentes somas de quadrados no recompem a


soma de quadrados de tratamento, ou seja, SQ( ) + SQ( ) SQEntre.

293
Os dois vetores seguintes fornecem um exemplo de contrastes cujos coeficientes satisfazem a condio

i=1 ai bi
k

ni = 0, para n1 = 10, n2 = 20 e n3 = 5:

a = [25, 20, 5]

b = [0, 1, 1]

(14.15)

Entretanto, a leva comparao

H03: 251 = 202 + 53 ou H03: 1 =


que no igual hiptese H01: 1 =

4
1
2 + 3
5
5

1
1
2 + 3, na qual estvamos inicialmente inte2
2

ressados.
Exemplo 14.2.2(b). Ilustraremos tanto o uso de contrastes ortogonais ponderados
quanto no ponderados, usando os dados da Tabela 14.2. Suponha que desejamos
fazer as seguintes comparaes entre as cinco mquinas: A, D versus B, C, E; B, E
versus C; A versus D; e B versus E. Os coeficientes dos contrastes ortogonais (no
ponderados) que proporcionam essas comparaes so apresentados a seguir.

As somas de quadrados para esses quatro contrastes e as estatsticas F [ver


(14.13)] so apresentadas na Tabela 14.4.
Figura 14.1 Contrastes ortogonais para os testes do Exemplo 14.2.2(b)

3 2 2
0
1 2
1
0
0
0
1
0

3 2
0
1
1
0

0 1

Tabela 14.4 Somas de quadrados e valores F para os contrastes para os dados


da Tabela 14.2.
Contraste

A, D vs. B, C, E
B, E vs. C
A vs. D
B vs. E

g.l.

SQ

p-valor

1
1
1
1

0.00576
0.00235
0.03440
0.01333

0.75
0.31
4.47
1.73

0.406
0.592
0.058
0.215

Como os contrastes so no ponderados, as somas de quadrados correspondentes no


recompem a SQEntre, apresentada na Tabela 14.3, ou seja
0.00576 + 0.00235 + 0.03440 + 0.01333 = 0.05584 0.05943 = SQEntre

294
Nenhum dos p-valores menor que = 0.05, de tal forma que no rejeitamos
qualquer uma das hipteses H0: i ci i = 0 associadas aos quatro contrastes definidos anteriormente. De fato, o p-valor deveria ser menor que 0.05/4 = 0.0125 (ver a
abordagem de Bonferroni na Seo 8.5.2) para que o contraste correspondente fosse
considerado significativo, desde que o teste geral na Tabela 14.3 no rejeita H0: 1 =
2 = ... = 5.
Como um exemplo de dois contrastes ortogonais ponderados que satisfazem

k
ab
i =1 i i

ni = 0, ns mantemos o primeiro contraste e trocamos o segundo contraste

por [0, 2, 6, 0, 4]. Ento, para esses dois contrastes, ns temos:

ai bi
3(0 ) 2(2 ) 2( 6 ) 3(0 ) 2(4 )

+
=0
4
2
3
4
3
i =1 ni
k

As somas de quadrados e os valores F [usando (14.13)] correspondentes aos dois


contrastes so os seguintes:
Contraste

A, D vs. B, C, E
B, E vs. C

g.l.

SQ

p-valor

1
1

0.005763
0.005339

0.75
0.69

0.406
0.423

14.3 MODELO COM DOIS FATORES (two way)

O modelo desbalanceado com dois fatores dado por

yijk = + i + j + ij + ijk,

(14.16)

= ij + ijk

i = 1, 2, ..., a,

j = 1, 2, ..., b,

(14.17)

k = 1, 2, ..., nij

i .i . d

Consideramos que ijks ~ N(i, 2) e somente os casos nos quais nij > 0. Para a anlise do modelo com dois fatores e caselas vazias, ver Bryce, Scott & Carter (1980),
Searle (1987, Captulo 5) e Hocking, (1996, Sees 13.2 e 13.4), dentre outros.
Como j foi comentado na Seo 14.1, a anlise do modelo superparametrizado
(14.16) pode resultar em inconsistncias. Por outro lado, a anlise do modelo de medias de caselas (14.17) fornece uma abordagem simples e sem ambigidade para testar hipteses. Esta abordagem para analisar dados desbalanceados foi primeiramente
proposta por Yates (1934), mas a partir dos anos 50 ela tem sido largamente suplantada pelo modelo superparametrizado. Um retorno ao modelo de mdias de caselas tem
sido defendido por Speed (1969), Urquhart, Weeks & Henderson (1973), Nelder
(1974), Hocking & Speed (1975), Bryce (1975), Bryce, Carter & Reader (1976),
Searle (1977), Speed, Hocking & Hackney (1978) e Hocking (1985, 1996) dentre

295
outros. Turner (1990) discutiu a relao entre (14.16) e (14.17). O desenvolvimento
do assunto neste livro segue Bryce, Scott & Carter (1980) e Hocking (1985, 1996).
14.3.1 Modelo Incondicional

Primeiramente ns consideramos o modelo incondicional no qual as ijs so irrestritas. Para acomodar um modelo sem interao, por exemplo, ns devemos impor condies sobre as ijs. O modelo restrito discutido na Seo 14.3.2.
B

n11 = 2
n21 = 1

n12 = 1
n22 = 3

n13 = 2
n23 = 2

A
1
2

Figura 14.1 Nmeros de repeties por casela na ilustrao com


dados desbalanceados

Para ilustrar o modelo de mdias de caselas (14.17), ns usamos a = 2, b = 3


com nmeros de repeties por casela, nij, informados na Figura 14.1. Este exemplo
com N = ij nij = 11 servir de referncia na presente sesso e na Seo 14.3.2.
Para cada uma das 11 observaes da Figura 14.1, o modelo yijk = ij + ijk pode
ser escrito como:

y111 = 11 + 111
y112 = 11 + 112
y121 = 12 + 121

M
y231 = 23 + 231
y232 = 23 + 232
que na forma matricial
y = W +

(14.18)

fica
y111
y
112
y121

=
M

y231

y232

1
1

M
0

0
0
1
M
0
0

0
0
0
M
0
0

0
0
0
M
0
0

0
0
0
M
0
0

0
0
0

M
1

11 111

12 112
13 121

+
21 M
22 231


23 232

296
Cada linha de W contem um nico 1 que corresponde ao apropriado ij em . Por
exemplo, a quarta linha d y131 = [0 0 1 0 0 0] + 131. Nesta ilustrao, y e so
11x1 e W 11x6. No caso geral, y e so Nx1 e W N x ab, onde N = ij nij .
Como W de posto completo, ns podemos usar os resultados dos Captulos 7
e 8. A anlise bastante simplificada porque WW = diag(n11, n12, n13, n21, n22, n23).
Por (7.6), o estimador de mnimos quadrados de dado por:
1

= (WW) Wy = y

(14.19)

onde y = [ y11 , y12 , y13 , y21 , y22 , y23 ] contem as mdias amostrais das caselas,
yij = k yijk nij . Por (7.14), a matriz de covarincias de :
1

cov( ) = 2(WW) = 2 diag(1/n11, 1/n12, 1/n13, 1/n21, 1/n22, 1/n23)

(14.20)

Para o caso geral, um estimador no viesado de 2 [ver (7.23)] dado por:


s2 =

onde res =

SQRes

res

(y W )' (y W )
N ab

(14.21)

i =1 j =1 (nij 1) = N ab, com N = ij nij . Na nossa ilustrao, com a


a

= 2 e b = 3, ns temos N ab = 11 (2)(3) = 5.
Duas formas alternativas [ver (7.26) e (13.48)] de SQRes so:
1

SQRes = y[I W(WW) W]y


a

SQRes =

(14.22)

b nij

(yijk yij )2

(14.23)

i =1 j =1 k =1

Usando (14.23), podemos expressar s2 como o estimador ponderado:

i =1 j =1 (nij 1)sij2
a

s2 =

N ab

(14.24)

onde sij2 o estimador da varincia na (ij)-sima casela, que pode ser expressa por:
sij2

2
(
yijk yij )
=
(nij 1)

nij
k =1

O modelo superparametrizado (14.16) inclui parmetros representando efeitos


principais e interaes, mas o modelo de mdias de caselas (14.17) no tem tais parmetros. Para realizar testes no modelo de mdias de caselas, ns usamos contrastes
para expressar os efeitos principais e as interaes como funes das ijs em . Vamos iniciar com o efeito principal do fator A.

297
No vetor = [11, 12, 13, 21, 22, 23] os trs primeiros elementos correspondem ao primeiro nvel de A e os trs ltimos, ao segundo nvel, como visto na
Figura 14.2. Assim, para o efeito principal de A, ns comparamos a mdia de 11, 12
e 13 com a mdia de 21, 22 e 23. A diferena entre essas mdias pode ser convenientemente expressa como o contraste:
a' = 11 + 12 + 13 21 22 23

= [1, 1, 1, 1, 1, 1]

Para comparar os dois nveis de A, ns testamos a hiptese H0: a = 0, que pode ser
escrita como H0: (11 21) + (12 22) + (13 23) = 0. Nesta forma, H0 estabelece
que o efeito de A, somado sobre todos os nveis de B, zero. Isso corresponde definio usual de efeito principal na presena de interao [ver comentrios em (13.62)].
B
A
1
2

11
21

12
22

13
23

Figura 14.2. Mdias de caselas correspondendo Figura 14.1.

O fator B tem trs nveis correspondendo s trs colunas da Figura 14.2. Na


comparao de trs nveis, existem dois graus de liberdade, que requerero dois contrastes. Suponha que desejamos comparar o primeiro nvel de B com os outros dois
nveis e ento comparar o segundo nvel de B com o terceiro. Para fazer isso, ns
comparamos a mdia das duas mdias da primeira coluna da Figura 14.2 com a mdia
das mdias na segunda e terceira colunas, e similarmente comparamos a segunda e
terceira colunas. Ns podemos fazer essas comparaes usando H0: b1 = 0 e b2 =
0, onde b1 e b2 so os seguintes contrastes ortognais:
b1 = 2(11 + 21) (12 + 22) (13 + 23)

(14.25)

= (211 12 13) + (221 22 23)


= [2, 1, 1, 2, 1, 1]

b2 = (12 + 22) (13 + 23)

(14.25)

= (12 13) + (22 23)


= [0, 1, 1, 0, 1, 1]

Podemos combinar b1 e b2 na matriz


b ' 2 1 1
B= 1 =
1 1
b 2 ' 0

2 1 1
0
1 1

(14.27)

298
E a hiptese fica H0: B = 0, que, por (14.25) e (14.26), equivalente a
H0: (11 + 21) = (12 + 22) = (13 + 23)

(14.28)

(ver Problema 14.9). Nesta forma, H0 estabelece que os trs nveis de B no diferem
quando somados sobre todos os dois nveis de A (a mesma definio que ns tivemos
no caso balanceado). Note que existem outros contrastes ortogonais ou linearmente
independentes alm de b1 e b2, que levariam a (14.28) e mesma estatstica F definida em (14.33).
Por analogia a (13.30), a hiptese de interao pode ser escrita como:
H0: (11 21) = (12 22) = (13 23)

que uma comparao dos efeitos de A entre os nveis de B. Se esses efeitos de A


diferirem, ns temos uma interao. Ns podemos expressar as duas igualdades em
H0 em termos de contrastes ortogonais anlogos queles em (14.25) e (14.26):
c1 = 2(11 21) (12 22) (13 23) = 0
c2 = (12 22) (13 23) = 0

Assim H0 pode ser escrito como H0: C = 0, onde:


c ' 2
C= 1 =
c 2 ' 0

1
1

1 2
0
1

1
1

1
1

Note que c1 pode ser obtido tomando produtos dos elementos correspondentes de a e
b1, e que c2 pode ser obtido similarmente de a e b2, onde a, b1 e b2 so os coeficientes
dos vetores em a, b1 e b2. Assim,
c1 = [ (1)(2), (1)(1), (1)(1), (1)(2), (1)(1), (1)(1)]

= [2, 1, 1, 2, 1, 1]
c2 = [(1)(0), (1)(1), (1)(1), (1)(0), (1)(1), (1)(1)]

= [0, 1, 1, 0, 1, 1]
Esta multiplicao de dois vetores, elemento-a-elemento, chamada de produto de
Haddamard. Neste caso, ele produz contrastes de interao que so ortogonais a cada
outro e aos contrastes de efeitos principais.
Agora ns construiremos testes para uma hiptese linear geral H0: a = 0, H0:
B = 0 e H0: C = 0, para os efeitos principais e interao. A hiptese H0: a = 0
para o efeito principal de A facilmente testada usando uma estatstica-F similar a
(8.38) ou (14.12):

(a' )' [a' (W' W )1 a] (a' ) =


1

F=

s2

SQA
SQRes res

(14.29)

299
2

Onde s dado por (14.21) e res = N ab. Se H0 verdadeira, F ~ F(1, N ab). Essa
estatstica (14.29) pode ser escrita como:
F=

(a' )2
1
s 2 a' (W' W ) a

(
F=

(14.30)

2
a y
ij ij ij
s 2 ij aij2 nij

(14.31)

que anlogo a (14.13). Desde que t2(res) = F(1, res) [ver Problema 5.12], uma estatstica-t para testar H0: a = 0 dada pela raiz quadrada de (14.30),
t=

a'
1

s a' (W' W ) a

a' 0
va r (a' )

(14.32)

que distribuda como t(N ab) quando H0 verdadeira. Note que o teste baseado
em (14.29) ou em (14.32) um teste do tipo modelo completo versus modelo reduzido (ver Teorema 8.4D) e, portanto, o teste para A ajustado para o fator B e a interao.
Pelo Teorema 8.4B, uma estatstica de teste para o efeito principal do fator B,
H0: B
= 0, dado por:

(B ) ' [B(W' W )1 B'] (B ) B


1

F=

SQRes Res

SQB B
SQRes Res

(14.33)

onde Res = N ab e B o nmero de linhas de B. (Em nossa ilustrao, Res = 5 e B


= 2.). Quando H0 verdadeira, F em (14.33) tem distribuio F(B,Res).
Uma estatstica de teste para a hiptese de interao H0: C
= 0 obtida similarmente:

(C ) ' [C(W' W )1 C'] (C ) AB


1

F=

SQRes Res

SQC AB
SQRes Res

(14.34)

que distribuda como F(AB, Res), onde AB, o nmero de graus de liberdade para a
interao, corresponde ao nmero de linhas de C. (Em nossa ilustrao, AB = 2.)
Pelo fato dos nijs no serem iguais, as trs somas de quadrados SQA, SQB e
SQAB no totalizam a SQTrat, isto , SQA + SQB + SQAB SQTrat, e no so estatisticamente independentes, como no caso balanceado [ver (13.40) e Teorema 13.4B].
Cada soma de quadrados, SQA, SQB e SQAB, ajustada para os outros efeitos. Para
comentrios sobre o teste de efeitos principais na presena de interao, veja o pargrafo que precede (13.65) na Seo 13.4.2a.

300

Exemplo 14.3.1. A Tabela 14.5 contem porcentagens de gordura (dressing) de sunos


em um esquema fatorial (Snedecor & Cochran, 1967, p.480). Seja A o fator sexo e B
o fator linhagem.
Ns arranjamos os elementos do vetor para corresponder a uma linha da Tabela 14.5, isto :
= [11, 12, 21, 22, 31, 32, 41, 42, 51, 52]
onde o primeiro ndice representa a linhagem e o segundo ndice, o sexo.

Tabela 14.5. Porcentagens de gordura de 75 sunos classificados por


Linhagem e Sexo
Linhagem 1

Linhagem 2

Linhagem 3

Linhagem 4

Linhagem 5

Macho
13.3
12.6
11.5
15.4
12.7
15.7
13.2
15.0
14.3
16.5
15.0
13.7

Fmea Macho Fmea Macho Fmea Macho Fmea Macho Fmea


18.2
10.9
14.3
13.6
12.9
11.6
13.8
10.3
12.8
11.3
3.3
15.3
13.1
14.4
13.2
14.4
10.3
8.4
14.2
10.5
11.8
4.1
12.6
4.9
10.1
10.6
15.9
11.6
11.0
10.8
15.2
6.9
13.9
12.9
15.4
10.9
14.7
13.2
10.0
15.1
14.4
10.5
12.4
11.0
11.6
12.9
12.2
14.4
12.5
13.3
7.5
13.0
12.9
10.8
7.6
9.9
10.5
12.9
14.5
10.9
13.0
15.9
12.8
n11 = 12 n12 = 6 n21 =16 n22 = 11 n31 = 4 n32 = 2 n41 = 6 n42 = 3 n51 = 10 n52 = 5

O vetor 10x1, a matriz W 75x10, o vetor a 10x1 e as matrizes B e C so


4x10. A seguir ns mostramos a, B e C:

a =

B=

1 1

1 1

1 1

1 1

1 1]

3 2 2 2 2 2 2
1
0
0
0
0
0
0
0
1
1 2 2
1
1

0
1
1
0
0 1 1

301

C=

3 3

3 3 2

2 2

2 2

1 2

2
0
1

Note que outros conjuntos de contrastes ortogonais podem ser usados em B e o


valor de FB correspondente seria o mesmo. Por (14.19), ns obtemos:

= y = [14.08, 14.60, 11.75, 12.06, 10.40, 13.65, 13.28, 11.03, 11.01, 11.14]
Por (14.22) ou (14.23), ns obtemos SQRes = 425.08895, com Res= 65. Usando
(14.29), (14.33) e (14.34), ns obtemos:

FA = 0.30337,

FB = 3.47318,

FC = 0.95095

As somas de quadrados que levaram a esses Fs so apresentados na Tabela


14.6. Note que as somas de quadrados de A, B, AB e Resduo no totalizam a soma de
quadrados total porque os dados so desbalanceados.

Tabela 14.6 Anlise de varincia para os dados de sunos da Tabela 14.5


Fonte
A (sexo)
B (linhagem)
AB
Resduo
Total

g.l.
1
4
4
65
74

SQ
1.984
90.856
24.876
425.089
552.095

QM
1.984
22.714
6.219
6.540

F
0.303
3.473
0.951

p-valor
0.5840
0.0124
0.4400

Obs: Essas SQs correspondem s somas de quadrados dos tipos III e IV do SAS.

14.3.2 Modelo Condicional


Para permitir interaes sem observaes ou outras restries, devemos adicionar condies sobre as ijs no modelo de mdias de caselas (14.17) ou (14.18). Por
exemplo, o modelo:
yijk = ij + ijk
no pode representar o modelo sem interao

yijk = + i + j + ijk
a menos que especifiquemos algumas relaes sobre as ijs.

(14.35)

302
Em nossa ilustrao 2 x 3 na Seo 14.3.1, os dois contrastes para a interao
so expressos como:

2
C =
0

1 2
1

1
1

Se ns desejarmos usar um modelo sem interao, ento C no uma hiptese a ser testada, mas uma suposio a ser includa quando estabelecemos o modelo.
Em geral, para condies G = 0, o modelo pode ser expresso como:

y = W + sujeito a G = 0

(14.36)

Ns consideramos estimao e testes de hipteses neste modelo condicional. [Para o


caso G = h, onde h 0, ver Bryce, Scott & Carter (1980).]
Para incorporar as condies G = 0 ao modelo y = W + , ns usamos a matriz

K
A=
G

(14.37)

onde K est associada com hipteses a serem testadas no modelo condicional. Para o
modelo sem interao (14.35), por exemplo, G = C; a primeira linha de K corresponderia a um teste da mdia geral, H0: = 0; a segunda linha o vetor a que corresponde ao efeito de A e as terceira e quarta linhas compem a matriz B que representa o efeito de B. Assim, ns temos:

K=

1
j
1 1 1 1 1 1
= a'
2 1 1 2 1 1
B
0
1 1 0
1 1
1

2
G=C=
0

1
1

1 2
1

1
1

1
1

Se as linhas de G so ortogonais s linhas de K, ento a matriz A em (14.37)


de posto completo e tem inversa nica. Isso verdade no nosso exemplo, no qual ns
1
temos G = C. Ns tambm podemos inserir A A em (14.36) para obter:
1

y = WA A + , sujeito a G = 0
= Z + , sujeito a G = 0,
1

onde Z = WA e = A.

(14.38)

303
No modelo balanceado com dois fatores, ns obtemos o modelo sem interao
admitindo simplesmente que ij = 0 em yijk = + i + j + ij + ijk [ver (13.37)
e (13.38)]. Para incorporar a condio G = 0 diretamente no modelo no caso desbalanceado, ns particionamos em:
K
K 1
= A = =
=
G
G

2
Com uma correspondente partio das colunas de Z, o modelo pode ser escrito como:


y = Z + = [Z1 Z2] 1 +
2

= Z11 + Z22 + , sujeito a G = 0

(14.39)

Desde que 2 = G, a condio G = 0 fornece 2 = 0 e o modelo condicional em


(14.39) simplifica-se para:
y = Z11 +
(14.40)
Um estimador de 1 [ver (7.6)] dado por:
1
1 = (Z1Z1) Z1y

Para obter uma expresso para sujeito s condies, ns multiplicamos:


A = 1 = 1
2 0
por
1

A = [K(KK) , G(GG) ]

(14.41)

(ver Problema 14.13) e denotamos o resultado por c:


1

c = K(KK) 1
Ns estimamos c por:
1
1
1
c = K(KK) 1 = K(KK) (Z1Z1) Z1y

(14.42)

que tem matriz de covarincias


1

cov( c ) = 2 K(KK) (Z1Z1) (KK) K

(14.43)

Para o teste do fator B no modelo condicional, a hiptese H0: Bc = 0. A matriz de covarincias de B c obtida de (3.42) e (14.43)como:
1

cov(B c ) = 2 BK(KK) (Z1Z1) (KK) KB

304
Ento, pelo Teorema 8.4B, a estatstica para o teste H0: Bc = 0 no modelo condicional dada por:

(B c )' [BK' (KK')1 (Z1 ' Z1 )1 (KK')1 KB'] (B c ) v B


1

F=

SQResc Resc

(14.44)

onde SQResc (sujeito a G = 0) obtida usando c [de (14.42)] em (14.21). [No nosso exemplo, onde G = C para a interao, SQResc efetivamente faz uma ponderao
de SQRes e SQAB no modelo incondicional (Bryce, 1998).] O nmero de graus de liberdade v Resc = Res + posto(G), onde Res = N ab, para o modelo incondicional,
como definido em (14.21). [Em nosso exemplo, posto(G) = 2, pois existem dois graus
de liberdade para SQAB.] Ns rejeitamos H0: Bc = 0 se F > F(, B , v Resc ), onde

F() o percentil superior de ordem da distribuio F central.


Para testar H0: ac = 0, ns usamos a estatstica:

(a' c )' [a' K' (KK')1 (Z1 ' Z1 )1 (KK')1 Ka] (a' c )
1

F=

(14.45)

SQResc Resc

que tem distribuio F(1, v Resc ) se H0 verdadeira.

Exemplo 14.3.2 Para os dados de sunos da Tabela 14.6, ns testamos para os fatores
A e B no modelo sem interao, onde A o fator sexo e B o fator linhagem. A matriz G a mesma que C no Exemplo 14.3.1. Para a matriz K ns temos:

j '

K = a' =
B

1
3
1
0
0

3
1
0
0

1
0
0

1
1 1
1 1
1
3 2 2 2 2 2
1
0
0
0
0
0
0
1
1 2 2
1
0
1
1
0
0 1

1
1
2

0
1

Por (14.42), ns obtemos:

c = [14.16, 14.42, 11.77, 12.03, 11.40, 11.65, 12.45, 12.70, 10.97, 11.22]
Para SQResc usamos c no lugar de em (14.21) para obter SQResc = 449.96508.
Para v Resc , ns temos

v Resc = Res + posto(G) = 65 + 4 = 69.

305
Ento por (14.44), ns obtemos FBc = 3.8880. As somas de quadrados que levam a
FBc e FAc so apresentadas na Tabela 14.7.

Tabela 14.7 Anlise de varincia para o modelo condicional


Fonte
A (sexo)
B (linhagem)
Resduo
Total

g.l.
1
4
69
74

SQ
1.132
101.418
449.965
552.095

QM
1.132
25.355
6.521

F
0.17
3.89

p-valor
0.6780
0.0066

Obs: Neste caso (modelo com dois fatores e sem interao) as SQs de A e B correspondem s somas de quadrados dos tipos II, III e IV do SAS.

306

APNDICE
1) Programa para resolver o Exemplo 14.2.1 utilizando o proc iml.
options nodate nocenter ps=1000;
proc iml;
reset fuzz;
y = {11.95,12.00,12.25,12.10,12.18,12.11,12.16,12.15,
12.08,12.25,12.30,12.10,12.10,12.04,12.02,12.02};
Trat = {1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,5};
W = design(Trat);
* W do modelo de mdias de caselas;
k = ncol(W);
* Nmero de tratamentos;
N = nrow(W);
* Nmero total de repeties;
Jnn = J(N,N,1);
In = I(N);
SQTotal = t(y)*(In-Jnn/N)*y;
gl_total = N-1;
mi = inv(t(W)*W)*t(W)*y;
SQcompleto = t(mi)*t(W)*y;

* SQ do modelo completo: yij = mi(i) + eij;

jn = J(N,1,1);
mir = inv(t(jn)*jn)*t(jn)*y;
SQreduzido = t(mir)*t(jn)*y; * SQ do modelo reduzido: yij = mi + eij;
SQEntre = SQCompleto - SQreduzido;
gl_entre = k-1;
QMEntre = SQEntre/gl_entre;
SQRes = t(y)*y - t(mi)*t(W)*y;
gl_res = N-K;
QMRes = SQRes/gl_res;
Fcalc = QMEntre/QMRes;
p_valor = 1 - cdf('F', Fcalc,gl_entre, gl_res);
print 'Ho: m1=m2=m3=m4=m5'
'Resduo
'
'Total
'

gl_entre SQEntre QMEntre Fcalc p_valor,


gl_res
SQRes
QMRes,
gl_total SQTotal;

* Contrastes ortogonais do tipo t(ai)*mi;


a1 = {3,-2,-2, 3,-2};
a2 = {0, 1,-2, 0, 1};
a3 = {1, 0, 0,-1, 0};
a4 = {0, 1, 0, 0,-1};
SQA1 = t(t(a1)*mi)*inv(t(a1)*inv(t(W)*W)*a1)*t(a1)*mi;
F_A1 = SQA1/QMRes;
p_valor_A1 = 1 - cdf('F', F_A1,1, gl_res);
SQa2 = t(t(a2)*mi)*inv(t(a2)*inv(t(W)*W)*a2)*t(a2)*mi;
F_a2 = SQa2/QMRes;
p_valor_a2 = 1 - cdf('F', F_a2,1, gl_res);
SQa3 = t(t(a3)*mi)*inv(t(a3)*inv(t(W)*W)*a3)*t(a3)*mi;
F_a3 = SQa3/QMRes;
p_valor_a3 = 1 - cdf('F', F_a3,1, gl_res);
SQA4 = t(t(A4)*mi)*inv(t(A4)*inv(t(W)*W)*A4)*t(A4)*mi;
F_A4 = SQA4/QMRes;
p_valor_A4 = 1 - cdf('F', F_A4,1, gl_res);

307
print 'A,D vs. B,C,E' SQA1 F_A1 p_valor_A1,
'B,E vs. C
' SQA2 F_A2 p_valor_A2,
'A vs. D
' SQA3 F_A3 p_valor_A3,
'B vs. E
' SQA4 F_A4 p_valor_A4;
SQContrastes = SQA1 + SQA2 + SQA3 + SQA4;
print ,, SQContrastes SQEntre ,, 'As SQs so diferentes porque os contrastes no
so independentes';

Resultando em:
ANOVA do Exemplo 14.2.1 (one(one-way desbalanceado)
desbalanceado)

Ho: m1=m2=m3=m4=m5

Resduo

Total

GL_ENTRE
SQENTRE
QMENTRE
FCALC
P_VALOR
4 0.0594271 0.0148568 1.9290712 0.1756589
GL_RES
SQRES
QMRES
11 0.0847167 0.0077015
GL_TOTAL
SQTOTAL
15 0.1441438

Teste de hipteses de contrastes ortogonais no ponderados


SQA1
F_A1 P_VALOR_A1
A,D vs. B,C,E 0.0057626 0.7482435 0.4055025

B,E vs. C

SQA2
F_A2 P_VALOR_A2
P_VALOR_A2
0.002352 0.3053945 0.5915726

A vs. D

SQA3
F_A3 P_VALOR_A3
0.0344048 4.4672719 0.0582133

B vs. E

SQA4
F_A4 P_VALOR_A4
0.0133333 1.7312611 0.2150124

SQCONTRASTES
SQENTRE
SQENTRE
0.0558527 0.0594271

OBS: Essas SQs so diferentes porque os contrastes no so independentes

308

2) Programa para resolver o Exemplo 14.2.1 utilizando o proc glm.


data Ex14_2_1;
input Maquina$ y @@;
cards;
A 11.95
A 12.00
A 12.25
A
B 12.18
B 12.11
C 12.16
C
C 12.08
D 12.25
D 12.30
D
E 12.10
E 12.04
E 12.02
E
;
proc glm;
class Maquina;
model y = Maquina / ss3;
contrast 'A,D vs. B,C,E' Maquina
contrast 'B, E vs. C
' Maquina
contrast 'A vs. D
' Maquina
contrast 'B vs. E
' Maquina
run;

12.10
12.15
12.10
12.02

3 -2 -2 3 -2;
0 1 -2 0 1;
1 0 0 -1 0;
0 1 0 0 -1;

Resultando em:
Class Level Information
Class
Levels
Maquina
5
Number of observations 16

Values
A B C D E

Dependent Variable: y
Source
Model
Error
Corrected Total
R-Square
0.412277

DF
4
11
15

Coeff Var
0.724489

Squares
0.05942708
0.08471667
0.14414375
Root MSE
0.087758

Sum of
Mean Square
0.01485677
0.00770152

F Value
1.93

Pr > F
0.1757

y Mean
12.11313

Source
Maquina

DF
4

Type III SS
0.05942708

Mean Square
0.01485677

F Value
1.93

Pr > F
0.1757

Contrast
A,D vs. B,C,E
B, E vs. C
A vs. D
B vs. E

DF
1
1
1
1

Contrast SS
0.00576261
0.00235200
0.03440476
0.01333333

Mean Square
0.00576261
0.00235200
0.03440476
0.01333333

F Value
0.75
0.31
4.47
1.73

Pr > F
0.4055
0.5916
0.0582
0.2150

309

3) Programa no proc iml para fazer a anlise proposta no Exemplo 14.3.1


proc iml;
reset fuzz;
z = {1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,
4,4,4,4,4,4,4,4,4,4,4,5,5,5,5,6,6,7,7,7,7,7,7,8,8,8,9,9,9,9,9,9,9,9,
9,9,10,10,10,10,10};
W = design(z);
n11=12; n21=6; n12=11; n22=11; n13=4; n23=2; n14=5; n24=3; n15=10; n25=5;
N = nrow(W);
*N = n11+n21+n12+n22+n13+n23+n14+n24+n15+n25;
ab = ncol(W);
y = {13.3,12.6,11.5,15.4,12.7,15.7,13.2,15.0,14.3,16.5,15.0,13.7,18.2,
11.3,14.2,15.9,12.9,15.1,10.9,3.3,10.5,11.6,15.4,14.4,11.6,14.4,
7.5,10.8,10.5,14.5,10.9,13.0,15.9,12.8,14.3,15.3,11.8,11.0,10.9,
10.5,12.9,12.5,13.0,7.6,12.9,13.6,13.1,4.1,10.8,12.9,14.4,11.6,13.2,
12.6,15.2,14.7,12.4,13.8,14.4,4.9,10.3,10.3,10.1,6.9,13.2,11.0,12.2,
13.3,12.9,9.9,12.8,8.4,10.6,13.9,10.0};
mi = inv(t(W)*W)*t(W)*y;
SQTotal = t(y)*(I(n)-(1/n)*J(n,n,1))*y;
gl_Total = n-1;
SQRes = t(y)*y - t(mi)*t(W)*y;
gl_Res = n-ab;
QMRes = SQRes/gl_res;
Alinha = t({1, -1, 1, -1, 1, -1, 1, -1, 1, -1});
B = {3
1
0
0

3 3 3 -2 -2 -2 -2 -2 -2,
1 -1 -1 0 0 0 0 0 0,
0 0 0 1 1 -2 -2 1 1,
0 0 0 1 1 0 0 -1 -1};

C1 = Alinha#B[1,]; C2 = Alinha#B[2,]; C3 = Alinha#B[3,]; C4 = Alinha#B[4,];


C = C1//C2//C3//C4;
SQA = t(Alinha*mi)*inv(Alinha*inv(t(W)*W)*t(Alinha))*t(Alinha*mi);
gl_A = nrow(Alinha);
QMA = SQA/gl_A;
FA = QMA/QMRes;
p_value_A = 1-cdf('F',FA,gl_A,gl_Res);
SQB = t(B*mi)*inv(B*inv(t(W)*W)*t(B))*B*mi;
gl_B = nrow(B);
QMB = SQB/gl_B;
FB = QMB/QMRes;
p_value_B = 1-cdf('F',FB,gl_B,gl_Res);
SQAB = t(C*mi)*inv(C*inv(t(W)*W)*t(C))*C*mi;
gl_AB = nrow(C);
QMAB = SQAB/gl_AB;
FAB = QMAB/QMRes;
p_value_AB = 1-cdf('F',FAB,gl_AB,gl_Res);
print 'ANOVA do Exemplo 14.3.1 (Tabela 14.6) - Modelo: yijk = mi + ai + bj +
(ab)ij + eijk';
print 'A (sexo)
' gl_A
SQA
QMA
FA
p_value_A,
'B (linhagem
' gl_B
SQB
QMB
FB
p_value_B,
'AB (interao)' gl_AB
SQAB
QMAB FAB
p_value_AB,
'Resduo
' gl_res
SQRes
QMRes,
'Total
' gl_total SQTotal;

310
jmi = j(1,ab,1);
K = jmi//Alinha//B;
nk = nrow(K);
A = K//C;
invA = inv(A);
Z = W*inv(A);
Z1 = Z[,1:nk];
delta1 = inv(t(Z1)*Z1)*t(Z1)*y;
mic = t(K)*inv(K*t(K))*delta1;
SQResc = t(y)*y - t(mic)*t(W)*y;
gl_resc = gl_res+gl_ab;
QMResc = SQResc/gl_resc;
prod = t(K)*inv(K*t(K))*inv(t(Z1)*Z1)*inv(K*t(K))*K;
SQA_c = t(Alinha*mic)*inv(Alinha*prod*t(Alinha))*Alinha*mic;
QMA_c = SQA_c/gl_A;
FA_c = QMA_c/QMResc;
p_value_A_c = 1-cdf('F',FA_c,gl_A,gl_resc);
SQB_c = t(B*mic)*inv(B*prod*t(B))*B*mic;
QMB_c = SQB_c/gl_B;
FB_c = QMB_c/QMResc;
p_value_B_C = 1-cdf('F',FB_c,gl_B,gl_resc);
print ,,,, 'ANOVA do Exemplo 14.3.1 (Tabela 14.7) - Modelo condicional: yijk =
mi + ai + bj + eijk';
print 'A (sexo)
' gl_A
SQA_c
QMA_c FA_c p_value_A_c,
'B (linhagem
' gl_B
SQB_c
QMB_c FB_c p_value_B_c,
'Resduo_cond ' gl_resc SQResc QMResc,
'Total
' gl_total SQTotal;

Resultando em:
ANOVA do Exemplo 14.3.1 (Tabela 14.6) - Modelo: yijk = mi + ai + bj +
(ab)ij + eijk
A (sexo)

GL_A
SQA
QMA
FA P_VALUE_A
1 1.9839823 1.9839823 0.3033691 0.5836662

B (linhagem

GL_B
SQB
QMB
FB P_VALUE_B
4 90.855927 22.713982 3.4731761 0.0124039

AB (interao)
Resduo
Total

GL_AB
4

SQAB
QMAB
FAB P_VALUE_AB
24.87613 6.2190326 0.9509471 0.4404901

GL_RES
SQRES
QMRES
65 425.08895 6.5398301
GL_TOTAL
SQTOTAL
74 552.09547

311
ANOVA do Exemplo 14.3.1 (Tabela 14.7) - Modelo condicional: yijk = mi +
ai + bj + eijk
A (sexo)

GL_A
SQA_C
QMA_C
FA_C P_VALUE_A_C
1 1.1322486 1.1322486 0.1736249
0.6782035

B (linhagem

GL_B
SQB_C
QMB_C
FB_C P_VALUE_B_C
4 101.41823 25.354556 3.8880003
0.0066154
GL_RESC
SQRESC
QMRESC
69 449.96508 6.5212331

Resduo_cond

GL_TOTAL
SQTOTAL
74 552.09547

Total

4) Programa no proc glm para fazer a mesma anlise proposta no Exemplo


14.3.1
data Exemplo14_3_1;
input Linhagem Sexo$ Gordura @@;
cards;
1
1
1
1
2
2
2
2
2
3
3
4
5
5
5
;

Macho
Macho
Macho
Fmea
Macho
Macho
Macho
Fmea
Fmea
Macho
Fmea
Macho
Macho
Macho
Fmea

13.3
15.7
15.0
15.9
10.5
14.4
10.9
15.3
12.9
13.6
14.4
14.7
10.3
11.0
12.8

1
1
1
1
2
2
2
2
2
3
4
4
5
5
5

Macho
Macho
Macho
Fmea
Macho
Macho
Macho
Fmea
Fmea
Macho
Macho
Macho
Macho
Macho
Fmea

12.6
13.2
13.7
12.9
11.6
7.5
13.0
11.8
12.5
13.1
11.6
12.4
10.3
12.2
8.4

1
1
1
1
2
2
2
2
2
3
4
4
5
5
5

Macho
Macho
Fmea
Fmea
Macho
Macho
Macho
Fmea
Fmea
Macho
Macho
Fmea
Macho
Macho
Fmea

11.5
15.0
18.2
15.1
15.4
10.8
15.9
11.0
13.0
4.1
13.2
13.8
10.1
13.3
10.6

1
1
1
2
2
2
2
2
2
3
4
4
5
5
5

Macho
Macho
Fmea
Macho
Macho
Macho
Macho
Fmea
Fmea
Macho
Macho
Fmea
Macho
Macho
Fmea

15.4
14.3
11.3
10.9
14.4
10.5
12.8
10.9
7.6
10.8
12.6
14.4
6.9
12.9
13.9

1
1
1
2
2
2
2
2
2
3
4
4
5
5
5

Macho
Macho
Fmea
Macho
Macho
Macho
Fmea
Fmea
Fmea
Fmea
Macho
Fmea
Macho
Macho
Fmea

proc glm;
class Linhagem Sexo;
model Gordura = Sexo Linhagem Linhagem*Sexo / SS1 SS2 SS3 SS4;
run;

12.7
16.5
14.2
3.3
11.6
14.5
14.3
10.5
12.9
12.9
15.2
4.9
13.2
9.9
10.0

312
Resultando em:
Dependent Variable: Gordura
Source
Model
Error
Corrected Total
R-Square
0.230044

DF
9
65
74

Squares
127.0065121
425.0889545
552.0954667

Coeff Var
20.74167

Root MSE
2.557309

Sum of
Mean Square
14.1118347
6.5398301

F Value
2.16

Pr > F
0.0366

Gordura Mean
12.32933

Source
Sexo
Linhagem
Linhagem*Sexo

DF
1
4
4

Type I SS
0.7121565
101.4182254
24.8761302

Mean Square
0.7121565
25.3545564
6.2190326

F Value
0.11
3.88
0.95

Pr > F
0.7425
0.0069
0.4405

Source
Sexo
Linhagem
Linhagem*Sexo

DF
1
4
4

Type II SS
1.1322486
101.4182254
24.8761302

Mean Square
1.1322486
25.3545564
6.2190326

F Value
0.17
3.88
0.95

Pr > F
0.6787
0.0069
0.4405

Source
Sexo
Linhagem
Linhagem*Sexo

DF
1
4
4

Type III SS
1.98398234
90.85592716
24.87613022

Mean Square
1.98398234
22.71398179
6.21903256

F Value
0.30
3.47
0.95

Pr > F
0.5837
0.0124
0.4405

Source
Sexo
Linhagem
Linhagem*Sexo

DF
1
4
4

Type IV SS
1.98398234
90.85592716
24.87613022

Mean Square
1.98398234
22.71398179
6.21903256

F Value
0.30
3.47
0.95

Pr > F
0.5837
0.0124
0.4405

313

CAPTULO 15. ANLISE DE COVARINCIA


15.1 INTRODUO
Alm da varivel dependente y, pode existir uma ou mais variveis quantitativas que
so medidas em cada unidade experimental (ou sujeito) em uma situao de anlise
de varincia. Se essas variveis extras podem afetar os resultados do experimento,
elas podem ser includas no modelo como variveis independentes (xs), sendo conhecidas como covariveis ou variveis concomitantes. A Anlise de covarincia
muitas vezes descrita como uma mistura de anlise de varincia e regresso.
A motivao principal para o uso de covariveis no experimento ganhar preciso pela reduo da varincia do erro. Em muitas situaes, a anlise de covarincia
pode ser usada para reduzir o efeito de fatores que o experimentador no pode controlar efetivamente, porque uma tentativa de incluir vrios nveis de uma varivel quantitativa como um fator pode criar um delineamento pesado, de difcil manejo. Em tais
casos, a varivel pode ser includa como uma covarivel, sendo necessrio um ajuste
da varivel dependente, antes de comparar as mdias dos grupos. Variveis desse tipo
tambm podem ocorrer em situaes experimentais nas quais os sujeitos no podem
ser aleatoriamente distribudos aos tratamentos. Em tais casos, ns perdemos a implicao da causalidade de um experimento delineado e a anlise de covarincia est
mais prxima de descrever a construo do modelo.
Em termos de um modelo com um fator (one-way model) e uma covarivel, a
anlise de covarincia ser bem sucedida se as trs suposies a seguir forem atendidas.
1. A varivel dependente (resposta) est linearmente relacionada com a covarivel. Se esta suposio est atendida, parte do erro no modelo previsvel e pode
ser removida para reduzir a varincia do erro. Esta suposio pode ser checada
testando H0: = 0, onde o coeficiente angular (slope) da regresso da varivel dependente sobre a covarivel. Desde que a estimativa nunca ser exatamente igual a zero, a anlise de covarincia sempre dar uma menor soma de
quadrados residual que a ANOVA correspondente (sem covarivel). Entretanto,
se estiver prximo de zero, a pequena reduo na soma de quadrados residual
pode no compensar a perda de um grau de liberdade [ver (15.27) e um comentrio apresentado a seguir]. Este problema mais freqente quando temos mltiplas covariveis, especialmente se elas forem altamente correlacionadas.
2. Os grupos (tratamentos) tm o mesmo coeficiente angular (slope). Na suposio
1, est envolvido um nico coeficiente angular para todos os k grupos (assumindo um modelo com um fator com k grupos). Ns podemos checar esta suposio testando H0: 1 = 2 = = k, onde i o coeficiente angular no i-simo
grupo.

314
3. A covarivel no afeta as diferenas entre as mdias dos grupos (tratamentos).
Se diferenas entre as mdias dos grupos forem reduzidas quando a varivel
dependente est ajustada para a covarivel, o teste para a igualdade das mdias
dos grupos ser menos eficaz. A suposio 3 pode ser checada realizando uma
ANOVA sobre a covarivel.
As covariveis podem ser constantes fixadas (valores escolhidos pelo pesquisador) ou variveis aleatrias. Os modelos que consideraremos nesse captulo envolvem covariveis fixadas, mas na prtica, elas so geralmente aleatrias. Entretanto, os
procedimentos de estimao e testes de hipteses so idnticos em ambos os casos,
embora as propriedades dos estimadores e testes sejam um pouco diferentes para
covariveis fixadas ou aleatrias. Por exemplo, no caso de covariveis fixadas, o
poder dos testes depende dos valores reais escolhidos para a covarivel, enquanto no
caso de covariveis aleatrias, o poder dos testes depende da matriz de covarincias
(populacional) das covariveis.
Como uma ilustrao do uso de anlise de covarincia, suponha que desejamos
comparar trs mtodos de ensinar lnguas. Trs classes esto disponveis e ns designamos uma classe a cada um dos mtodos de ensino. Os alunos so livres para escolher uma dessas trs classes, no sendo designados aleatoriamente. Uma das classes
pode terminar com uma poro desproporcional dos melhores alunos, e neste caso,
no podemos afirmar que os mtodos de ensino produziram diferenas significativas
nas notas finais. Mas ns podemos usar notas anteriores ou outras medidas de performance como covariveis e ento comparar os escores ajustados dos estudantes para
os trs mtodos.
A seguir, ns faremos uma abordagem geral para a estimao e testes de hipteses na Seo 15.2 e ento cobrimos modelos balanceados especficos nas Sees
15.3, 15.4 e 15.5. Modelos desbalanceados sero brevemente discutidos na Seo
15.6. Ns usamos modelos superparametrizados para o caso balanceado nas Sees
15.2-15.5 e usamos o modelo de mdias de caselas na Seo 15.6.

15.2 ESTIMAO E TESTES DE HIPTESES


Ns introduziremos e ilustraremos o modelo de anlise de covarincia na Seo
15.2.1 e discutiremos estimao e testes de hipteses para este modelo nas Sees
15.2.2 e 15.2.3.

15.2.1 O modelo de anlise de covarincia


Em geral, um modelo de anlise de covarincia pode ser escrito como:

y = Z
+ X
+ ,

(15.1)

315
onde Z contem 0s e 1s, contem e parmetros como i, j e ij representando fatores e interaes (ou outros efeitos), X contem os valores das covariveis e contem
os coeficientes das covariveis. Assim as covariveis aparecem do lado direito de
(15.1) como variveis independentes. Note que Z
o mesmo que X
nos modelos
de ANOVA dos captulos 11, 12 e 13, enquanto que neste captulo, ns usamos X

para representar as covariveis no modelo.


Ns ilustramos (15.1) com alguns dos modelos que sero considerados neste
captulo. Um modelo com um fator (balanceado) e uma covarivel pode ser expresso
como:

yij = + i + xij + ij

i = 1, 2, , k , j = 1, 2, , n,

(15.2)

onde i o efeito de tratamento, xij uma covarivel observada nas mesmas unidades
amostradas e um coeficiente angular (slope) relacionando yij com xij. [Se (15.2)
visto como um modelo de regresso, ento os parmetros + i, i = 1, 2, , k, servem como os interceptos da regresso para os k grupos]. As kn observaes de (15.2)
podem ser escritas na forma y = Z
+ X
+ como em (15.1), onde

1
M

1
Z=
1
M

1 0 L 0
M M
M

1 0 L 0
, =
0 1 L 0
M M
M

0 0 L 1

x11
M



x
1 , X = x = 1n ,
M
x2n

M
k

xkn

(15.3)

e = . Neste caso, Z o mesmo que X em (12.6).


Para um modelo com um fator (balanceado) e q covariveis, o modelo fica:
yij = + i + 1xij1 + + qxijq + ij
i = 1, 2, , k , j = 1, 2, , n.

(15.4)

Neste caso, Z e so dados em (15.3), e X


tem a forma:
x111
x
121
X
=
M

xkn1

x112 L x11q 1
x122 L x12q 2
.
M
M M

xkn2 L xknq q

(15.5)

Para um modelo com dois fatores e uma covarivel, temos:


yijk = + i + j + ij + xijk + ijk
i = 1, 2, , a, j = 1, 2, , c, k = 1, 2, , n,

(15.6)

Z
tem a forma dada em (13.4) e X
= x = [x111, x112, , xacn]. Este modelo pode
ser estendido para incluir diversas covariveis.

316

15.2.2 Estimao
Agora ns desenvolvemos estimadores de e para o caso geral em (15.1), y = Z

+ X
+ . Assumimos que Z de posto incompleto como nos modelos superparametrizados de ANOVA e X de posto completo como nos modelos de regresso. Ns
tambm assumimos que
E() = 0 e cov() = 2I.
O modelo pode ser expresso como

y = Z
+ X
+


= [Z, X] +

= U
+

(15.7)


onde U = [Z, X] e = . O sistema de equaes normais para (15.7) fica

UU = Uy
que pode ser escrito na forma particionada como

Z
= Z y
[
Z
,
X]

X
X


ZZ ZX Zy
XZ XX = Xy

(15.8)

Ns podemos expressar (15.8) como dois conjuntos de equaes em e :

ZZ + ZX = Zy

(15.9)

XZ + XX = Xy

(15.10)

Usando uma inversa generalizada de ZZ, ns podemos resolver (15.9) para :

= (ZZ) Zy (ZZ) ZX

= 0 (ZZ) ZX

(15.11)

onde 0 = (ZZ) Zy uma soluo para as equaes normais para o modelo y = Z

+ sem as covariveis [ver (11.13)].


Para resolver para , ns substitumos (15.11) em (15.10) para obter

XZ[(ZZ) Zy (ZZ) ZX ] + XX = Xy

ou

XZ(ZZ) Zy + X[I Z(ZZ) Z]X = Xy

(15.12)

317
Definindo

P = Z(ZZ) Z

(15.13)

podemos escrever (15.12) como

X(I P)X = Xy XPy = X(I P)y


Desde que os elementos de X tipicamente exibem um modelo no relacionado com os
0s e 1s em Z, ns podemos assumir que as colunas de X so linearmente independentes das colunas de Z. Ento X(I P)X no singular (ver Problema 15.1) e uma
soluo para dada por
1
= [X(I P)X] X(I P)y

(15.14)

= E xx1 exy,

(15.15)

onde
Exx = X(I P)X e exy = X(I P)y

(15.16)

Para o modelo de anlise de covarincia (15.1) ou (15.7) ns denotamos SQRes


como SQResy.x. Por (11.20), a SQResy.x pode ser expressa como

Zy
SQResy.x = yy Uy = yy [ , ]

Xy
= yy Zy Xy

= yy [ 0 XZ(ZZ) ]Zy Xy

[por (15.11)]

= yy 0 Zy X[I Z(ZZ) Z]y

= SQResy X[I P]y

(15.17)

onde 0 definido em (15.11), P definido em (15.13) e SQResy = yy 0 Zy


igual a SQRes do modelo de ANOVA y = Z + sem covariveis. Usando (15.16),
ns podemos escrever (15.17) na forma
SQResy.x = eyy (exy) E xx1 exy

(15.18)

eyy = SQResy = y(I P)y

(15.19)

onde

Em (15.18), ns vemos a reduo na SQRes que foi notada no segundo pargrafo da Seo 15.1. A prova que Exx = X(I P)X no singular (ver o Problema
15.1) pode ser estendida para mostrar que Exx positiva definida. Sendo assim, temos
que (exy) E xx1 exy > 0 e que SQResy.x < SQResy.

318
15.2.3 Teste de hipteses

Para testar hipteses, ns assumimos que em (15.1) distribudo como Nn(0, 2I),
onde n o nmero de linhas de Z ou X. Usando o modelo (15.7), podemos expressar
uma hiptese sobre (nveis do fator) na forma H0: C = 0, onde C = [C1, 0]:


H0: [C1, 0] = 0 ou H0: C1 = 0.

Ns podemos ento usar um teste de hiptese linear geral. Alternativamente, podemos incorporar a hiptese ao modelo e usar a abordagem do modelo completo versus
modelo reduzido.
Hipteses sobre (covariveis) podem ser expressas na forma H0: C = 0:


H0: [0, C2] = 0 ou H0: C2 = 0.

Uma hiptese bsica de interesse H0: = 0, isto , que a(s) covarivel(eis) no pertence(m) ao modelo (15.1). Para realizar um teste de hiptese linear geral de H0: =
1
0, ns precisamos de cov( ), onde = [X(I P)X] X(I P)y [ver (15.14)]. Desde
que I P idempotente (ver Teoremas 2.13E e 2.13F), cov( ) pode ser obtida facilmente de (3.42) como:
1
1
cov( ) = [X(I P)X] X(I P)2I(I P)X[X(I P)X]
1

= 2 [X(I P)X]

(15.20)

Ento a SQHip para testar H0: = 0 dada pelo Teorema 8.4A(ii) como:
SQHip = X(I P)X

(15.21)

Usando (15.16), ela pode ser expressa como:


SQHip = (exy) E xx1 exy

(15.22)

Vale notar que SQHip em (15.22) igual reduo em SQRes devida s covariveis;
ver (15.17), (15.18) e (15.19).
Agora ns discutiremos alguns modelos especficos, comeando pelo modelo
com um fator na Seo 15.3.

15.3 MODELO COM UM FATOR (ONE-WAY) E COM UMA COVARIVEL

Ns revisamos o modelo com um fator na Seo 15.3.1, consideramos estimadores de


parmetros na Seo 15.3.2 e discutimos testes de hipteses na Seo 15.3.3.

319
15.3.1 O modelo

O modelo com um fator, balanceado, foi introduzido em (15.2):


yij = + i + xij + ij,

i = 1, 2, , k , j = 1, 2, , n.

(15.23)

As kn observaes podem ser escritas na forma de (15.1),


y = Z + X + = Z + x + ,

onde Z, e x so dados em (15.3).

15.3.2 Estimao

Por (15.11), (12.11) e (12.12) um estimador de obtido como:

= 0 (ZZ) ZX = 0 (ZZ) Zx

0
0 0

y x y x
1
1 1 1
= y 2 x2 = y 2 x2

M
M M

y k xk y k xk

(15.24)

(ver Problema 15.4). Neste caso, com uma nica covarivel x, Exx e exy passam a ser
escalares, como eyy:
Exx = exx =

(xij xi )2
i =1 j =1

exy = exy =

(xij xi )(yij yi )

(15.25)

i =1 j =1
k

eyy =

(yij yi )2
i =1 j =1

Agora, por (15.15), o estimador de

exy
=
=
exx

ij (xij xi )(yij yi )
ij (xij xi )2

Por (15.18), (15.19) e os trs resultados em (15.25),


SQResy.x = eyy

Ou ento:

(exy) E xx1 exy

= eyy

2
exy

exx

(15.26)

320

SQResy.x =

(yij yi )

[ (x

ij

ij

)(

xi yij yi

)]2

ij (xij x )2

ij

(15.27)

que tem k(n 1) 1 graus de liberdade. Note que os graus de liberdade de SQResy.x
foram reduzidos por 1 pela estimao de , visto que SQResy = eyy tem k(n 1) graus
2
de liberdade e que exy
/ exx tem 1 grau de liberdade. Utilizando a anlise de covarincia, o pesquisador espera que a reduo da SQResy para SQResy.x compense a perda
de um grau de liberdade.
15.3.3 Teste de hipteses

Para testar hipteses, ns assumimos que os ijs em (15.23) sejam independentemente distribudos como N(0, 2). Ns vamos iniciar com um teste para a igualdade
dos efeitos de tratamentos.

15.3.3a Tratamentos
Para testar
H01: 1 = 2 = = k
ajustado para a covarivel, ns usamos a abordagem do modelo completo versus o
modelo reduzido. O modelo completo (15.23) e o modelo reduzido (com 1 = 2 =
= k)
yij = + + xij + ij

= * + xij + ij, i = 1, 2, , k, j = 1, 2, , n.

(15.28)

Este essencialmente o mesmo modelo de regresso linear (6.1). Por (6.13), a SQRes
para o modelo reduzido (denotado por SQResred) dada por
SQResred =

(yij y )

ij

[ (x

ij

ij

)(

x yij y

ij (xij x )2

)]2

(15.29)

que tem (kn 1) 1 = kn 2 graus de liberdade.


Usando a mesma notao adotada nas Sees 8.2, 12.4 e 13.4, ns expressamos
a soma de quadrados para testar H01 como:
SQ( | , ) = SQ(, , ) SQ(, ).

Em (15.27), SQResy.x est relacionada ao modelo completo e em (15.29), SQResred


est relacionada ao modelo reduzido. Ento, elas podem ser escritas como SQResy.x =
yy SQ(, , ) e SQResred = yy SQ(, ). Portanto
SQ( | , ) = SQResred SQResy.x

(15.30)

321
que tem kn 2 [k(n 1) 1] = (k 1) graus de liberdade. A estatstica de teste para
H01: 1 = 2 = = k dada por
F=

SQ(|, ) (k 1)
SQRes y.x [k (n 1) 1]

(15.31)

que distribuda como F[k 1, k(n 1) 1] quando a hiptese H01 verdadeira.


De (15.30), ns temos:
SQResred = SQ( | , ) + SQResy.x

Portanto, SQResred funciona como a soma de quadrados total para o teste dos efeitos dos tratamentos ajustados para a covarivel. Podemos ento denotar SQResred por
SQTy.x de tal forma que a expresso anterior passa a ser escrita como:
SQTy.x = SQ( | , ) + SQResy.x

(15.32)

2
/ e xx em (15.27), ns escrePara completar a analogia com SQResy.x = e yy e xy
vemos (15.29) como:
2
t xy
SQTy.x = tyy
(15.33)
t xx
onde
SQTy.x = SQResred

tyy =

ij (yij y )2 ,

txy =

ij (xij x )(yij y ),

txx =

ij (xij x )2

(15.34)

Note que o procedimento usado para obter (15.30) fundamentalmente diferente daquele usado para obter SQResy.x e SQResred em (15.27) e (15.29). A soma de
quadrados SQ( | , ) em (15.30) obtida como uma diferena entre as somas de
quadrados dos modelos completo e reduzido, no como um ajuste para SQ( | ) =
n i ( yi y )2 em (12.24) anlogo ao ajuste usado em SQResy.x e SQTy.x em (15.27)
e (15.33). Ns devemos usar a abordagem do modelo completo versus o modelo reduzido para calcular SQ( | , ), porque no temos os mesmos valores de covariveis para cada tratamento e o delineamento portanto desbalanceado (mesmo quando
os ns so iguais). Se SQ( | , ) fosse calculada de uma forma ajustada como em
(15.27) ou (15.33), ento SQ( | , ) + SQResy.x no seria igual a SQTy.x como em
(15.32). Na Seo 15.4, ns seguiremos um esquema computacional similar ao de
(15.30) e (15.32) para cada termo de um modelo com dois fatores (balanceado).
Ns apresentamos na Tabela 15.1 as vrias somas de quadrados para testar H01:
1 = 2 = = k.

322
Tabela 15.1 Anlise de covarincia para testar H01: 1 = 2 = = k em um modelo
one-way com uma covarivel.
Fonte

SQ ajustada para a covarivel

g.l. ajustado

Tratamentos

SQ( | , ) = SQTy.x SQResy.x

k1

Resduo

2
SQResy.x = e yy e xy
/ e xx

Total

2
SQTy.x = tyy t xy
t xx

k(n 1) 1
kn 2

15.3.3b Coeficiente angular (slope)


Ns agora consideramos um teste para

H02: = 0.
Por (15.22), a abordagem da hiptese linear geral leva a SQHip = (exy) E xx1 exy para
testar H0: = 0. Para o caso de uma nica covarivel, essa expresso se reduz a

SQHip =

2
e xy

e xx

(15.35)

onde exy e exx esto definidos em (15.25). A estatstica F para testar H02: = 0 ,
portanto, dada por

F=

2
exy
exx

SQRes y.x [k (n 1) 1]

(15.36)

que distribuda como F[1, k(n 1) 1] quando a hiptese H02 verdadeira.

15.3.3c Homogeneidade dos coeficientes angulares


Os testes para H01: 1 = 2 = = k e H02: = 0 assumem um coeficiente angular
comum para todos os k grupos. Para checar essa suposio, ns podemos testar a
hiptese de que os coeficientes angulares so iguais em todos os grupos,
H03: 1 = 2 = = k,

(15.37)

onde i o coeficiente angular no i-simo grupo. Dessa forma, H03 estabelece que as
k linhas de regresso so paralelas.
O modelo completo permitindo coeficientes angulares diferentes para os diferentes grupos pode ser escrito como:
yij = + i + ixij + ij,

i = 1, 2, , k , j = 1, 2, , n.

(15.38)

323
O modelo reduzido com um nico coeficiente angular (15.23). Na forma matricial,
as kn observaes em (15.38) podem ser expressas como y = Z + X + , onde Z e
so dadas em (15.3) e

x1 0 L 0
0 x L 0
2

X =
M
M
M

0 0 L xk

1

2,
M

k

(15.39)

com xi = [xi1, xi2, , xin]. De (15.14) e (15.15),


1
= E xx1 exy = [X(I P)X] X(I P)y.

Para calcular Exx e exy, ns primeiramente notamos que, por (12.11), (12.25) e
(12.26), temos:

0
L
0
I n J

I J L
0
0
I P = I Z(ZZ) Z =
n

M
M
M

0
0
L
I

(15.40)

1
onde I em I P kn x kn e na expresso I J n x n. Ento por (15.16),
n

Exx = X(I P)X

1

x1 I n J x1

0
=

x1 j x1
j

0
=
M

)2

0
1

x 2 I J x 2
n

M
0

L
L

M
1

x k I J x k
n

j (x2 j x2 )2

M
0

M
L

j (xkj xk )

(15.41)

324
e xx,1
0
=
M

0
onde exx,i =

0
L 0

L e xx,k

0
e xx,2
M
0

(15.42)

j (xij xi )2 . Para encontrar exy, ns particionamos o vetor y como y =

[y1, y2, , yk] onde yi = [yi1, yi2, , yin]. Ento por (15.16),

exy = X(I P)y


x1t

0
=
M

x t2 L 0
M
M

0 L xtk
0 L

0
L
0
I n J

1
I
J
0

0
L

M
M
M
1

0
L I J
0
n

t 1
x1 I n J y1 x x y y

1
1j
1
j 1j

t 1
x2 j x2 y 2 j y 2
= x 2 I n J y 2 = j
M


M
t 1 j xkj xk ykj yk
x k I J y k
n

(
(
(

)(
)(

)(

e xy,1
e
xy,2
=
M

e xy,k

onde exy,i =

)
)
)

y1
y
2
M

y k

(15.43)

(15.44)

j (xij xi )(yij yi ). Ento por (15.15), temos:


exy,1 exx,1
e
e
= E 1 exy = xy,2 xx,2
xx

exy,k exx,k

(15.45)

Por analogia com (15.30) ns obtemos as somas de quadrados para o teste de


H03 em (15.37), subtraindo SQResy.x para o modelo completo de SQResy.x para o
modelo reduzido, isto , SQRes(reduzido)y.x SQRes(completo)y.x. Para o modelo
completo em (15.38), SQRes(completo)y.x dado por (15.18), (15.44) e (15.45) como:

325
SQRes(completo)y.x = eyy (exy) E xx1 exy = eyy (exy)
exy,1 exx,1
e

xy,2 e xx,2

= eyy [exy,1, exy,2, , exy,k]

exy,k exx,k
k

= eyy

2
e xy,i

(15.46)

i =1 xx,i

que tem k(n 1) k = k(n 2) graus de liberdade. O modelo reduzido sob H03: 1 =
2 = = k = dado por (15.23), para o qual SQRes(reduzido)y.x encontrado em
(15.27) como
2
e xy
SQRes(reduzido)y.x = eyy
,
(15.47)
e xx
que tem k(n 1) 1 graus de liberdade. Assim, a soma de quadrados para testar H03
k

SQRes(reduzido)y.x SQRes(completo)y.x =

2
e xy,i

i =1 xx,i

2
e xy

e xx

(15.48)

que tem k(n 1) 1 k(n 2) = k 1 graus de liberdade. A estatstica do teste

[
F=

k
e2
i =1 xy,i

2
exx,i exy
exx

] (k 1)

SQRes(completo) y.x k (n 2 )

(15.49)

que distribudo como F[(k1), k(n 2)] quando H03: 1 = 2 = = k verdadeira.


Se a hiptese de coeficientes angulares iguais for rejeitada, a hiptese de igualdade dos efeitos de tratamentos ainda pode ser testada, mas a interpretao mais
difcil. O problema parecido com a interpretao de um efeito principal em uma
ANOVA com dois fatores na presena de interao. Num sentido, o termo ixij em
(15.38) uma interao. Para maiores detalhes sobre anlise de covarincia com
heterogeneidade de coeficientes angulares, veja Reader (1973) e Hendrix, Carter &
Scott (1982).

Exemplo 15.3.3. Para investigar o efeito de dieta no peso de maturao de guppy fish
(Poecilia reticulatia), trs grupos de peixes foram alimentados com diferentes dietas.
Os pesos resultantes, y, so apresentados na Tabela 15.2 (Morrison, 1983, p. 475),
como tambm os pesos iniciais, x. Note que k = 3 e n = 7.
Ns primeiramente estimamos usando x como covarivel. Pelos trs resultados em (15.25), ns temos:
exx = 350,2857, exy = 412,71429, eyy = 1465,7143.

326
Ento por (15.26),

e xy
e xx

412,71429
= 1,1782.
350,2857

Tabela 15.2 Peso de maturao e peso inicial (mg) de Guppy Fish


Grupo 1

Grupo 2

Grupo 3

49

35

68

33

59

33

61
55
69
51
38

26
29
32
23
26

70
60
53
59
48

35
28
29
32
23

53
54
48
54
53

36
26
30
33
25

64

31

46

26

37

23

Agora ns testamos a igualdade das mdias de tratamentos ajustadas para a covarivel, H01: 1 = 2 = 3. De (15.27), ns temos:
SQResy.x = eyy

2
e xy

e xx

= 1465,7143

(412,7143)2
350,2857

= 979,4453

com k(n 1) 1 = 17 graus de liberdade. De (15.29) e (15.33), ns temos SQTy.x =


1141,4709 com kn 2 = 19 graus de liberdade. Assim por (15.30),
SQ( | , ) = SQTy.x SQResy.x = 1141,4709 979,4453 = 162,0256
com (k 1) = 2 graus de liberdade. A estatstica F dada por (15.31) como
F=

SQ(|, ) (k 1)
162,0256 2
=
= 1,4061.
SQRes y.x [k (n 1) 1] 979,4453 17

O p-valor 0,260 e ns no rejeitamos H01: 1 = 2 = 3, ou seja, podemos admitir


que os pesos mdios dos trs grupos de guppy fish so iguais.
Para testar H02: = 0, ns usamos (15.36),
F=

2
exy
exx

SQRes y.x [k (n 1) 1]

(412,7143)2

350,2857
= 8,4401.
979,4453 (17 )

O p-valor 0,0099 e ns rejeitamos H02: = 0, ou seja, podemos admitir que o efeito


da covarivel na varivel resposta significativo.

327
Para testar a igualdade de coeficientes angulares iguais nos trs grupos, H03: 1
= 2 = 3, ns primeiro estimamos 1, 2 e 3 usando (15.45):

1 = 0,7903, 2 = 1,9851, 3 = 0,8579.


Ento por (15.46) e (15.47),
SQRes(completo)y.x = 880,5896, SQRes(reduzido)y.x = 979,4453.

A diferena SQRes(reduzido)y.x SQRes(completo)y.x usada no numerador da estatstica F em (15.49):


F=

(979,4453 880,5896) 2
880,5896 (3)(5)

= 0,8420.

O p-valor 0,450 e ns no rejeitamos H03: 1 = 2 = 3, o que nos leva a concluir


que os coeficientes angulares dos trs grupos podem ser considerados iguais.
A Tabela 15.2A apresenta os pesos mdios dos quatro grupos, sem e com o
ajuste pela covarivel. No clculo das mdias ajustadas, utilizamos yi ( xi x ) ,
para i = 1, 2, 3.

Tabela 15.2A. Pesos mdios (mg) de maturao de Guppy Fish


Grupo
1
2
3

Mdia
55,29
57,71
51,14

Mdia ajustada
55,73
57,49
50,92

15.4 MODELO COM DOIS FATORES (TWO-WAY) E UMA COVARIVEL


Nesta seo, ns discutiremos o modelo com dois fatores de efeitos fixos, balanceado
e com uma covarivel. O modelo foi introduzido em 15.6 como
yijk = + i + j + ij + xijk + ijk,

(15.50)

i = 1, 2, , a , j = 1, 2, , c, k = 1, 2, , n,

onde i o efeito do fator A, j o efeito do fator C, ij o efeito da interao AC e


xijk uma covarivel medida na mesma unidade experimental yijk.

15.4.1 Testes para os efeitos principais e interao


Para encontrar SQResy.x, ns consideramos a hiptese de no efeito de todos os tratamentos, isto , no efeito de A, de C e da interao. A soma de quadrados geral de
tratamentos denotada por SQ(, , | , ) (ver comentrio que precede o Teorema
13.4B). Por analogia a (15.28), o modelo reduzido

328
yijk = * + xijk + ijk

(15.51)

Por analogia a (15.29), a SQRes para o modelo reduzido dada por:


a

SQResred =

(yijk y )2

i =1 j =1 k =1

ijk yijk2

y2

acn

ijk

(xijk x )(yijk y )] 2
ijk (xijk x )2

2
]
(
x

x
)(
y

y
)
ijk

ijk

ijk
ijk (xijk x )2

(15.52)

Por analogia a (15.27), SQRes para o modelo completo em (15.50) dada por

SQResy.x =

(yijk yij )

ijk

ijk

2
yijk

ijk

ij

yij2
n

(xijk xij )(yijk yij )] 2


ijk (xijk xij )2

ijk

(xijk xij )(yijk yij )] 2


ijk (xijk xij )2

(15.53)

que tem [ac(n 1) 1] graus de liberdade. Note que o nmero de graus de liberdade
para SQResy.x foi reduzido de 1 por causa do ajuste da covarivel.
Agora, por analogia a (15.30), a soma de quadrados geral de tratamentos :

SQ(, , | , ) = SQResred SQResy.x


=

ij

yij2

y2

+
n
acn

ijk

(xijk xij )(yijk yij )] 2


ijk (xijk xij )2

ijk

(xijk x )(yijk y )] 2
ijk (xijk x )2

(15.54)

que tem ac 1 graus de liberdade.


Usando (13.47), (13.69) e (13.70), o termo

ij yij2

n y2 acn em (15.54),

representa a soma de quadrados geral dos tratamentos e pode ser particionada como
em (13.40):
yij2
y2
n acn = cn ( yi y )2 + an y j y 2
ij
j
i

+ n yij yi y j + y
ij

= SQAy + AQCy + SQACy

)2

(15.55)

329
Para que a notao fique conforme, ns definimos:
SQResy = yijk yij

)2

ijk

Ns temos uma partio anloga da soma de quadrados geral de tratamentos


para a covarivel x:

ij

xij2
n

x2
= SQAx + SQCx + SQACx,
acn

(15.56)

onde, por exemplo,


SQAx = cn ( xi x )2 .
i

Ns tambm definimos
SQResx =

(xijk xij )2 .
ijk

A soma de produtos geral de tratamentos

ij xij yij

n x y acn pode

ser particionada de uma forma anloga a (15.55) e (15.56) (ver Problema 15.8):

ij

xij yij
n

x y
= cn ( xi x )( yi y )
acn
i

)(

+ an x j x y j y

)(

+ n xij xi x j + x yij yi y j + y

(15.57)

ij

= SPA + SPC + SPAC.


Ns tambm definimos
SPRes =

(xijk xij )(yijk yij ).


ijk

Desse modo ns podemos escrever SQResy.x em (15.53) na forma simplificada


SQResy.x = SQResy

(SPRes )2 .
SQRes x

Essas somas de quadrados e de produtos esto mostradas na Tabela 15.3.


Agora ns desenvolveremos testes de hipteses para o fator A, fator C e interao AC. A ortogonalidade do delineamento balanceado perdida quando so feitos
ajustes para a covarivel [veja comentrios aps (15.34) e Bingham & Feinberg
(1982)].

330
Ns obteremos um total para cada termo (A, C ou AC) adicionando o SQ ou SP do
resduo aos termos SQ ou SP de cada x, y e xy (ver as entradas de A+Res, C+Res e
AC+Res na Tabela 15.3). Os totais so anlogos a SQTy.x = SQ( | , ) + SQResy.x em
(15.32) para o modelo com um fator. Os totais so usados para obter as somas de
quadrados ajustados para a covarivel de uma maneira anloga quela empregada no
modelo com um fator [ver (15.30) ou a linha para tratamentos na Tabela 15.1]. Por
exemplo, a soma de quadrados ajustada SQAy.x para o fator A obtida como segue:
(
SPA + SPRes )2
SQ(A+Res)y.x = SQAy + SQResy
(15.58)
SQAx + SQResx

(SPRes )2

SQResy.x = SQResy

(15.59)

SQRes x

SQAy.x = SQ(A + Res)y.x SQResy.x

(15.60)

TABELA 15.3 Somas de quadrados e produtos para x e y em um modelo two-way


Fonte

SQ e SP corrigidas para a mdia

xy

SQAy

SQAx

SPA

SQCy

SQCx

SPC

AC

SQACy

SQACx

SPAC

Resduo (Res)

SQResy

SQResx

SPRes

A + Res

SQAy + SQResy

SQAx + SQResx

SPA + SPRes

C + Res

SQCy + SQResy

SQCx + SQResx

SPC + SPRes

AC + Res

SQACy + SQResy

SQACx + SQResx

SPAC + SPRes

Inspecionando (15.58), (15.59) e (15.60), ns vemos que SQAy.x tem a 1 graus de liberdade. A estatstica do teste para H01: 1 = 2 = = a, correspondente ao efeito
principal de A, dada por
F=

SQAy.x /(a 1 )
SQRes y.x / [ac(n 1 ) 1]

(15.61)

que tem distribuio F[a 1, ac(n 1) 1] se H01 verdadeira. Testes para o fator C
e a interao AC so desenvolvidos de forma anloga.

Exemplo 15.4.1. Em cada um dos trs distritos de Iowa, uma amostra de fazendas foi
tomada de um grupo de fazendas onde proprietrio e inquilino so parentes e de
fazendas onde proprietrio e inquilino no so parentes. A Tabela 15.4 (Ostle & Men-

331
sing, 1975, p. 480) apresenta os dados de y = valor das colheitas produzidas e x =
tamanho da fazenda.

Tabela 15.4 Valor de colheitas y e tamanhos x de fazendas em trs distritos de Iowa


Distrito 1

Distrito 2

Distrito 3

Proprietrio e inquilino so parentes


6399
8456

160
320

2490
5349

90
154

4489
10026

120
245

8453
4891
3491

200
160
120

5518
10417
4278

160
234
120

5659
5475
11382

160
160
320

Proprietrio e inquilino no so parentes


6944

160

4936

160

5731

160

6971
4053
8767
6765

160
120
280
160

7376
6216
10313
5124

200
160
240
120

6787
5814
9607
9817

173
134
239
320

Primeiramente ns obtemos as somas de quadrados e de produtos presentes na


Tabela 15.3, onde o fator A est relacionado ao status e o fator C o distrito. Ento
temos que: a = 2, c = 3 e n = 5. Os resultados so apresentados na Tabela 15.5 onde,
por exemplo, SQAy = 2378956,8, SQAy + SQResy = 141184822 e SPAC + SPRes =
3469048,9.

Tabela 15.5 Somas de quadrados e produtos para x e y


Fonte
A
C
AC
Resduo (Res)
A + Res
C + Res
AC + Res

SQ e SP corrigidas para a mdia


y
x
xy
2378956,8
132,30
17740,8
8841441,3
7724,47
249752,8
1497572,6
2040,20
41440,3
138805865,0
106870,00
3427608,6
141184822,0
107002,30
3445349,4
147647306,0
114594,50
3677361,4
140303437,0
108910,20
3469048,9

332
Por (15.58), (15.59) e (15.60), ns temos:
SQ(A + R)y.x = 30248585,0 SQResy.x = 28873230,0 SQAy.x = 1375355,1.

Ento por (15.61), para o fator A, ns temos:


F=

SQAy.x /(a 1 )
SQRes y.x / [ac(n 1 ) 1]

1375355,1 1
1375355,1
=
= 1,0956.
28873230,0 23 1255357,8

O p-valor 0,306 e ns no rejeitamos a hiptese H01a: 1 = 2, ou seja, podemos


concluir que os valores mdios das colheitas das propriedades onde o proprietrio e
inquilino so parentes e onde no so parentes podem ser admitidos como iguais.
Similarmente, para o fator C, ns temos:
F=

766750,1 2
= 0,3054
1255357,8

com p-valor igual a 0,740. Ns no rejeitamos a hiptese H01c: 1 = 2 = 3 e concluimos que os valores mdios das colheitas das propriedades localizadas nos trs distritos podem ser admitidos como iguais.
Para a interao AC, ns obtemos:
F=

932749,5 2
= 0,3715
1255357,8

O p-valor igual a 0,694 e no rejeitamos a hiptese de inexistncia de interao


entre os fatores A e C.

15.4.2 Teste para o coeficiente angular (slope)


2

Para testar a hiptese H02: = 0, a soma de quadrados devida a (SPRes) /SQResx


e a estatstica F do teste dada por
F=

(SPRes )2 SQResx ,
SQRes y.x [ac(n 1 ) 1]

(15.62)

que tem distribuio F[1, ac(n 1) 1] se H02 (e H03) verdadeira.

Exemplo 15.4.2. Para testar H02: = 0 para os dados das fazendas na Tabela 15.4,
ns usamos SPRes e SQResx da Tabela 15.5 e SQResy.x do Exemplo 15.4.1. Usando
(15.62),
F=

(SPRes )2 SQResx = (3427608,6)2 106870,0


SQRes y.x [ac(n 1 ) 1]
1255357,8
9

= 87,5708.

O p-valor igual a 2,63 x 10 e a hiptese H02: = 0 rejeitada, ou seja, existe um


efeito linear e significativo do tamanho da fazenda no valor da colheita.

333

15.4.3 Teste para a homogeneidade dos coeficientes angulares (slopes)


O teste de homogeneidade dos coeficientes angulares (slopes) pode ser feito separadamente para o fator A, fator C e interao AC. Ns descreveremos o teste de homogeneidade dos coeficientes angulares (slopes) entre os nveis de A. A hiptese de interesse pode ser escrita como:
H03: 1 = 2 = = a

ou seja, as linhas de regresso para os a nveis do fator A so paralelas. Os interceptos, naturalmente, podem ser diferentes. Para obter um estimador do coeficiente angular i para o i-simo nvel de A, definimos SQResx e SPRes para o i-simo nvel de
A como:
c

SQResx,i =

(xijk xij )2

(15.63)

j =1 k =1

SPResi =

(xijk xij )(yijk yij )


jk

Ento i obtido como


SPResi
i =
SQRes x,i
2

e a soma de quadrados devido a i igual a (SPResi) /SQResx,i.


Por analogia a (15.46), a soma de quadrados para o modelo completo no qual
os is so diferentes dada por:
SQ(completo) = SQResy

(SPResi )2

i =1

SQRes x,i

e por analogia a (15.47), a soma de quadrados no modelo reduzido com um nico


coeficiente angular
SQ(reduzido) = SQResy

(SPRes )2 .
SQRes x

Nossa estatstica de teste para H03: 1 = 2 = = a similar a (15.49):


F=

[SQ(reduzido) SQ(completo)] (a 1 )
SQ(completo) [ac(n 1 ) a ]

[ (SPRes )
=
[SQRes
a
i =1

SQResx,i (SPRes )2 SQRes x

a
i =1

(SPResi )2

SQResx,i

] (a 1)

] [ac(n 1 ) a]

(15.64)

que (sob H03) tem distribuio F[a 1, ac(n 1) a]. Os testes para homogeneidade
dos coeficientes angulares de C e AC so construdos de maneira similar.

334

Exemplo 15.4.3. Para testar a homogeneidade dos coeficientes angulares para o fator
A, ns primeiramente encontramos 1 e 2 para os dois nveis de A:
SPR1
2.141.839,8
1 =
=
= 34,9066
SQRx,1
61.359,2

SPR2
1.285.768,8
2 =
=
= 28,2519
SQRx,2
45.510,8

Ento
a

SQ(completo) = SQResy

i =1

SQ(reduzido) = SQResy

(SPResi )2 = 27716088,7
SQRes x,i

(SPRes )2 = 28873230,0
SQRes x

A diferena SQ(reduzido) SQ(completo) = 1157140,94. Ento por (15.64),


F=

1157140,94 (1)
= 0,9185.
27716088,70 (22)

Como p-valor = 0,348, ns no rejeitamos H03: 1 = 2 e podemos admitir que os coeficientes angulares dos dois grupos (o proprietrio e inquilino so parentes ou no)
so iguais.
Para a homogeneidade dos coeficientes angulares para os nveis o fator C, ns
temos:
1 = 23,2104, 2 = 50,0851, 3 = 31,6693,
F=

9506034,16 (2 )
= 5,1527
19367195,50 (21)

Como p-valor = 0,0151, conclumos que os coeficientes angulares para os nveis do


fator C so diferentes.

15.5 MODELO ONE-WAY COM MLTIPLAS COVARIVEIS


15.5.1 O modelo
Em alguns casos, o pesquisador tem mais de uma covarivel disponvel. Note, entretanto, que cada covarivel diminui o nmero de graus de liberdade do resduo de
uma unidade e que a incluso de muitas covariveis pode levar perda de poder.
Para o modelo com um fator e q covariveis, ns usamos (15.4):
yij = + i + 1xij1 + 2xij2 + + qxijq + ij

= + i + xij + ij,
i = 1, 2, , k, j = 1, 2, , n.

(15.65)

335
onde = [1, 2, , q] e xij = [xij1, xij2, , xijq]. Para este modelo, ns desejamos
testar H01: 1 = 2 = = k e H02: = 0. Ns tambm desejamos estender o modelo
para permitir um vetor diferente para cada um dos k grupos e testar a igualdade desses vetores .
O modelo em (15.65) pode ser escrito matricialmente como

y = Z + X + ,
onde Z e so dados em (15.3) e X dado por (15.5):

x111
x
121
X =
M

xkn1

x112 L x11q 1
x122 L x12q 2
.
M
M M

xkn2 L xknq q

O vetor y kn x 1 e a matriz X kn x q. Ns podemos escrever y e X na


forma particionada correspondendo aos k grupos
y1
y
y = 2 , X =
M

y k

X1
X
2 ,
M

X k

(15.66)

onde
yi1
y
yi = i2 e Xi =
M

yin

xi11
x
i21
M

xin1

xi12 L xi1q
xi22 L xi2q
.
M
M

xin2 L xinq

15.5.2 Estimao

Ns primeiramente obtemos Exx, exy e eyy para usar em e SQResy.x. Por (15.16),
Exx = X(I P)X

Usando X particionada como em (15.66) e I P na forma dada em (15.40), Exx pode


ser escrito como:
k
1
Exx = Xi I J X i
(15.67)
n

i =1
(veja o Problema 15.10). Similarmente, usando y particionado como em (15.66), exy
dado por (15.16) como

336
k

Xi I n J y i

exy = X(I P)y =

(15.68)

i =1

Por (15.19) e (15.40),


eyy = y(I P)y =

y i I n J y i

(15.69)

i =1

Os elementos de Exx, exy e de eyy so extenses das somas de quadrados e produtos encontrados nas trs expresses em (15.25).
Para examinar os elementos da matriz Exx, primeiramente notamos que I
1

(1/n)J uma matriz simtrica, idempotente e que Xi I J Xi em (15.67) pode ser


n

escrito como:

1
1
1

Xi I J X i = Xi I J I J X i = Xci X ci ,
(15.70)
n n
n

1
onde X ci = I J X i a matriz Xi centrada:
n
( xi11 xi 1 ) ( xi12 xi 2 ) L
( x x ) ( x x ) L
i21
i 1
i22
i2
X ci =

M
M

( xin1 xi 1 ) ( xin2 xi 2 ) L

(xi1q xi q )
(xi2q xi q )
M

(15.71)

(xinq xi q )

[veja (7.34) e o Problema 7.15], onde xi2 , por exemplo, a mdia da segunda coluna
de Xi, isto , xi 2 =

j =1 xij 2
n

n . Pelo Teorema 2.2C(i), os elementos da diagonal de

Xci X ci so:
n

(xijr xir )2

r = 1, 2, , q

(15.72)

j =1

e os elementos fora da diagonal so:


n

(xijr xi r )(xijs xis )

r s.

(15.73)

j =1

Por (15.67) e (15.72), os elementos da diagonal de Exx so:


k

(xijr xir )2

r = 1, 2, , q

(15.74)

i =1 j =1

Por (15.67) e (15.73) os elementos fora da diagonal so:


k

(xijr xir )(xijs xis )


i =1 j =1

r s.

(15.75)

337
Essas duas expresses so anlogas para exx =

ij (xij xi )2

em (15.25).

Para examinar os elementos do vetor exy, notamos que por um argumento simi 1
lar quele usado para obter (15.70), Xi I J y i em (15.68) pode ser escrito como:
n
t

1
1 1
Xi I J y i = Xi I J I J y i = Xci y ci
n
n
n
onde X ci dado em (15.71) e
yi1 yi
y y
i
yci = i2

yin yi
com yi =

j =1 yij
n

n . Assim os elementos de Xci y ci so da forma


n

(xijr xir )(yij yi )

r = 1, 2, , q,

j =1

e por (15.68), os elementos de exy so


k

(xijr xir )(yij yi )

r = 1, 2, , q.

i =1 j =1

Similarmente, eyy em (15.69) pode ser escrito como:


k

eyy =

1 1
yi I n J I n J y i =
i =1

yci y ci =

(yij yi )2

i =1

i =1 j =1

(15.76)

Por (15.15),
= E xx1 exy

onde Exx dada por (15.67) e exy dada por (15.68). Igualmente, por (15.18),

SQResy.x = eyy (exy) E xx1 exy

(15.77)

onde eyy dado por (15.69) ou (15.76). O nmero de graus de liberdade de SQResy.x
k(n 1) q. Por (15.11) e (12.12),
0
0 0

y x y x
1
1 1 1

= 0 (ZZ) ZX = y 2 x 2 = y 2 x 2
(15.78)

M
M M

y k x k y k x k

338
Ou ento:

y1

y
= 2

y k

(1 x11 + 2 x12 + L + q x1q )


(1 x21 + 2 x22 + L + q x2q )
M
1 xk 1 + 2 xk 2 + L + q xk q

(15.79)

15.5.3 Testando hipteses

15.5.3a Tratamentos
Para testar
H01: 1 = 2 = = k
ajustado para as q covariveis, ns usamos a abordagem do modelo completo versus
modelo reduzido como na Seo 15.3.3a. O modelo completo dado por (15.65) e o
modelo reduzido (com 1 = 2 = = k = ) :
yij = + + xij + ij
= * + xij + ij,

(15.80)

que essencialmente o mesmo modelo de regresso mltipla (7.3).Por (7.38) e (7.40)


e por analogia com (15.33),
1
SQResred = SQTy.x = tyy (txy) Txx
txy
(15.81)
onde tyy dado por:
tyy = yij y 2

ij

Os elementos de txy so

(xijr xr )(yij y ),

r = 1, 2, , q,

ij

e os elementos de Txx so

(xijr xr )(xijs xs ),

r = 1, 2, , q, s = 1, 2, , q.

ij

Assim, por analogia com (15.30), ns usamos (15.81) e (15.77) para obter
SQ( | , ) = SQTy.x SQResy.x
1
= tyy (txy) Txx
txy eyy + (exy) E xx1 exy

(yij y )2 (yij yi )2
ij

ij

1
(txy) Txx
txy + (exy) E xx1 exy

339
Ou ento
1
txy + (exy) E xx1 exy
SQ( | , ) = n ( yi y )2 (txy) Txx

(15.82)

que tem (k 1) graus de liberdade (veja o Problema 15.13). Ns apresentamos essas


somas de quadrados e produtos na Tabela 15.6.
Tabela 15.6 Anlise de covarincia para testar H01: 1 = 2 = = k em um modelo
one-way com q covariveis
Fonte

SQ ajustada para as covariveis

Tratamentos

SQ( | , ) = SQTy.x SQResy.x

Resduo

SQResy.x = eyy (exy) E xx1 exy

Total

1
SQTy.x = tyy (txy) Txx
txy

g.l. ajustados

k1
k(n 1) q
kn q 1

A estatstica do teste para H01: 1 = 2 = = k


F=

SQ(|, ) (k 1)
SQRes y.x [k(n 1 ) q ]

(15.83)

que (sob H01) distribuda como F[k 1, k(n 1) q].

15.5.3b Vetor de coeficientes angulares (slopes)


Para testar
H02: = 0,
a soma de quadrados dada por (15.22) como
SQHip = (exy) E xx1 exy
onde Exx dado por (15.67) e exy dado por (15.68). A estatstica F ento
F=

exy E xx1e xy q

SQRes y.x [k(n 1 ) q ]

(15.84)

que distribuda como F[q, k(n 1) q] se H02: = 0 verdadeira.

15.5.3c Homogeneidade dos vetores de coeficientes angulares


Os testes para H01: 1 = 2 = = k e H02: = 0 assumem um mesmo vetor de
coeficientes para todos os k grupos. Para checar essa suposio ns podemos estender

340
o modelo (15.65) para obter um modelo completo admitindo diferentes vetores de
coeficientes angulares:
i)xij + ij
yij = + i + (

i = 1, 2, , k, j = 1, 2, , n.

(15.85)

O modelo reduzido com um nico vetor de coeficientes angulares dado por (15.65).
Ns agora desenvolveremos um teste para a hiptese
H03: 1 = 2 = = k
isto , que os k planos de regresso (para os k tratamentos) so paralelos.
Por extenso de (15.46) e (15.47), ns temos:
k

SQRes(completo)y.x = eyy

exy,i E xx,i1 e xy,i

(15.86)

i =1

SQRes(reduzido)y.x = eyy (exy) E xx1 exy

(15.87)

onde
1
1
Exx,i = Xi I J Xi e exy,i = Xi I J y i
n
n
so os termos do somatrio em (15.67) e (15.68). Os graus de liberdade associados a
SQRes(completo)y.x e SQRes(reduzido)y.x so k(n1) kq = k(n q 1) e k(n1) q,
respectivamente. Note que SQRes(reduzido)y.x em (15.87) o mesmo que SQResy.x
em (15.77). O estimador de i para o i-simo grupo
1
i = E xx,i
e xy,i .

(15.88)

Por analogia a (15.48), a soma de quadrados para testar H03: 1 = 2 = ... = k


dada por:
k

SQRes(reduzido)y.x SQRes(completo)y.x =

exy,i E xx,i1 e xy,i

(exy) E xx1 exy,

i =1

que tem k(n 1) q [k(n 1) kq] = q(k 1) graus de liberdade. A estatstica de


teste para H03: 1 = 2 = ... = k :
F=

[SQRes(reduzido) y.x SQRes(completo) y.x ] q(k 1)


SQRes(completo) y.x k (n q 1)

(15.89)

que distribuda como F[q(k 1), k(n q 1)] se H03 verdadeira. Note que se n no
grande, n q 1 pode ser pequeno e o teste ter um baixo poder.

Exemplo 15.5.3. Na Tabela 15.7, ns temos a classificao do instrutor y e as classificaes em dois cursos x1 e x2 para cinco instrutores em cada um dos trs cursos
(Morrison, 1983, p. 470).

341

Tabela 15.7 Classificao do instrutor y e as classificaes em dois cursos x1 e x2 em


trs cursos
Curso 1

Curso 2

Curso 3

x1

x2

x1

x2

x1

x2

2,14

2,71

2,50

2,77

2,29

2,45

1,11

1,74

1,82

1,34

2,00

1,95

1,23

1,83

1,64

2,41

2,19

2,54

2,50

2,66

2,69

1,37

1,78

1,83

1,74

1,40

2,23

1,40

2,80

2,00

1,52

2,18

2,24

1,15

1,80

1,82

1,90

2,38

2,30

1,81

2,14

2,11

1,66

2,17

2,35

Primeiramente encontramos e SQResy.x. Usando (15.67), (15.68) e (15.69)


ns obtemos:

1,0619 0 ,6791
Exx =
, exy =
0 ,6791 1,2363

1,0229
1,9394 , eyy = 3,6036.

Ento por (15.15),

0 ,0617
= E xx1 exy =
.
1,6026
Por (15.77) e (15.81), ns temos:
SQResy.x = 0,5585, SQTy.x = 0,7840.
Ento por (15.82),
SQ( | , ) = SQTy.x SQResy.x = 0,2254.
A estatstica F para testar H01: 1 = 2 =3 dada por (15.83) como
F=

SQ( | , ) (k 1)
0,2254 2
=
= 2,0182
SQRes y.x [k(n 1 ) q ] 0 ,5585 10

Como p-valor = 0,184, no rejeitamos H01 e conclumos que as classificaes mdias


dos instrutores nos trs cursos so iguais.
Para testar H02: = 0, ns usamos (15.84) para obter:
F=

exy E xx1e xy q
SQR y.x [k(n 1 ) q ]

= 27,2591

Como p-valor < 0.0001 ns rejeitamos H02 e conclumos que as classificaes nos
dois cursos tm efeitos significativos sobre a classificao dos instrutores.

342
Antes de testar a homogeneidade dos vetores de coeficientes angulares, H03: 1
= 2 = 3, ns primeiramente estimamos 1, 2 e 3 usando (15.88):

0 ,4236 0,1900
1 = E xx,11 e xy,1 =

0,1900 0 ,4039

0,2786 0,0467
0,6254 = 1,5703

0 ,2037 0 ,2758
2 =

0 ,2758 0 ,4161

0,4370 0,1781
0,6649 = 1,7159

0 ,4346 0 ,2133
3 =

0 ,2133 0 ,4163

0,3073 0,0779
0,6492 = 1,5993

Ento por (15.86) e (15.87),


k

SQRes(completo)y.x = eyy

exy,i E xx,i1 e xy,i

= 0,55725

i =1

SQRes(reduzido)y.x = eyy (exy) E xx1 exy = 0,55855.


A estatstica F para testar H03: 1 = 2 = 3 dada por (15.89) como:
F=

[SQRes(reduzido) y.x SQRes(completo) y.x ] q(k 1)


SQRes(completo) y.x k (n q 1)
=

0 ,0012993 4
= 0,003498.
0 ,55725 6

Como o p-valor 1, no rejeitamos H03 e conclumos que os trs vetores de coeficientes angulares so iguais.

15.6 ANLISE DE COVARINCIA COM MODELOS DESBALANCEADOS


Os resultados apresentados nas sees anteriores foram para modelos ANOVA com
dados balanceados. O caso no qual o modelo ANOVA desbalanceado antes da incluso de uma covarivel foi tratado por Hendrix, Carter e Scott (1982), que tambm
discutiram a heterogeneidade das inclinaes. A abordagem seguinte baseada no
modelo de mdias de caselas do Captulo 14, como sugerido por Bryce (1998).
Para um modelo de anlise de covarincia com uma nica covarivel e um coeficiente de inclinao comum , estendemos o modelo de mdias de caselas (14.3) ou
(14.18) como


y = [W, x] + = W + x + .

(15.90)

343
Este modelo pode ser usado tanto para desbalanceamento nos nijs quanto para
o desbalanceamento inerente nos modelos de anlise de covarincia [ver Bingham e
Feinberg (1982) e um comentrio abaixo de (15.34)]. O vetor contem as mdias
para um modelo one-way como em (14.2), um modelo two-way como em (14.17) ou
algum outro modelo. Hipteses sobre os efeitos principais, interaes, a covarivel,

ou outros efeitos podem ser testadas utilizando contrastes sobre , como na Seo

14.3.


A hiptese H02: = 0 pode ser expressa na forma H02: [0, , 0, 1] = 0. Para

testar H02 ns usamos uma estatstica anloga a (14.29) ou (14.32). Para testar a homogeneidade dos coeficientes angulares, H03: 1 = 2 = = k para um modelo oneway (ou H03: 1 = 2 = = a para os coeficientes angulares dos a nveis do fator A
em um modelo two-way, e assim por diante), ns expandimos o modelo (15.90) para
incluir os is:

y = [W, Wx] + = W + Wx + ,

(15.91)

onde = [1, 2, , k] e Wx tem um nico valor de xij em cada linha com todos os
outros elementos 0s. (O valor de xij em Wx est na mesma posio que o correspondente 1 em W.) Ento H03: 1 = 2 = = k pode ser expressa como


H03: [0, C] = C = 0,

onde C uma matriz (k 1) x k de posto k 1 tal que Cj = 0. Ns podemos testar
H03: C = 0 usando uma estatstica anloga a (14.33).
Restries sobre os s e os s podem ser introduzidas inserindo-se matrizes
no-singulares A e Ax em (15.91):

y = W A 1 A + Wx A x 1 Ax + .

(15.92)

A matriz A tem a forma ilustrada em (14.37) para restries sobre os s. A


matriz Ax proporciona as restries sobre os s. Por exemplo, se:

j'
Ax = ,
C
onde C uma matriz (k 1) x k de posto k 1, tal que Cj = 0 como acima, ento o
modelo (15.92) tem um coeficiente angular comum. Em muitos casos, as matrizes A
e Ax podero ser a mesma.

344

APNDICE: Programa no proc iml para resolver o Exerccio 15.3.3


proc iml ;
y = {49,61,55,69,51,38,64,68,70,60,53,59,48,46,59,53,54,48,54,53,37};
x = {35,26,29,32,23,26,31,33,35,28,29,32,23,26,33,36,26,30,33,25,23};
t = {1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3};
k=3;
* nmero de grupos;
n=7;
* nmero de repeties por grupo;
nk=n*k;
* nmero total de observaes;
In = I(n);
Jn = J(n,n,1);
Ink = I(nk);
Jnk = J(nk,nk,1);
Z = J(nk,1,1)||design(t); * calcula a matriz Z;
PZ = Z*ginv(t(Z)*Z)*t(Z); * calcula P = Z(ginv(Z'Z))Z';
*Calcula as somas de quadrados usando (15.25);
exx = t(X)*(Ink-PZ)*X;
exy = t(X)*(Ink-PZ)*y;
eyy = t(y)*(Ink-PZ)*y;
Beta = exy/exx;
* calcula Beta usando (15.26);
*Calcula a SQ resduo ajustado para a covarivel;
SQResyx = eyy - (exy)**2/exx;
* calcula SQResy.x usando (15.27);
gl_Ryx = k*(n-1)-1;
* calcula gl associado a SQResy.x;
*Calcula a SQ resduo sem o ajuste para a covarivel;
tyy = t(y)*(Ink-Jnk/nk)*y;
* calcula tyy usando (15.34);
txy = t(X)*(Ink-Jnk/nk)*y;
* calcula txy usando (15.34);
txx = t(X)*(Ink-Jnk/nk)*X;
* calcula txx usando (15.34);
SQTyx = tyy - txy**2/txx;
* calcula Ty.x usando (15.33);
gl_Tyx = k*n-2;
* calcula gl associado Ty.x;
print 'Somas de quadrados importantes',,, exx exy eyy SQResyx gl_Ryx
SQTyx gl_Tyx, Beta /;

Obtendo-se:
Somas de quadrados importantes
EXX
EXY
EYY
SQResYX
350.28571 412.71429 1465.7143 979.44529
BETA
1.1782219

GL_RYX
SQTYX
17 1141.4709

GL_TYX
19

345
*Testando a hiptese H01: alfa1 = alfa2 = alfa3;
SQH01 = SQTyx - SQResyx;
* calcula SQ(alfa|mi,beta) usando (15.30);
gl_H01 = gl_Tyx - gl_Ryx; * calcula gl associado SQ(alfa|mi,beta);
F01 = (SQH01/gl_H01)/(SQResyx/gl_Ryx);
* calcula F para testar H01
usando (15.31);
Prob_F01 = 1-probf(F01, gl_H01, gl_Ryx);
* calcula p-valor para F01;
print 'Testando a hiptese H01: alfa1 = alfa2 = alfa3';
print SQH01 gl_H01 F01 Prob_F01;
print SQResyx gl_Ryx /;

Resultando em:
Testando a hiptese
SQH01
162.02561

H01: alfa1 = alfa2 = alfa3

GL_H01
2

SQResYX
979.44529

F01 PROB_F01
1.40612 0.2721952

GL_RYX
17

* Testando a hiptese H02: Beta = 0;


SQH02 = exy**2/exx;
* calcula SQH0 usando (15.35);
gl_H02 = 1;
F02 = SQH02/(SQResyx/gl_Ryx); * calcula F para testar H02 usando (15.36);
Prob_F02 = 1-probf(F02, gl_H02, gl_Ryx); * calcula p-valor associado a
F02;
print 'Testando a hiptese H02: Beta = 0';
print SQH02 gl_H02 F02 Prob_F02;
print SQResyx gl_Ryx /;

Resultando em:
Testando a hiptese H02: Beta = 0
SQH02
486.26899

GL_H02
1

SQResYX
979.44529

GL_RYX

F02
8.4400558
17

PROB_F02
0.0098538

346
* Testando a hiptese H03: Beta1 = Beta2 = Beta3';
x1=x[1:7,]; x2=x[8:14,]; x3=x[15:21,];
XX = block(x1, x2, x3);

* constri matriz X como definido em (15.39);

Exx = t(XX)*(Ink-PZ)*XX;

* calcula Exx usando (15.41);

exy = t(XX)*(Ink-PZ)*y;

* calcula exy usando (15.43);

Betas = inv(Exx)*Exy;

* calcula os betas usando (15.45);

SQFyx = eyy-t(Exy)*Betas;

* calcula SQRes(completo)y.x usando (15.46);

gl_Fyx=k*(n-2);

* calcula gl associado a SQRes(completo)y.x;

SQH03 = SQResyx - SQFyx;

* calcula SQH03 usando (15.48);

gl_H03 = gl_Ryx-k*(n-2);

* calcula gl associado a SQH03;

F03 = (SQH03/gl_H03)/(SQFyx/gl_Fyx);

* calcula F associado a H03;

Prob_F03 = 1-probf(F03, gl_H03, gl_Fyx);* calcula p-valor associado a


F03;
print 'Testando a hiptese H03: Beta1 = Beta2 = Beta3';
print SQH03 gl_H03 F03 Prob_F03;
print SQFyx gl_Fyx, ;
print 'Estimativas de Beta1, Beta2 e Beta3', Betas;
quit;

Testando a hiptese H03: Beta1 = Beta2 = Beta3


SQH03
98.855707
SQFYX
880.58959

GL_H03
2

F03
PROB_F03
0.8419561
0.4502464

GL_FYX
15

Estimativas de Beta1, Beta2 e Beta3


BETAS
0.7902778
1.9851351
0.8578629

347

Apndice 2: Programa no proc glm para resolver o Exerccio 15.3.3


data Ex15_3_3;
input Grupo Rep y x;
cards;
1
1
49
35
1
2
61
26
1
3
55
29
1
4
69
32
1
5
51
23
1
6
38
26
1
7
64
31
2
1
68
33
2
2
70
35
2
3
60
28
2
4
53
29
2
5
59
32
2
6
48
23
2
7
46
26
3
1
59
33
3
2
53
36
3
3
54
26
3
4
48
30
3
5
54
33
3
6
53
25
3
7
37
23
;
proc glm data=Ex15_3_3;
title 'Testa as hipteses H01 e H02';
class Grupo;
model y = grupo x / ss2 solution;
run;

Resultando em:
Source
Grupo
x
Parameter
Intercept
Grupo
1
Grupo
2
Grupo
3
X

DF
2
1

Type II SS
162.0256063
486.2689932

Estimate
16.46947099
4.81612678
6.57142857
0.00000000
1.17822186

B
B
B
B

Mean Square
81.0128031
486.2689932
Standard
Error
12.27500014
4.06386179
4.05724850
.
0.40555935

F Value
1.41
8.44
t Value
1.34
1.19
1.62
.
2.91

Pr > F
0.2722 (1)
0.0099 (2)
Pr > |t|
0.1973
0.2523
0.1237
.
0.0099(3)

Onde:
(1) Traz as informaes do teste da hiptese H01: 1 = 2 = 3
(2) Traz as informaes do teste da hiptese H02: = 0
(3) Traz informaes sobre a estimativa do coeficiente angular e teste t para a
hiptese H: = 0.

348
proc glm data=Ex15_3_3;
title 'Testar a hiptese H03';
class Grupo;
model y = grupo grupo*x / solution noint ss2;
contrast 'Betas iguais' grupo*x -2 1 1, grupo*x 0 1 -1;
run;

Resulta em:
Contrast
Betas iguais
Parameter
Grupo
Grupo
Grupo
x*Grupo
x*Grupo
x*Grupo

1
2
3
1
2
3

DF
2

Contrast SS
98.85570672

Estimate
32.48055556
-0.70540541
25.89717742
0.79027778
1.98513514
0.85786290

Mean Square
49.42785336
Standard
Error
21.99254382
22.12062868
19.16113371
0.75548164
0.74520250
0.64362711

F Value
0.84
t Value
1.48
-0.03
1.35
1.05
2.66
1.33

Pr > F
0.4502 (4)
Pr > |t|
0.1604
0.9750
0.1966
0.3121 (5)
0.0177 (5)
0.2025 (5)

Onde:

(4) Traz as informaes do teste da hiptese H01: 1 = 2 = 3


(5) Traz informaes sobre as estimativas dos coeficientes angulares associados aos
trs grupos e teste t para a hiptese H: i = 0, i = 1, 2, 3.

349

Apndice 3: Programa no proc glm para resolver o Exerccio 15.4.1


data Ex15_4_1;
input C A Rep y x;
cards;
1
1
1
6399 160
1
1
2
8456 320
1
1
3
8453 200
1
1
4
4891 160
1
1
5
3491 120
1
2
1
6944 160
1
2
2
6971 160
1
2
3
4053 120
1
2
4
8767 280
1
2
5
6765 160
2
1
1
2490
90
2
1
2
5349 154
2
1
3
5518 160
2
1
4 10417 234
2
1
5
4278 120
2
2
1
4936 160
2
2
2
7376 200
2
2
3
6216 160
2
2
4 10313 240
2
2
5
5124 120
3
1
1
4489 120
3
1
2 10026 245
3
1
3
5659 160
3
1
4
5475 160
3
1
5 11382 320
3
2
1
5731 160
3
2
2
6787 173
3
2
3
5814 134
3
2
4
9607 239
3
2
5
9817 320
;
proc glm;
title 'Testa as hiptese H01 e H02';
class A C;
model y = A C A*C x / ss3 solution noint;
run;

Resultando em:
Testa as hiptese H01 e H02
Source
A
C
A*C
x
Parameter
x

DF
1
2
2
1

Type III SS
1375355.1
766750.1
932749.5
109932635.1
Estimate
32.0726921

Mean Square
1375355.1
383375.0
466374.8
109932635.1

Standard
Error
3.427330

t Value
9.36

F Value
1.10
0.31
0.37
87.57

Pr > F
0.3061
0.7398
0.6938
<.0001

Pr > |t|
<.0001 (5)

(1)
(2)
(3)
(4)

350
Onde:

(1) Traz as informaes do teste da hiptese H01: 1 = 2 (fator A)


(2) Traz as informaes do teste da hiptese H01: 1 = 2 (fator C)
(3) Traz as informaes do teste da hiptese H01: 11 = 12 = 21 = 22 (interao AC)
(4) Traz as informaes do teste da hiptese H02: = 0.
(5) Traz informaes sobre a estimativa do coeficiente angular e teste t para a hiptese H: = 0.

* Fator A: compara os Betas;


proc glm;
title 'Fator A: Testa H03';
class A C;
model y = A C A*C x(A)/ ss1 solution noint;
contrast 'Fator A: Betas iguais' x(A) 1 -1;
run;

Resultando em:
Source
A
C
A*C
x(A)

DF
2
2
2
2

Type I SS
1362431491
8841441
1497573
111089776

Contrast
DF
Fator A: Betas iguais 1
Parameter
x(A)
1
x(A)
2

Mean Square
681215746
4420721
748786
55544888

Contrast SS
1157140.937

Estimate
34.906580
28.251949

F Value
540.72
3.51
0.59
44.09

Mean Square
1157140.937

Standard
Error
4.531216
5.261352

t Value
7.70
5.37

F Value
0.92

Pr > F
<.0001
0.0476
0.5605
<.0001

(6)

Pr > F
0.3483 (7)

Pr > |t|
<.0001 (8)
<.0001 (8)

Onde:

(6) Traz informaes sobre o teste de que todos os coeficientes angulares para o fator
A so nulos (hiptese de pouca importncia!)
(7) Traz as informaes do teste da hiptese de homogeneidade dos coeficientes
angulares para o fator A.
(8) Traz as estimativas dos coeficientes dos coeficientes angulares (fator A) e teste t
para a hiptese H: i = 0, para i = 1, 2.

351
* Fator C: compara os Betas;
proc glm;
title 'Fator C: Testa H03';
class A C;
model y = A C A*C x(C)/ ss1 solution noint;
contrast 'Fator C: Betas iguais' x(C) 2 -1 -1, x(C) 0 1 -1;
run;

Resultando em:
Source
A
C
A*C
x(C)

DF
2
2
2
3

Type I SS
1362431491
8841441
1497573
119438669

Mean Square
681215746
4420721
748786
39812890

F Value
738.65
4.79
0.81
43.17

Pr > F
<.0001
0.0193
0.4575
<.0001

(9)

Contrast
DF
Fator C:Betas iguais 2
Parameter
x(C)
1
x(C)
2
x(C)
3

Contrast SS
Mean Square F Value Pr > F
9506034.164
4753017.082
5.15 0.0151 (10)
Standard
Estimate
Error
t Value
Pr > |t|
23.210417
4.900700
4.74
0.0001 (11)
50.085129
6.794143
7.37
<.0001 (11)
31.669261
4.361080
7.26
<.0001 (11)

Onde:

(9) Traz informaes sobre o teste de que todos os coeficientes angulares para o
fator C so nulos (hiptese de pouca importncia!)
(10) Traz as informaes do teste da hiptese de homogeneidade dos coeficientes nagulares para o fator C.
(11) Traz as estimativas dos coeficientes dos coeficientes angulares (fator C) e teste t
para a hiptese H: j = 0, para j = 1, 2, 3.

Apndice 1: Programa no proc iml para resolver o Exerccio 15.3.3


proc iml ;
y = {49,61,55,69,51,38,64,68,70,60,53,59,48,46,59,53,54,48,54,53,37};
x = {35,26,29,32,23,26,31,33,35,28,29,32,23,26,33,36,26,30,33,25,23};
t = {1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3};
k=3;
* nmero de grupos;
n=7;
* nmero de repeties por grupo;
nk=n*k;
* nmero total de observaes;
In = I(n);
Jn = J(n,n,1);
Ink = I(nk);
Jnk = J(nk,nk,1);
Z = J(nk,1,1)||design(t); * calcula a matriz Z;
PZ = Z*ginv(t(Z)*Z)*t(Z); * calcula P = Z(ginv(Z'Z))Z';
*Calcula as somas de quadrados usando (15.25);
exx = t(X)*(Ink-PZ)*X;
exy = t(X)*(Ink-PZ)*y;
eyy = t(y)*(Ink-PZ)*y;
Beta = exy/exx;
* Calcula Beta usando (15.26);
*Calcula a SQ resduo ajustado para a covarivel;
SQRyx = eyy - (exy)**2/exx;
* calcula SQRy.x usando (15.27);
gl_Ryx = k*(n-1)-1;
* calcula gl associado a SQRy.x;
*Calcula a SQ resduo sem o ajuste para a covarivel;
tyy = t(y)*(Ink-Jnk/nk)*y;
* calcula tyy usando (15.34);
txy = t(X)*(Ink-Jnk/nk)*y;
* calcula txy usando (15.34);
txx = t(X)*(Ink-Jnk/nk)*X;
* calcula txx usando (15.34);
SQTyx = tyy - txy**2/txx;
* calcula Ty.x usando (15.33);
gl_Tyx = k*n-2;
* calcula gl associado a Ty.x;
print 'Somas de quadrados importantes',,, exx exy eyy SQRyx gl_Ryx SQTyx gl_Tyx,;
print Beta /;

Somas de quadrados importantes


EXX
EXY
EYY
SQRYX
350.28571 412.71429 1465.7143 979.44529

GL_RYX
SQTYX
17 1141.4709

GL_TYX
19

BETA
1.1782219

*Testando a hiptese H01: alfa1 = alfa2 = alfa3;


SQH01 = SQTyx - SQRyx;
* calcula SQ(alfa|mi,beta) usando (15.30);
gl_H01 = gl_Tyx - gl_Ryx;
* calcula gl associado a SQ(alfa|mi,beta);
F01 = (SQH01/gl_H01)/(SQRyx/gl_Ryx);
* calcula F para testar H01 usando (15.31);
Prob_F01 = 1-probf(F01, gl_H01, gl_Ryx);
* calcula p-valor para F01;
print 'Testando a hiptese H01: alfa1 = alfa2 = alfa3';
print SQH01 gl_H01 F01 Prob_F01;
print SQRyx gl_Ryx /;

Testando a hiptese
SQH01
162.02561

GL_H01
2

SQRYX
979.44529

GL_RYX
17

H01: alfa1 = alfa2 = alfa3


F01 PROB_F01
1.40612 0.2721952

* Testando a hiptese H02: Beta = 0;


SQH02 = exy**2/exx;
* calcula SQH0 usando (15.35);
gl_H02 = 1;
F02 = SQH02/(SQRyx/gl_Ryx);
* calcula estatstica F para testar H02 usando (15.36);
Prob_F02 = 1-probf(F02, gl_H02, gl_Ryx);
* calcula p-valor associado a F02;
print 'Testando a hiptese H02: Beta = 0';
print SQH02 gl_H02 F02 Prob_F02;
print SQRyx gl_Ryx /;

Testando a hiptese H02: Beta = 0


SQH02
486.26899

GL_H02
F02 PROB_F02
1 8.4400558 0.0098538

SQRYX
979.44529

GL_RYX
17

* Testando a hiptese H03: Beta1 = Beta2 = Beta3';


x1=x[1:7,]; x2=x[8:14,]; x3=x[15:21,];
XX = block(x1, x2, x3);
* constri matriz X como definido em (15.39);
Exx = t(XX)*(Ink-PZ)*XX;
* calcula Exx usando (15.41);
exy = t(XX)*(Ink-PZ)*y;
* calcula exy usando (15.43);
Betas = inv(Exx)*Exy;
* calcula os betas usando (15.45);
SQFyx = eyy-t(Exy)*Betas;
* calcula SQR(completo)y.x usando (15.46);
gl_Fyx=k*(n-2);
* calcula gl associado a SQR(completo)y.x;
SQH03 = SQRyx - SQFyx;
* calcula SQH03 usando (15.48);
gl_H03 = gl_Ryx-k*(n-2);
* calcula gl associado a SQH03;
F03 = (SQH03/gl_H03)/(SQFyx/gl_Fyx);
* calcula F associado a H03;
Prob_F03 = 1-probf(F03, gl_H03, gl_Fyx);
* calcula p-valor associado a F03;
print 'Testando a hiptese H03: Beta1 = Beta2 = Beta3';
print SQH03 gl_H03 F03 Prob_F03;
print SQFyx gl_Fyx, ;
print 'Estimativas de Beta1, Beta2 e Beta3', Betas;
quit;

Testando a hiptese H03: Beta1 = Beta2 = Beta3


SQH03
98.855707

GL_H03
F03 PROB_F03
2 0.8419561 0.4502464

SQFYX
880.58959

GL_FYX
15

Estimativas de Beta1, Beta2 e Beta3


BETAS
0.7902778
1.9851351
0.8578629

Apndice 2: Programa no proc glm para resolver o Exerccio 15.3.3


data Ex15_3_3;
input Grupo Rep y x;
cards;
1
1
49
35
1
2
61
26
1
3
55
29
1
4
69
32
1
5
51
23
1
6
38
26
1
7
64
31
2
1
68
33
2
2
70
35
2
3
60
28
2
4
53
29
2
5
59
32
2
6
48
23
2
7
46
26
3
1
59
33
3
2
53
36
3
3
54
26
3
4
48
30
3
5
54
33
3
6
53
25
3
7
37
23
;
proc glm data=Ex15_3_3;
title 'Testa as hipteses H01 e H02';
class Grupo;
model y = grupo x / ss2 solution;
run;

...
Source
Grupo
x
Parameter
...
x

DF
2
1

Type II SS
162.0256063
486.2689932

Estimate
1.17822186

(3)

Mean Square
81.0128031
486.2689932

F Value
1.41
8.44

Standard
Error

t Value

Pr > |t|

0.40555935

2.91

0.0099

Onde:
(1) Traz as informaes do teste da hiptese H01: 1 = 2 = 3
(2) Traz as informaes do teste da hiptese H02: = 0
(3) Traz a estimativa do coeficiente angular
proc glm data=Ex15_3_3;
title 'Testar a hiptese H03';
class Grupo;
model y = grupo grupo*x / solution noint ss2;
contrast 'Betas iguais' grupo*x -2 1 1, grupo*x 0 1 -1;
run;

Pr > F
0.2722
0.0099

(1)
(2)

...
Contrast
Betas iguais
Parameter
...
x*Grupo
1
x*Grupo
2
x*Grupo
3

DF
2
Estimate
0.79027778
1.98513514 (5)
0.85786290

Contrast SS
98.85570672

Mean Square
49.42785336

F Value
0.84

Standard
Error

t Value

Pr > |t|

0.75548164
0.74520250
0.64362711

1.05
2.66
1.33

0.3121
0.0177
0.2025

Pr > F
0.4502

(4) Traz as informaes do teste da hiptese H01: 1 = 2 = 3


(5) Traz as estimativas dos coeficientes angulares associados aos trs grupos.

(4)

Apndice 3: Programa no proc iml para resolver o Exerccio 15.4.1


data Ex15_4_1;
input C A Rep y x;
cards;
1
1
1
6399
1
1
2
8456
1
1
3
8453
1
1
4
4891
1
1
5
3491
1
2
1
6944
1
2
2
6971
1
2
3
4053
1
2
4
8767
1
2
5
6765
2
1
1
2490
2
1
2
5349
2
1
3
5518
2
1
4 10417
2
1
5
4278
2
2
1
4936
2
2
2
7376
2
2
3
6216
2
2
4 10313
2
2
5
5124
3
1
1
4489
3
1
2 10026
3
1
3
5659
3
1
4
5475
3
1
5 11382
3
2
1
5731
3
2
2
6787
3
2
3
5814
3
2
4
9607
3
2
5
9817
;

160
320
200
160
120
160
160
120
280
160
90
154
160
234
120
160
200
160
240
120
120
245
160
160
320
160
173
134
239
320

proc glm;
title 'Testa as hiptese H01 e H02';
class A C;
model y = A C A*C x / ss3 solution noint;
run;

Testa as hiptese H01 e H02


The GLM Procedure
Dependent Variable: y
Source
Model
Error
Uncorrected Total
R-Square
0.809448
Source
A
C
A*C
x

Coeff Var
16.64051

DF
7
23
30

Sum of
Squares
1482703140
28873230
1511576370

Root MSE
1120.428
DF
1
2
2
1

Mean Square
211814734
1255358

F Value
168.73

Pr > F
<.0001

F Value
1.10
0.31
0.37
87.57

Pr > F
0.3061
0.7398
0.6938
<.0001

y Mean
6733.133

Type III SS
1375355.1
766750.1
932749.5
109932635.1

Mean Square
1375355.1
383375.0
466374.8
109932635.1

(1)
(2)
(3)
(4)

Parameter
...
x

Estimate
32.0726921

(5)

Standard
Error

t Value

Pr > |t|

3.427330

9.36

<.0001

(1) Traz as informaes do teste da hiptese H01: 1 = 2 (fator A)


(2) Traz as informaes do teste da hiptese H01: 1 = 2 (fator C)
(3) Traz as informaes do teste da hiptese H01: 11 = 12 = 21 = 22 (interao AC)
(4) Traz as informaes do teste da hiptese H02: = 0.
(5) Traz a estimativa do coeficiente angular

* Fator A: compara os Betas;


proc glm;
title 'Fator A: Testa H03';
class A C;
model y = A C A*C x(A)/ ss1 solution noint;
contrast 'Fator A: Betas iguais' x(A) 1 -1;
run;

...
Contrast
Fator A: Betas iguais
Parameter
...
x(A)
1
x(A)
2

DF
1

Contrast SS
1157140.937

Estimate
34.906580
28.251949

(7)
(7)

Mean Square
1157140.937

F Value
0.92

Standard
Error

t Value

Pr > |t|

4.531216
5.261352

7.70
5.37

<.0001
<.0001

Pr > F
0.3483

(6)

(6) Traz as informaes do teste da hiptese de homogeneidade dos coeficientes nagulares para o fator A.
(7) Traz as estimativas dos coeficientes dos coeficientes angulares (fator A).

* Fator C: compara os Betas;


proc glm;
title 'Fator C: Testa H03';
class A C;
model y = A C A*C x(C)/ ss1 solution noint;
contrast 'Fator C: Betas iguais' x(C) 2 -1 -1, x(C) 0 1 -1;
run;
...
Contrast
Fator C: Betas iguais

DF
2

Contrast SS
9506034.164

Mean Square
4753017.082

F Value
5.15

Pr > F
0.0151

(8)

Parameter
...
x(C)
1
x(C)
2
x(C)
3

Estimate
23.210417
50.085129 (9)
31.669261

Standard
Error

t Value

Pr > |t|

4.900700
6.794143
4.361080

4.74
7.37
7.26

0.0001
<.0001
<.0001

(8) Traz as informaes do teste da hiptese de homogeneidade dos coeficientes nagulares para o fator C.
(9) Traz as estimativas dos coeficientes dos coeficientes angulares (fator C).

352

CAPTULO 16. MODELOS DE EFEITOS ALEATRIOS E MODELOS DE EFEITOS MISTOS


16.1. INTRODUO
Nos Captulos 11-14, os nicos componentes aleatrios dos modelos foram y e . Assim, por exemplo, no modelo one-way (12.1),
yij = + i + ij,

i = 1, 2, , k

j = 1, 2, , n,

os parmetros e i so constantes, enquanto yij e ij so variveis aleatrias. Tal


modelo muitas vezes chamado de modelo de efeitos fixos. Neste modelo one-way
(um fator) de efeitos fixos, estamos interessados em estimar e testar hipteses sobre
os k parmetros 1, 2, , k ou as k mdias i = + i, para i = 1, 2, , k, e estimar
var(yij) = 2 .
Agora ns consideramos um modelo one-way de efeitos aleatrios:
yij = + ai + ij,

i = 1, 2, , k

j = 1, 2, , n

(16.1)

onde ai selecionada ao acaso de um populao infinita, sendo considerada uma varivel aleatria. Ns assumimos que:
E(ai) = 0 e var(ai) = a2 para todo i,
E(ij) = 0 e var(ij) = 2 para todo i, j,
E(ijrs) = cov(ij, rs) = 0 para todo i r ou j s,
E(aiaj) = cov(ai, aj) = 0 para i j,
E(aiij) = cov(ai, ij) = 0 para todo i, j.
Dessas suposies, ns temos que:
E(yij) =

(16.2)

Para ilustrar este modelo, considere uma planta qumica na qual um grande nmero de grupos de um determinado produto qumico produzido. Cada grupo embalado em um nmero grande de containeres. Suponha que estamos interessados
numa certa caracterstica designada como y. Ns podemos escolher trs grupos ao
acaso e selecionar (tambm ao acaso) dois containeres para cada poro para medir y.
Este procedimento leva a uma boa aproximao do modelo one-way de efeitos aleatrios:
yij = + ai + ij,
onde ai o efeito do i-simo grupo.

i = 1, 2, 3

j = 1, 2

(16.3)

353
Na prtica ns estamos interessados em estimar a2 e 2 e em testar a hiptese
H0: a2 = 0, que equivalente igualdade dos efeitos dos grupos. Ns tambm desejamos predizer ai.
Pelo modelo (16.1) e atendendo s suposies, ns obtemos:
var(yij) = a2 + 2, para todo i, j

(16.4)

cov(yij, yir) = a2 , para j r

(16.5)

cov(yij, yrs) = 0, para i r

(16.6)

As varincias a2 e 2 em (16.4) so muitas vezes chamadas componentes de varincia e os modelos tais como (16.1) so consequentemente referidos como modelos
de componentes de varincia.
O modelo one-way de efeitos aleatrios em (16.1) pode ser expresso na notao matricial. Ns ilustramos usando as seis observaes em (16.3). O modelo para y
= [y11, y12, , y32] fica:
y = j6 + Za +

(16.7)

onde
y11
y
12
y
y = 21 ,
y 22
y31

y32

1
1

0
Z =
0
0

0 0
0 0

1 0

1 0
0 1

0 1

a1
a = a2 .

a3

E(a) = 0, E() = 0, cov(a, ) = 0, cov(a) = a2 I3 e cov() = 2 I6.

Ns vemos em (16.4) e (16.6) que a matriz de covarincia para y = [y11, y12, ,


ykn] em (16.1) no uma matriz diagonal 2 I como no modelo de efeitos fixos. Para
ilustrar a forma de cov(y), ns usamos y = [y11, y12, , y32] no modelo (16.3), para o
qual,
a2 + 2
a2
0
0
0
0

2
2
2
a +
0
0
0
0
a
0
a2 + 2
a2
0
0
0
cov(y) =
(16.8)
2
2
2
a
a +
0
0
0
0
0
a2 + 2
a2
0
0
0

0
0
0
a2
a2 + 2
0

354
Em (16.8) a matriz de covarincia para dois ys em cada uma das trs pores tem a
forma
2 0 a2 a2
yi1 2 + a2
a2
cov =
+ 2
=
2
2
2
2 + a2
0

yi 2 a

a a

= 2 I2 + a2 J2.
Assim, cov(y) em (16.8) pode ser expressa como:
2 I 2 + a2 J 2

0
0

cov(y) =
0
0
2I 2 + a2 J 2

2
2

0
0
I 2 + a J 2

= I6 +

a2

J 2
0

0
J2
0

0
0

J 2

(16.9)

(16.10)

onde 0 uma matriz 2x2 de zeros.


Ns podemos estender (16.1) para um modelo two-way de efeitos aleatrios,
yijk = + ai + bj + cij + ijk

(16.11)

i = 1, 2, , I, j = 1, 2, , J, k = 1, 2, , n

onde cij a interao entre ai e bj.


Um modelo de efeitos mistos (mixed-effects model, ou modelo misto) pode ser
ilustrado por:
yijk = + i + bj + cij + ijk

(16.12)

i = 1, 2, , I, j = 1, 2, , J, k = 1, 2, , n

onde i um fator de efeito fixo e bj e cij so aleatrios. Se a restrio


sumida, tambm assumido freqentemente que

i cij

i i

= 0 as-

= 0 para todos os valores de

j, desde que todos os nveis do fator A esto includos no experimento.


Em geral, um modelo misto pode ser expresso em termos matriciais como:
y = X
+ Za +

(16.13)

onde um vetor de efeitos fixos e a um vetor de efeitos aleatrios. As suposies


do modelo so:

E(a) = 0, E() = 0, cov(a, ) = 0, cov(a) = V e cov() = 2 I.

355
Por exemplo, o modelo misto em (16.12) teria:



= 1 ,
M

I

b1
M

b
a= J
c11
M

cIJ

Nas prximas sees ns consideramos a estimao dos parmetros de efeito


fixo em , a predio dos efeitos aleatrios em a, a estimao dos componentes de
varincia e testes de hipteses. Ns ilustramos muitos resultados para o modelo oneway de efeitos aleatrios, com breve referncia ao modelo two-way. Para maiores
detalhes, ver Graybill (1976, cap.15), Searle, Casella e McCulloch (1992), Neter et
all. (1996, cap.24), Christensen (1996, cap.12), Hocking (1996, cap.15-17), Rao
(1997) e Khuri, Mathew e Sinha (1998).

16.2 ESTIMAO DE
E PREDIO DE a EM y = X
+ Za +
16.2.1. Melhor estimador linear no viesado (blue) de
Ns consideramos a estimao de uma funo estimvel
. Para o modelo (16.13)
com as suas suposies, ns temos:

cov(y) = = ZVZ + 2 I.

(16.14)

Ento, por extenso do estimador de mnimos quadrados generalizados (7.64) para o


caso de posto incompleto [ver tambm (11.13)], ns obtemos:
1

1
= (X
X) X
y.

Para uma funo estimvel


, o BLUE dado por:
1

1
= (X
X) X
y

(16.15)

[
estimvel se uma combinao linear das linhas da matriz X; ver o Teorema 11.2B(i)]. Entretanto, usualmente desconhecido (para estimao de , ver a
Seo 16.3.2). Pode-se mostrar que para dados balanceados o estimador de mnimos

quadrados ordinrios = (XX) Xy [ver (11.13)] fornece o mesmo resultado


que (16.15), isto ,

(XX) Xy = (X
X) X
y
(Searle, 1988; Puntanen e Styan, 1989).

(16.16)

356

Exemplo 16.2.1. Para o modelo misto:

yijk = + i + bj + cij + ijk,


em (16.12), a parte fixa do modelo E(yijk) = + i, j que E(bj) = E(cij) = E(ijk) = 0.
O estimador de 1 2 neste modelo one-way y1 y2 (ver Exemplo 11.3.1).
Portanto, por (16.16), o BLUE de 1 2 no modelo misto (16.12) y1 y2 .

16.2.2 Melhor preditor linear no-viesado (BLUP) do vetor aleatrio a


Nesta seo ns consideramos a predio dos efeitos aleatrios no vetor a. Em termos
do modelo misto geral y = X
+ Za + em (16.13), ns desejamos predizer a para
um dado valor do vetor de observaes y. Por extenso do Teorema 10.6A para o
caso de um vetor a, o preditor que minimiza o quadrado mdio do resduo E(a | y).
Para ser mais preciso, a funo (o vetor) t(y) que minimiza a matriz E[a t(y)][a
t(y)] ou o escalar E[a t(y)][a t(y)] dada por t(y) = E(a | y).
Se y e a tm distribuio conjunta normal multivariada, ento, por (4.26):
1

E(a | y) = E(a) + cov(a, y)[cov(y)] [y E(y)]


1

= 0 + VZ
(y X
),

(16.17)

onde dado por (16.14) e cov(a, y) = VZ (ver Problema 16.3). Assim para o caso
da normal multivariada, E(a | y) uma funo linear de y. Em geral, E(a | y) no
linear. Entretanto, pode-se mostrar (ver Problema 16.4) que para qualquer distribuio de y e a, a funo linear de y que minimiza o quadrado mdio do resduo o
mesmo que (16.17):
1

BLP(a) = VZ
(y X
)

(16.18)

onde BLP indica o best linear predictor (melhor preditor linear). Isto , a funo linear B(y X
) que minimiza a matriz E[a B(y X
)][a B(y X
)] ou o escalar
1
E[a B(y X
)][a B(y X
)] tem matriz de coeficientes VZ
.
Por (16.15) e (16.16), o BLUE de X
dado por uma das duas formas:
1

X = X(X
X) X
y
= X(X
X) Xy
Quando X substitudo por X
em (16.18), o resultado conhecido como
Best Linear Unbiased Predictor (BLUP), ou, melhor preditor linear no viesado:
1
BLUP(a) = VZ
(y X )

(16.19)

357
Nesta terminologia, linear significa que o preditor em (16.19) uma funo linear de
y; best significa que o preditor minimiza o quadrado mdio do resduo, e unbiased
significa que:
E[BLUP(a)] = E(a).

Exemplo 16.2.2. Para ilustrar um BLUP, ns usamos o modelo one-way (16.3),


yij = + ai + ij,

i = 1, 2, 3

j = 1, 2

Este modelo foi introduzido como um modelo de efeitos aleatrios, mas ele pode ser
tratado como um modelo de efeitos mistos porque fixo. Em termos do modelo
misto geral y = X
+ Za + em (16.13), ns temos:

X = j6 ,

1 1 0 0 0 0
Z = 0 0 1 1 0 0 ,

0 0 0 0 1 1

= ,

a1
a = a2 ,

a3

1
(y X ) em (16.19), ns precisacomo em (16.7). Para encontrar BLUP(a) = VZ
1

mos de V e de . A matriz V = cov(a) dada abaixo de (16.7) como V = a2 I3 e a


matriz = cov(y) dada em (16.9). Para encontrar a inversa de , ns primeiro notamos que, por (2.53),
2

( I2 +

1
a2 J2)

a2
1

= 2 I2 2
J
2
+ 2 a2

(16.20)

(ver Problema 16.5 para os resultados neste exemplo). Ento por (2.52), ns temos:

a2
I

J
2
2
2 2
+
2

1
1
= 2
0

0
I2

a2
2 + 2 a2
0

I2 2 a 2 J2
+ 2 a

J2

onde 0 uma matriz 2x2 de zeros.


Agora por (16.19), ns obtemos [onde 0 um vetor 2x1 de zeros]:
1

BLUP(a) = VZ
(y X ) =

a2 I3

j2 ' 0' 0'


0' j ' 0' 1(y j )
6
2

0' 0' j2 '

(16.21)

358

2 a2
j
'

j
'
0'
0'
2

2
2 + 2 a2

2
2

= a2
0'
j2 ' 2 a 2 j2 '
0'
(y j6)

+ 2 a

2 a
0'
0'
j
'

j
'

2
2
2 + 2 a2

j
'
0'
0'
2

2
2

+ 2 a
2
2

= a2
0'
j
'
0'
(y j6)
2

2 + 2 a2

2
0'
0'
j
'

2
2 + 2 a2

a2
2 + 2 a2

y1 2
2 a2
y 2 =
2
2 + 2 2
a
y3 2

y1 y
y y

2
y3 y

Assim,
2 a2
BLUP(ai) = 2
( yi y ) , para i = 1, 2, 3.
+ 2 a2
Note que o BLUP de ai obtido no Exemplo 16.2.2 envolve os parmetros desconhecidos 2 e a2 . Se substituirmos por estimadores desses parmetros (ver Seo 16.3.2),
o estimador resultante,

)
BLUP (ai) =

2 a2
( yi y )
2 + a2

(16.22)

no linear nem no viesado.

16.3 ESTIMAO DE COMPONENTES DE VARINCIA


Agora ns consideraremos a estimao de componentes de varincia tais como 2 e
a2 no modelo one-way (16.1) ou (16.3). Os estimadores resultantes podem ser usados para estimar o BLUP como em (16.22) ou podem ser de interesse na prpria anlise de um modelo de efeitos aleatrios ou modelo misto.

359
A abordagem para estimar usar muitas vezes o chamado mtodo ANOVA e
est relacionado ao mtodo dos momentos. Os quadrados mdios de um quadro de
anlise de varincia so igualados s correspondentes esperanas dos quadrados medios, que, nos caso balanceado, so combinaes lineares dos componentes de varincia. As equaes resultantes podem ser resolvidas para produzir estimadores dos
componentes de varincia. Este procedimento est ilustrado na Seo 16.3.2. Primeiramente ns consideramos a esperana dos quadrados mdios na Seo 16.3.1.

16.3.1. Esperana dos quadrados mdios


Para o modelo one-way de efeitos aleatrios em (16.1), as esperanas dos quadrados
mdios so apresentados na Tabela 16.1. Os quadrados mdios so definidos como
QMA = SQA/(k 1) e QMRes = SQRes/k(n 1). Para encontrar E[SQA/(k 1)] e
E[SQRes/k(n 1)], ns primeiramente expressamos yi e y em funo dos termos
do modelo:
yi

1
=
n

1
yij = n
j =1

( + ai + ij )
j =1

n + nai + ij = + ai + i

j =1

k n
k n
1
1
=
yij =

+ ai + ij
kn i =1 j =1
kn i =1 j =1

1
=
n

1
=
kn

k
k n

kn + n ai + ij = + a +

i =1
i =1 j =1

Ento

E[SQA] = E n ( yi y )2
i =1

= n E (ai + i a )2

(16.23)

i =1

Agora ns usamos as suposies do modelo (16.1). De E(ai aj) = E(ai ij) = 0, a equao (16.23) fica:
k

[( ) ( ) ( ) ( )

E[SQA] = n E ai2 + E i2 + E a2 + E 2 2 E (ai a ) 2 E ( i )


i =1

Usando que E(ai) = 0, var(ai) = a2 , e var(ij) = 2 , (16.24) fica:


2
2
2 2 a2 2

2
n

E[SQA] = n a +
+
+
2

2
n
k
kn
k
kn
i =1

(16.24)

360
2 1 a2 1
= kn a 1 +
1
k
n

= (k 1) 2 + n a2

(16.25)

Assim,
SQA E (SQA)
E(QMA) = E
= 2 + n a2
=
k 1
k 1

(16.26)

De maneira similar ns obtemos:


E(SQRes) = k(n 1) 2

(16.27)

SQRes
E(QMRes) = E
= 2
k (n 1)

(16.28)

Tabela 16.1 Quadro de Anlise de Varincia para o modelo one-way de efeitos


aleatrios (16.1)
Fonte de variao

g.l.

Somas de quadrados

E(QM)

SQA = ni =1 ( yi y )2

n a2 + 2

Grupos

k1

Resduo

k(n 1)

SQRes =

i =1 j =1 (yij yi )2

kn 1

SQTot =

i =1 j =1 (yij y )2

Total

Alternativamente, podemos obter (16.25) expressando SQA como uma forma


quadrtica e ento usar (5.4), E(yAy) = tr(A) + E(y)A E(y), onde = cov(y) (ver
problema 16.8 para conhecer alguns dos resultados apresentados a seguir). Na Tabela
k

16.1, ns temos SQA = n ( yi y )2 , que pode ser escrita como:


i =1
k

SQA = n yi2 kn y2

(16.29)

i =1

Por (12.26), SQA pode ser expressa como SQA = yAy, onde A a matriz kn x kn
J 0 L 0
J J L J

1 0 J L 0
1 J J L J
A=

M kn M M
M
n M M

0 0 L J
J J L J
=

1
1
A1
A2
n
kn

(16.30)

361
onde J n x n. Por extenso de (16.10), = 2Ikn + a2 A1. Assim,
A =

2
n

A1 +

a2
n

A12

2
kn

A2

a2
kn

A1A2

Pode-se mostrar que:


A12 = nA1

e A1A2 = n A1

(16.31)

Portanto
A =

2 + n a2
n

A1

2 + n a2
kn

A2 = 2 + n a2 A

(16.32)

Por (16.30) e (16.32),


kn kn
tr(A) = 2 + n a2 = (k 1) 2 + n a2
n kn

(16.33)

Por (16.2), E(y) = jkn. Assim E(y)A E(y) = 2(jkn)Ajkn. Por (16.30), temos que:
E(y)A E(y) =

2
n

(jkn)A1 jkn

2
kn

(jkn)A2 jkn

(16.34)

que pode ser mostrado ser igual a zero, ou seja:


E(y)A E(y) = 0

(16.35)

Assim, por (16.33) e (16.35),

E(yAy) = tr(A) + E(y)A E(y) = (k 1) 2 + n a2

(16.36)

que coincide com (16.25).


A esperana do quadrado mdio para um modelo two-way e efeitos aleatrios
de maior ordem e modelos de efeitos mistos pode ser derivado de uma forma similar
usando os mtodos tratados em (16.26) ou (16.36). Um conjunto de regras simples
est disponvel para determinar a forma da esperana dos quadrados mdios para modelos balanceados [ver, por exemplo, Searle, Casella e McCulloch (1992, Seo 4.2)].
16.3.2 Estimadores ANOVA

Como notado nas observaes introdutrias da Seo 16.3, o mtodo ANOVA de estimao envolve igualar o quadrado mdio esperana do quadrado mdio e resolver
para os componentes de varincia. Ns ilustramos esta abordagem usando (16.26) e
(16.28):
QMA = 2 + n a2 ,
QMRes = 2
Assim,

2 = QMRes
a2 =

QMA 2
QMA QMRes
=
n
n

(16.37)
(16.38)

362
Em geral, estimadores obtidos usando o mtodo ANOVA so justos (no viesados).
Assim, por exemplo:
E( 2 ) = 2
(16.39)

E( a2 ) = a2

(16.40)

(ver Problema 16.9). Realmente, os estimadores 2 e a2 em (16.37) e (16.38) so


best quadratic unbiased estimators (Graybill 1976, p.614). Vale observar que o estimador a2 em (16.38) pode assumir valores negativos (o que um problema!).

16.4 TESTE DE HIPTESES


J notamos que depois de (16.3) no modelo de efeitos aleatrios, a hiptese de no
diferena entre os grupos ou tratamentos (H0: todos os ais iguais) expressa como:

H0: a2 = 0

(16.41)

A hiptese alternativa que os efeitos dos tratamentos ai diferem dado por

H1: a2 > 0
Para obter um teste-F para H0: a2 = 0 em (16.41), ns primeiramente estabelecemos uma quiquadrado e propriedades de independncia para SQA e SQRes.

Teorema 16.4A Considere o modelo one-way em (16.1) com SQA e SQRes definidos na Tabela 16.1. Se y distribudo como Nkn ( jkn, ), onde = 2Ikn + a2 A1
[ver (16.10) e (16.30)], ento:

(i) SQA 2 + n a2 ~ 2 (k 1)
(ii) SQRes 2 ~ 2 [k(n1)]
(iii) SQA e SQRes so independentes

Prova

(i) Por (12.26), SQA 2 + n a2 = y' Ay 2 + n a2 , onde A = (1/n)A1 (1/kn)A2

como em (16.30). Pelo Teorema 5.5A e o Problema 5.16(d), y' Ay 2 + n a2

tem distribuio [r, ] se A

1
2

+ n a2

E (y' ) AE (y ) 2 + n a2 . Por (16.32),

) idempotente, onde r = posto(A) e


2 + n a2
A
=
A =A
2 + n a2 2 + n a2

Por extenso de (16.31), ns temos que A1A2 = nA2 e A 22 = knA2. Essas igualdades, juntamente com aquelas em (16.31), podem ser usadas para mostrar que
A2 = A. Ento, pelo Teorema 2.13D, temos:

363

A
= posto(A) = tr(A)
posto 2
2
+ n a
1
1
kn kn
= tr A1 tr A 2 =

=k1
n kn
n
kn

Ento, por (16.35), = 0.


(ii) Para expressas SQRes como uma forma quadrtica yBy, ns escrevemos
k

SQRes =

(yij yi )2 = yij2
i =1 j =1

n yi2
i =1

ij

1
1

= yIy y A1 y = y I A1 y = yBy.
n
n

Ento SQRes 2 = y' By 2 tem distribuio 2 [k(n 1)] se B 2 idempotente e se = 12 E (y' )BE (y ) 2 = 0. Estes resultados podem ser facilmente
estabelecidos como no item (i).
(iii) Pelo Teorema 5.6B, yAy e yBy so independentes se AB = 0. Por (16.32),
1
1
1

AB = (2 + n a2 )AB = (2 + n a2 ) A1 A 2 I A1 = 0
kn
n
n

(Fcil de ser verificado!)


Por (5.28) e Teorema 16.4A,
QMA 2 + n a2
~ F[(k 1), k(n 1)]
QMRes 2

Se H0: a2 = 0 verdadeira, ento


QMA
F=
~ F[(k 1), k(n 1)]
QMRes

(16.42)

(16.43)

Note que sob H0, F = QMA/QMRes em (16.43) a mesma estatstica do teste para o
caso de efeitos fixos apresentado na Tabela 12.1. Entretanto, quando H0 falsa, a
distribuio da estatstica em (16.42) F central, ao contrrio da distribuio F no
central no caso de efeitos fixos. Assim, no caso de efeitos aleatrios, o poder do teste
F calculado como:
2
QMA 2 + n a2

QMA

.
P(F > F) = P
> F = P
>
F
2
2
2
QMRes

+
n

QMRes

EXERCCIOS Ver pginas 438-439 do livro do Rencher.

You might also like