Texto 2013

MODELOS DE REGRESSO
com apoio computacional
Gilberto A. Paula
Instituto de Matemtica e Estatstica
Universidade de So Paulo
e-mail:giapaula@ime.usp.br
Prefcio
A rea de modelagem estatstica de regresso recebeu um grande impulso

desde a criao dos modelos lineares generalizados (MLGs) no incio da d-
cada de 70. O crescente interesse pela rea motivou a realizao de vrios
encontros informais no incio dos anos 80, a maioria deles na Inglaterra, at
que em 1986 foi realizado na cidade de Innsbruck na ustria o 1st Inter-
national Workshop on Statistical Modelling(1st IWSM). Esse encontro tem
sido realizado anualmente sendo que o ltimo (27th IWSM) aconteceu em
julho de 2012 em Praga, Repblica Checa. O 28th IWSM ser realizado em
julho de 2013 em Palermo, Itlia. No Brasil a rea comeou efetivamente a
se desenvolver a partir de meados da dcada de 80 e em particular aps a 1a
Escola de Modelos de Regresso (1EMR) realizada na Universidade de So
Paulo em 1989. As demais escolas ocorreram desde ento a cada dois anos
sendo que as duas ltimas (11EMR e 12EMR) foram realizadas em 2009 e
2011 nas cidades de Recife e Fortaleza, respectivamente.
Este texto comeou a ser desenvolvido a partir de 1994 quando a dis-
ciplina Modelos Lineares Generalizados passou a ser ministrada regular-
mente no programa de ps-graduao em Estatstica do IME-USP. Uma ver-
so preliminar deste texto foi publicada em 2004 no IME-USP. O texto
direcionado para alunos que tenham cursado um semestre de inferncia es-
i
Prefcio
tatstica e que tenham conhecimentos de regresso linear. Portanto, trata-se

de um segundo curso de modelagem estatstica de regresso com um enfoque
inferencial bsico e vrias aplicaes. O texto tem sido tambm utilizado na
disciplina Tpicos de Regresso ministrada aos alunos do ltimo ano do
Bacharelado em Estatstica do IME-USP.
No Captulo 1 introduzimos a classe dos modelos lineares generalizados
juntamente com alguns conceitos bsicos. Em seguida discutimos a estimao
dos parmetros, propriedades assintticas dos estimadores de mxima veros-
similhana e a aplicao de alguns testes estatsticos mais conhecidos. Uma
reviso abrangente de mtodos de diagnstico apresentada na sequncia, em
que definimos pontos de alavanca e discutimos anlise de resduos, mtodos
de deleo de pontos e influncia local, dentre outros procedimentos. Discu-
timos tambm a seleo de modelos. Sempre que possvel as metodologias
so apresentadas em separado para os modelos normais lineares e posterior-
mente estendidas para toda a classe dos MLGs. O captulo concludo com
a anlise de 6 conjuntos de dados atravs de MLGs apropriados.
O Captulo 2 dedicado aos modelos com resposta gama e resposta
normal inversa para a anlise de dados assimtricos positivos. Inicialmente
abordamos os modelos com resposta gama e apresentamos alguns resultados
inferenciais e tcnicas de diagnstico. Trs conjuntos de dados so analisados.
Em seguida, alguns modelos usualmente aplicados em Econometria so dis-
cutidos e um exemplo apresentado. Em seguida so discutidos modelos com
resposta normal inversa, alguns resultados tericos so apresentados e 2 con-
juntos de dados so analisados. No final do captulo discutimos MLGs duplos,
em que a mdia e a disperso so ajustados simultneamente. Apresentamos
o processo de estimao conjunto, alguns procedimentos de diagnstico e um
exemplo ilustrativo.
No Captulo 3 discutimos modelos para a anlise de dados binrios,
com nfase para os modelos logsticos lineares. Inicialmente uma reviso de
ii
Prefcio
procedimentos tradicionais para a anlise de tabelas de contigncia 2 2

apresentada. Duas aplicaes so descritas nesta primeira parte do captulo.
Em seguida abordamos o modelo logstico linear. Alguns procedimentos so
revisados, tais como seleo de modelos, anlise de dados retrospectivos, qua-
lidade do ajuste e tcnicas de diagnstico. Quatro conjuntos de dados so
analisados. Discutimos no final do captulo modelos de dose-resposta, sobre-
disperso e modelos logsticos aplicados na anlise de dados emparelhados e
mais quatro aplicaes so apresentadas.
No Captulo 4 abordamos alguns modelos para a anlise de dados de
contagem, com destaque para modelos com resposta de Poisson e modelos
com resposta binomial negativa. Inicialmente apresentamos uma reviso de
metodologias tradicionais para a anlise da tabelas de contingncia do tipo
22 com dados de contagem. Uma aplicao apresentada. Em seguida dis-
cutimos modelos de Poisson para a anlise de dados de seguimento e modelos
log-lineares de Poisson. Dois exemplos so apresentados. Na sequncia so
derivados modelos com resposta binomial negativa para a anlise de dados
de contagem com sobredisperso. Um processo iterativo para a estimao
dos parmetros, resultados assintticos e metodologias de diagnstico so
apresentados, bem como 3 aplicaes. Modelos log-lineares com resposta de
Poisson so comparados com modelos log-lineares com resposta multinomial,
sendo 2 conjuntos de dados analisados. Finalmente, fazemos uma breve rese-
nha dos modelos com excesso de zeros e discutimos, em particular, os modelos
truncados em zero ou modelos de Hurdle e os modelos inflacionados de zeros.
O Captulo 5 dedicado aos modelos de quase-verossimilhana e s
equaes de estimao generalizadas. Iniciamos o captulo com a introdu-
o do conceito de quase-verossimilhana. Em seguida so apresentados os
modelos de quase-verossimilhana para respostas independentes juntamente
com o processo de estimao, alguns resultados assintticos e tcnicas de
diagnstico. Trs aplicaes so apresentadas. Na sequncia derivamos as
iii
Prefcio
equaes de estimao generalizadas para a anlise de dados correlacionados

no gaussianos. Apresentamos o processo de estimao, alguns resultados
assintticos e metodologias de diagnstico. Esse subtpico ilustrado com 3
aplicaes.
No Apndice A so descritos os conjuntos de dados usados nas aplica-
es e nos exerccios propostos e no Apncide B so descritas as subrotinas
em R para o desenvolvimento dos procedimentos de diagnstico para os prin-
cipais MLGs e EEGs.
No final de cada captulo so propostos exerccios tericos e aplicados,
num total de 105 exerccios, e ao longo do texto so apresentados progra-
mas especiais e subrotinas em R, particularmente na anlise dos exemplos.
Procuramos diversificar as aplicaes com conjuntos de dados das diversas
reas do conhecimento, tais como Agricultura, Biologia, Cincias Atuari-
ais, Cincias Sociais, Economia, Engenharia, Geografia, Medicina, Nutrio,
Pesca e Odontologia. Alguns conjuntos de dados so oriundos de trabalhos
desenvolvidos no Centro de Estatstica Aplicada (CEA) do IME-USP.
A pgina na Web onde esto disponveis informaes sobre este texto,
os conjuntos de dados utilizados nos exemplos e exerccios e alguns programas
especficos em R est no seguinte endereo:
http://www.ime.usp.br/giapaula/textoregressao.htm.
Finalizando, gostaramos de agradecer aos alunos que cursaram as
disciplinas Modelos Lineares Generalizados e Tpicos de Regresso e
muito contribuiram com suas sugestes para o aprimoramento dos primeiros
manuscritos.
So Paulo, fevereiro de 2013
Gilberto A. Paula
e-mail:giapaula@ime.usp.br
iv
Sumrio
Prefcio i
1 Modelos Lineares Generalizados 1

1.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Definio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Casos particulares . . . . . . . . . . . . . . . . . . . . . 5
1.3 Ligaes cannicas . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Outras ligaes . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Funo desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Resultados assintticos . . . . . . . . . . . . . . . . . . 15
1.4.2 Anlise do desvio . . . . . . . . . . . . . . . . . . . . . 16
1.5 Funo escore e informao de Fisher . . . . . . . . . . . . . . 20
1.5.1 Escore e Fisher para . . . . . . . . . . . . . . . . . . 20
1.5.2 Escore e Fisher para . . . . . . . . . . . . . . . . . . 22
1.5.3 Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . 22
1.5.4 Casos particulares . . . . . . . . . . . . . . . . . . . . . 23
1.6 Estimao dos parmetros . . . . . . . . . . . . . . . . . . . 25
1.6.1 Estimao de . . . . . . . . . . . . . . . . . . . . . 25
1.6.2 Estimao de . . . . . . . . . . . . . . . . . . . . . . 26
v
SUMRIO
1.6.3 Distribuio assinttica . . . . . . . . . . . . . . . . . . 27

1.7 Teste de hipteses . . . . . . . . . . . . . . . . . . . . . . . . 28
1.7.1 Hipteses simples . . . . . . . . . . . . . . . . . . . . . 28
1.7.2 Modelos encaixados . . . . . . . . . . . . . . . . . . . . 32
1.7.3 Modelo de anlise de varincia . . . . . . . . . . . . . . 37
1.7.4 Regresso linear simples . . . . . . . . . . . . . . . . . 38
1.7.5 Hipteses restritas . . . . . . . . . . . . . . . . . . . . 39
1.8 Bandas de confiana . . . . . . . . . . . . . . . . . . . . . . . 40
1.8.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 40
1.8.2 Extenso para os MLGs . . . . . . . . . . . . . . . . . 41
1.9 Tcnicas de diagnstico: Modelo normal linear . . . . . . . . . 41
1.9.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.9.2 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 45
1.9.3 Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.9.4 Outra interpretao para ti . . . . . . . . . . . . . . . 51
1.9.5 Influncia . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.9.6 Ilustrao . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.9.7 Influncia local . . . . . . . . . . . . . . . . . . . . . . 56
1.9.8 Grfico da varivel adicionada . . . . . . . . . . . . . . 63
1.9.9 Tcnicas grficas . . . . . . . . . . . . . . . . . . . . . 64
1.10 Tcnicas de diagnstico: Extenso para os MLGs . . . . . . . 66
1.10.1 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 66
1.10.2 Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.10.3 Influncia . . . . . . . . . . . . . . . . . . . . . . . . . 72
1.10.4 Influncia local . . . . . . . . . . . . . . . . . . . . . . 73
1.10.5 Grfico da varivel adicionada . . . . . . . . . . . . . . 75
1.10.6 Tcnicas grficas . . . . . . . . . . . . . . . . . . . . . 76
1.11 Seleo de modelos . . . . . . . . . . . . . . . . . . . . . . . . 77
1.11.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 77
vi
SUMRIO
1.11.2 Extenso para os MLGs . . . . . . . . . . . . . . . . . 79

1.12 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.12.1 Estudo entre renda e escolaridade . . . . . . . . . . . . 80
1.12.2 Processo infeccioso pulmonar . . . . . . . . . . . . . . 85
1.12.3 Sobrevivncia de bactrias . . . . . . . . . . . . . . . . 88
1.12.4 Estudo seriado com ratos . . . . . . . . . . . . . . . . . 90
1.12.5 Consumo de combustvel . . . . . . . . . . . . . . . . . 94
1.12.6 Salrio de executivos . . . . . . . . . . . . . . . . . . . 97
1.13 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
2 Modelos para Dados Positivos Assimtricos 114

2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2 Distribuio gama . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.3 Modelos com resposta gama . . . . . . . . . . . . . . . . . . . 118
2.3.1 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 119
2.3.2 Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 120
2.4 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
2.4.1 Comparao de cinco tipos de turbina de avio . . . . 121
2.4.2 Espinhel de fundo . . . . . . . . . . . . . . . . . . . . . 127
2.4.3 Aplicao em seguros . . . . . . . . . . . . . . . . . . . 136
2.5 Elasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
2.5.1 Modelo de Cobb-Douglas . . . . . . . . . . . . . . . . . 143
2.5.2 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 144
2.6 Distribuio normal inversa . . . . . . . . . . . . . . . . . . . 146
2.7 Modelos com resposta normal inversa . . . . . . . . . . . . . . 149
2.8 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
2.8.1 Comparao de cinco tipos de snack . . . . . . . . . . 150
vii
SUMRIO
2.8.2 Projeo de vendas . . . . . . . . . . . . . . . . . . . . 158

2.9 Modelagem simultnea da mdia e da disperso . . . . . . . . 160
2.9.1 Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 163
2.9.2 Mtodos de diagnstico . . . . . . . . . . . . . . . . . . 165
2.9.3 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 169
2.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
3 Modelos para Dados Binrios 183

3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
3.2 Mtodos clssicos: uma nica tabela 2 2 . . . . . . . . . . . 184
3.2.1 Risco relativo . . . . . . . . . . . . . . . . . . . . . . . 185
3.2.2 Modelo probabilstico no condicional . . . . . . . . . . 187
3.2.3 Modelo probabilstico condicional . . . . . . . . . . . . 188
3.2.4 Teste de hipteses . . . . . . . . . . . . . . . . . . . . . 192
3.3 Mtodos clssicos: k tabelas 2 2 . . . . . . . . . . . . . . . . 195
3.3.1 Estimao da razo de chances comum . . . . . . . . . 196
3.3.2 Testes de homogeneidade . . . . . . . . . . . . . . . . . 197
3.4 Mtodos clssicos: tabelas 2 k . . . . . . . . . . . . . . . . . 199
3.5 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
3.5.1 Associao entre fungicida e desenvolvimento de tumor 201
3.5.2 Efeito de extrato vegetal . . . . . . . . . . . . . . . . . 203
3.6 Regresso logstica linear . . . . . . . . . . . . . . . . . . . . . 204
3.6.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 204
3.6.2 Regresso logstica simples . . . . . . . . . . . . . . . . 205
3.6.3 Regresso logstica mltipla . . . . . . . . . . . . . . . 209
3.6.4 Bandas de confiana . . . . . . . . . . . . . . . . . . . 210
3.6.5 Seleo de modelos . . . . . . . . . . . . . . . . . . . . 211
3.6.6 Amostragem retrospectiva . . . . . . . . . . . . . . . . 215
viii
SUMRIO

3.6.9 Aplicaces . . . . . . . . . . . . . . . . . . . . . . . . . 220
3.6.10 Modelos de dose-resposta . . . . . . . . . . . . . . . . . 235
3.6.11 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 237
3.6.12 Estimao da dose letal . . . . . . . . . . . . . . . . . 244
3.6.13 Modelos de retas paralelas . . . . . . . . . . . . . . . . 245
3.6.14 Sobredisperso . . . . . . . . . . . . . . . . . . . . . . 248
3.6.15 Modelo logstico condicional . . . . . . . . . . . . . . . 260
3.7 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
4 Modelos para Dados de Contagem 281

4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
4.1.1 Mtodos clssicos: uma nica tabela 2 2 . . . . . . . 282
4.1.2 Estratificao: k tabelas 2 2 . . . . . . . . . . . . . . 288
4.2 Modelos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 290
4.2.1 Propriedades da Poisson . . . . . . . . . . . . . . . . . 290
4.2.2 Modelos log-lineares: k tabelas 2 2 . . . . . . . . . . 291
4.2.3 Modelos gerais de Poisson . . . . . . . . . . . . . . . . 295
4.2.6 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 299
4.3 Modelos com resposta binomial negativa . . . . . . . . . . . . 303
4.3.1 Distribuio binomial negativa . . . . . . . . . . . . . . 303
4.3.2 Modelos de regresso com resposta binomial negativa . 305
4.3.5 Seleo de modelos . . . . . . . . . . . . . . . . . . . . 311
4.3.6 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 312
4.3.7 Sobredisperso e quase-verossimilhana . . . . . . . . . 321
ix
SUMRIO
4.4 Relao entre a multinomial e a Poisson . . . . . . . . . . . . 325

4.4.1 Modelos log-lineares hierrquicos . . . . . . . . . . . . 328
4.4.2 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 330
4.5 Modelos com excesso de zeros . . . . . . . . . . . . . . . . . . 336
4.5.1 Modelos truncados em zero . . . . . . . . . . . . . . . 336
4.5.2 Modelos de regresso truncados em zero . . . . . . . . 338
4.5.3 Modelos inflacionados de zeros . . . . . . . . . . . . . . 339
4.5.4 Modelos de regresso inflacionados de zeros . . . . . . 340
4.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
5 Modelos de Quase-Verossimilhana 351

5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
5.2 Respostas independentes . . . . . . . . . . . . . . . . . . . . . 355
5.2.1 Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 355
5.2.2 Estimador de momentos . . . . . . . . . . . . . . . . . 356
5.2.3 Funo quase-desvio . . . . . . . . . . . . . . . . . . . 357
5.2.4 Teste de hipteses . . . . . . . . . . . . . . . . . . . . . 357
5.2.5 Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 359
5.2.6 Influncia . . . . . . . . . . . . . . . . . . . . . . . . . 359
5.2.7 Seleo de Modelos . . . . . . . . . . . . . . . . . . . . 360
5.2.8 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 360
5.3 Classe estendida . . . . . . . . . . . . . . . . . . . . . . . . . . 371
5.4 Respostas correlacionadas . . . . . . . . . . . . . . . . . . . . 373
5.4.1 Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 376
5.4.2 Estruturas de correlao . . . . . . . . . . . . . . . . . 377
5.4.3 Mtodos de diagnstico . . . . . . . . . . . . . . . . . . 378
5.4.4 Seleo de modelos . . . . . . . . . . . . . . . . . . . . 379
5.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
5.5.1 Ataques epilpticos . . . . . . . . . . . . . . . . . . . . 380
x
SUMRIO
5.5.2 Condio Respiratria . . . . . . . . . . . . . . . . . . 386

5.5.3 Placas dentrias . . . . . . . . . . . . . . . . . . . . . . 391
5.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
Apndice A 404
Bibliografia 413
xi
Captulo 1
Modelos Lineares Generalizados
1.1 Introduo
Durante muitos anos os modelos normais lineares foram utilizados na ten-

tativa de descrever a maioria dos fenmenos aleatrios. Mesmo quando o
fenmeno sob estudo no apresentava uma resposta para a qual fosse razo-
vel a suposio de normalidade, algum tipo de transformao era sugerida
a fim de alcanar a normalidade procurada. Provavelmente a transformao
mais conhecida foi proposta por Box e Cox (1964), a qual transforma o valor
observado y (positivo) em
y 1
se 6= 0
z=
logy se = 0,
sendo uma constante desconhecida. O objetivo da transformao de Box

e Cox, quando aplicada a um conjunto de valores observados, produzir
aproximadamente a normalidade, a constncia de varincia e tambm a li-
nearidade E(Z) = , em que = 1 + 2 x2 + + p xp . No entanto, isso
1
1.1 Introduo
raramente ocorre para um nico valor de (Box e Draper, 1987).

Com o desenvolvimento computacional ocorrido na dcada de 70, al-
guns modelos que exigiam a utilizao de processos iterativos para a esti-
mao dos parmetros comearam a ser mais aplicados, como por exemplo
o modelo normal no linear. Todavia, a proposta mais interessante e po-
demos dizer inovadora no assunto foi apresentada por Nelder e Wedderburn
(1972), que propuseram os modelos lineares generalizados (MLGs). A ideia
bsica consiste em abrir o leque de opes para a distribuio da varivel
resposta, permitindo que a mesma pertena famlia exponencial de distri-
buies, bem como dar maior flexibilidade para a relao funcional entre a
mdia da varivel resposta e o preditor linear . Assim, por exemplo, para

dados de contagem, em vez de aplicarmos a transformao y no sentido
de buscarmos a normalidade dos dados e constncia de varincia, podemos
supor que a distribuio de Y Poisson e que a relao funcional entre a
mdia de Y e o preditor linear dada por log = . Essa relao funcional
conveniente, uma vez que garante para quaisquer valores dos parmetros
do preditor linear um valor positivo para . Similarmente, para propores,
podemos pensar na distribuio binomial para a resposta e numa relao
funcional do tipo log{/(1 )}, em que a proporo esperada de suces-
sos. Nelder e Wedderburn propuseram tambm um processo iterativo para a
estimao dos parmetros e introduziram o conceito de desvio que tem sido
largamente utilizado na avaliao da qualidade do ajuste dos MLGs, bem
como no desenvolvimento de resduos e medidas de diagnstico.
Inmeros trabalhos relacionados com modelos lineares generalizados fo-
ram publicados desde 1972. Um aplicativo, GLIM (Generalized Linear Interac-
tive Models) (ver Aitkin et al., 1989), foi desenvolvido para o ajuste dos MLGs
e hoje outros aplicativos, tais como o S-Plus (http://www.insightful.
2
1.1 Introduo
com), R (http://www.r-project.org), SAS(http://www.sas.com), STATA

(http://www.stata.com), MATLAB (http://www.mathworks.com) e SUDAAN
(http://www.rti.org/sudaan) apresentam rotinas para o ajuste dos MLGs.
Os modelos de quase-verossimilhana, que estendem a ideia dos MLGs
para situaes mais gerais incluindo dados correlacionados, foram propos-
tos por Wedderburn (1974). Os modelos de disperso (Jrgensen, 1983)
ampliam o leque de opes para a distribuio da varivel resposta. Liang
e Zeger (1986) estendem os modelos de quase-verossimilhana propondo as
equaes de estimao generalizadas (EEGs) que permitem o estudo de va-
riveis aleatrias correlacionadas no gaussianas. Os modelos no lineares de
famlia exponencial (Cordeiro e Paula, 1989 e Wei, 1998) admitem preditor
no linear nos parmetros. Temos ainda os modelos aditivos generalizados
(Hastie e Tibshirani, 1990) que supem preditor linear formado tambm por
funes semiparamtricas e os modelos lineares generalizados mistos (Bres-
low e Clayton, 1993 e McCulloch e Searle, 2001) que admitem a incluso de
efeitos aleatrios gaussianos no preditor linear. Recentemente, Lee e Nelder
(1996, 2001) estenderam o trabalho de Breslow e Clayton propondo modelos
lineares generalizados hierrquicos em que o preditor linear pode ser formado
por efeitos fixos e efeitos aleatrios no gaussianos. Muitos desses resulta-
dos so discutidos no livro de Lee, Nelder e Pawitan (2006). Extenses de
MLGs para sries temporais, anlise de dados de sobrevivncia, modelos de
espao de estado e outros modelos multivariados so descritas, por exemplo,
em Fahrmeir e Tutz (2001). Referncias de texto no assunto so os livros de
McCullagh e Nelder (1989) e Cordeiro (1986).
Neste captulo introduzimos os modelos lineares genralizados e apre-
sentamos vrios resultados relacionados com estimao, teste de hipteses,
mtodos de diagnstico e seleo de modelos na classe dos MLGs.
3
1.2 Definio
1.2 Definio
Sejam Y1 , . . . , Yn variveis aleatrias independentes, cada uma com funo

densidade ou funo de probabilidades na forma dada abaixo
f (yi ; i , ) = exp[{yi i b(i )} + c(yi , )]. (1.1)
Podemos mostrar sob as condies usuais de regularidade

logf (Yi ; i , )
E = 0 e
i
2 " 2 #
logf (Yi ; i , ) logf (Yi ; i , )
E = E ,
i2 i
i, que E(Yi ) = i = b (i ) e Var(Yi ) = 1 V (i ), em que Vi = V (i ) =

di /di a funo de varincia e 1 > 0 ( > 0) o parmetro de disperso
(preciso). A funo de varincia desempenha um papel importante na fam-
lia exponencial, uma vez que a mesma caracteriza a distribuio. Isto , dada
a funo de varincia, tem-se uma classe de distribuies correspondentes, e
vice-versa. Para ilustrar, a funo de varincia definida por V () = (1 ),
0 < < 1, caracteriza a classe de distribuies binomiais com probabili-
dades de sucesso ou 1 . Uma propriedade interessante envolvendo a
distribuio de Y e a funo de varincia a seguinte:
p
(Y ) d N(0, V ()), quando .
Ou seja, para grande Y segue distribuio aproximadamente normal de

mdia e varincia 1 V (). Esse tipo de abordagem assinttica, diferente
da usual em que n grande, foi introduzida por Jrgensen (1987).
Os modelos lineares generalizados so definidos por (1.1) e pela parte
sistemtica
g(i ) = i , (1.2)
4
1.2 Definio
em que i = xTi o preditor linear, = (1 , . . . , p )T , p < n, um

vetor de parmetros desconhecidos a serem estimados, xi = (xi1 , . . . , xip )T
representa os valores de variveis explicativas e g() uma funo montona
e diferencivel, denominada funo de ligao. Apresentamos a seguir as
distribuies mais conhecidas pertencentes famlia exponencial.
1.2.1 Casos particulares

Normal
Seja Y uma varivel aleatria com distribuio normal de mdia e varincia
2 , Y N(, 2 ). A funo densidade de Y expressa na forma
1 1 1 2 1 y2
exp{ 2 (y )2 } = exp[{ 2 (y ) {log2 2 + 2 }],
2 2 2 2
em que < , y < e 2 > 0. Logo, para = , b() = 2 /2, = 2 e

2
c(y, ) = 12 log/2 y2 obtemos (1.1). Verificamos facilmente que a funo
de varincia dada por V () = 1.
Poisson
No caso de Y P(), a funo de probabilidades fica dada por
e y /y! = exp{ylog logy!},
em que > 0 e y = 0, 1, . . .. Fazendo log = , b() = e , = 1 e

c(y, ) = logy! obtemos (1.1). Segue portanto que V () = .
Binomial
Seja Y a proporo de sucessos em n ensaios independentes, cada um com
probabilidade de ocorrncia . Assumimos que nY B(n, ). A funo de
5
1.2 Definio
probabilidades de Y fica ento expressa na forma

n ny nny n
(1) = exp log + ny log + nlog(1 ) ,
ny ny 1
em que 0 < , y < 1. Obtemos (1.1) fazendo = n, = log{/(1 )},

b() = log(1 + e ) e c(y , ) = log y . A funo de varincia aqui fica dada
por V () = (1 ).
Gama
Seja Y uma varivel aleatria com distribuio gama de mdia e coeficiente
de variao 1/2 , denotamos Y G(, ). A funo densidade de Y dada
por

1 y y
exp d(logy) = exp[{(y/) log} log() +
()
log(y) logy],
R
em que y > 0, > 0, > 0 e () = 0
t1 et dt a funo gama. Logo,
fazendo = 1/, b() = log() e c(y, ) = ( 1)logy + log log()
obtemos (1.1).
Para 0 < < 1 a densidade da gama tem uma pole na origem e decresce
monotonicamente quando y . A exponencial um caso especial quando
= 1. Para > 1 a funo densidade assume zero na origem, tem um
mximo em y = / e depois decresce para y . A 2k um outro
caso especial quando = k/2 e = k. A distribuio normal obtida
fazendo . Isto , quando grande Y N(, 1 V ()). Temos que
= E2 (Y )/Var(Y ) o inverso do coeficiente de variao de Y ao quadrado,
p
ou seja, = 1/(CV )2 , em que CV = Var(Y)/E(Y ). A funo de varincia
da gama dada por V () = 2 .
6
1.3 Ligaes cannicas
Normal inversa
Seja Y uma varivel aleatria com distribuio normal inversa de mdia e
parmetro de preciso , denotada por Y NI(, ) e cuja funo densidade
dada por

1/2 (y )2 y 1 1 3
p exp = exp 2 + log(2y /) + ,
2y 3 22 y 2 2 y
em que y > 0, > 0. Fazendo = 21 2 , b() = (2)1/2 e c(y, ) =

1
2
log{/(2y 3 )} 2y obtemos (1.1). A normal inversa se aproxima da normal
quando . Ou seja, para grande temos que Y N(, 1 V ()). A
funo de varincia fica aqui dada por V () = 3 .
Na Tabela 1.1 apresentamos um resumo dessas distribuies.
Tabela 1.1
Principais distribuies pertencentes famlia exponencial.
Distribuio b() V ()
Normal 2 /2 2 1

Poisson e log 1

Binomial log(1 + e ) log{/(1 )} n (1 )
2
Gama log()
1/ 1/(CV ) 2
N.Inversa 2 1/22 3
1.3 Ligaes cannicas
Supondo conhecido, o logaritmo da funo de verossimilhana de um MLG

com respostas independentes pode ser expresso na forma
n
X n
X
L() = {yi i b(i )} + c(yi , ).
i=1 i=1
Um caso particular importante ocorre quando o parmetro cannico () coin-

P
cide com o preditor linear, isto , quando i = i = pj=1 xij j . Nesse caso,
7
1.3 Ligaes cannicas
L() fica dado por

n p p n
X X X X
L() = {yi xij j b( xij j )} + c(yi , ).
i=1 j=1 j=1 i=1
Pn
Definindo a estatstica Sj = i=1 Yi xij , L() fica ento reexpresso na forma
p n p n
X X X X
L() = sj j b( xij j ) + c(yi , ).
j=1 i=1 j=1 i=1
Logo, pelo teorema da fatorizao a estatstica S = (S1 , . . . , Sp )T suficiente

minimal para o vetor = (1 , . . . , p )T . As ligaes que correspondem a tais
estatsticas so chamadas de ligaes cannicas e desempenham um papel
importante na teoria dos MLGs. As ligaes cannicas mais comuns so
dadas abaixo.
Distribuio Normal Binomial

n o Poisson Gama N. Inversa

Ligao = log 1 = log = 1 = 2 =
Uma das vantagens de usarmos ligaes cannicas que as mesmas
garantem a concavidade de L() e consequentemente muitos resultados as-
sintticos so obtidos mais facilmente. Por exemplo, a concavidade de L()
garante a unicidade da estimativa de mxima verossimilhana de , quando
essa existe. Para ligaes no cannicas Wedderburn (1976) discute condi-
es para a existncia da concavidade de L().
1.3.1 Outras ligaes

Ligao probito
Seja a proporo de sucessos de uma distribuio binomial. A ligao
probito definida por
1 () = ,
em que () a funo de distribuio acumulada da normal padro.
8
1.3 Ligaes cannicas
Ligao complemento log-log

A distribuio do valor extremo (logaritmo da exponencial) tem funo den-
sidade dada por
f (y) = exp{y exp(y)},
em que < y < . Logo, a funo de distribuio acumulada fica dada

por
F (y) = 1 exp{exp(y)}.
1.0
Logistica
V.Extremo
0.8
0.6
F(y)
0.4
0.2
0.0
-3 -2 -1 0 1 2 3
Figura 1.1: Funo de distribuio acumulada das curvas logstica e do valor

extremo.
O modelo binomial com ligao complemento log-log definido tal que
= 1 exp{exp()},
9
1.3 Ligaes cannicas
ou, equivalentemente,
log{log(1 )} = .
A ligao logito definida de forma similar. A funo densidade da

distribuio logstica dada por
exp(y)
f (y) = ,
{1 + exp(y)}2
em que < y < . Da segue que a funo de distribuio acumulada
fica expressa na forma
ey
F (y) = .
(1 + ey )
O modelo logstico binomial obtido substituindo F (y) por e y por na
expresso acima. Como no caso binomial o parmetro de interesse sempre
uma probabilidade, fica muito razovel que funes de distribuies acu-
muladas sejam utilizadas para gerarem novas ligaes e consequentemente
novos modelos. Na Figura 1.1 apresentamos a F (y) da distribuio logstica
e da distribuio do valor extremo para valores de y variando no intervalo
[3 , 3]. Temos que a curva logstica simtrica em torno de F (y) = 1/2,
enquanto que a curva do valor extremo apresenta comportamentos distintos
para F (y) 1/2 e F (y) > 1/2.
Ligao de Box-Cox
Uma classe importante de ligaes, pelo menos para observaes positivas,
a classe de ligaes de Box-Cox definida por
= ( 1)/,
para 6= 0 e = log para 0. A ideia agora aplicarmos a transfor-

mao de Box-Cox, definida na Seo 1.1, na mdia da varivel resposta ao
10
1.3 Ligaes cannicas
30
= 0, 5
= 0, 6
20 = 0, 8

10
0
0 2 4 6 8 10
Figura 1.2: Ligao de Box-Cox para alguns valores de .
invs de transformarmos a prpria varivel resposta. Temos na Figura 1.2 o

comportamento de para alguns valores de e para variando no intervalo
[0 , 10].
Ligao de Aranda-Ordaz
Uma outra transformao importante foi proposta por Aranda-Ordaz (1981)
para dados binrios. A transformao dada por

(1 ) 1
= log ,

em que 0 < < 1 e uma constante desconhecida. Quando = 1 temos a
ligao logito = log{/(1)}. Quando 0 temos {(1) 1}/
log(1 )1 de modo que = log{log(1 )} e obtemos portanto a ligao
11
1.3 Ligaes cannicas
1.0
= 0, 5
= 1, 0
= 2, 0
0.8
0.6

0.4
0.2
0.0
-3 -2 -1 0 1 2 3
Figura 1.3: Ligao de Aranda-Ordaz para alguns valores de .
complemento log-log. Na Figura 1.3 temos o comportamento de para alguns

valores de . Em muitas situaes prticas o interesse pode ser testarmos
se o modelo logstico apropriado, H0 : = 1, contra a necessidade de uma
transformao na ligao, H1 : 6= 1.
Os MLGs so ajustados no aplicativo R atravs do comando glm. Para
ilustrarmos uma aplicao, vamos supor que temos interesse em ajustar um
modelo de Poisson com ligao cannica e que a varivel resposta deno-
tada por resp com variveis explicativas cov1 e cov2. Podemos mandar os
resultados do ajuste para um arquivo (objeto no R), por exemplo com nome
fit.poisson, atravs do comando
fit.poisson = glm( resp cov1 + cov2, family=poisson).
Com o comando
summary(fit.poisson)
podemos obter um resumo dos resultados do ajuste.
12
1.4 Funo desvio
1.4 Funo desvio
Sem perda de generalidade, vamos supor que o logaritmo da funo de ve-

rossimilhana seja agora definido por
n
X
L(; y) = L(i ; yi ),
i=1
em que i = g 1 (i ) e i = xTi . Para o modelo saturado (p = n) a funo

L(; y) estimada por
n
X
L(y; y) = L(yi ; yi ).
i=1
Ou seja, a estimativa de mxima verossimilhana de i fica nesse caso dada

por i = yi . Quando p < n, denotamos a estimativa de L(; y) por L(; y).
Aqui, a estimativa de mxima verossimilhana de i ser dada por i =
g 1 (i ), em que i = xTi .
A qualidade do ajuste de um MLG avaliada atravs da funo desvio
D (y; ) = D(y; ) = 2{L(y; y) L(; y)},
que uma distncia entre o logaritmo da funo de verossimilhana do mo-

delo saturado (com n parmetros) e do modelo sob investigao (com p pa-
rmetros) avaliado na estimativa de mxima verossimilhana . Um valor
pequeno para a funo desvio indica que, para um nmero menor de par-
metros, obtemos um ajuste to bom quanto o ajuste com o modelo saturado.
Denotando por i = i (i ) e i = i (i ) as estimativas de mxima verossimi-
lhana de para os modelos com p parmetros (p < n) e saturado (p = n),
respectivamente, temos que a funo D(y; ) fica, alternativamente, dada
por
n
X
D(y; ) = 2 {yi (i i ) + (b(i ) b(i ))}.
i=1
13
1.4 Funo desvio
Apresentamos a seguir a funo desvio para alguns casos particulares.

O desvio no R sai com o nome deviance aps o ajuste do modelo e o nmero
de graus de liberdade correspondente dado por np. Denotamos D(y; ) =
Pn 2 2
i=1 d (yi ; i ) em que d (yi ; i ) ser denominado componente do desvio no
escalonado.
Normal
Aqui i = i , logo i = yi e i = i . O desvio fica portanto dado por
Xn n
X
2 2
D(y; ) = 2 {yi (yi i ) + i /2 yi /2} = (yi i )2 ,
i=1 i=1
que coincide com a soma de quadrados de resduos.
Poisson
Nesse caso temos i = logi , o que implica em i = logyi para yi > 0 e
i = logi . Assim,
n
X
D(y; ) = 2 {yi log(yi /i ) (yi i )}.
i=1
Se yi = 0 o i-simo termo de D(y; ) vale 2i . Resumindo, temos o seguinte

resultado para o modelo de Poisson:

2 2{yi log(yi /i ) (yi i )} se yi > 0;
d (yi ; i ) =
2i se yi = 0.
Binomial
No caso binomial em que assumimos Yi B(ni , i ), i = 1, . . . , k, obtemos
i = log{yi /(ni yi )} e i = log{i /(1 i )} para 0 < yi < ni . Logo, o
desvio assume a seguinte forma:
k
X
D(y; ) = 2 [yi log(yi /ni i ) + (ni yi )log{(1 yi /ni )/(1 i )}].
i=1
14
1.4 Funo desvio
Todavia, quando yi = 0 ou yi = ni , o i-simo termo de D(y; ) vale 2ni log(1

i ) ou 2ni logi , respectivamente. Portanto, os componentes do desvio no
caso binomial assumem as seguintes formas:

yi log(yi /ni i ) + (ni yi )log{(1 yi /ni )/(1 i )} se 0 < yi < ni ;
2
d (yi ; i ) = 2ni log(1 i ) se yi = 0;

2ni logi se yi = ni .
Gama
No caso gama, i = 1/yi e i = 1/i . Assim, segue que o desvio (quando
todos os valores so positivos) pode ser expresso na forma
n
X
D(y; ) = 2 {log(yi /i ) + (yi i )/i }.
i=1
Se algum componente de yi igual a zero o desvio fica indeterminado. Mc-

Cullagh e Nelder (1989) sugerem substituir D(y; ) nesse caso por
n
X n
X

D (y; ) = 2C(y) + 2 logi + 2 yi /i ,
i=1 i=1
em que C(y) uma funo arbitrria, porm limitada. Podemos, por exem-
P
plo, usar C(y) = ni=1 yi /(1 + yi ).
Normal inversa
Para esse caso i = 1/2yi2 e i = 1/22i . A funo desvio fica ento dada
por
n
X
D(y; ) = (yi i )2 /(yi 2i ).
i=1
1.4.1 Resultados assintticos

Embora seja usual compararmos os valores observados da funo desvio com
os percentis da distribuio qui-quadrado com n p graus de liberdade,
15
1.4 Funo desvio
em geral D(y; ) no segue assintoticamente uma 2np . No caso binomial

quando k fixo e ni para cada i, D(y; ) segue sob a hiptese de que o
modelo verdadeiro uma 2kp . Isso no vale quando n e ni i (1 i )
permanece limitado. Para o modelo de Poisson, quando i para todo
i, temos que D(y; ) 2np . No caso normal, como conhecido para 2
fixo, D(y; ) 2 2np . Lembre que E{2r } = r, assim um valor do desvio
prximo de np pode ser uma indicao de que o modelo est bem ajustado.
Em geral, para os casos em que D (y; ) depende do parmetro de disperso
1 , o seguinte resultado (Jrgensen, 1987) para a distribuio nula da funo
desvio pode ser utilizado:
D (y; ) 2np , quando .
Isto , quando a disperso pequena, fica razovel compararmos os valores

observados de D (y; ) com os percentis da 2np . Em particular, para o caso
P
normal linear, o resultado acima diz que ni=1 (yi i )2 / 2 2np quando
2 0. No caso do modelo gama, o desvio estar bem aproximado por uma
qui-quadrado com n p graus de liberdade medida que o coeficiente de
variao ficar prximo de zero.
1.4.2 Anlise do desvio

Vamos supor para o vetor de parmetros a partio = ( T1 , T2 )T , em que
1 um vetor q-dimensional enquanto 2 tem dimenso pq e conhecido
(ou fixo). Portanto, podemos estar interessados em testar as hipteses H0 :
1 = 0 contra H1 : 1 6= 0. As funes desvio correspondentes aos modelos
sob H0 e H1 sero denotadas por D(y; 0 ) e D(y; ), respectivamente, em
que 0 a estimativa de mxima verossimilhana sob H0 . A estatstica da
16
1.4 Funo desvio
razo de verossimilhanas fica nesse caso dada por
RV = {D(y; 0 ) D(y; )}, (1.3)
isto , a diferena entre dois desvios. Como conhecido, sob a hiptese nula,
RV 2q quando n . De forma similar, podemos definir a estatstica
{D(y; 0 ) D(y; )}/q

F= , (1.4)
D(y; )/(n p)
cuja distribuio nula assinttica uma Fq,(np) quando o denominador de
(1.4) uma estimativa consistente de 1 (ver, por exemplo, Jrgensen,
1987). A vantagem de utilizarmos (1.4) em relao a (1.3) que a esta-
tstica F no depende do parmetro de disperso. O resultado (1.4) tambm
verificado quando e n arbitrrio. Quando desconhecido a
estatstica da razo de verossimilhanas assume uma expresso diferente de
(1.3). A estatstica F acima fica, no caso normal linear, reduzida forma
conhecida dada abaixo
n
X n
X
F = (qs2 )1 { (yi 0i )2 (yi i )2 },
i=1 i=1
Pn
em que s2 = i=1 (yi i )2 /(n p) o erro quadrtico mdio do modelo
com p parmetros. A forma da estatstica F dada em (1.4) pode ser obtida,
em particular, quando testamos uma hiptese de igualdades lineares num
modelo de regresso normal linear.Como ilustrao, vamos supor o modelo
y = X + W + ,
em que N(0, 2 In ), X uma matriz n p, In a matriz identidade

de ordem n, W aqui uma matriz n q, ambas de posto completo, =
(1 , . . . , p )T e = (1 , . . . , q )T . Vamos supor as hipteses
H0 : C = 0 contra H1 : C 6= 0,
17
1.4 Funo desvio
em que = ( T , T )T e C uma matriz k (p + q) de posto completo. O

acrscimo na soma de quadrados de resduos devido s restries em H0
dado por
ASQ(C = 0) = (C)T {C(ZT Z)1 CT }1 (C),
em que = (ZT Z)1 ZT y e Z = (X, W). A estatstica F para testarmos H0

fica ento dada por
ASQ(C = 0)/k
F= ,
D(y; )/(n p q)
em que D(y; ) o desvio do modelo completo com p + q parmetros e
ASQ(C = 0) = D(y; 0 ) D(y; ), com D(y; 0 ) sendo o desvio do modelo
sob H0 . Portanto, F assume a forma
{D(y; 0 ) D(y; )}/k

F= ,
D(y; )/(n p q)
e segue, sob H0 , uma distribuio Fk,(npq) . No caso de testarmos H0 : = 0
contra H1 : 6= 0, a matriz C tem dimenso q (p + q) com a i-sima linha
tendo o valor 1 na posio p + i e zeros nas demais posies. Essa formulao
pode tambm ser aplicada quando testamos a incluso de novas covariveis
num modelo de regresso normal linear.
Para ilustrarmos o uso das diferenas de desvios para hipteses em mo-
delos encaixados, vamos supor um MLG com dois fatores, A e B. O fator A
com n(A) nveis e o fator B com n(B) nveis. Descrevemos na Tabela 1.2 os
possveis testes envolvendo os dois fatores. Em particular, se o interesse tes-
tarmos a incluso do fator B dado que o fator A j est no modelo, devemos
comparar a diferena {D(y; A ) D(y; A+B )} com os nveis crticos da
distribuio qui-quadrado com {n(B) 1} graus de liberdade. Alternativa-
mente, podemos comparar o valor observado da estatstica F correspondente
com os nveis da distribuio F com {n(B) 1} e {n n(A) n(B) + 1}
18
1.4 Funo desvio
graus de liberdade. No caso normal linear construmos a tabela ANOVA utili-

zando a estatstica F no lugar da diferena entre desvios. A vantagem disso
o fato do parmetro de disperso 1 no precisar ser estimado. Atravs
do comando anova() o R fornece uma tabela ANODEV para os ajustes colo-
cados como objetos. Por exemplo, vamos supor que os objetos fit1.reg,
fit2.reg e fit3.reg correspondam aos ajustes de um MLG com um, dois
e trs fatores, respectivamente. Ento, o comando
anova(fit1.reg,fit2.reg,fit3.reg)
fornece uma tabela ANODEV comparando os trs fatores.
Tabela 1.2
Anlise do desvio (ANODEV) supondo dois fatores na parte sistemtica.
Modelo Desvio Diferena G.L. Testando
Constante D0
D0 DA n(A) 1 A ignorando B
D0 DB n(B) 1 B ignorando A
+A DA
DA DA+B n(B) 1 B|A ignorando AB
+B DB
DB DA+B n(A) 1 A|B ignorando AB
+A+B DA+B
DA+B DAB {n(A) 1} AB|A + B
{n(B) 1}
+A+B+AB DAB
Como aplicao do ANODEV, vamos considerar o exemplo descrito na
Seo 1.12.2 em que um modelo logstico linear ajustado para explicar a
ocorrncia de cncer de pulmo em pacientes com processo infeccioso pulmo-
nar. A parte sistemtica do modelo representada abaixo
1 + SEXO + IDADE + HL + FF,
em que 1 denota a presena de intercepto no modelo, SEXO (1:feminino,

0:masculino), IDADE (em anos) e HL e FF so dois fatores com 4 nveis
19
1.5 Funo escore e informao de Fisher
cada um representando a intensidade de dois tipos de clula. Na Tabela 1.3

resumimos alguns resultados.
Tabela 1.3
Anlise do desvio referente ao exemplo sobre processo
infeccioso pulmonar.
Modelo Desvio Diferena G.L. Testando
Constante 236,34 - - -
+ SEXO 235,20 1,14 1 SEXO
+ IDADE 188,22 46,98 1 IDADE | SEXO
+ HL 162,55 25,67 3 HL | SEXO +

IDADE
+ FF 157,40 5,15 3 FF | SEXO +
IDADE + HL
Para calcularmos os nveis descritivos das diferenas apresentadas na

Tabela 1.3, usamos o comando pchisq(dv,q) do R. Por exemplo, para cal-
cularmos o nvel descritivo referente ao efeito do fator SEXO, fazemos
1 - pchisq(1.14,1)
e obtemos P = 0, 285. Similarmente, para testarmos a incluso de FF dado
que j temos no modelo 1+SEXO+IDADE+HL, fazemos
1 - pchisq(5.15,3)
e obtemos P = 0, 1611, indicando que o fator FF no significativo a 10%.
1.5.1 Escore e Fisher para

Vamos considerar a partio = ( T , )T e denotarmos o logaritmo da
funo de verossimilhana por L(). Para obtermos a funo escore para o
20
parmetro calculamos inicialmente as derivadas

Xn
di di i db(i ) di di i
L()/j = yi
i=1
d i d i j di di di j
n
X
= {yi Vi1 (di /di )xij i Vi1 (di /di )xij }
i=1
Xn r
i
= (yi i )xij ,
i=1
Vi
em que i = (di /di )2 /Vi . Logo, podemos escrever a funo escore na forma
matricial
L()
U () = = XT W1/2 V1/2 (y ),

em que X uma matriz n p de posto completo cujas linhas sero de-
notadas por xTi , i = 1, . . . , n, W = diag{1 , . . . , n } a matriz de pesos,
V = diag{V1 , . . . , Vn }, y = (y1 , . . . , yn )T e = (1 , . . . , n )T .
Para obtermos a matriz de informao de Fisher precisamos das deri-
vadas
n
X 2
2 d 2 i di
L()/j = (yi i ) 2 xij xi
i=1
di di
n
X X di n 2
di d2 i di
+ (yi i ) x x
ij i xij xi ,
i=1
di di2 i=1
di di
cujos valores esperados ficam dados por

Xn 2
2
di di
E L()/j = xij xi
i=1
di di
n
X (di /di )2
= xij xi
i=1
Vi
Xn
= i xij xi .
i=1
21
Logo, podemos escrever a informao de Fisher para na forma matricial

2 L()
K () = E T
= XT WX.

Em particular, para ligao cannica (i = i ), essas quantidades to-
mam formas simplificadas
U = XT (y ) e K = XT VX,
respectivamente. Se particionarmos o vetor de parmetros tal que =

( T1 , T2 )T , a funo escore e a matriz de informao de Fisher ficam para
o parmetro 1 , respectivamente, dadas por U1 = XT1 W1/2 V1/2 (y )
e K1 1 = XT1 WX1 .
1.5.2 Escore e Fisher para

A funo escore para o parmetro fica dada por
L()
U () =

Xn n
X
= {yi i b(i )} + c (yi , ),
i=1 i=1
em que c (yi , ) = dc(yi , )/d. Para obtermos a informao de Fisher

P
para temos que calcular 2 L()/2 = ni=1 c (yi , ), em que c (yi , ) =
d2 c(yi , )/d2 . Assim, a informao de Fisher para fica dada por
n
X
K () = E{c (Yi , )}.
i=1
1.5.3 Ortogonalidade
Pn p
Temos que 2 L()/ = i=1 i Vi1 (yi i )xi . Portanto, verificamos
facilmente que e so ortogonais, isto , K () = E[ 2 L()/] = 0.
22
Logo, segue que a matriz de informao de Fisher para bloco diagonal

sendo dada por K = diag{K , K }. A funo escore para fica dada
por U = (UT , U )T . Discutimos a seguir alguns casos particulares.
1.5.4 Casos particulares

Normal
A funo de varincia no caso normal dada por V () = 1 (d/d = 1).
Logo, = (d/d)2 . Em particular para ligao cannica ( = ), obtemos
= 1. Assim,
U = 2 XT (y ) e K = 2 XT X,
como conhecido. Temos ainda o resultado

Xn Xn
2i
U = (yi i ) + c (yi , ),
i=1
2 i=1
em que c (yi , ) = 1/2 yi2 /2. Da segue que c (yi , ) = 1/22 e portanto
P
K = ni=1 E{c (Yi , )} = n/22 .
Poisson
Aqui a funo de varincia dada por V () = . Logo, = (d/d)2 . Para
ligao cannica (log = ) os pesos so as prprias mdias, isto = .

Em particular, para ligao raiz quadrada ( = ), obtemos = 1. Assim,
U = XT V1/2 (y ) e K = XT X.
Binomial
No caso binomial, a funo de varincia definida por V () = (1 ),
em que 0 < < 1. Portanto, temos = (1 )(d/d)2 . Por conveno
23
assumimos que = n(1 )(d/d)2 e = 1. No caso de ligao cannica

(log{/(1 )} = ) os pesos so as varincias das binomiais, isto =
n(1 ). As matrizes U e K ficam nesse caso dadas por
U = XT (y ) e K = XT VX,
em que X uma matriz k p, y = (y1 , . . . , yn )T , = (n1 1 , . . . , nk k )T e

V = diag{n1 1 (1 1 ), . . . , nk k (1 k )}.
Gama
Para o caso gama V () = 2 . Logo, = 2 (d/d)2 . Em particular, para
um modelo log-linear (log = ), obtemos d/d = , o que implica em
= 1. Assim, U = XT V1/2 (y ) e K = XT X, similarmente ao
caso normal. Para ligao cannica, = 2 . A funo escore para fica
dada por
Xn Xn
yi
U = ( + logi ) + c (yi , ),
i=1
i i=1
em que c (yi , ) = logyi + log + 1 () e () = ()/() a fun-

o digama. Da segue que c (yi , ) = 1/ () e portanto K =
P
ni=1 E{c (Yi , )} = n{ ()1}/, em que () = d()/d a funo
trigama.
Normal inversa
Nesse caso a funo de varincia dada por V () = 3 . Assim, =
3 (d/d)2 . Pode ser muito razovel aplicarmos aqui um modelo log-linear,
uma vez que as respostas so sempre positivas. No entanto, diferente dos mo-
delos log-lineares com resposta de Poisson, os pesos aqui so inversamente
proporcionais s mdias, isto = 1 . Em particular para ligao can-
nica, = 3 , e portanto U = XT (y ) e K = XT VX. Temos ainda
24
1.6 Estimao dos parmetros
o resultado n n
X 1 yi X
U = 2 + c (yi , ),
i=1
i 2i i=1
em que c (yi , ) = 1/2 1/2yi . Da segue que c (yi , ) = 1/22 e portanto

P
K = ni=1 E{c (Yi , )} = n/22 .
1.6.1 Estimao de
O processo iterativo de Newton-Raphson para a obteno da estimativa de
mxima verossimilhana de definido expandindo a funo escore U em
torno de um valor inicial (0) , tal que
U
(0) (0)
= U + U ( (0) ),
em que U denota a primeira derivada de U com respeito a T , sendo

(0)
U (0) e U , respectivamente, essas quantidades avaliadas em (0) . Assim,
repetindo o procedimento acima, chegamos ao processo iterativo
(m)
(m+1) = (m) + {(U )1 }(m) U ,
m = 0, 1, . . .. Como a matriz U pode no ser positiva definida, a aplicao

do mtodo escore de Fisher substituindo a matriz U pelo correspondente
valor esperado K pode ser mais conveniente. Isso resulta no seguinte pro-
cesso iterativo:
(m)
(m+1) = (m) + {K1
}
(m)
U ,
m = 0, . . .. Se trabalharmos um pouco o lado direito da expresso acima,

chegaremos a um processo iterativo de mnimos quadrados reponderados
(m+1) = (XT W(m) X)1 XT W(m) z(m) , (1.5)
25
m = 0, 1, . . ., em que z = + W1/2 V1/2 (y ). A quantidade z desem-

penha o papel de uma varivel dependente modificada, enquanto W uma
matriz de pesos que muda a cada passo do processo iterativo. A convergn-
cia de (1.5) ocorre em geral num nmero finito de passos, independente dos
valores iniciais utilizados. usual iniciarmos (1.5) com (0) = g(y).
Apenas como ilustrao, para o caso logstico binomial, obtemos =
n(1) e varivel dependente modificada dada por z = +(yn)/n(1 ).
Lembrando, para o modelo normal linear no preciso recorrermos ao pro-
cesso iterativo (1.5) para a obteno da estimativa de mxima verossimi-
lhana. Nesse caso, assume a forma fechada
= (XT X)1 XT y.
Observamos que o lado direito de (1.5) no depende de . Portanto, para

obtermos no preciso conhecermos .
1.6.2 Estimao de
Igualando a funo escore U a zero chegamos seguinte soluo:
n
X X n
1
c (yi , ) = D(y; ) {yi i b(i )},
i=1
2 i=1
em que D(y; ) denota o desvio do modelo sob investigao. Verificamos que

a estimativa de mxima verossimilhana para nos casos normal e normal
inversa, igualando U a zero, dada por
n
= .
D(y; )
Para o caso gama, a estimativa de mxima verossimilhana de sai da equa-
o
2n{log ()} = D(y; ).
26
A equao acima pode ser resolvida diretamente pelo R atravs do comando

require(MASS) (Venables e Ripley, 1999). Como ilustrao, vamos supor
que os resultados do ajuste sejam guardados em fit.model. Ento, para
encontrarmos a estimativa de mxima verossimilhana de com o respectivo
erro padro aproximado devemos usar os comandos
require(MASS)
gamma.shape(fit.model).
Um outro estimador consistente para (de momentos) que no envolve
processo iterativo baseado na estatstica de Pearson, sendo dado por
(n p)
= Pn (yi i )2
.
i=1 { V (i ) }
A suposio aqui que tem sido consistentemente estimado. O R solta a

estimativa = (n p)/D(y; ) que no consistente para .
1.6.3 Distribuio assinttica

Para mostrarmos que e so assintoticamente normais e independentes
vamos usar os resultados abaixo
E(U ) = 0 e Var(U ) = K ,
com as funes escore de e sendo, respectivamente, expressas nas formas

P
U = ni=1 Ui , em que
q n
X
1
Ui = i Vi (yi i )xi e U = Ui ,
i=1
com Ui = {yi i b(i )} + c (yi , ). Portanto, para n grande, temos que

U Np+1 (0, K ). Em particular, assintoticamente U Np (0, K ) e
U N(0, K ) e U e U so independentes.
27
1.7 Teste de hipteses
Expandindo U em srie de Taylor em torno de obtemos
U
= U + U ( ),
em que U = U / T . Assim, como o estimador de mxima verossimi-

lhana de temos que U = 0 e da segue a relao

= + (U )1 U .
Supondo que para n grande U

= K (para ligao cannica K = U ),
ento obtemos

= + K1
U ,
ou seja, para n grande Np+1 (, K1

). Como K = diag{K , K }
ento assintoticamente segue que Np (, K1 1

) e N(0, K ) e e
so independentes. Demonstraes mais rigorosas desses resultados podem

ser encontradas, por exemplo, em Fahrmeir e Kaufmann (1985) e Sen e Singer
(1993, Cap. 7).
1.7.1 Hipteses simples

Buse (1982) apresenta de uma forma bastante didtica a interpretao geo-
mtrica dos testes da razo de verossimilhanas, escore e Wald para o caso de
hipteses simples. Apresentamos a seguir as generalizaes para os MLGs.
Vamos supor, inicialmente, a seguinte situao de hipteses simples:
H0 : = 0 contra H1 : 6= 0 ,
em que 0 um vetor p-dimensional conhecido e tambm assumido

conhecido.
28
Teste da razo de verossimilhanas

O teste da razo de verossimilhanas, no caso de hipteses simples, usual-
mente definido por
RV = 2{L() L( 0 )}.
Essa estatstica pode tambm ser expressa, para os MLGs, como a diferena
entre duas funes desvio
RV = {D(y; 0 ) D(y; )},
em que 0 = g1 ( 0 ), 0 = X 0 . Em particular, para o caso normal linear,

P P
obtemos RV = { ni=1 (yi 0i )2 ni=1 (yi i )2 }/ 2 .
Teste de Wald
O teste de Wald definido, nesse caso, por
W = [ 0 ]T Var1 ()[ 0 ],
em que Var() denota a matriz de varincia-covarincia assinttica de

estimada em . Para os MLGs, Var() = K1 (). Assim, a estatstica de
Wald fica reexpressa na forma
W = [ 0 ]T (XT WX)[ 0 ].
Em particular, para o caso de p = 1, o teste de Wald equivalente ao teste

t2 usual
( 0 )2
W = .
Var()
Um problema com a estatstica de Wald, especialmente quando () no
linear em , a dependncia de W com a parametrizao utilizada. Isto
, duas formas diferentes e equivalentes para (), podem levar a diferentes
valores de W .
29
Teste de escore
O teste de escore, tambm conhecido como teste de Rao, definido quando
U () = 0 por
SR = U ( 0 )T Var0 ()U ( 0 ),
em que Var0 () denota que a varincia assinttica de est sendo estimada

sob H0 . Para os MLGs temos que
SR = 1 U ( 0 )T (XT W0 X)1 U ( 0 ),
em que W0 estimado sob H0 , embora tenha a forma do modelo em H1 . A

estatstica de escore pode ser muito conveniente em situaes em que a hip-
tese alternativa bem mais complicada do que a hiptese nula. Nesses casos,
somente seria necessrio estimarmos os parmetros sob H1 quando o modelo
em H0 fosse rejeitado. Novamente, ilustrando o caso normal linear, temos que
a estatstica de escore fica expressa na forma SR = (y X 0 )T X(XT X)1
XT (y X 0 )/ 2 . Observamos que, nesse caso, as estatsticas RV e W
coincidem com SR .
Teste F
A estatstica F, que foi definida em (1.4), assume a seguinte forma para o
caso de hipteses simples:
{D(y; 0 ) D(y; )}/p

F= ,
D(y; )/(n p)
que para e sob H0 segue uma Fp,(np) . Esse resultado vale tambm
para n quando colocamos no denominador da estatstica F uma esti-
mativa consistente para 1 . Uma propriedade interessante das estatsticas
RV , SR e F o fato de serem invariantes com reparametrizaes. Isso pode
30
ser muito til na construo de regies de confiana para os parmetros. A

estatstica F tem a vantagem adicional de no depender do parmetro de
disperso 1 . Como essa estatstica pode ser obtida diretamente de funes
desvio, talvez seja a mais conveniente para uso prtico. Assintoticamente e
sob a hiptese nula, temos que RV , W e SR 2p .
Uma regio assinttica de confiana para baseada no teste de Wald
e com coeficiente de confiana (1 ), dada por
[; ( )T (XT WX)( ) 1 2p (1 )],
em que 2p (1) denota o percentil (1) de uma distribuio qui-quadrado

com p graus de liberdade. Como essa regio pode depender da parametri-
zao utilizada quando no linear (ver, por exemplo, Ratkowsky, 1983),
pode ser mais conveniente, nesses casos, construirmos a regio utilizando
uma das estatsticas invariantes. Em particular, se a estatstica da razo de
verossimilhanas for escolhida, a regio assinttica fica dada por
[; 2{L() L()} 2p (1 )].
Se estamos interessados num subconjunto 1 q-dimensional, a regio assin-

ttica de confiana utilizando as estatsticas de Wald e da razo de verossi-
milhanas ficam, respectivamente, dadas por
1
[; ( 1 )T Var ( 1 )( 1 ) 1 2q (1 )]
e
[; 2{L() L(, 2 ())} 2q (1 )],
em que aqui q-dimensional e 2 () a estimativa de mxima verossimi-

lhana de 2 dado (ver, por exemplo, Seber e Wild, 1989).
31
1.7.2 Modelos encaixados

conhecido
Vamos supor novamente a partio = ( T1 , T2 )T definida na Seo 1.4.2 e
as seguintes hipteses: H0 : 1 = 01 contra H1 : 1 6= 01 . Para esse caso
temos
RV = {D(y; 0 ) D(y; )},
em que 0 a estimativa de mxima verossimilhana do MLG com parte

P P
sistemtica = 10 + 2 , em que 10 = qj=1 xj j0 e 2 = pj=q+1 xj j . A
quantidade 10 desempenha o papel de um offset (parte conhecida no pre-
ditor linear), conforme a nomenclatura de modelos lineares generalizados.
Para ilustrarmos a utilizao do offset, vamos supor um modelo de Poisson
com ligao log-linear, resposta resp, covariveis cov1 e cov2 e offset dado
por logt0. Para ajustarmos o modelo e armazenarmos os resultados em
fit1.poisson devemos fazer
fit1.poisson = glm(resp cov1 + cov2 + offset(logt0),
family= poisson).
Esse tipo de recurso muito utilizado em estudos de seguimento em que cada
indivduo observado durante um tempo diferente (vide Exemplo 1.12.4).
Como ilustrao, vamos supor um MLG com distribuio normal inversa,
ligao cannica e preditor linear dado por = 1 + 2 cov2 + 3 cov3 e que
o interesse testarmos H0 : 2 = b, em que b uma constante diferente
de zero, contra H1 : 2 6= b. Os ajustes correspondentes a H0 e H1 so,
respectivamente, dados por
fit1.ni = glm( resp cov3 + offset(b*cov2),
family=inverse.gaussian)
fit2.ni = glm( resp cov2+cov3, family=inverse.gaussian).
32
Logo, de (1.4), a estatstica F para testarmos H0 : 2 = b contra H1 : 2 6= b

fica dada por
d1 = deviance(fit1.ni)
d2 = deviance(fit2.ni)
F = (d1 - d2)/(d2/(n-3)).
Em particular, o offset desaparece para b = 0. O ajuste, nesse caso, fica
simplesmente dado por
fit1.ni = glm( resp cov3, family=inverse.gaussian).
Teste de Wald
Para testarmos H0 , a estatstica de Wald fica expressa na forma
W = [ 1 01 ]T Var1 ( 1 )[ 1 01 ],
T T
em que 1 sai do vetor = ( 1 , 2 )T . Usando resultados conhecidos de
lgebra linear, mostramos que a varincia assinttica de 1 dada por
Var( 1 ) = 1 [XT1 W1/2 M2 W1/2 X1 ]1 ,
em que X1 sai da partio X = (X1 , X2 ), sendo portanto nq, X2 n(pq),

M2 = In H2 e H2 = W1/2 X2 (XT2 WX2 )1 XT2 W1/2 a matriz de projeo
ortogonal de vetores do Rn no subespao gerado pelas colunas da matriz
W1/2 X2 . Em particular, no caso normal linear, temos as simplificaes H2 =
X2 (XT2 X2 )1 XT2 e Var( 1 ) = 2 [XT1 (In H2 )X1 ]1 .
Teste de escore
A funo escore pode ser expressa na forma U = 1/2 XT W1/2 rP , em que
rP = 1/2 V1/2 (y ) conhecido como resduo de Pearson. Observamos
33
que rP tem a mesma distribuio de Y, no entanto, E(rP ) = 0 e Var(rP ) =

In . O teste de escore definido por
0 0
SR = U1 ( )T Var0 ( 1 )U1 ( ),
0 0T
em que U1 () = L()/ 1 = XT1 W1/2 V1/2 (y ), = ( 0T T
1 , 2 ) e
0
2 a estimativa de mxima verossimilhana de 2 sob o modelo com parte
sistemtica = 01 + 2 , isto , sob H0 , em que 01 = X1 01 e 2 = X2 2 .
Se trabalharmos um pouco mais a expresso para Var( 1 ), chegaremos ao
seguinte resultado:
Var( 1 ) = 1 (RT WR)1 ,
em que R = X1 X2 C e C = (XT2 WX2 )1 XT2 WX1 . Aqui C uma matriz

n q cuja j-sima coluna o vetor de coeficientes da regresso linear (com
pesos W) da j-sima coluna de X1 sobre X2 . Assim, R pode ser interpretado
como sendo uma matriz nq de resduos. A j-sima coluna de R corresponde
aos resduos ordinrios da regresso linear (com pesos W) da j-sima coluna
de X1 sobre X2 . Assim, o teste de escore fica reexpresso na forma (vide
Cordeiro, Ferrari e Paula, 1993)
1/2 1/2
SR = rTP0 W0 X1 (RT0 W0 R0 )1 XT1 W0 rP0 ,
0
com as quantidades rP0 , W0 e R0 sendo avaliadas em .
Para ilustrarmos o clculo da estatstica de escore, vamos supor um
MLG com preditor linear dado por = 1 + 2 cov2 + 3 cov3 + 4 cov4 e
que o interesse testarmos H0 : 3 = 4 = 0. As matrizes X1 e X2 sero
ento dadas por X1 = [cov3 , cov4 ] e X2 = [1 , cov2 ]. Se temos um modelo
de Poisson, por exemplo com ligao cannica, ento como j vimos = .
Logo, W0 = diag{01 , . . . , 0n }, em que 01 , . . . , 0n so os pesos sob H0 , ou seja,
os pesos do modelo ajustado de Poisson com preditor linear = 1 + 2 cov2 .
34
Portanto, precisamos apenas fazer esse ajuste e da computamos W0 , R0 ,

rP0 e finalmente SR . Chamando no R os pesos por w, W0 por W, rP0 por rp
e R0 por R, os passos para o clculo de SR so dados abaixo
X1 = cbind(cov3 , cov4)
X2 = cbind(1 , cov2)
fit.poisson = glm( resp cov2, family=poisson)
rp = resid(fit.poisson, type=pearson)
w = fit.poisson$weights
W = diag(w)
A = solve(t(X2)%*%W%*%X2)
C1 = A%*%t(X2)%*%W%*%cov3
C2 = A%*%t(X2)%*%W%*%cov4
C = cbind(C1 , C2)
R = X1 - X2%*%C
SR = solve(t(R)%*%W%*%R)
SR = t(rp)%*%sqrt(W)%*%X1%*%SR%*%t(X1)%*%sqrt(W)%*%rp.
Em particular, para o caso normal linear, C = (XT2 X2 )1 XT2 X1 e rP =

(y )/. Logo, SR = 2 (y 0 )T X1 (RT R)1 XT1 (y 0 ), em que
R = X1 X2 (XT2 X2 )1 XT2 X1 = (In H2 )X1 . Aqui, tambm as estatsticas
da razo de verossimilhanas e de Wald coincidem com a estatstica de escore.
Isso em geral vale para o modelo normal linear.
A estatstica de Wald fica, analogamente ao caso anterior, dada por
W = [ 1 01 ]T [RT WR][ 1 01 ].
O clculo de R segue os mesmos passos descritos para o clculo do teste de

escore, com a nica diferena de que os pesos sairo do ajuste do modelo com
todos os parmetros. As mudanas nos comandos so as seguintes:
35
fit1.poissom = glm( resp cov2 + cov3 + cov4,

family=poisson)
w = fit1.poisson$weights
W = diag(w).
Sob H0 e para grandes amostras, temos que RV , W e SR 2q .
desconhecido
No caso de ser desconhecido e o interesse for testarmos H0 : 1 = 01 con-
tra H1 : 1 6= 01 , as estatsticas RV , SR e W assumem formas diferentes
daquelas apresentadas para o caso de ser conhecido. Em particular, deno-
tamos por 0 e as estimativas de mxima verossimilhana de sob H0 e
H1 , respectivamente. Para facilitarmos a notao da estatstica RV usamos
o resultado c(y, ) = d()+a(y)+u(y) vlido para algumas distribuies da
famlia exponencial dada em (1.1) (por exemplo normal, gama e normal in-
versa), em que a(), d() e u() so funes diferenciveis. Assim, a estatstica
da razo de verossimilhanas fica expressa na forma
RV = 2{t() 0 t(0 )} + 2n{d() d(0 )},

Pn
em que t() = b(i ) + a(yi )} e i = (i ). Para o modelo
i=1 {yi i
P
gama, por exemplo, temos que t() = ni=1 {log(yi /i ) yi /i } e d() =
log log(). A estatstica de Wald fica, por sua vez, dada por
1
W = [ 1 01 ]T Var ( 1 )[ 1 01 ]
= [ 1 01 ]T (RT WR)[ 1 01 ].
J a estatstica de escore assume a forma

0 0
SR = U1 ( )T Var0 ( 1 )U1 ( )
1/2 1/2
= rTP0 W0 X1 (RT0 W0 R0 )1 XT1 W0 rP0 ,
36
q
0 0T
em que rP0 = 0 V01 (y 0 ) e = ( , 0 )T a estimativa de mxima
verossimilhana de sob H0 . As trs estatsticas seguem assintoticamente e
sob H0 uma distribuio 2q .
1.7.3 Modelo de anlise de varincia

Vamos supor o modelo de anlise de varincia balanceado com um fator e
dois grupos
g(ij ) = + i ,
em que i = 1, 2, j = 1, . . . , m, 1 = 0, 2 = e conhecido. Vamos

considerar as hipteses H0 : = 0 contra H1 : 6= 0. Aqui X2 um vetor
2m 1 de 1 s enquanto X1 um vetor 2m 1 com 0 s nas m primeiras
posies e 1 s nas m restantes. Da segue que XT2 WX2 = m(1 + 2 ),
XT2 WX1 = m2 , C = 2 /(1 + 2 ) e consequentemente
m1 2
RT WR = ,
(1 + 2 )
em que 1 e 2 so os pesos correspondentes aos dois grupos. A estatstica
de escore fica ento dada por
m
!2
2 X 0
SR = r ,
m j=1 P2j
em que rP0 2j , j = 1, . . . , m, so os resduos estimados de Pearson, sob H0 , cor-

1/2
respondentes ao segundo grupo, sendo dados por rP0 2j = 1/2 (y2j 0 )/V0 .
Em particular, sob a hiptese nula, 0 = y. Assim, obtemos a simplificao
m
SR = (y1 y2 )2 , (1.6)
2V0
em que y1 e y2 so as mdias amostrais correspondentes aos dois grupos e
V0 = V (y) a funo de varincia sob a hiptese nula1 .
1
no caso binomial tomar yi = yi /m e V (y) = y(1 y)
37
Similarmente, podemos mostrar que a estatstica de Wald fica dada

por
m1 2 2
W = , (1.7)
(1 + 2 )
em que denota a estimativa de mxima verossimilhana de . Mostramos
na Tabela 1.4 como ficam as expresses das estatsticas SR e W para alguns
casos da famlia exponencial.
Tabela 1.4
Expresses para as estatsticas de escore e de Wald.
Distribuio SR W
m 2 m 2
Normal (y y2 )
2 2 1 2 2

m my1 y2 2
Poisson (y
2y 1
y2 )2 (y1 +y2 )

2m 2 y1 (my1 )y2 (my2 )

Binomial (y
y(2my) 1
y2 ) 2 m y1 (my1 )+y2 (my2 )
m m(y1 y2 )2 2
Gama 2y 2
(y1 y2 )2 (y12 +y22 )

m m(y1 y2 )3 2
Normal inversa 2y 3
(y1 y2 )2 (y13 +y23 )

1.7.4 Regresso linear simples

Vamos supor agora um MLG com parte sistemtica na forma linear simples
g(i ) = + xi , i = 1, . . . , n,
e as hipteses H0 : = 0 contra H1 : 6= 0 com conhecido. Nesse caso

P P P Pn
obtemos Rj = (xj ni=1 i ni=1 i xi )/ ni=1 i e RT WR = 2
i=1 i Ri .
P
Consequentemente, R0j = xj x e RT0 W0 R0 = 0 ni=1 (xi x)2 . Aqui,
tambm obtemos 0 = y.
38
A estatstica de escore fica portanto dada por

P
{ ni=1 xi (yi y)}2
SR = Pn 2
, (1.8)
V0 i=1 (xi x)
em que V0 = V (y).
Similarmente, obtemos para a estatstica de Wald
n
X
2
W = i Ri2 , (1.9)
i=1
em que a estimativa de sob H1 .
1.7.5 Hipteses restritas

Podemos ter interesse, em algumas situaes prticas, em testarmos hipte-
ses na forma de igualdades lineares, isto , H0 : C = 0 contra H1 : C 6= 0,
em que C uma matriz k p de posto completo. A estimativa de m-
xima verossimilhana sob a hiptese alternativa coincide com a estimativa
de mxima verossimilhana irrestrita , no entanto, obtermos a estimativa
de mxima verossimilhana sob H0 pode ser mais complexo, requerendo o uso
de algum procedimento iterativo. Nyquist (1991) prope um processo ite-
rativo para a obteno da estimativa de mxima verossimilhana em MLGs
com parmetros restritos na forma C = 0. O processo iterativo dado
abaixo
(m+1) (m+1)
(m+1)
c = (XT W(m) X)1 CT {C(XT W(m) X)1 CT }1 C ,
(m+1)
m = 0, 1, . . ., em que (1.5) avaliado na estimativa restrita (m)
c . A
matriz de varincia-covarincia assinttica de c dada por
Var( c ) = 1 (XT WX)1 [In CT {C(XT WX)1 CT }1 C(XT WX)1 ].
39
1.8 Bandas de confiana
Os testes estatsticos assumem formas similares aos testes do caso irrestrito.

Em particular, quando conhecido, o teste da razo de verossimilhanas
fica dado por
RV = {D(y; 0 ) D(y; )},
em que 0 denota aqui a estimativa de mxima verossimilhana de sob

H0 : C = 0. J, o teste de escore, assume a forma
SR = 1 U ( c )T (XT W0 X)1 U ( c ),
em que W0 aqui avaliado em c . Finalmente, o teste de Wald fica dado

por
W = [C 0]T [Var(C)]1 [C 0]
T
= CT [C(XT WX)1 CT ]1 C.
Sob H0 e para grandes amostras, as estatsticas RV , W e SR seguem uma

distribuio 2k . A distribuio nula assinttica dos testes acima para o caso
H0 : C = 0 contra H1 H0 , em que H1 : C 0, uma mistura de
distribuies do tipo qui-quadrado. Fahrmeir e Klinger (1994) discutem esse
tipo de teste em MLGs (ver tambm Paula, 1997).
1.8 Bandas de confiana
1.8.1 Modelo normal linear

Uma banda de confiana de coeficiente 1 pode ser construda para (z) =
zT , z IRp (ver, por exemplo, Casella e Strawderman, 1980). Temos que
Np (0, 2 (XT X)1 ). Logo, uma banda de confiana de coeficiente
1 para a mdia (z), z IRp , fica dada por

zT c {zT (XT X)1 z}1/2 , z IRp ,
40
1.9 Tcnicas de diagnstico: Modelo normal linear
em que c tal que P r{2p c } = 1 . importante observarmos que z

um vetor p 1 que varia livremente no IRp enquanto X uma matriz fixa
com os valores das variveis explicativas.
1.8.2 Extenso para os MLGs

Uma banda assinttica de confiana de coeficiente 1 pode ser tambm
construda para (z) = g 1 (zT ), z IRp (Piegorsch e Casella, 1988) ge-
neralizando os resultados da seo anterior. Assintoticamente temos que
Np (0, 1 (XT WX)1 ). Logo, uma banda assinttica de confiana
de coeficiente 1 para o preditor linear zT , z IRp , fica dada por
p
zT 1 c {zT (XT WX)1 z}1/2 , z IRp ,
em que c tal que P r{2p c } = 1 . Aplicando a transformao g 1 ()

podemos, equivalentemente, encontrar uma banda assinttica de confiana
de coeficiente 1 para (z), dada por
p
g 1 [zT 1 c {zT (XT WX)1 z}1/2 ] z IRp .
Lembramos que z um vetor p 1 que varia livremente no IRp , enquanto X

uma matriz fixa com os valores das variveis explicativas. As quantidades
W e devem ser estimadas consistentemente.
1.9.1 Introduo
Uma etapa importante na anlise de um ajuste de regresso a verificao
de possveis afastamentos das suposies feitas para o modelo, especialmente
para o componente aleatrio e para a parte sistemtica do modelo, bem
41
como a existncia de observaes discrepantes com alguma interferncia des-

proporcional ou inferencial nos resultados do ajuste. Tal etapa, conhecida
como anlise de diagnstico, tem longa data, e comeou com a anlise de
resduos para detectar a presena de pontos aberrantes e avaliar a adequao
da distribuio proposta para a varivel resposta. Uma referncia importante
nesse tpico o artigo de Cox e Snell (1968) em que apresentada uma forma
bastante geral de definir resduos.
Belsley, Kuh e Welsch (1980) e Cook e Weisberg (1982) discutem a
padronizao de resduos para o caso normal linear. Pregibon (1981) prope
o componente do desvio como resduo na classe dos modelos lineares generali-
zados e sugere uma padronizao que comprovada por Cordeiro (1982)(ver
tambm McCullagh, 1987) que usa as aproximaes propostas por Cox e Snell
(1968). McCullagh (1987) apresenta uma outra forma de padronizao para
o componente do desvio em que procura corrigir os efeitos de assimetria e
curtose. Atkinson (1981) prope a construo por simulao de Monte Carlo
de uma banda de confiana para os resduos da regresso normal linear, a qual
denominou envelope, e que permite uma melhor comparao entre os resduos
e os percentis da distribuio normal padro. Williams (1984,1987) discute,
com base em estudos de simulao, a aproximao da forma padronizada
proposta por Pregibon (1981) encontrando fortes evidncias de concordn-
cia entre a distribuio emprica do componente do desvio padronizado e a
distribuio normal padro para vrios MLGs. Williams (1987) tambm dis-
cute a construo de envelopes em MLGs. Davison e Gigli (1989) estendem
a proposta de Cox e Snell (1968) e definem uma forma geral de padronizao
para o componente do desvio, mesmo quando a funo de distribuio acu-
mulada no expressa em forma fechada. Fahrmeir e Tutz (1994) estendem
o trabalho de McCullagh (1987) para modelos mais gerais, no pertencentes
42
famlia exponencial de distribuies. Paula (1995) apresenta uma forma

padronizada para o componente do desvio em MLGs com parmetros restri-
tos e verifica, atravs de estudos de simulao, forte concordncia na maioria
dos modelos estudados entre a distribuio emprica do resduo padronizado
e a distribuio normal padro, generalizando para parmetros restritos os
resultados de Williams. De Souza e Paula (2002) usam o mtodo proposto
por Davison e Gigli (1989) a fim de obterem uma forma padronizada para o
componente do desvio em modelos de regresso von Mises, os quais tm sido
aplicados na anlise de dados circulares. A construo de envelopes com o
resduo proposto tambm discutida no trabalho. Svetliza e Paula (2003),
Ortega, Paula e Bolfarine (2007), Leiva et al. (2007) e Barros, Paula e Leiva
(2008) estudam a distribuio emprica do resduo componente do desvio,
respectivamente, em modelos no lineares com resposta binomial negativa
e modelos para anlise de dados de sobrevivncia log-gama generalizados e
Birnbaum-Saunders com dados censurados.
Um outro tpico importante na anlise de diagnstico a deteco de
observaes influentes, isto , pontos que exercem um peso desproporcional
nas estimativas dos parmetros do modelo. Durante a dcada de 70 surgiram
vrias propostas relacionadas com a influncia das observaes nas estimati-
vas dos coeficientes do modelo normal linear. O estudo da diagonal principal
da matriz de projeo H = X(XT X)1 X apresentada por Hoaglin e Welsch
(1978), em que X denota a matriz modelo, motivou a definio de pontos
de alavanca que receberam esse nome por terem um peso desproporcional no
prprio valor ajustado. Esses pontos em geral so remotos no subespao ge-
rado pelas colunas da matriz X, ou seja, tm um perfil diferente dos demais
pontos no que diz respeito aos valores das variveis explicativas. Dependendo
da localizao, tais pontos podem exercer forte influncia nas estimativas dos
43
coeficientes da regresso. Extenses da definio de pontos de alavanca para

modelos normais no lineares so dadas em St. Laurent e Cook (1992). Wei,
Hu e Fung (1998) estendem a definio de pontos de alavanca para modelos
bastante gerais cuja varivel resposta seja contnua. Nessa generalizao so
includos outros mtodos de estimao, alm de mxima verossimilhana,
e outros enfoques tais como enfoque bayesiano. Paula (1999) discute pon-
tos de alavanca em modelos normais lineares com parmetros restritos, com
extenses para os MLGs.
A deleo de pontos talvez seja a tcnica mais conhecida para ava-
liar o impacto da retirada de uma observao particular nas estimativas da
regresso. A distncia de Cook(1977), originalmente desenvolvida para mo-
delos normais lineares, foi rapidamente assimilada e estendida para diversas
classes de modelos. Por exemplo, Moolgavkar, Lustbader e Venzon (1984)
estendem a metodologia para regresso no linear com aplicaes em estudos
emparelhados, Ross (1987) discute a geometria da deleo de casos em regres-
so no linear, Cook, Pea e Weisberg (1988) comparam o afastamento pela
verossimilhana com medidas tradicionais de deleo de pontos tais como
a distncia de Cook e o DFFITSi , esse ltimo proposto por Belsley, Kuh
e Welsch (1980) e Paula e Peres (1988) discutem a deleo de pontos em
MLGs com parmetros restritos. Davison e Tsai (1992) e Cordeiro e Paula
(1992) estendem a metodologia para modelos cuja distribuio no pertence
famlia exponencial de distribuies. Galea, Riquelme e Paula (2000) investi-
gam a metodologia em modelos elpticos multivariados. Algumas referncias
nesse tpico so, dentre outras, os textos de Carvalho e Dachs (1982), Cook e
Weisberg (1982), Atkinson (1985) e Chattergee e Hadi (1988). Um problema
que pode ocorrer com a deleo individual de pontos o que se denomina
masking effect ou seja, deixar de detectar pontos conjuntamente discrepan-
44
tes. Embora esse procedimento de deleo mltipla de pontos no seja muito

popular, provavelmente em virtude do custo computacional envolvido, exis-
tem vrios procedimentos robustos para a deteco de pontos discrepantes,
muitos dos quais com um custo computacional relativamente baixo (ver, por
exemplo, Fung, 1993; Pea e Yohai, 1999). Como em geral esses procedimen-
tos tm sido desenvolvidos para modelos lineares, abre-se uma perspectiva
de pesquisas em classes mais abrangentes, tais como os MLGs.
Contudo, uma das propostas mais inovadoras na rea de diagnstico
em regresso foi apresentada por Cook (1986) que prope avaliar a influncia
conjunta das observaes sob pequenas mudanas (perturbaes) no modelo
ou nos dados, ao invs da avaliao pela retirada individual ou conjunta de
pontos. Essa metodologia, denominada influncia local, teve uma grande
receptividade entre os usurios e pesquisadores de regresso, havendo in-
meras publicaes no assunto em que a metodologia aplicada em classes
particulares de modelos ou estendida para situaes mais gerais.
As metodologias descritas acima sero inicialmente derivadas para o
modelo normal linear clssico sendo estendidas em seguida para os MLGs.
Vamos considerar, portanto, o modelo de regresso normal linear
yi = 1 + 2 x2i + . . . + p xpi + i ,
i = 1, . . . , n, em que os erros i s so variveis aleatrias independentes nor-

malmente ditribudas de mdia zero e varincia constante 2 .
1.9.2 Pontos de alavanca

O resduo para a i-sima observao pode ser definido como uma funo do
tipo ri = r(yi , i ) que procura medir a discrepncia entre o valor observado e
o valor ajustado da i-sima observao. O sinal de ri indica a direo dessa
45
discrepncia. A definio mais usual de resduo dada por ri = yi i

(resduo ordinrio), todavia h outras formas de definir resduo que veremos
mais adiante. O vetor de resduos ordinrios definido por r = (r1 , . . . , rn )T .
Logo, da regresso normal linear segue que r = y = y Hy = (In H)y,
em que H = X(XT X)1 XT a matriz de projeo ortogonal de vetores do
Rn no subespao gerado pelas colunas da matriz X.
A matriz H simtrica e idempotente e conhecida como matriz hat,
uma vez que faz = Hy. Por ser idempotente, temos que posto(H) =
Pn T T 1
tr(H) = i=1 hii = p. O elemento hii = xi (X X) xi desempenha um
papel importante na construo de tcnicas de diagnstico. Adicionalmente,

1 1
temos que n
hii c
(ver, por exemplo, Cook e Weisberg, 1982), em que
c o nmero de linhas de X idnticas a xTi . O i-simo valor ajustado fica
ento dado por
X
yi = hii yi + hji yj , (1.10)
i6=j
e pelo fato da matriz H ser idempotente

X
h2ij = hii (1 hii ).
j6=i
Em particular, hii = 1 implica em yi = yi , todavia a recproca no necessa-

riamente verdadeira. Logo, para valores altos de hii predomina na expresso
(1.10) a influncia de yi sobre o correspondente valor ajustado. Assim,
muito razovel utilizar hii como uma medida da influncia da i-sima obser-
vao sobre o prprio valor ajustado. Temos tambm que hii = yi /yi , ou
seja, hii corresponde variao em yi quando yi acrescido de um infinit-
simo.
Supondo que todos os pontos exeram a mesma influncia sobre os
tr(H)
valores ajustados, podemos esperar que hii esteja prximo de n
= np .
Convm ento examinar, por exemplo, aqueles pontos tais que hii 2pn
, que
46
so conhecidos como pontos de alavanca ou de alto leverage e geralmente

esto localizados em regies remotas no subespao gerado pelas colunas da
matriz X. Esses pontos podem ser tambm informativos com relao a .
Uma outra maneira de entendermos hii construindo a matriz Jacobi-
ana de alavancas (ver, por exemplo, St. Laurent e Cook, 1993; Paula, 1999)
quando a i-sima observao perturbada de modo que o novo valor obser-
vado seja dado por yi (b) = yi + b, em que b uma constante real. O novo
vetor de valores ajustados fica dado por
y(b) = X(XT X)1 XT y(b),
em que y(b) = (y1 , . . . , yi1 , yi + b, yi+1 , . . . , yn )T . A matriz Jacobiana de

alavancas definida por
1
J(b) = lim {y(b) y},
b0 b
e representa a variao no vetor de valores ajustados sob uma variao infi-

nitesimal no i-simo valor observado. Podemos verificar que
J(b) = X(XT X)1 XT f = Hf ,
em que f um vetor n1 de zeros com o valor 1 na i-sima posio. Portanto,

temos que hii representa a variao no valor predito da i-sima observao
quando o valor observado acrescido de um infinitsimo.
Para ilustrarmos como so obtidos os valores hii no R, vamos supor um
modelo normal linear de varivel resposta resp, fatores A e B e covariveis
cov1 e cov2 e que os resultados do ajuste so armazenadas em fit.model.
Esse modelo pode ser ajustado de duas formas
fit.model = lm( resp A + B + cov1 + cov2)
ou, alternativamente, como um MLG
47
fit.model = glm( resp A + B + cov1 + cov2,

family=gaussian).
claro que a primeira maneira mais simples. Para gerarmos a matriz
modelo (incluindo a constante) fazemos
X = model.matrix( A + B + cov1 + cov2).
Assim, temos em X a matriz modelo correspondente. O clculo da matriz
de projeo H pode ser feito seguindo os passos descritos abaixo
H = X% %solve(t(X)% %X)% %t(X).
Logo, podemos obter hii extraindo os elementos da diagonal principal de H
h = diag(H).
Outras maneiras mais geis de extrairmos os elementos hii s de uma regresso
linear so atravs dos comandos
h = lm.influence(fit.model)$hat
h = hat(X,T).
Para construirmos um grfico de ndices para hii , a fim de detectarmos pontos
de alavanca, fazemos
plot(h, xlab=Indice, ylab= Alavanca).
1.9.3 Resduos
Dos resultados descritos na seo anterior segue que E(r) = (In H)E(Y) = 0
e Var(r) = 2 (In H). Isto , ri tem distribuio normal de mdia zero e
varincia Var(ri ) = 2 (1 hii ). Alm disso, a covarincia entre ri e rj , i 6= j,
fica dada por Cov(ri , rj ) = 2 hij .
Como os ri s tm varincias diferentes, devemos express-los em forma
padronizada a fim de conseguirmos uma comparabilidade entre os mesmos.
Uma definio natural seria dividirmos ri pelo respectivo desvio padro. Ob-
48
temos assim o resduo studentizado

ri
ti = , i = 1, . . . , n,
s(1 hii )1/2
Pn
em que s2 = 2
i=1 ri /(n p).
No entanto, como ri no independente de s2 , ti no segue uma dis-
tribuio t de Student como se poderamos esperar. Cook e Weisberg (1982)
1
mostram que t2i /(n p) segue uma distribuio beta com parmetros 2
e
(n p 1)/2. Logo, temos que E(ti ) = 0, Var(ti ) = 1 e Cov(ti , tj ) =
hij /{(1 hii )(1 hjj )}1/2 , i < j. O problema da dependncia entre ri e s2
pode ser contornado substituindo s2 por s2(i) , o erro quadrtico mdio cor-
respondente ao modelo sem a i-sima observao. O ndice (i) indica que a
i-sima observao foi excluda. Podemos mostrar que
(n p)s2 (n p 1)s2(i) ri2
= + 2 ,
2 2 (1 hii )
e da segue pelo teorema de Fisher-Cochran (ver, por exemplo, Rao, 1973,
p.185) a independncia entre s2(i) e ri2 . Alm disso, obtemos
n
X ri2
(n p 1)s2(i) = rj2
j=1
(1 hii )
e da segue, aps alguma lgebra, que

2 2 n p t2i
s(i) = s . (1.11)
np1
Assim, fica fcil mostrarmos que o novo resduo studentizado
ri
ti =
s(i) {1 hii }1/2
segue uma distribuio tnp1 . Se ainda substituimos (1.11) na expresso
acima mostramos que ti uma transformao montona de ti ,
1/2
np1
ti = ti .
n p t2i
49
O resduo ti pode ser calculado pela sequncia de comandos

lms = summary(fit.model)
s = lms$sigma
r = resid(lms)
ti = r/(s*(1-h) .5).
Logo, o resduo ti fica dado por
tsi = ti*((n-p-1)/(n-p-ti 2)) .5.
Devemos substituir n e p pelos respectivos valores numricos.
Vrias quantidades do modelo linear ajustado podem ser obtidas dire-
tamente no R atravs do uso de algumas funes apropriadas (ver Spector,
1994), as quais so teis na aplicao das tcnicas de diagnstico. Resumimos
na Tabela 1.5 alguns casos.
Tabela 1.5
Quantidades teis para diagnstico obtidas no R.
Smbolo Descrio Funo Elemento
h Alavanca lm.influence() hat
Coeficientes coef()
r Resduos resid()
s Desvio padro summary() sigma
amostral
s(i) Desvio padro lm.influence() sigma
sem observao i
(i) Coeficiente sem lm.influence() coef
observao i
(XT X)1 Covarincia de summary() cov.unscaled
2
sem s
Como ilustrao, vamos supor um ajuste com resultados no objeto

fit.model e que o interesse obtermos a estimativa do desvio padro da
varivel resposta Yi sem considerarmos a i-sima observao. Aplicamos
50
em R a funo lm.influence(fit.model)$sigma e obtemos um vetor de

dimenso n com todas as estimativas do desvio padro de Yi excluindo cada
observao correspondente. Como veremos a seguir o resduo ti pode ser
interpretado como uma estatstica para avaliarmos se a i-sima observao
aberrante.
1.9.4 Outra interpretao para ti

Vamos supor que o i-simo ponto suspeito de ser aberrante. Essa hiptese
pode ser testada atravs do modelo
yj = 1 + 2 x2j + . . . + p xpj + j + j , (1.12)
j = 1, . . . , n, em que j = 1 para j = i e j = 0 em caso contrrio.

Usando resultados da Seo 1.4.2 podemos mostrar que, sob a hiptese
H0 : = 0, o acrscimo na soma de quadrados de resduos dado por
D(y; 0 ) D(y; ) = 2 (1 hii ),
em que = ri (1 hii )1 e ri = yi xTi . Assim, uma vez que D(y; 0 ) =

(n p)s2 , a estatstica F para testarmos H0 : = 0 contra H1 : 6= 0 fica
dada por
2 (1 hii )
F= n o .
2 ri2
(n p)s (1hii ) /(n p 1)
Assintoticamente a estatstica F segue, sob H0 , distribuio qui-quadrado
com 1 grau de liberdade. Trabalhando um pouco a expresso acima chegamos
ao seguinte resultado:
ri2 (n p 1)
F= 2 2
= t2
i .
s (1 hii )(n p ti )
Portanto, valores altos para |ti | indicam, significativamente, que o i-simo
ponto aberrante.
51
1.9.5 Influncia
Vamos supor conhecido. Ento, o logaritmo da funo de verossimilhana
fica agora expresso na forma
n
X
L () = j Lj (), (1.13)
j=1
em que Lj () denota o logaritmo da funo de verossimilhana correspon-

dente j-sima observao e j um tipo de perturbao, definida tal que
0 j 1. Quando j = 1, j, significa que no h perturbao no modelo
e quando j = 0 significa que a j sima observao foi excluda.
A estimativa de mnimos quadrados para fica, supondo a estrutura
(1.13), dada por
= (XT X)1 XT y,
em que = diag{1 , . . . , n }. Em particular, quando apenas a i-sima ob-

servao perturbada, isto , quando i = e j = 1 para j 6= i, obtemos
(1 )ri
= (XT X)1 xi . (1.14)
{1 (1 )hii }
Para = 0, significando que o i-simo ponto foi excludo, (1.14) fica

expressa na forma simplificada
ri
(i) = (XT X)1 xi , (1.15)
(1 hii )
que bastante conhecida da regresso normal linear (ver, por exemplo, Cook
e Weisberg, 1982).
A medida de influncia mais conhecida baseada na regio de confiana
de coeficiente (1 ) para o parmetro ,
( )T (XT X)( ) ps2 Fp,(np) (1 ),
52
que para o caso de p = 2 um elipside no R2 centrado em . Tal medida,

conhecida como distncia de Cook, definida por
( )T (XT X)( )
D = , (1.16)
ps2
e mede quanto a perturbao = (1 , . . . , n )T afasta de , segundo a

mtrica M = XT X. Por exemplo, se D > Fp,(np) (1 ), significa que
a perturbao est deslocando o contorno do elipside para um contorno
correspondente a um nvel de significncia menor do que .
Em particular, quando o i-simo ponto excludo, a distncia de Cook
fica expressa na forma
( (i) )T (XT X)( (i) )

Di =
ps2
2
ri hii 1
= 1/2
s(1 hii ) (1 hii ) p
hii 1
= t2i .
(1 hii ) p
Portanto, Di ser grande quando o i-simo ponto for aberrante (ti grande)
e/ou quando hii for prximo de um. A distncia de Cook pode ser calculada
da seguinte maneira:
di = (ti 2)*h / (p*(1-h)).
A distncia Di poder no ser adequada quando ri for grande e hii for pe-
queno. Nesse caso, s2 pode ficar inflacionado e no ocorrendo nenhuma
compensao por parte de hii , Di pode ficar pequeno. Uma medida suposta-
mente mais apropriada foi proposta por Belsley, Kuh e Welsch (1980), sendo
definida por
1/2
|ri | hii
DFFITSi =
s(i) (1 hii )1/2 (1 hii )
53
1/2
hii
= |ti | .
(1 hii )
O DFFITSi calculado conforme abaixo
dfit = abs(tsi)*(h/(1-h)) .5.
p
Como o valor esperado de hii n
, razovel darmos mais ateno queles
pontos tais que
1/2
p
DFFITSi 2 .
(n p)
Aparentemente Di e DFFITSi seriam medidas de influncia competitivas,
uma vez que DFFITSi parece ser mais adequada para avaliar a influncia
nas estimativas dos coeficientes de um ponto aberrante com hii pequeno. No
entanto, como mostram Cook, Pea e Weisberg (1988) Di e DFFITSi me-
dem coisas diferentes. Ambas podem ser expressas a partir da medida mais
geral de influncia denominada afastamento pela verossimilhana (likelihood
displacement) proposta por Cook e Weisberg (1982). A medida Di mede
essencialmente a influncia das observaes nos parmetros de posio, en-
quanto DFFITSi tem o propsito de medir a influncia das observaes nos
parmetros de posio e escala. Como pouco provvel que um ponto com
ri alto e hii pequeno seja influente nas estimativas dos coeficientes, o uso
de Di no compromete a deteco de observaes influentes. Cook, Pea e
Weisberg observam tambm que DFFITSi no um medida completa de in-
fluncia nos parmetros de posio e escala simultaneamente, podendo falhar
em algumas situaes. Uma medida mais geral nesse caso proposta pelos
autores.
Atkinson (1985) props uma outra medida de influncia que um
aperfeioamento do DFFITSi ,
1/2
(n p) hii
Ai = |ti |.
p (1 hii )
54
Aqui, quando o experimento for balanceado, isto , todos os hii s forem iguais,
obtemos Ai = |ti |. A vantagem de Ai que a mesma pode ser utilizada em
grficos normais de probabilidades.
5
5
3
4
4
3
3
y
y
2
2
1
1
1 2 3 4 5 1 2 3 4 5
x x
(a) (b)
5 5
7
8
6
5
6
y
y
4
4
3
2
2
1
1 2 3 4 5 6 7 1 2 3 4 5 6 7
x x
(c) (d)
Figura 1.4: Ilustrao de pontos aberrantes, influentes e de alavanca.
1.9.6 Ilustrao
As Figuras 1.4a-1.4d ilustram as diferenas entre pontos aberrantes, de ala-
vanca e influentes. Na Figura 1.4a temos os pontos alinhados sem nenhum
tipo de perturbao. Na Figura 1.4b perturbamos o ponto #3 fazendo-o
aberrante. Note que a excluso do mesmo (reta pontilhada) altera apenas
55
o intercepto, isto , os valores ajustados. um ponto que no est muito

afastado dos demais, logo tem um valor para hii relativamente pequeno. J
na Figura 1.4c, perturbamos o ponto #5 de modo que o mesmo fique mais
afastado no subespao gerado pelas colunas da matriz X. um ponto de
alavanca, todavia a eliminao do mesmo no muda praticamente nada nas
estimativas dos parmetros. Como um ponto com hii relativamente alto, as
varincias dos valores ajustados dos pontos prximos ao mesmo sero mai-
ores do que as varincias dos valores ajustados correspondentes aos demais
pontos. Finalmente, na Figura 1.4d, perturbamos novamente o ponto #5
fazendo-o agora influente e tambm alavanca. O mesmo, alm de mudar a
estimativa da inclinao da reta ajustada, continua mais afastado do que os
demais.
As possveis situaes discutidas acima, quando detectadas num ajuste
de regresso, devem ser examinadas cuidadosamente antes de qualquer deci-
so. Encontrarmos razes que expliquem o fato dos pontos terem um com-
portamento atpico com relao aos demais pontos podem ajudar-nos a en-
tendermos melhor a relao entre as variveis explicativas e o fenmeno sob
investigao como tambm a traarmos uma estratgia de utilizao do mo-
delo ajustado, que no necessariamente implica na eliminao de tais pontos
que deve ser o ltimo recurso a ser utilizado. Mudanas na distribuio pos-
tulada para a varivel resposta, incluso, eliminao ou mesmo transforma-
o de variveis explicativas ou uso de mtodos robustos (vide, por exemplo,
Venables e Ripley, 1999, Cap.8) podem atenuar a influncia de observaes.
1.9.7 Influncia local

Um dos mtodos mais modernos de diagnstico foi proposto por Cook (1986).
A ideia bsica consiste em estudar o comportamento de alguma medida parti-
56
cular de influncia segundo pequenas perturbaes (influncia local) nos

dados ou no modelo. Isto , verificar a existncia de pontos que sob modifica-
es modestas no modelo causam variaes desproporcionais nos resultados.
Podemos, por exemplo, querer avaliar a influncia que pequenas mu-
danas nas varincias das observaes causam nas estimativas dos parme-
tros. Nesse caso, podemos utilizar a distncia de Cook como medida de
referncia. Por outro lado, se o interesse estudarmos a influncia local das
observaes no ajuste, a sugesto de Cook perturbarmos as covariveis ou a
varivel resposta e utilizarmos alguma medida adequada para quantificarmos
a influncia das observaes. Como ilustrao, vamos supor que uma varivel
explicativa que representa uma distncia particular perturbada localmente
e detectamos atravs de uma medida de influncia que pontos com distn-
cias altas produzem variaes acentuadas na medida adotada. Isso sugere
que a varivel explicativa sob estudo bastante sensvel para valores altos,
podendo no ser uma boa preditora nesses casos.
Mais de 400 artigos foram publicados no assunto nos ltimos 20 anos.
Por exemplo, na classe de erros normais, Lawrence (1988) investiga a aplica-
o de influncia local em modelos lineares com parmetros na transformao
da resposta, Beckman, Nachtsheim e Cook (1987) apresentam estudos de in-
fluncia em modelos de anlise de varincia com efeito misto, Tsai e Wu
(1992) investigam influncia local em modelos autoregressivos de 1a. ordem
e modelos heteroscedsticos e Paula (1993) aplica influncia local em modelos
lineares com restries nos parmetros na forma de desigualdades lineares.
Saindo da classe de erros normais temos, por exemplo, o trabalho de Pettitt
e Bin Daud (1989) que investigam influncia local em modelos de Cox com
riscos proporcionais, Escobar e Meeker (1992) adaptam influncia local numa
classe paramtrica de modelos para anlise de sobrevivncia, OHara Hines,
57
Lawless e Carter (1992), Kim (1995) e Pan, Fang e von Rosen (1997) aplicam
mtodos de influncia local em regresso multivariada. Mais recentemente,
Galea, Paula e Bolfarine (1997), Liu (2000), Galea, Paula e Uribe-Opazo
(2003), Osorio, Paula e Galea (2007) e Russo, Paula e Aoki (2009) apresen-
tam estudos de influncia local em modelos de contornos elpticos, enquanto
Kwan e Fung (1998) aplicam a metodologia em anlise fatorial, Gu e Fung
(1998) em anlise de correlao cannica, Paula (1996) em modelos prprios
de disperso e Ortega, Bolfarine e Paula (2003) em modelos log-gama gene-
ralizados com dados censurados. Svetliza e Paula (2003) discutem influncia
local em modelos com resposta binomial negativa. Esses ltimos modelos
tm sido muito usados para corrigir problemas de sobredisperso, frequen-
temente encontrados em modelos com resposta de Poisson. Galea, Leiva e
Paula (2004), Leiva et al. (2007) e Barros, Paula e Leiva (2008) aplicam a
metodologia de influncia local em modelos Birnbaum-Saunders comumente
utilizados em confiabilidade e anlise de dados de sobrevivncia. Uma discus-
so interessante a respeito do uso de influncia local apresentada por Fung
e Kwan (1997). Os autores mostram que o afastamento pela verossimilhana
uma medida de influncia invariante com mudanas de escala nos dados,
fato que no ocorre com outras medidas de influncia propostas.
Curvatura normal
Para formalizar o mtodo de influncia local vamos denotar por L() o lo-
garitmo da funo de verossimilhana do modelo postulado e um vetor
r-dimensional. No caso de MLGs podemos ter = ( T , )T e r = p + 1
ou simplesmente = quando for conhecido. Seja um vetor q 1
de perturbaes, restritas a um conjunto aberto IRq . Em geral temos
q = n. As perturbaes so feitas no logaritmo da verossimilhana de modo
58
que o mesmo assume a forma L(|). Denotando o vetor de no perturbao

por 0 , assumimos que L(| 0 ) = L(). A fim de verificarmos a influncia
das perturbaes na estimativa de mxima verossimilhana , consideramos
o afastamento pela verossimilhana
LD() = 2{L() L( )},
em que denota a estimativa de mxima verossimilhana sob o modelo

L(|). Com a definio acima temos que LD() 0.
A ideia de influncia local consiste basicamente em estudarmos o com-
portamento da funo LD() em torno de 0 . O procedimento procura seleci-
onar uma direo unitria , k k= 1, e ento estudar o grfico de LD( 0 +a)
contra a, em que a IR. Esse grfico conhecido como linha projetada. Em
particular, temos que LD( 0 ) = 0, assim LD( 0 + a) tem um mnimo local
em a = 0. Cada linha projetada pode ser caracterizada por uma curvatura
normal C () em torno de a = 0. Essa curvatura interpretada como sendo
o inverso do raio do melhor crculo ajustado em a = 0. Uma sugesto
considerarmos a direo max que corresponde maior curvatura denotada
por Cmax . Por exemplo, o grfico de max contra a ordem das observaes
pode revelar quais observaes que sob pequenas perturbaes exercem uma
influncia desproporcional em LD(). Cook(1986) usa conceitos de geome-
tria diferencial para mostrar que a curvatura normal na direo assume a
forma
C () = 2|T T L1

|,
em que L a matriz de informao observada de Fisher enquanto

uma matriz r q com elementos ij = 2 L(|)/i j , avaliados em =
e = 0 , i = 1, . . . , r e j = 1, . . . , q.
Temos que o mximo de T B, em que B = T (L )1 , corres-
ponde ao maior autovalor (em valor absoluto) de B. Portanto, Cmax corres-
59
ponde ao maior autovalor da matriz B e max denota o autovetor correspon-

dente.
Assim, o grfico de |max | contra a ordem das observaes pode revelar
aqueles pontos com maior influncia na vizinhana de LD(0 ). Tais pontos
podem ser responsveis por mudanas substanciais nas estimativas dos par-
metros sob pequenas perturbaes no modelo ou nos dados. Seria, portanto,
prudente olharmos com mais cuidado esses pontos a fim de entendermos
melhor a influncia dos mesmos e consequentemente tentarmos propor uma
forma segura de usarmos o modelo ajustado. Quando Cmax no for muito
maior do que o segundo autovalor, pode ser informativo olharmos tambm
os componentes do segundo autovetor. provvel, nesse caso, que o segundo
autovetor destaque algum tipo de influncia particular das observaes nas
estimativas. O maior autovalor da matriz B pode ser obtido pelo comando
abaixo
Cmax = eigen(B)$val[1].
De forma similar, o autovetor correspondente padronizado e em valor abso-
luto obtido com os comandos
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Grficos alternativos, tais como de Ci contra a ordem das observaes, em
que i denota um vetor n 1 de zeros com um na i-sima posio tm sido
sugeridos (ver, por exemplo, Lesaffre e Verbeke, 1998; Zhou e Zhang, 2004).
P
Nesse caso devemos padronizar Ci = Ci / nj=1 Cj . Uma sugesto olharmos
P
com mais ateno aqueles pontos tais que Ci > 2C, em que C = nj=1 Cj /n.
Por outro lado, se o interesse est num subvetor 1 de = ( T1 , T2 )T , ento a
curvatura normal na direo fica dada por C ( 1 ) = 2|T T (L1

B1 )|,
60
sendo !
0 0
B1 = 1 ,
0 L
2 2
com L2 2 denotando a informao de Fisher observada para 2 . O grfico

do maior autovetor de T (L1

B1 ) contra a ordem das observaes
pode revelar os pontos com maior influncia local em 1 . Outras formas de
extrao de grficos so propostas por Poon e Poon (1999).
Ponderao de casos
Para ilustrar uma aplicao particular consideramos o modelo normal linear
com 2 conhecido e esquema de perturbao ponderao de casos, em que
n
1 X
L(|) = 2 i (yi xTi )2
2 i=1
com 0 i 1. A matriz nesse caso fica dada por XT D(r)/ 2 em que

D(r) = diag{r1 , . . . , rn } com ri = yi yi . Logo, desde que L = 2 (XT X)
a curvatura normal na direo unitria fica dada por
2 T
C () = | D(r)HD(r)|,
2
com H = X(XT X)1 XT . Portanto, max o autovetor correspondente ao
maior autovalor (em valor absoluto) da matriz B = D(r)HD(r). Se tomar-
mos a direo i correspondente i-sima observao, a curvatura normal
2
assume a forma simplificada Ci = h r2 .
2 ii i
Os grficos de ndices de max e
Ci podem revelar aquelas observaes mais sensveis ao esquema de pertur-
bao adotado.
Clculos similares para 2 desconhecido levam ao seguinte = (T1 , T2 )T
em que 1 = XT D(r)/ 2 e 2 = r(2)T /2 4 com r(2)T = (r12 , . . . , rn2 ) e
61
L = diag{XT X/ 2 , n/2 4 }. Logo, a curvatura normal na direo uni-

tria fica dada por
2 T
C () = | {D(r)HD(r) + r(2) r(2)T /2n 2 }|.
2
Quando o interesse verificarmos a influncia local das observaes na
estimativa de um coeficiente particular 1 devemos considerar a curvatura
normal C (1 ) = 2|T B|, em que
B = D(r)X{(XT X)1 B1 }XT D(r)
sendo B1 = diag{0, (XT2 X2 )1 } com X2 saindo da partio X = (X1 , X2 ).

Aqui X1 um vetor n 1 correspondente varivel explicativa sob estudo e
X2 uma matriz n (p 1) correspondente s demais variveis explicativas.
Cook (1986) mostra que max , nesse caso, assume a forma
!
vr v r
Tmax = p 1 1 ,..., pn n ,
Cmax Cmax
em que v1 , . . . , vn so os resduos ordinrios da regresso linear de X1 sobre as
colunas de X2 , ou seja, o vetor v = (v1 , . . . , vn )T dado por v = (In H2 )X1 ,
H2 = X2 (XT2 X2 )1 XT2 . Aqui, a matriz B tem posto m = 1. Logo, h
apenas um autovalor diferente de zero. Nesse caso, podemos tanto utilizar o
procedimento descrito acima para calcularmos max como obt-lo diretamente
sem precisar calcularmos a matriz H2 . Como ilustrao, vamos supor que os
resultados do ajuste esto armazenados em fit.model. Para extrairmos o
vetor r precisamos fazer
r = resid(fit.model).
Se o modelo tem as covariveis cov1 e cov2 alm dos fatores A e B, o vetor
max correspondente, por exemplo covarivel cov1, sai de
fit = lm( cov1 A + B + cov2 - 1)
62
v = resid(fit)
lmax = v*r
tot = t(lmax)%*%lmax
lmax = lmax/sqrt(tot)
lmax = abs(lmax).
1.9.8 Grfico da varivel adicionada

Vamos supor novamente o modelo de regresso dado em (1.12), em que
agora uma varivel adicional qualquer. Definindo Z = (X, ), podemos
mostrar facilmente que a estimativa de mnimos quadrados de = ( T , )T
dada por = (ZT Z)1 ZT y. Em particular obtemos, aps alguma lgebra,
que
T (In H)y T r
= = .
T (In H) T (In H)
Isto , o coeficiente da regresso linear passando pela origem do vetor de
resduos r = (In H)y sobre o novo resduo = (In H), dado por
= ( T v)1 T r
= { T (In H)(In H)}1 T (In H)(In H)y
T (In H)y
= .
T (In H)
Portanto, um grfico de r contra pode fornecer informaes sobre a evidn-
cia dessa regresso, indicando quais observaes que esto contribuindo para
a relao e quais observaes que esto se desviando da mesma. Esse grfico,
conhecido como grfico da varivel adicionada, pode revelar quais pontos que
esto influenciando (e de que maneira) a incluso da nova varivel no modelo.
Para ilustrarmos a construo do grfico da varivel adicionada, vamos
supor novamente o modelo com duas covariveis e dois fatores. O grfico da
63
varivel adicionada para avaliarmos a influncia das observaes no coefici-

ente de cov1, pode ser construdo com os comandos
fit = lm( resp cov2 + A + B)
r = resid(fit)
fit1 = lm( cov1 cov2 + A + B)
v = resid(fit1)
plot(v,r, xlab= residuo v, ylab= residuo r).
1.9.9 Tcnicas grficas

Geralmente para detectarmos pontos suspeitos de serem aberrantes e/ou in-
fluentes recorremos aos seguintes grficos: (i) pontos aberrantes, o grfico
de ti contra a ordem das observaes; (ii) heteroscedasticidade, o grfico de
ti contra yi (valores ajustados); (iii) pontos influentes, grficos de Di , Ci ,
DFFITSi , hii ou |max | contra a ordem das observaes; (iv) falta de algum
termo extra, grfico de ti contra yi ou contra as covariveis que esto ou no
foram includas no modelo, (v) correlao entre as observaes, grfico de ti
contra o tempo ou contra a ordem em que h suspeita de correlao, e (vi)
afastamentos da normalidade, grfico normal de probabilidades. Esse ltimo
o grfico de t(i) contra os valores esperados das estatsticas de ordem da

normal padro, Z(i) s. Temos que

i 3/8
E(Z(i) )
= 1
,
n + 1/4
em que () a funo de distribuio acumulada da N(0, 1). H tambm o
grfico meio-normal de probabilidades, definido como sendo o grfico de |t(i) |
contra os valores esperados de |Z(i) |. Temos a aproximao

1 n + i + 1/2
E(|Z(i) |) = .
2n + 9/8
64
Em particular, o grfico de Ai contra E(|Z(i) |) pode ser indicado para detec-

tarmos simultaneamente pontos aberrantes e/ou influentes. O grfico normal
de probabilidades com a reta ajustada pode ser construdo com os comandos
dados abaixo
qqnorm(tsi , ylab= Residuo Studentizado)
qqline(tsi).
O comando qqline() traa uma reta unindo os pontos formados pelo pri-
meiro e terceiro quartis dos resduos e da distribuio normal padro. Devido
dificuldade de avaliarmos se o grfico normal de probabilidades se afasta
efetivamente da reta ajustada, a construo de um tipo de banda de con-
fiana para os resduos pode ser muito til para detectarmos afastamentos
srios da normalidade. Esse grfico pode tambm ser informativo sobre a
existncia de pontos discrepantes ou mesmo sobre a falta de homogeneidade
de varincias. Todavia, como a distribuio conjunta dos resduos t(i) s bas-
tante complicada e o uso simples das varincias dos ti s para a construo
de tais bandas pode introduzir algum vis no clculo do coeficiente de confi-
ana, Atkinson (1985) sugere a construo de um tipo de banda de confiana
atravs de simulaes, a qual denominou envelope. O procedimento con-
siste basicamente em gerarmos resduos que tenham mdia zero e matriz de
varincia-covarincia (In H). Descrevemos o mtodo nos passos seguintes:
1. Geramos n observaes N(0, 1) as quais so armazenadas em y = (y1 , . . . , yn )T ;
2. Ajustamos y contra X e obtemos ri = yi yi , i = 1, . . . , n. Temos que

E(ri ) = 0, Var(ri ) = 1 hii e Cov(ri , rj ) = hij ;
3. Obtemos ti = ri /{1 hii }1/2 , i = 1, . . . , n;
4. Repetimos os passos (1)-(3) m vezes. Logo, teremos os resduos gerados

tij , i = 1, . . . , n e j = 1, . . . , m.
65
1.10 Tcnicas de diagnstico: Extenso para os MLGs
5. Colocamos cada grupo de n resduos em ordem crescente, obtendo t(i)j ,

i = 1, . . . , n e j = 1, . . . , m;
6. Obtemos os limites t(i)I = minj t(i)j e t(i)S = maxj t(i)j . Assim, os limites
correspondentes ao i-simo resduo sero dados por t(i)I e t(i)S .
A sugesto de Atkinson (1985) gerar m = 19 vezes. Desse modo, a

probabilidade do maior resduo de um envelope particular exceder o limite
superior fica sendo
= 1/20. Adaptamos um programa descrito em Everitt
(1994) para gerao dos envelopes de um modelo de regresso normal linear
considerando m = 100. Para rodarmos o programa preciso apenas colocar-
mos o modelo ajustado em fit.model. Da, devemos fazer
source(envel_norm)
em que envel_norm o nome do arquivo externo onde deve estar o programa
para gerao dos envelopes (ver Apndice B).
1.10.1 Pontos de alavanca

Como j foi mencionado na Seo 1.9.2 a ideia principal que est por trs
do conceito de ponto de alavanca (ver, por exemplo, Hoaglin e Welsch, 1978;
Cook e Weisberg, 1982; Emerson, Hoaglin e Kempthorne, 1984; St. Laurent
e Cook, 1992 e Wei, Hu e Fung, 1998) de avaliarmos a influncia de yi
sobre o prprio valor ajustado yi . Essa influncia pode ser bem representada
pela derivada yi /yi que coincide, como foi visto na Seo 1.9.2, com hii no
caso normal linear. Wei, Hu e Fung (1998) propuseram uma forma bastante
geral para obteno da matrix ( y/yT )nn quando a resposta contnua e
que pode ser aplicada em diversas situaes de estimao. No caso de MLGs
66
para conhecido a matriz y/yT pode ser obtida da forma geral
c = y = {D (L )1 Ly }| ,
GL
yT
em que D = /, L = 2 L()/ T e Ly = 2 L()/yT . Te-

mos que
D = NX e Ly = XT V1 N,
em que N = diag{d1 /d1 , . . . , dn /dn }. Se substituirmos L pelo seu

valor esperado (XT WX), obtemos aproximadamente
c = NX(XT WX)1 XT V1 N.
GL
c ii pode ser expresso na forma

Assim, o elemento GL
c ii = i xTi (XT WX)1 xi ,

GL
em que i = (di /di )2 /Vi . Em particular, para ligao cannica em que

L = (XT VX) obtemos exatamente GL c = VX(XT VX)1 XT .
Outra definio de pontos de alavanca que tem sido muito utilizada na
classe dos MLGs, embora no coincida exatamente com a expresso acima,
exceto no caso de resposta contnua e ligao cannica, construda fazendo
uma analogia entre a soluo de mxima verossimilhana para num MLG
e a soluo de mnimos quadrados de uma regresso normal linear ponde-
rada. Considerando a expresso para obtida na convergncia do processo
iterativo dado em (1.5), temos que
= (XT WX)1 XT Wz,
com z = + W1/2 V1/2 (y ). Portanto, pode ser interpretado como

sendo a soluo de mnimos quadrados da regresso linear de W1/2 z contra as
67
colunas de W1/2 X. A matriz de projeo da soluo de mnimos quadrados

da regresso linear de z contra X com pesos W fica dada por
H = W1/2 X(XT WX)1 XT W1/2 ,
que sugere a utilizao dos elementos hii da diagonal principal de H para

detectarmos a presena de pontos de alavanca nesse modelo de regresso
normal linear ponderada. Essa extenso para MLGs foi proposta por Pre-
c ii , ou seja, para
gibon (1981). Podemos verificar facilmente que hii = GL
c e H coincidem. No caso de ligao cannica essa igual-
grandes amostras GL
dade vale para qualquer tamanho amostral. Como em geral hii depende de
ii sugerimos para detectar pontos de alavanca o grfico de hii contra os
valores ajustados.
Moolgavkar, Lustbader e Venzon (1984) estendem a proposta de Pre-
gibon para modelos no lineares e sugerem o uso dos elementos da diagonal
principal da matriz de projeo no plano tangente soluo de mxima ve-
rossimilhana () para detectar pontos de alavanca. Hosmer e Lemeshow
(1989) mostram, contudo, que o uso da diagonal principal da matriz de pro-
jeo H deve ser feito com algum cuidado em regresso logstica e que as
interpretaes so diferentes daquelas do caso normal linear.
1.10.2 Resduos
A definio de um resduo studentizado para os MLGs pode ser feita analoga-
mente regresso normal linear como veremos a seguir. Todavia, no neces-
sariamente as propriedades continuam valendo. Assim, torna-se importante
a definio de outros tipos de resduo cujas propriedades sejam conhecidas
ou pelo menos estejam mais prximas das propriedades de ti .
Uma primeira proposta seria considerarmos o resduo ordinrio da so-
luo de mnimos quadrados da regresso linear ponderada de z contra X,
68
que definido por
r = W1/2 [z ] = V1/2 (y ).
Se assumirmos que Var(z)

= W1 1 , temos aproximadamente Var[r ]
=
1 (In H). Logo, podemos definir o resduo padronizado
1/2 (yi i )
tSi = q ,
Vi (1 hii )
em que hii o i-simo elemento da diagonal principal da matriz H. Fica

fcil mostrarmos que r = (In H)W1/2 z, isto , H desempenha o papel de
matriz de projeo ortogonal local, como na regresso normal linear em que
W identidade.
No entanto, na prtica, no fixo nem conhecido, bem como z no
segue distribuio normal. Uma implicao desse fato que as propriedades
de ti no so mais verificadas para tSi . Williams (1984) mostra atravs de
estudos de Monte Carlo que a distribuio de tSi em geral assimtrica,
mesmo para grandes amostras.
Outros resduos cujas distribuies poderiam estar mais prximas da
normalidade tm sido sugeridos para os MLGs. Por exemplo, o resduo de
Anscombe
1/2 {(yi ) (i )}
tAi = ,
V 1/2 (i ) (i )
em que () uma transformao utilizada para normalizar a distribuio de
Y . Para os MLGs essa transformao definida por
Z
() = V 1/3 (t)dt.
0
Em particular, para os principais MLGs o resduo de Ascombe descrito na

tabela dada abaixo.
69
Distribuio
Normal R Binomial Poisson Gama N. Inversa
1/3 1/3 3 2/3
() 0
t (1 t) dt 2
31/3 log
Contudo, os resduos mais utilizados em modelos lineares generalizados
so definidos a partir dos componentes da funo desvio. A verso padroni-
zada (ver McCullagh, 1987; Davison e Gigli, 1989) a seguinte:
d (yi ; i ) 1/2 d(yi ; i )
t Di = p = p ,
1 hii 1 hii

em que d(yi ; i ) = 2{yi (i i ) + (b(i ) b(i ))}1/2 . O sinal de d(yi ; i )
o mesmo de yi i . Williams (1984) verificou atravs de simulaes que
a distribuio de tDi tende a estar mais prxima da normalidade do que as
distribuies dos demais resduos. McCullagh (1987, p. 214) mostra para os
MLGs que a distribuio de probabilidades de
d (Yi ; i ) + 3i /6
p
1 + (1423i 94i )/36
aproximadamente N(0, 1), em que 3i e 4i so os coeficientes de assime-
tria e curtose de L(i )/i , respectivamente, e d (Yi ; i ) o i-simo com-
ponente do desvio D (y; ) avaliado no parmetro verdadeiro. Podemos
mostrar usando resultados de Cox e Snell (1968) que E{d (Yi ; i )} = 0 e
Var{d (Yi ; i )} = 1 hii , em que os termos negligenciados so de O(n1 ).
p
Esses resultados reforam o uso da padronizao 1 hii para d (yi ; i ).
Um quarto resduo foi definido por Williams (1987) e pode ser inter-
pretado como uma mdia ponderada entre tSi e tDi ,
tGi = sinal(yi i ){(1 hii )t2Di + hii t2Si }1/2 .
Williams (1987) verificou tambm atravs de simulaes e para alguns MLGs

que tGi tem esperana ligeiramente diferente de zero, varincia excedendo um,
assimetria desprezvel e alguma curtose.
70
O R solta os resduos di = d(yi ; i ) e rPi sem o termo 1/2 . Precisamos,

portanto, para padroniz-los, calcular os correspondentes hii s bem como ex-
trair nos casos em que 6= 1. Inicialmente, ilustramos como calcular hii .
Vamos supor um modelo com duas covariveis e dois fatores e que os resul-
tados do ajuste so armazenados em fit.model. A matriz X obtida com
um dos comandos abaixo
X = model.matrix( cov1 + cov2 + A + B)
X = model.matrix(fit.model).
Em V podemos armazenar a matriz V. Os elementos da diagonal principal
de V devem ser obtidos dos valores ajustados do modelo, os quais por sua
vez so extrados atravs do comando fitted(fit.model). Como exemplo,
a matriz com as funes de varincia estimadas seria obtida para um modelo
de Poisson da forma seguinte:
V = fitted(fit.model)
V = diag(V).
Em particular, a matriz W tambm depende dos valores ajustados, no en-
tanto, como a matriz de pesos, podemos obt-la diretamente fazendo
w = fit.model$weights
W = diag(w).
Assim, uma vez obtida a matriz W podemos obter os elementos hii
com os comandos
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H).
Armazenando em fit a estimativa (o R solta 1 ), os componentes do
desvio e os resduos studentizados so obtidos da seguinte maneira:
rd = resid(fit.model, type= deviance)
71
td = rd*sqrt(fi/(1-h))
rp = resid(fit.model, type= pearson)
rp = sqrt(fi)*rp
ts = rp/sqrt(1 - h).
Lembrando que para ligaes cannicas W e V coincidem.
1.10.3 Influncia
Supondo conhecido, o afastamento pela verossimilhana quando elimina-
mos a i-sima observao denotado por
LDi = 2{L() L( (i) )},
sendo portanto uma medida que verifica a influncia da retirada da i-sima

observao em . No sendo possvel obtermos uma forma analtica para
LDi , usual utilizarmos a segunda aproximao por srie de Taylor em torno
de . Essa expanso leva ao seguinte resultado:
LDi
= ( )T {L ()}( ).
Substituindo L () pelo correspondente valor esperado e por (i) , ob-

temos
LDi
= ( (i) )T (XT WX)( (i) ). (1.17)
Assim, teremos uma boa aproximao para LDi quando L() for aproxima-
damente quadrtica em torno de .
Como em geral no possvel obtermos uma forma fechada para (i) ,
a aproximao de um passo tem sido utilizada (ver, por exemplo, Cook e
Weisberg, 1982), que consiste em tomarmos a primeira iterao do processo
iterativo pelo mtodo escore de Fisher quando o mesmo iniciado em .
72
Essa aproximao, introduzida por Pregibon (1981), dada por

1
(i) = + {L ()}1 L(i) (),
em que L(i) () o logaritmo da funo de verossimilhana sem a i-sima

observao. Substituindo novamente L () por K() obtemos
p
1 rPi i 1 T
(i) = (X WX)1 xi (1.18)
(1 hii )
e, finalmente, substituindo a expresso acima em (1.17) temos que
( )
h
LDi
ii
= t2Si .
(1 hii )
A distncia de Cook aproximada fica facilmente obtida com o comando
LD = h*(ts 2)/(1 - h).
A validade da aproximao de um passo tem sido investigada por al-
guns pesquisadores. A constatao que a mesma em geral subestima o
verdadeiro valor de LDi , no entanto suficiente para chamar a ateno dos
pontos influentes.
1.10.4 Influncia local

A metodologia de influncia local pode ser facilmente estendida para a classe
de MLGs. Em particular, se considerarmos conhecido e perturbao de
Pn
casos em que L(|) = i=1 i Li () com 0 i 1, ento a matriz
assume a forma
p T 1/2
= X W D(rP ),
p
em que D(rP ) = diag{rP1 , . . . , rPn } e rPi = (yi i )/ Vi o i-simo
resduo de Pearson estimado. Assim, se substituirmos L por (XT WX)
temos que a curvatura normal na direo unitria assume a forma
C () = 2|T D(rP )HD(rP )|.
73
Se o interesse calcularmos a curvatura normal na direo i da i-sima

observao, ento podemos avaliar o grfico de ndices de Ci = 2hii rP2 i .
Em particular, o vetor max para avaliarmos a influncia local das ob-
servaes nas estimativas dos parmetros o autovetor correspondente ao
maior autovalor da seguinte matriz n n:
B = D(rP )HD(rP ).
Para obtermos max , a maneira mais simples construirmos a matriz B e

extrairmos o seu autovetor correspondente ao maior autovalor. Os comandos
so os seguintes:
B = diag(rp)%*% H %*% diag(rp)
Cmax = eigen(B)$val[1]
lmax = eigen(B)$vec[,1]
lmax = abs(lmax).
Por outro lado, se temos interesse em detectar observaes influentes na
estimativa de um coeficiente particular, associado por exemplo varivel
explicativa X1 , o vetor max fica dado por
!
v r v r
Tmax = p1 P1 , . . . , pn Pn ,
Cmax Cmax
em que v1 , . . . , vn so agora obtidos da regresso linear de X1 contra as

colunas de X2 com matriz de pesos V, isto v = V1/2 X1 V1/2 X2 (XT2
VX2 )1 XT2 VX1 .
Para ligao no cannica os resultados continuam valendo desde que
a matriz observada de Fisher seja substituda pela matriz de informao de
Fisher.
74
1.10.5 Grfico da varivel adicionada

Apresentamos a seguir a verso do grfico da varivel adicionada para os
MLGs. Vamos supor um MLG com p parmetros, 1 , . . . , p , conhecido, e
que um parmetro adicional est sendo includo no modelo. O interesse
testarmos H0 : = 0 contra H1 : 6= 0.
Seja (, ) o preditor linear com p + 1 parmetros, isto
(, ) = XT + Z.
A funo escore para dada por

L(, )
U = = 1/2 ZT W1/2 rP ,

em que Z = (z1 , . . . , zn )T . De resultados anteriores temos que
Var() = 1 [ZT W1/2 MW1/2 Z]1 ,
em que M = In H. Logo, Var() = 1 (RT WR)1 com R = Z XC e

C = (XT WX)1 XT WZ.
Portanto, a estatstica de escore para testarmos H0 : = 0 contra
H1 : 6= 0 fica dada por
SR = (rTP W1/2 Z)2 /(ZT W1/2 MW1/2 Z),
em que W, rP e M so avaliados em (sob H0 ). Sob H0 , SR 21 quando

n .
Wang (1985) mostra que a estatstica de escore acima coincide com
a estatstica F de uma regresso linear ponderada para testar a incluso da
varivel Z no modelo. Nessa regresso linear, o grfico da varivel adicionada
formado pelos resduos rP e = 1/2 (In H)W1/2 Z. O resduo pode
75
ser obtido facilmente aps a regresso linear ponderada (com pesos W) de

Z contra X. Temos que = ( T )1 T r.
Logo, o grfico de rP contra pode revelar quais observaes esto
contribuindo mais na significncia de . A principal dificuldade para cons-
truirmos o grfico da varivel adicionada em MLGs a obteno do resduo
, uma vez que o resduo rP obtido facilmente como j vimos anterior-
mente. Para ilustrarmos o clculo de num modelo particular, vamos supor
que temos duas covariveis e dois fatores e que o interesse construirmos o
grfico da varivel adicionada correspondente covarivel cov1. Precisamos
inicialmente ajustar o modelo com os dois fatores e a outra covarivel e calcu-
lar a matriz W cujos valores sero armazenados em W. Lembrando que W
a matriz estimada de pesos. Supondo, por exemplo, que temos um modelo
de Poisson com ligao cannica, os passos para construirmos o grfico so
os seguintes:
fit.poisson = glm( resp cov2 + A + B, family=poisson)
w = fit.poisson$weights
W = diag(w)
rp = resid(fit.poisson, type =pearson)
X = model.matrix(fit.poisson)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
v = sqrt(W)%*%cov1 - H%*%sqrt(W)%*%cov1
plot(v, rp, xlab=Residuo v, ylab=Residuo rp).
1.10.6 Tcnicas grficas

As tcnicas grficas mais recomendadas para os MLGs so as seguintes: (i)
grficos de tDi contra a ordem das observaes, contra os valores ajustados e
76
1.11 Seleo de modelos
contra as variveis explicativas, ou contra o tempo ou alguma ordem em que

h suspeita de correlao entre as observaes; (ii) grfico normal de proba-
bilidades para tDi com envelope, (iii) grfico de zi contra i para verificarmos
a adequao da funo de ligao (uma tendncia linear indica adequao da
ligao) e (iv) grficos de LDi , Ci ou |max | contra a ordem das observaes.
Os envelopes, no caso de MLGs com distribuies diferentes da normal, so
construdos com os resduos sendo gerados a partir do modelo ajustado (ver,
por exemplo, Williams, 1987). No Apndice B so relacionados programas
para gerar envelopes em alguns MLGs.
1.11.1 Modelo normal linear

Existem vrios procedimentos para a seleo de modelos de regresso, em-
bora nenhum deles seja consistente, ou seja, mesmo para amostras grandes
selecione com probabilidade um as variveis explicativas com coeficiente de
regresso no nulo. Os procedimentos mais conhecidos so maior R2p , me-
nor s2p , Cp , forward, backward, stepwise e AIC (ver, por exemplo, Neter et
al., 1996, Cap. 8), alm de outros mtodos que usam computao intensiva.
Alguns desses mtodos sero descritos brevemente a seguir.
Mtodo forward
Iniciamos o mtodo pelo modelo = . Ajustamos ento para cada varivel
explicativa o modelo
= + j xj , (j = 1, . . . , q).
Testamos H0 : j = 0 contra H1 : j 6= 0. Seja P o menor nvel descritivo

dentre os q testes. Se P PE , a varivel correspondente entra no modelo.
77
Vamos supor que X1 tenho sido escolhida. Ento, no passo seguinte ajusta-
mos os modelos
= + 1 x1 + j xj , (j = 2, . . . , q).
Testamos H0 : j = 0 contra H1 : j 6= 0. Seja P o menor nvel descritivo

dentre os (q 1) testes. Se P PE , a varivel correspondente entra no
modelo. Repetimos o procedimento at que ocorra P > PE .
Mtodo backward
Iniciamos o procedimento pelo modelo
= + 1 x1 + + q xq .
Testamos H0 : j = 0 contra H1 : j 6= 0 para j = 1, . . . , q. Seja P o maior

nvel descritivo dentre os q testes. Se P > PS , a varivel correspondente sai
do modelo. Vamos supor que X1 tenho sado do modelo. Ento, ajustamos
o modelo
= + 2 x2 + + q xq .
Testamos H0 : j = 0 contra H1 : j 6= 0 para j = 2, . . . , q. Seja P o

maior nvel descritivo dentre os (q 1) testes. Se P > PS , ento a varivel
correspondente sai do modelo. Repetimos o procedimento at que ocorra
P PS .
Mtodo stepwise
uma mistura dos dois procedimentos anteriores. Iniciamos o processo com
o modelo = . Aps duas variveis terem sido includas no modelo, ve-
rificamos se a primeira no sai do modelo. O processo continua at que
nenhuma varivel seja includa ou seja retirada do modelo. Geralmente ado-
tamos 0, 15 PE , PS 0, 25. Uma sugesto seria usar PE = PS = 0, 20.
78
Mtodo de Akaike
O mtodo proposto por Akaike (1974) basicamente se diferencia dos procedi-
mentos anteriores por ser um processo de minimizao que no envolve testes
estatsticos. A ideia bsica selecionarmos um modelo que seja parcimonioso,
ou em outras palavras, que esteja bem ajustado e tenha um nmero reduzido
de parmetros. Como o logaritmo da funo de verossimilhana L() cresce
com o aumento do nmero de parmetros do modelo, uma proposta razovel
seria encontrarmos o modelo com menor valor para a funo
AIC = L() + p,
em que p denota o nmero de parmetros. No caso do modelo normal linear

podemos mostrar que AIC fica expresso, quando 2 desconhecido, na forma
AIC = nlog{D(y; )/n} + 2p,

Pn
em que D(y; ) = i=1 (yi i )2 .
1.11.2 Extenso para os MLGs

Os mtodos de seleo de modelos descritos na seo anterior podem ser
estendidos diretamente para os MLGs. Algumas observaes, contudo, so
necessrias. Nos casos de regresso logstica e de Poisson o teste da razo
de verossimilhanas, pelo fato de ser obtido pela diferena de duas funes
desvio, aparece como o mais indicado. Para os casos de regresso normal,
normal inversa e gama o teste F, por no exigir a estimativa de mxima
verossimilana do parmetro de disperso, o mais indicado. Isso no impede
que outros testes sejam utilizados. J o mtodo de Akaike pode ser expresso
numa forma mais simples em funo do desvio do modelo. Nesse caso, o
critrio consiste em encontrarmos o modelo tal que a quantidade abaixo seja
79
1.12 Aplicaes
minimizada
AIC = D (y; ) + 2p,
em que D (y; ) denota o desvio do modelo e p o nmero de parme-

tros. Os mtodos stepwise e de Akaike esto disponveis no R. O mtodo
stepwise est disponvel apenas para modelos normais lineares. O comando
stepwise definido por stepwise(Xvar, resposta), em que Xvar denota
a matriz com os valores das variveis explicativas e resposta denota o ve-
tor com as respostas. Para rodarmos o critrio de Akaike precisamos usar
antes o comando require(MASS). Uma maneira de aplicarmos o critrio de
Akaike partindo do maior modelo cujos resultados so guardados no objeto
fit.model. Da, ento, devemos usar o comando stepAIC(fit.model).
1.12 Aplicaes
1.12.1 Estudo entre renda e escolaridade

O conjunto de dados descrito na Tabela 1.6, extrado do censo do IBGE de
2000, apresenta para cada unidade da federao o nmero mdio de anos de
estudo e a renda mdia mensal (em reais) do chefe ou chefes do domiclio.
Esses dados esto tambm armazenados no arquivo censo.dat. Para lermos
os dados no R e coloc-los num arquivo com o mesmo nome externo, devemos
fazer
censo.dat = scan(censo.dat, what=list(uf= ,
escolar=0, renda=0)).
Propomos inicialmente um modelo normal linear simples em que Y
denote a renda e X a escolaridade. O modelo fica portanto dado por
yi = + xi + i , i = 1, . . . , 27,
80
1.12 Aplicaes
com a suposio de que i N(0, 2 ), sendo os erros mutuamente indepen-

dentes. Estamos supondo que a amostra da Tabela 1.6 um corte transversal,
isto , as informaes sobre renda e escolaridade das unidades da federao
so referentes a um determinado instante do tempo. Nesse caso, os erros so
devidos variabilidade da renda (dada a escolaridade) nos diversos instantes
do tempo. Assumimos que a relao funcional entre yi e xi a mesma num
determinado intervalo do tempo.
Tabela 1.6
Escolaridade e renda mdia
domiciliar no Brasil em 2000.
RR 5,7 685 AP 6,0 683
AC 4,5 526 RO 4,9 662
PA 4,7 536 AM 5,5 627
TO 4,5 520 PB 3,9 423
MA 3,6 343 RN 4,5 513
SE 4,3 462 PI 3,5 383
BA 4,1 460 PE 4,6 517
AL 3,7 454 CE 4,0 448
SP 6,8 1076 RJ 7,1 970
ES 5,7 722 MG 5,4 681
SC 6,3 814 RS 6,4 800
PR 6,0 782 MT 5,4 775
GO 5,5 689 MS 5,7 731
DF 8,2 1499
As estimativas dos parmetros (erro padro) so dadas por = 381, 28

(69, 40) e = 199, 82 (13, 03), indicando que o coeficiente angular da reta
altamente significativo. Essa estimativa pode ser interpretada como o incre-
mento esperado na renda mdia domiciliar de uma unidade da federao se
o tempo de escolaridade mdio domiciliar naquela unidade for acrescido de
81
1.12 Aplicaes
0.30
DF
1400
0.20
1000
Medida h
Renda
0.10
600
200
0.0
3 4 5 6 7 8 0 5 10 15 20 25
Escolaridade Indice
(a) (b)
DF
6
DF
5
Residuo Studentizado
Distancia de Cook
4
4
3
2
2
0
1
-2
0
0 5 10 15 20 25 400 600 800 1000 1200
Indice Valor Ajustado

(c) (d)
Figura 1.5: Reta ajustada do modelo aditivo-normal e grficos de diagnstico

para o exemplo sobre renda e escolaridade.
um ano.
A estimativa de dada por s = 77, 22, enquanto que o coeficiente
de determinao foi de R2 = 0, 904. O ajuste do modelo e a exibio dos
resultados podem ser obtidos com os comandos abaixo
attach(censo.dat)
fit1.censo = lm(renda escolar)
summary(fit1.censo).
Ou, alternativamente, transformando o arquivo censo.dat num arquivo do
tipo data.frame, atravs dos comandos
censo.dat = data.frame(censo.dat)
82
1.12 Aplicaes
fit1.censo = lm(renda escolar, data=censo.dat)

0.30
DF
1400
0.20
Medida h
1000
Renda
0.10
600
200
0.0
3 4 5 6 7 8 400 600 800 1000 1400
Escolaridade Valor Ajustado

(a) (b)
MA
3
Componente do Desvio
0.4
Distancia de Cook
2
1
0
0.2
-1
-2
-3
0.0
0 5 10 15 20 25 400 600 800 1000 1400

(c) (d)
Figura 1.6: Curva ajustada do modelo multiplicativo-gama e grficos de

diagnstico para o exemplo sobre renda e escolaridade.
Pela Figura 1.5 onde so apresentados alguns grficos de diagnstico,

alm da reta ajustada aos dados, notamos uma forte discrepncia do Distrito
Federal que aparece como ponto de alavanca, influente e aberrante. Alm
disso, notamos pela Figura 1.5d indcios de heteroscedasticidade, ou seja, um
aumento da variabilidade com o aumento da escolaridade. Isso pode tambm
ser notado na Figura 1.5a. Assim, podemos propor um modelo alternativo,
83
1.12 Aplicaes
por exemplo, com efeitos multiplicativos conforme dado abaixo
i = e+xi ei , i = 1, . . . , 27,
com a suposio de que i G(1, ), sendo os erros mutuamente indepen-

dentes. Podemos ajustar esse modelo no R atravs dos comandos
fit2.censo = glm(renda escolar, family=Gamma(link=log))
Tabela 1.7
Estimativas de algumas quantidades com todos os pontos e quando
as observaes mais discrepantes so excludas do modelo gama.
Estimativa Com todos Excludo Excludo Excludos
os pontos DF MA DF e MA
4,98 (0,068) 5,00 (0,078) 5,03 (0,067) 5,06 (0,077)
0,28 (0,013) 0,27 (0,015) 0,27 (0,012) 0,26 (0,015)
192(52) 188(52) 223(62) 223(63)
Na Figura 1.6 temos o ajuste do modelo gama aos dados bem como
alguns grficos de diagnstico que destacam DF como ponto de alavanca e
MA como ponto influente.
Na Tabela 1.7 temos uma anlise confirmatria e verificamos poucas
variaes nas estimativas dos parmetros com a eliminao dessas unidades
da federao. Finalmente, na Figura 1.7 temos os grficos normais de pro-
babilidades para os modelos com efeitos aditivos (Figura 1.7a) e com efeitos
multiplicativos (Figura 1.7b) e notamos uma melhor acomodao e distri-
buio dos pontos dentro do envelope gerado no segundo caso. Pelo valor
84
1.12 Aplicaes
3
2
4
1
2
0
0
-1
-2
-2
-3
-2 -1 0 1 2 -2 -1 0 1 2
Percentil da N(0,1) Percentil da N(0,1)

(a) (b)
Figura 1.7: Grficos normais de probabilidades para os modelos ajustados

aditivo-normal (a) e multiplicativo-gama (b) aos dados sobre renda e escola-
ridade.
da estimativa do parmetro de disperso conclumos que o modelo gama

aproxima-se bem de um modelo normal heteroscedstico.
Portanto, o modelo final ajustado fica dado por
y = e4,98+0,28x .
Desse modelo podemos extrair a seguinte intrepretao: e = e0,28 = 1, 32(32%)

o aumento relativo esperado para a renda se aumentarmos em 1 ano a es-
colaridade mdia.
1.12.2 Processo infeccioso pulmonar

Utilizaremos agora os dados referentes a um estudo de caso-controle realizado
no Setor de Anatomia e Patologia do Hospital Helipolis em So Paulo, no
perodo de 1970 a 1982 (Paula e Tuder, 1986) (ver arquivo canc3.dat).
Um total de 175 pacientes com processo infecioso pulmonar atendido no
hospital no perodo acima foi classificado segundo as seguintes variveis: Y,
85
1.12 Aplicaes
tipo de tumor (1: maligno, 0: benigno); IDADE, idade em anos; SEXO (0:
masculino, 1: feminino); HL, intensidade da clula histicitos-linfcitos (1:
ausente, 2: discreta, 3: moderada, 4: intensa) e FF, intensidade da clula
fibrose-frouxa (1: ausente, 2: discreta, 3: moderada, 4: intensa). Para ler os
dados do arquivo canc3.dat e armazen-los num arquivo do R com o mesmo
nome, fazemos
canc3.dat = scan(canc3.dat, what=list(tipo=0, idade=0, sexo=0,
hl=0, ff=0)).
Devemos informar o sistema que as variveis SEXO, HL e FF so qualitativas,
isto , devemos transform-las em fatores. Os comandos so os seguintes:
attach(canc3.dat)
sexo = factor(sexo)
sexo = C(sexo,treatment)
hl = factor(hl)
hl = C(hl,treatment)
ff = factor(ff)
ff = C(ff,treatment).
O comando C(sexo,treatment), que optativo, cria uma varivel binria
que assume valor zero para o sexo masculino e valor um para o sexo feminino.
Analogamente, o comando C(hl,treatment) cria variveis binrias para os
nveis discreto, moderado e intenso do fator HL. O mesmo faz o comando
C(ff,treatment) para o fator FF. Essa maneira de transformarmos todo
fator de k nveis em k 1 variveis binrias, denominado casela de referncia,
padro em MLGs, porm pode no ser a modelagem mais conveniente em
outras situaes de interesse prtico. A casela de referncia seria, nesses dois
casos, o nvel ausente.
Vamos considerar, como exemplo, a aplicao do modelo logstico ape-
86
1.12 Aplicaes
nas com os efeitos principais
Pr{Y = 1 | } = {1 + exp()}1 ,
P4 P4
em que = 1 + 2 IDADE + 3 SEXO + i=1 4i HLi + i=1 5i FFi , com
SEXO, HLi e FFi sendo variveis binrias correspondentes aos nveis de
SEXO, HL e FF, respectivamente. Assumimos que 41 = 51 = 0. Uma
observao importante que devido ao fato da amostragem ter sido retros-
pectiva, o uso do modelo acima para fazermos previses somente vlido se
corrigirmos a estimativa da constante, 1 (ver, por exemplo, McCullagh e
Nelder, 1989, p. 113). Discutimos isso na Seo 3.6.6. Para ajustarmos o
modelo acima, os passos so dados abaixo
fit1.canc3 = glm( tipo sexo + idade + hl + ff,
family=binomial)
summary(fit1.canc3).
Tabela 1.8
Estimativas dos parmetros referentes ao modelo logstico ajustado aos dados
sobre processo infeccioso pulmonar.
Efeito Estimativa Efeito Estimativa Efeito Estimativa
Constante -1,850(1,060) HL(2) -0,869(0,945) FF(2) -0,687(0,502)
Sexo 0,784(0,469) HL(3) -2,249(0,968) FF(3) -1,025(0,525)
Idade 0,065(0,013) HL(4) -3,295(1,466) FF(4) 0,431(1,123)
As estimativas dos parmetros (erro padro aproximado) so apresen-

tadas na Tabela 1.8. O desvio do modelo foi de D(y; ) = 157, 40 (166 graus
de liberdade), indicando um ajuste adequado. Como podemos observar, h
indcios de que a chance de processso infecioso maligno seja maior para o
sexo feminino do que para o sexo masculino. Notamos tambm que a chance
de processo maligno aumenta significativamente com a idade e h indicaes
87
1.12 Aplicaes
de que tanto para a clula FF quanto para HL a chance de processo maligno

diminui medida que aumenta a intensidade da clula. Esse exemplo ser
reanalizado no Captulo 3.
1.12.3 Sobrevivncia de bactrias

Descrevemos na Tabela 1.9 (Montgomery, Peck e Vining, 2001, pgs. 201-202)
o nmero de bactrias sobreviventes em amostras de um produto alimentcio
segundo o tempo (em minutos) de exposio do produto a uma temperatura
de 300o F .
Tabela 1.9
Nmero de bactrias sobreviventes e tempo de exposio.
Nmero 175 108 95 82 71 50 49 31 28 17 16 11
Tempo 1 2 3 4 5 6 7 8 9 10 11 12
Na Figura 1.8a apresentamos o grfico do nmero de bactrias sobre-

viventes contra o tempo de exposio. Notamos uma tendncia decrescente
e quadrtica. Supondo que as amostras do produto enlatado submetidos
temperatura de 300o F tm o mesmo tamanho, podemos pensar, em princpio,
que Yi P(i ), com Yi denotando o nmero de bactrias sobreviventes na
i-sima amostra i = 1, . . . , n. Como para i grande razovel assumirmos
que Yi segue uma distribuio aproximadamente normal (ver Seo 4.2.1),
propomos inicialmente os seguintes modelos:
yi = + tempoi + i e
yi = + tempoi + tempo2i + i ,
em que i N(0, 2 ). As estimativas dos parmetros so apresentadas na

Tabela 1.10. Pelos grficos de envelope (Figuras 1.8b e 1.8c) notamos indcios
de que a distribuio dos erros pode estar incorrretamente especificada. A
88
1.12 Aplicaes
maioria dos resduos assume valor negativo. Notamos a presena de um

ponto aberrante, observao #1. Uma outra tentativa seria aplicar resposta
a transformao raiz quadrada que conhecida no caso da Poisson como
estabilizadora da varincia alm de manter a aproximao normal (ver Seo
4.2.1). Logo, podemos pensar em adotar os seguintes modelos alternativos:

yi = + tempoi + i e

yi = + tempoi + tempo2i + i ,
em que i N(0, 2 ). As estimativas dos parmetros so apresentadas na

Tabela 1.10.
Tabela 1.10
Estimativas de algumas quantidades para os modelos com resposta
transformada ajustados aos dados sobre sobrevivncia
de bactrias.
Parmetro Linear-Y Quadrtico-Y Linear- Y Quadrtico- Y
142,20(11,26) 181,20(11,64) 12,57(0,38) 13,64(0,51)
-12,48(1,53) -29,20(4,11) -0,82(0,05) -1,27(0,18)
1,29(0,31) 0,04(0,01)
R2 86,9% 95,5% 96,1% 97,8%
Notamos uma melhora na qualidade do ajuste, particularmente no se-

gundo caso. Porm, ainda h indcios pelos grficos de envelope (Figuras
1.8d e 1.8e) de violao nas suposies para os modelos, alm da presena da
observao #1 como ponto aberrante. Decidimos, ento, propor um modelo
log-linear de Poisson em que assumimos
Yi P(i ) e logi = + tempoi .
As estimativas dos parmetros so apresentadas na Tabela 1.11.
89
1.12 Aplicaes
Tabela 1.11
Estimativas dos parmetros do modelo
de Poisson ajustado aos dados sobre
sobrevivncia de bactrias.
Parmetro Estimativa E/E.Padro
5,30 88,34
-0,23 -23,00
Desvio 8,42 (10 g.l.)
Pelo grfico de envelope (Figura 1.8f) no h evidncias de que o mo-

delo esteja mal ajustado. Notamos tambm que a observao #1 foi acomo-
dada dentro do envelope gerado. Parece, portanto, que esse ltimo modelo
o que melhor se ajusta aos dados dentre os modelos propostos. O modelo
ajustado fica ento dado por
(x) = e5,300,23x ,
em que x denota o tempo de exposio. Logo, se diminuirmos de uma unidade

o tempo de exposio a variao no valor esperado fica dada por
(x 1)
= e0,23 = 1, 259.
(x)
Ou seja, o nmero esperado de sobreviventes aumenta aproximadamente
25,9%.
1.12.4 Estudo seriado com ratos

O exemplo a seguir provm de um estudo seriado com um tipo de tumor
maligno para avaliar a influncia da srie (passagem do tumor) na morte
(caquexia) de um certo tipo de rato (ver Paula, Barbosa e Ferreira, 1989;
90
1.12 Aplicaes
8
150
8
6
6
Sobreviventes
4
100
4
2
2
0
0
50
-2
-2
-1 0 1 -1 0 1
2 4 6 8 10 12
Tempo (b) (c)
(a)
6
2
4
1
2
0
2
-3 -2 -1
0
-2
-2
-1 0 1 -1 0 1 -1 0 1
Percentil da N(0,1) Percentil da N(0,1) Percentil da N(0,1)

(d) (e) (f)
Figura 1.8: Diagrama de disperso e grficos normais de probabilidades re-

ferentes aos modelos ajustados aos dados sobre sobrevivncia de bactrias.
Paula et al., 1992). Os dados esto descritos no arquivo canc4.dat. Um

total de 204 animais teve o tumor inoculado num determinado momento da
srie. Para cada animal, alm do grupo de passagem, foram observadas as
variveis presena de MASSa tumoral, caquexia e o tempo de observao (em
dias). Esses dados so resumidos na Tabela 1.12. Para inserirmos os dados
diretamente no R e armazen-los no arquivo canc4a.dat, devemos fazer
canc4a.dat = scan(what=list(obs=0,rd=0))
1: 6 2597 13 3105 8 2786
2: 12 1613 3 411 1 232.
Agora, precisamos introduzir os fatores grupo de passagem e massa tumoral
91
1.12 Aplicaes
fnames = list(gp=c(P0-P6, P7-P18, P19-P28),

mt=c(sim, nao)).
Para informarmos o sistema a ordem em que os dados foram lidos, podemos
usar o comando fac.design. Em seguida, fazemos o emparelhamento
rato.design = fac.design(c(3,2), fnames, rep=1)
attach(canc4a.dat)
rato.df = data.frame(obs,rd,rato.design).
As informaes completas sobre os dados esto armazenadas no arquivo
rato.df. Para uma verificao basta bater
rato.df.
Podemos agora (opcionalmente) criar uma matriz modelo no padro dos
MLGs
attach(rato.df)
gp = C(gp,treatment)
mt = C(mt,treatment).
Vamos supor que Oij , o nmero de ratos caquticos no nvel i de massa
tumoral e grupo de passagem j, segue uma distribuio de Poisson de mdia
ij tij , i = 1, 2 e j = 1, 2, 3. Temos que ij denota a taxa de caquexia (nmero
mdio de mortes por unidade de tempo) e tij o total de ratos-dias no nvel
(i, j). Consideramos inicialmente o modelo de Poisson com parte sistemtica
logij = + i + j ,
em que 1 = 0 e 1 = 0, que equivale suposio de tempos exponenciais

como ser visto na Seo 4.2.2. Com essa notao, ser o efeito correspon-
dente classe P0 P6 com desenvolvimento de massa, 2 a diferena entre
os efeitos dos grupos sem e com o desenvolvimento de massa tumoral, 2 a
diferena entre os efeitos das classes P7 P18 e P0 P6 e 3 a diferena
entre os efeitos das classes P19 P28 e P0 P6. Em particular, quando
92
1.12 Aplicaes
expressamos os valores esperados de mortes para tij na forma de um modelo

log-linear, teremos um offset dado por logtij . Ou seja, o modelo que iremos
ajustar no R tem parte sistemtica dada por logij = logtij + + i + j .
Logo, precisamos definir o offset no ajuste.
Tabela 1.12
Nmero de ratos caquticos (O) e ratos dias de
observao (R-D) segundo o grupo de passagem
e o desenvolvimento de massa tumoral.
Massa Grupo de passagem
tumoral P0-P6 P7-P18 P19-P28
Sim O 6 13 8
R-D 2597 3105 2786
No O 12 3 1
R-D 1613 411 232
Os passos so os seguintes:
logt0 = log(rd)
canc4a.fit = glm( obs gp + mt + offset(logt0),
family=poisson)
summary(canc4a.fit).
As estimativas dos parmetros (erro padro aproximado) so dadas
por = 5, 875 (0, 312), 2 = 0, 334 (0, 365), 3 = 0, 040 (0, 434) e
2 = 0, 860 (0, 343). O desvio do modelo dado por D(y; ) = 0, 84 com
2 graus de liberdade. Pelas estimativas acima notamos que o fator grupo
de passagem no significativo. O ajuste do modelo sem esse efeito levou
s estimativas = 5, 750 (0, 192) e 2 = 0, 802 (0, 315) com um desvio de
D(y; ) = 1, 99 (4 graus de liberdade). Logo, o teste da razo de verossimi-
lhanas para testar H0 : 2 = 3 = 0 vale 1, 99 0, 84 = 1, 15 com 2 graus de
liberdade, o que implica em no rejeitarmos a hiptese H0 . Assim, o modelo
93
1.12 Aplicaes
adotado inclui somente o efeito massa tumoral. Temos que 2 significati-

vamente diferente de zero. A estimativa 2 = 0, 802 indica que os ratos que
desenvolvem massa tumoral (tumor maligno) sobrevivem mais do que os ra-
tos que no desenvolvem o tumor! Esse resultado pode parecer em princpio
contraditrio, todavia devemos lembrar que todos os ratos tiveram tumor
inoculado mas nem todos desenvolveram massa tumoral. Assim, pode ser
razovel pensarmos que aqueles ratos que no desenvolveram massa tumoral
na verdade teriam resistido muito para que a mesma no se desenvolvesse,
levando os mesmos a algum tipo de esgotamento e consequentemente a um
tempo mdio de vida menor do que o tempo mdio dos ratos em que o tumor
se desenvolveu.
Uma maneira alternativa de avaliarmos a suposio de distribuio de
Poisson para Oij com mdia ij tij atravs da incluso do termo logtij como
covarivel, em vez de offset. Isto , supormos a parte sistemtica
logij = + logtij + i + j
. Assim, podemos testar H0 : = 1 contra H1 : 6= 1. A no rejeio

de H0 indica que a suposio de distribuio de Poisson para Oij parece ser
razovel. No exemplo acima obtemos = 1, 390(0, 439), o que nos leva a no
rejeitarmos H0 .
1.12.5 Consumo de combustvel

No arquivo reg2.dat(Gray, 1989) so apresentadas as siglas dos 48 esta-
dos norte-americanos contguos juntamente com as seguintes variveis: taxa
(taxa do combustvel no estado em USD), licena (proporo de motoristas
licenciados), renda (renda percapita em USD), estradas (ajuda federal para
as estradas em mil USD) e consumo (consumo de combustvel por habitante).
94
1.12 Aplicaes
O interesse nesse estudo tentar explicar o consumo de combustvel pelas

variveis taxa, licena, renda e estradas. O modelo proposto o seguinte:
yi = + 1 taxai + 2 licencai + 3 rendai + 4 estradasi + i ,
em que yi denota o consumo anual de combustvel (por habitante) no i-

simo estado, enquanto i so variveis aleatrias independentes normalmente
distribudas de mdia zero e varincia 2 . Ajustamos o modelo acima no R
e mandamos os resultados para o objeto fit1.reg2. Da ento aplicamos
o mtodo de Akaike para selecionarmos o submodelo com menor AIC. Para
tal, aplicamos os comandos
require(MASS)
stepAIC(fit1.reg1).
A varivel estradas foi eliminada. Os resultados do modelo selecionado so
apresentados na Tabela 1.13.
Tabela 1.13
Estimativas dos parmetros referentes
ao modelo normal linear ajustado aos
dados sobre consumo de combustvel.
Efeito Estimativa E/E.Padro
Constante 307,33 1,96
Taxa -29,48 -2,78
Licena 1374,77 7,48
Renda -0,07 -4,00
s2 65,94
R2 0,675
Portanto, podemos dizer que para cada aumento de uma unidade na

renda, o consumo mdio de combustvel diminui 0,07 unidades. Para cada
95
1.12 Aplicaes
NY
CT WY
0.20 TX
0.3
SD
NV
Distancia de Cook
0.15
Alavanca
0.2
0.10
0.1
0.05
0.0
0 10 20 30 40 0 10 20 30 40
Indice Indice
(a) (b)
WY WY
4
4
2
2
0
0
-2
-2
-4
-4
0 10 20 30 40 400 500 600 700

(c) (d)
Figura 1.9: Grficos de diagnstico referentes ao modelo normal linear ajus-

tado aos dados sobre consumo de combustvel.
aumento de 1% na porcentagem de motoristas licenciados o consumo mdio

de combustvel aumenta 13,75 unidades, e para cada aumento de 1% no
imposto do combustvel o consumo mdio diminui 29,48 unidades.
Na Figura 1.9 temos alguns grficos de diagnstico e como podemos
notar h um forte destaque para o estado de WY, que aparece como influente
(Figura 1.9b) e aberrante (Figura 1.9c). Outros estados, tais como CT, NY,
SD, TX e NV (Figura 1.9a) aparecem como remotos no subespao gerado pelas
colunas da matrix X, embora no sejam confirmados como influentes. No
96
1.12 Aplicaes
h indcios pela Figura 1.9d de heteroscedasticidade.

Pelo grfico de envelope (Figura 1.10a) no h indcios fortes de afas-
tamentos da suposio de normalidade para os erros, apesar da influncia no
grfico do estado de WY. O grfico de envelope sem esse estado (Figura 1.10b)
confirma esse suposio.
Analisando os dados referentes ao estado de WY notamos que o mesmo
tem uma taxa de 7% (abaixo da mdia de 7,67%), uma renda percapita anual
de USD 4345 (ligeiramente acima da mdia de USD 4241,83), uma proporo
de motoristas licenciados de 0,672 (acima da mdia de 0,570), porm um
consumo mdio de combustvel muito alto 968 (quando a mdia nacional
era de 576,77). Talvez as longas distncias do estado tenham obrigado os
motoristas a um consumo alto de combustvel. A eliminao desse estado
muda substacialmente algumas estimativas, embora no mude a inferncia. A
estimativa da varivel licena cai 13,2%, a estimativa do intercepto aumenta
27,8%, o s2 cai 17,1% e o R2 aumenta 4,1%. As demais estimativas no
sofrem grandes variaes. A incluso de alguma varivel que leve em conta a
densidade demogrfica de cada estado, conforme sugerido por Gray (1989),
poderia explicar melhor o estado de WY pelo modelo proposto.
1.12.6 Salrio de executivos

Vamos considerar agora os dados descritos no arquivo salary.dat sobre o
salrio anual (em mil USD) de uma amostra aleatria de 220 executivos
(145 homens e 75 mulheres)(Foster, Stine e Waterman, 1998, pgs. 180-188).
O salrio ser relacionado com as seguintes variveis explicativas: sexo (1:
masculino; 0: feminino), anos de experincia no cargo e posio na empresa
97
1.12 Aplicaes
3
4
2
1
2
0
0
-1
-2
-2
-3
-2 -1 0 1 2 -2 -1 0 1 2

(a) (b)
Figura 1.10: Grficos normais de probabilidades com todos os pontos (a) e

sem o estado de WY (b), referentes ao modelo normal linear ajustado aos
dados sobre consumo de combustvel.
(varia de 1 a 9), quanto maior o valor mais alta a posio. Apresentamos a

seguir a comparao dos salrios mdios segundo o sexo.
Sexo Amostra Mdia E.Padro
Masculino 145 144,11 1,03
Feminino 75 140,47 1,43
Diferena Teste-t valor-P
Estimativa 3,64 2,06 0,04
E.Padro 1,77
O valor-P indica diferena ao nvel de 5%. Ignorando as demais variveis
notamos que os executivos ganham em mdia mais do que as executivas.
Pela Figura 1.11 notamos indcios de aumento do salrio com o au-

mento da posio e com o aumento da experincia para ambos os sexos,
sugerindo inicialmente um modelo linear do tipo
yi = + 1 sexoi + 2 experi + 3 posici + i ,
98
1.12 Aplicaes
170
Salario Mulheres
160
Salario Homens
150
140
130
120
110
5 10 15 20 25 5 10 15 20
Experiencia Homens Experiencia Mulheres

170
Salario Mulheres
160
Salario Homens
150
140
130
120
110
2 4 6 8 2 4 6 8
Posicao Homens Posicao Mulheres
Figura 1.11: Grficos de disperso entre salrio e as variveis explicativas

experincia e posio.
em que yi denota o salrio do i-simo executivo da amostra. Vamos supor

ainda que i so erros independentes e normalmente distribudos de mdia
zero e varincia 2 .
Aplicando o mtodo AIC nenhuma varivel retirada do modelo. As
estimativas so apresentadas na Tabela 1.14. Notamos portanto que na pre-
sena de experincia e posio as mulheres ganham em mdia mais do que
os homens. Quando essas variveis so ignoradas, ocorre o contrrio, como
foi visto na anlise descritiva. Experincia e posio so variveis importan-
tes e devem tambm permanecer no modelo. Vamos verificar a seguir se
possvel incluirmos alguma interao de 1a. ordem. Essas interaes so de
99
1.12 Aplicaes
interesse e tambm interpretveis. Por exemplo, presena de interao entre

os fatores sexo e experincia significa que a diferena entre os salrios mdios
de executivos e executivas no a mesma medida que varia o tempo de
experincia.
Tabela 1.14
ao modelo normal linear ajustado aos
dados sobre salrio de executivos.
Constante 115,262 82,25
Experincia -0,472 -4,17
Sexo -2,201 -2,04
Posio 6,710 21,46
2
R 0,71
s 6,77
Tabela 1.15
Testes F para avaliar a incluso
de cada interao de 1a. ordem no
modelo normal linear ajustado aos
dados sobre salrio de executivos.
Interao F-valor valor-P
Sexo*Exper 1,615 0,20
Sexo*Posico 0,001 0,97
Exper*Posio 7,594 0,00
Na Tabela 1.15 so apresentados os valores da estatstica F bem como o

valor-P correspondente para testar a ausncia das interaes sexo*experincia,
sexo*posio e experincia*posio, respectivamente, dado que esto no mo-
delo constante + sexo + experincia + posio. Portanto, ser includa no
modelo apenas a interao experincia*posio. As estimativas do modelo
final com a interao experincia*posio so apresentadas na Tabela 1.16.
100
1.12 Aplicaes
0.10
191 30
Distancia de Cook
0.04
139 178 213 4 144
Medida h
30
0.06
0.02
0.02
0.0
0 50 100 150 200 0 50 100 150 200
Indice Indice
(a) (b)
4
4
Residuo Padronizado
Residuo Padronizado
2
2
0
0
-2
-2
0 50 100 150 200 120 130 140 150 160

(c) (d)
Figura 1.12: Grficos de diagnstico referentes ao modelo normal linear ajus-

tado aos dados sobre salrio de executivos.
Na Figura 1.12 so apresentados grficos de diagnstico. Algumas

observaes aparecem como pontos de alavanca (Figura 1.12a), trs observa-
es so destacadas como possivelmente influentes (Figura 1.12b) e no h
indcios de pontos aberrantes e heteroscedasticidade (Figuras 1.12c e 1.12d).
Retirando as observaes mais influentes, #4 e #30, notamos variaes des-
proporcionais em algumas estimativas, embora no ocorram mudanas infe-
rencias. Esses pontos causam variaes, respectivamente, de -14% e 11% na
estimativa do coeficiente de sexo. A observao #4 uma executiva com
salrio anual de USD 139 mil, posio 7 e 13,9 anos de experincia (salrio
relativamente baixo para essa posio e experincia) e a observao #30
101
1.12 Aplicaes
de um executivo com salrio anual de USD 110 mil, posio 2 e 2,4 anos de
experincia (menor salrio entre os executivos).
Tabela 1.16
ao modelo normal linear final ajustado
aos dados sobre salrio de executivos.
Constante 108,042 36,48
Experincia 0,336 1,07
Sexo -2,811 -2,58
Posio 8,096 13,73
Exper*Posio -0,135 -2,75
R2 0,72
s 6,67
2
0
-2
-4
-3 -2 -1 0 1 2 3
Percentil da N(0,1)
Figura 1.13: Grfico normal de probabilidades referente ao modelo normal

linear final ajustado aos dados sobre salrio de executivos.
102
1.12 Aplicaes
O modelo final ajustado portanto dado por
y = 108, 042 + 0, 336 exper 2, 811 sexo

+8, 096 posic 0, 135 posic exper.
Por exemplo, desse modelo, qual o salrio previsto para executivos com
5 anos de experincia e posio 4?
Executiva: USD 139,406 mil
Executivo: USD 136,595 mil.
O modelo ajustado para o grupo de mulheres dado por
y = 108, 042 + 8, 096 posic + (0, 336 0, 135 posic) exper.
Examinando a equao acima notamos que as executivas com posio alta

e muita experincia tendem a ganhar menos do que executivas com posio
alta e menos experincia. Isso quer dizer que aquelas executivas que perma-
neceram menos tempo no cargo tendem a ganhar mais do que aquelas que
ficarem mais tempo no cargo. Mesmo resultado para os homens.
Notamos neste exemplo a importncia da interao na interpretao
dos resultados. Ignorando as variveis posio e experincia temos que o
salrio mdio dos executivos significativamente maior do que o salrio mdio
das executivas. Porm, quando essas variveis entram no modelo ocorre
o contrrio, para uma mesma posio e mesma experincia as executivas
ganham em mdia mais. Pela Figura 1.13 notamos que no h indcios de
afastamentos da suposio de normalidade para os erros.
103
1.13 Exerccios
1.13 Exerccios
1. Se Y pertence famlia exponencial de distribuies, ento a funo

densidade ou funo de probabilidades de Y pode ser expressa na forma
f (y; , ) = exp[{y b()} + c(y; )],
em que b() e c(; ) so funes diferenciveis. Supondo conhecido

seja L() = logf (y; , ) o logaritmo da funo de verossimilhana. Se
L() pelo menos duas vezes diferencivel em mostre que
2 ( 2 )
L() L() L()
E =0 e E = E .
2
2. Supondo agora desconhecido mostre que E(U ) = 0 para as distri-

buies normal, normal inversa e gama.
3. Considere a distribuio estvel cuja densidade dada por
f (y; , ) = a(y, )exp[{(y + 1) log}],
em que > 0, < y < , 1 > 0 o parmetro de disper-

so e a(, ) uma funo normalizadora. Mostre que essa distribuio
pertence famlia exponencial. Encontre a funo de varincia. Ob-
tenha a funo desvio supondo uma amostra de n variveis aleatrias
independentes de mdias i e parmetro de disperso 1 .
4. Considere a seguinte funo densidade de probabilidade:

a(y, )
f (y; , ) = exp[{y + (1 2 )1/2 }],
(1 + y 2 )1/2
em que 0 < < 1, < y < , 1 > 0 o parmetro de disper-

so e a(, ) uma funo normalizadora. Mostre que essa distribuio
104
1.13 Exerccios
pertence famlia exponencial. Encontre a funo de varincia. Ob-

tenha a funo desvio supondo uma amostra de n variveis aleatrias
independentes de mdias i e parmetro de disperso 1 .
5. Mostre que a distribuio logartmica, com funo de probabilidades
f (y; ) = y /{ylog(1 )},
em que y = 1, 2, . . . e 0 < < 1, pertence famlia exponencial.

Calcule e V (). Obtenha a funo desvio supondo uma amostra de
n variveis aleatrias independentes de parmetros i .
6. (Paula e Cordeiro, 1986). Suponha o MLG em que Yi FE(i , ) e

parte sistemtica dada por g(i ; ) = i = xTi , com escalar des-
conhecido. Encontre as funes escore U e U , as funes de in-
formao de Fisher K , K e K e descreva o processo iterativo
escore de Fisher para obter a estimativa de mxima verossimilhana de
= ( T , )T . Como iniciar o processo iterativo? Sugesto de notao:
= /, em que = (1 , . . . , n )T .
7. Supor o modelo normal linear com parte sistemtica dada por i =

1 (x1i x1 ) + 2 (x2i x2 ). Sabe-se que a correlao amostral entre x1
P
e x2 dada por corr(x1 , x2 ) = ni=1 (x1i x1 )(x2i x2 )/(n 1)s1 s2 ,
em que s1 e s2 so os respectivos desvios padro amostrais de x1 e x2 .
Calcule a correlao corr(1 , 2 ). Discuta e tente explicar a relao
entre as duas correlaes. Use o fato de que det(XT X)1 > 0.
8. Suponha o modelo de anlise de varincia com erros normais
yij = + i + ij ,
em que ij N(0, 2 ), i = 1, . . . , p e j = 1, . . . , ni . Supor 1 = 0.

Mostre que Var(rij ) = 2 (1 1/ni ).
105
1.13 Exerccios
9. Considere o modelo normal linear
yi = xTi + i , i = 1, . . . , n,
em que i so erros mutuamente independentes tais que i N(0, 2 ).

Considere uma nova observao y(z) (que no est na amostra) e que
satisfaz y(z) = zT + , em que N(0, 2 ). Mostre que um intervalo
de confiana de coeficiente 1 para y(z) pode ser dado por

[y(z) tnp (1 )s{1 + zT (XT X)1 z}1/2 ],
2
em que y(z) = zT , tnp (1 2 ) o percentil (1 2 ) da distribuio t
de Student com n p graus de liberdade e s2 o erro quadrtico mdio
do modelo ajustado.
10. Suponha agora o modelo de regresso normal linear simples
yi = + xi + i , i = 1, . . . , n.
Mostre a equivalncia entre as estatsticas RV , W e SR para testar

H0 : = 0 contra H1 : 6= 0. Supor 2 conhecido.
11. Um critrio tradicional para a validao de modelos de regresso normal

= Pn (yi y(i) )2 ,
linear atravs da estatstica PRESS, definida por i=1
em que y(i) = xTi (i) denota o valor predito para a i-sima observao
quando esta no considerada no ajuste. O critrio selecionar o
Mostre que
ajuste com menor valor para .
n
X 2
= ri
,
i=1
1 hii
em que ri = yi yi e hii = xTi (XT X)1 xi .
106
1.13 Exerccios
12. Suponha duas populaes normais com mdias 1 e 2 , mesma vari-

ncia, e que amostras independentes de tamanhos n1 e n2 foram, res-
pectivamente, obtidas das duas populaes. Para o modelo com parte
sistemtica 1 = + e 2 = , mostre que a estatstica F para
testar H0 : = 0 contra H1 : 6= 0 pode ser expressa na forma
simplificada
(n 2) n1nn2 (y1 y2 )2
F= P ,
(yi y)2 n1nn2 (y1 y2 )2
em que y, y1 , y2 so as respectivas mdias amostrais.
13. (Paula e Sen, 1995). Suponha um MLG com ligao cannica e parte
sistemtica dada por g(1j ) = 1 +xj e g(2j ) = 2 +xj , j = 1, . . . , r.
Interprete esse tipo de modelo. Obtenha a matriz X correspondente.
Como fica o teste de escore para testar H0 : = 0? O que significa
testar H0 ?
14. Sejam Yij , i = 1, 2, 3 e j = 1, . . . , m, variveis aleatrias mutuamente

independentes pertencentes famlia exponencial tais que E(Yij ) = ij ,
Var(Yij ) = Vij 1 e parte sistemtica dada por g(1j ) = , g(2j ) =
+ e g(3j ) = . Responda s seguintes questes:
(i) como fica a matriz modelo X?
(ii) O que significa testar H0 : = 0? Qual a distribuio nula

assinttica das estatsticas RV , W e SR ?
Var().
(iii) Calcular a varincia assinttica de ,
(iv) Mostre que a estatstica do teste de escore para testar H0 : = 0

contra H1 : 6= 0 fica dada por
m(y2 y3 )2
SR = .
2V0
107
1.13 Exerccios
15. Mostre (1.14) e (1.15). Use o seguinte resultado de lgebra linear:

(A1 U)(VT A1 )
(A + UVT )1 = A1 ,
1 + VT A1 U
em que A uma matriz no singular e U e V so vetores coluna. Mostre
primeiro que XT X = XT X(1)xi xTi e XT y = XT y(1)xi yi ,
em que uma matriz de 1 s com na i-sima posio.
16. (Cook e Weisberg, 1982). Suponha o modelo de regresso dado em

(1.12). Mostre que N(, 2 /(1 hii )). Mostre tambm que, sob a
hiptese H1 : 6= 0, a estatstica F tem uma distribuio F1,(np1) (),
1 2 (1hii )
em que = 2 2
o parmetro de no centralidade. Comente
sobre o poder desse teste para 0 hii < 1. Use o resultado: se Y
Nn (, 2 I) ento yT y/ 2 2n (), em que = 12 T / 2 .
17. (Pregibon, 1982). Mostre que a estatstica de escore para testar que o i-
simo ponto aberrante num MLG com conhecido e parte sistemtica
g(i ) = xTi dada por t2Si , em que

(yi i )
tSi = q ,
Vi (1 hii )
sendo i , Vi e hii = i xTi (XT WX)1 xi avaliados em . Qual a dis-

tribuio nula assinttica de t2Si ? Como seria interpretado o grfico de
t2Si contra a ordem das observaes? Sugesto : chame = X + z,
em que z um vetor n 1 de zeros com 1 na i-sima posio, calcule
Var() e U e teste H0 : = 0 contra H1 : 6= 0.
18. Mostrar que a expresso para AIC no modelo normal linear com 2
desconhecido pode ser escrita na forma equivalente
AIC = nlog{D(y; )/n} + 2p,
108
1.13 Exerccios
Pn
em que D(y; ) = i=1 (yi i )2 .
19. No arquivo reg3.dat so descritas as seguintes variveis referentes a

50 estados norte-americanos: (i) estado (nome do estado), (ii) pop
(populao estimada em julho de 1975), (iii) percap (renda percapita
em 1974 em USD), (iv) analf (proporo de analfabetos em 1970), (v)
expvida (expectativa de vida em anos 1969-70), (vi) crime (taxa de
criminalidade por 100000 habitantes 1976), (vii) estud (porcentagem
de estudantes que concluem o segundo grau 1970), (viii) ndias (nmero
de dias do ano com temperatura abaixo de zero grau Celsus na cidade
mais importante do estado) e (ix) area (rea do estado em milhas
quadradas).
O objetivo do estudo tentar explicar e varivel expvida usando um

modelo de regresso normal linear dadas as variveis explicativas percap,
analf, crime, estud, ndias e dens, em que dens=pop/area.
Inicialmente faa uma anlise descritiva dos dados, por exemplo com
boxplots de cada uma das variveis que sero consideradas no estudo
e com diagramas de disperso com as respectivas tendncias entre as
variveis explicativas e a varivel resposta. Comente essa parte descri-
tiva. Posteriormente, ajuste o modelo de regresso normal linear com
todas as variveis explicativas e atravs do mtodo AIC faa uma sele-
o de variveis. Uma vez selecionado o modelo faa uma anlise de
diagnstico e apresente as interpretaes dos coeficientes estimados do
modelo final.
20. (Neter et el., 1996, p. 449). No arquivo vendas.dat so descritas in-

formaes a respeito das vendas no ano anterior de um tipo de telhado
de madeira em 26 filiais de uma rede de lojas de construo. As vari-
109
1.13 Exerccios
veis esto colocadas na seguinte ordem: (i) telhados, total de telhados

vendidos (em mil metros quadrados), (ii) gastos, gastos pela loja com
promoes do produto (em mil USD), (iii) clientes, nmero de clien-
tes cadastrados na loja (em milhares), (iv) marcas, nmero de marcas
concorrentes do produto e (v) potencial, potencial da loja (quanto
maior o valor maior o potencial). Um dos objetivos do estudo com
esse conjunto de dados tentar prever o nmero esperado de telhados
vendidos dadas as variveis explicativas. Faa inicialmente uma an-
lise descritiva construindo, por exemplo, os diagramas de disperso de
cada varivel explicativa contra a varivel resposta telhados. Calcule
tambm as correlaes entre as variveis. Use os mtodos stepwise e
AIC para selecionar um modelo de regresso normal linear. Se o mo-
delo selecionado for diferente pelos dois mtodos, adote algum critrio
para escolher um dos modelos. Interprete os coeficientes estimados do
modelo selecionado. Faa uma anlise de diagnstico para verificar se
existem afastamentos srios das suposies feitas para o modelo e se
existem observaes discrepantes.
21. (Wood, 1973). No arquivo reg4.dat esto os dados referentes pro-

duo de gasolina numa determinada refinaria segundo trs variveis
observadas durante o processo e uma quarta varivel que uma combi-
nao das trs primeiras. A resposta o nmero de octanas do produto
produzido. A octanagem a propriedade que determina o limite m-
ximo que a gasolina, junto com o ar, pode ser comprimida na cmara
de combusto do veculo sem queimar antes de receber a centilha vinda
das velas. As melhores gasolinas tm uma octanagem alta. Em gran-
des refinarias, o aumento de um octana na produo de gasolina pode
representar um aumento de alguns milhes de dolares no custo final
110
1.13 Exerccios
da produo. Assim, torna-se importante o controle dessa varivel du-

rante o processo de produo. Use o mtodo AIC para selecionar as
variveis explicativas significativas. Faa uma anlise de diagnstico
com o modelo selecionado. Comente.
22. (Narula e Stangenhaus, 1988, pgs. 31-33). No arquivo imoveis.dat

so apresentados dados relativos a uma amostra de 27 imveis. Na
ordem so apresentados os valores das seguintes variveis: (i) imposto
do imvel (em 100 USD), (ii) rea do terreno (em 1000 ps quadrados),
(iii) rea construda (em 1000 ps quadrados), (iv) idade da residncia
(em anos) e (v) preo de venda do imvel (em 1000 USD). Ajuste um
modelo normal linear do preo de venda contra as demais variveis. Use
o mtodo AIC para selecionar as variveis explicativas. Faa uma an-
lise de diagnstico com o modelo selecionado. Interprete os coeficientes
estimados.
23. (Ryan e Joiner, 1994, p. 299). No arquivo trees.dat apresentado

um conjunto de dados que tem sido analisado sob diversos pontos de
vista por vrios pesquisadores (ver, por exemplo, Jrgensen, 1989). As
variveis observadas so o dimetro (d), a altura (h) e o volume (v) de
uma amostra de 31 cerejeiras numa floresta do estado da Pensilvnia,
EUA. A relao entre dimetro, altura e volume de uma rvore depende
da forma da mesma e pode-se considerar duas possibilidades
1
v = d2 h
4
para forma cilndrica e
1 2
v= d h
12
para forma cnica. Em ambos os casos a relao entre logv, logd e logh
111
1.13 Exerccios
dada por
logv = a + blogd + clogh.
Supor inicialmente um modelo linear em que N(0, 2 ). Faa uma
anlise de diagnstico e verifique se possvel melhorar o modelo, por
exemplo incluindo algum termo quadrtico.
24. (Ruppert, 2004). No arquivo capm.dat esto os seguintes dados: Tbill

(taxa de retorno livre de risco), retorno Microsoft, SP500 (retorno do
mercado), retorno GE e retorno FORD de janeiro de 2002 a abril de
2003. Todos os retornos so dirios e esto em porcentagem. Faa
inicialmente os diagramas de disperso entre os excessos de retorno
(yrt rf t ) de cada uma das empresas Microsoft, GE e FORD e os
excessos de retorno do mercado (rmt rf t ), em que yrt denota o retorno
da ao da empresa, rmt o retorno do mercado e rf t indica a taxa livre
de risco durante o t-simo perodo. Posteriormente, ajuste o seguinte
modelo de regresso:
yrt rf t = + (rmt rf t ) + t ,
em que t N(0, 2 ). Verifique a significncia do parmetro e com-

pare e interprete as estimativas intervalares para . Faa uma anlise
de diagnstico para cada modelo ajustado.
25. O conjunto de dados descrito na tabela abaixo refere-se a um estudo

cujo objetivo foi tentar prever o preo de venda de um imvel (em mil
USD) dada a rea total (em mil ps quadrados) numa regio de Eugene,
EUA (Gray, 1989). Esses dados esto armazenados no arquivo externo
reg1.dat.
Tente inicialmente ajustar uma regresso normal linear para explicar

o preo dada a renda. Faa uma anlise de diagnstico e proponha
112
1.13 Exerccios
algum modelo alternativo (se for o caso) a fim de reduzir as eventuais

influncias de observaes discrepantes bem como afastamentos de su-
posies feitas para o modelo. Interprete as estimativas obtidas para
os coeficientes do modelo proposto.
rea 800 950 910 950 1200 1000 1180 1000

Preo 30,6 31,5 33,3 45,9 47,4 48,9 51,6 53,1
rea 1380 1250 1500 1200 1600 1650 1600 1680

Preo 54,0 54,3 55,2 55,2 56,7 57,9 58,5 59,7
rea 1500 1780 1790 1900 1760 1850 1800 1700

Preo 60,9 60,9 62,4 63,0 64,5 66,0 66,3 67,5
rea 1370 2000 2000 2100 2050 1990 2150 2050

Preo 68,4 68,4 68,7 69,6 70,5 74,7 75,0 75,3
rea 2200 2200 2180 2250 2400 2350 2500 2500

Preo 79,8 80,7 80,7 83,4 84,0 86,1 87,0 90,3
rea 2500 2500 2680 2210 2750 2500 2400 3100

Preo 96,0 101,4 105,9 111,3 112,5 114,0 115,2 117,0
rea 2100 4000

Preo 129,0 165,0
113
Captulo 2
Modelos para Dados Positivos

Assimtricos
2.1 Introduo
A classe de modelos para a anlise de dados positivos assimtricos bas-

tante ampla incluindo distribuies conhecidas para os erros, tais como gama,
normal inversa, Weibull, Pareto, log-normal e Birnbaum-Saunders (ver, por
exemplo, Leiva, Barros e Paula, 2009). Essas distribuies tm sido particu-
larmente aplicadas na anlise de tempos de sobrevivncia (ou durao) com
forte nfase nas reas mdica e de engenharia (ver, por exemplo, Lawless,
2003). Todavia, dados positivos assimtricos tm sido tambm comuns em
outras reas do conhecimento, como por exemplo pesca, meteorologia, finan-
as, seguros e aturia (ver, por exemplo, Boland, 2007; Jong e Heller, 2008).
Um componente importante no estudo de dados de sobrevivncia a possi-
bilidade de incorporao nas anlises de observaes para as quais no foi
possvel observar a falha (dados censurados). Com os recentes avanos tecno-
114
2.2 Distribuio gama
lgicos ocorridos principalmente na fabricao de equipamentos, os tempos

at a ocorrncia de falhas esto ficando cada vez mais longos, aumentando
assim a porcentagem de dados censurados. Isso tambm pode ser notado na
rea mdica com os avanos nos tratamentos e medicamentos. Todavia, a
incluso de dados censurados nos modelos envolve um tipo de anlise mais es-
pecfica que est alm das metodologias discutidas neste texto. Sugerimos ao
leitor mais interessado consultar textos de anlise de dados de sobrevivncia,
como por exemplo os livros de Cox e Oakes (1978), Lawless (2003), Collett
(2003), Colosimo e Giolo (2006) e Leiva, Barros e Paula (2009). Portanto,
neste captulo trataremos apenas dados positivos assimtricos no censura-
dos sob modelos com resposta gama e normal inversa, os quais j foram
introduzidos no Captulo 1.
2.2 Distribuio gama
Conforme assumido na Seo 1.2.1 vamos supor que Y uma varivel ale-
atria com distribuio gama de mdia e coeficiente de variao 1/2 ,
denotamos Y G(, ), e cuja funo densidade expressa na forma

1 y y
f (yi ; , ) = exp d(logy)
()
= exp[{(y/) log} log() + log(y) logy],
R
em que y > 0, > 0, > 0 e () = 0
t1 et dt a funo gama. Na
Figura 2.1 temos a densidade da distribuio gama variando o parmetro
de disperso para fixado. Podemos notar que medida que aumenta a
distribuio gama fica mais simtrica em torno da mdia. Pode ser mostrado
que medida que aumenta Y se aproxima de uma distribuio normal de
mdia e varincia 2 1 . Portanto, a distribuio gama torna-se atrativa
para o estudo de variveis aleatrias assimtricas e tambm simtricas em que
115
2.2 Distribuio gama
a varincia depende de forma quadrtica da mdia. Os momentos centrais

de Y so expressos na seguinte forma:
(r 1)!r
E(Y )r = ,
(r1)
para r = 1, 2, . . .. Assim, expandindo logY em srie de Taylor em torno de
at 2a ordem obtemos
1 1
logY
= log + (Y ) 2 (Y )2 .
2
Portanto, para grande temos que
1
E(logY )
= log 2 E(Y )2
2
1 2
= log 2
2
= log (2)1 e
Var(logY )
= 1 .
Ou seja, a transformao logY estabiliza a varincia medida que o coefi-

ciente de variao de Y fica pequeno. Uma outra transformao dada por
3{(Y /)1/3 1} se aproxima da distribuio normal padro no caso gama
(vide McCullagh e Nelder, 1989, p. 289).
A funo de sobrevivncia e a funo de risco so quantidades usuais

na anlise de dados de sobrevivncia sendo definidas, respectivamente, por
S(t) = P r{Y t} e
P r{t Y < t + |Y t}
h(t) = lim .
0
116
2.2 Distribuio gama
0.0 0.2 0.4 0.6 0.8 1.0

4
1 =1 =2
= 2
0.6
3
0.4
f(x)
f(x)
f(x)
2
0.2
1
0.0
0
0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
x x x
1.2
=8
0.8
=4 =6
0.8
0.8
0.6
f(x)
f(x)
f(x)
0.4
0.4
0.4
0.2
0.0
0.0
0.0
0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
x x x
Figura 2.1: Densidades da distribuio gama para alguns valores do parme-

tro de disperso e supondo = 1.
Em particular, temos que a funo de risco pode ser expressa na forma

h(t) = f (t)/S(t) com f (y) denotando a funo densidade de Y . No caso
da distribuio gama de mdia e parmetro de disperso 1 a funo de
sobrevivncia expressa (ver, por exemplo, Collett, 2003, pgs. 197-198) na
forma
S(t) 1 It (),
em que It () a funo gama incompleta, dada por

Z t
1
It () = u1 eu du,
() 0
com = /. A funo de risco h(t) para a distribuio gama crescente

para > 1 e decrescente para < 1. Em particular, quando t temos
que h(t) .
117
2.3 Modelos com resposta gama
Vamos supor que Y1 , . . . , Yn so variveis aleatrias independentes tais que

Yi G(i , ). Ou seja, estamos assumindo que essas variveis possuem
mdias diferentes e mesmo coeficiente de variao 1/2 . Ademais, vamos
supor que g(i ) = i com i = xTi , xi = (xi1 , . . . , xip )T contendo valores
de variveis explicativas e = (1 , . . . , p )T sendo o vetor de parmetros de
interesse. As ligaes mais usadas no caso gama so identidade (i = i ),
logartmica (logi = i ) e recproca (i = i1 ), esta ltima sendo a ligao
cannica. O processo iterativo para estimao de , como foi visto na Seo
1.6.1, dado por
(m+1) = (XT W(m) X)1 XT W(m) z(m) ,
m = 0, 1, . . ., varivel dependente modificada z = + W1/2 V1/2 (y ),

= (1 , . . . , n )T , y = (y1 , . . . , yn )T , = (1 , . . . , n )T , V = diag{1 , . . . , n }
e W = diag{1 , . . . , n } com i = (di /di )2 /i .
interessante notarmos que sob ligao logartmica os pesos do pro-
2i
cesso iterativo para obteno de ficam dados por i = 2i
= 1, de modo
que o processo iterativo assume a forma simplificada
(m+1) = (XT X)1 XT z(m) ,
em que z = (z1 , . . . , zn )T com zi = i = (yi i )/i e i = exp(i ). A vari-

ncia assinttica de fica dada por Var() = 1 (XT X)1 . Em particular,
se as colunas da matriz X so ortogonais, isto XT X = Ip , em que Ip a
matriz identidade de ordem p, ento Var(j ) = 1 e Cov(j , ) = 0, para
j 6= , ou seja, j e so assintoticamente independentes.
Portanto, a ligao logartmica tem um atrativo especial de possibilitar
o desenvolvimento de experimentos ortogonais como so bem conhecidos em
118
modelos de regresso normal linear. Podemos escolher formas apropriadas

para a matriz X, de modo que XT X = Ip , e assim obtermos estimativas
mutuamente independentes e de varincia constante para os coeficientes do
preditor linear. Myers, Montgomery e Vining (2002, Cap.6) discutem expe-
rimentos ortogonais em MLGs e apresentam alguns exemplos. As ligaes

identidade ( = ), raiz quadrada ( = ) e arcoseno (sen1 = ) pro-
duzem o mesmo efeito em MLGs com resposta normal, Poisson e binomial,
respectivamente.
Se aplicarmos para suficientemente grande a transformao logart-
mica na resposta e ajustarmos E(logYi ) = xTi , estaremos fazendo logi =
xTi +21 , ou seja, a menos da constante 21 estaremos obtendo as mesmas
estimativas para de um modelo com resposta gama e ligao logartmica.
2.3.1 Qualidade do ajuste

Como foi visto na Seo 1.4 o desvio de um modelo gama dado por
D (y; ) = D(y; ) em que
n
X
D(y; ) = 2 {log(i /yi ) + (yi i )/i }, (2.1)
i=1
com i = g 1 (i ) e i = xTi . Pode ser mostrado facilmente para ligao

Pn
logartmica que o termo i=1 (yi i )/i = 0 se a parte sistemtica i
contm um intercepto. Nesse caso, a funo desvio fica dada por D (y; ) =
P
2 ni=1 log(i /yi ). Como desconhecido devemos estim-lo, por exemplo,
atravs de mxima verossimilhana que equivale a resolvermos a seguinte
equao:
2n{log ()} = D(y; ),
em que () = ()/() a funo digama (vide Seo 1.6.2), ou ento

P
utilizarmos a estimativa consistente 1 = (n p)1 ni=1 (yi i )2 /2i que
119
ser discutida no Captulo 5. Supondo que o modelo postulado est correto

temos, para grande, que o desvio D (y; ) segue distribuio qui-quadrado
com (n p) graus de liberdade. Assim, valores altos para o desvio podem
indicar inadequao do modelo ou falta de ajuste.
Quando todas as observaes so positivas o desvio D (y; ) deve ser
utilizado para avaliar a qualidade do ajuste e estimao de . Contudo, se
pelo menos uma observao for igual a zero D (y; ) torna-se inapropriado.
A estimativa para nesse caso fica indeterminada. Como foi mencionado na
Seo 1.4, McCullagh e Nelder (1989) sugerem substituir D (y; ) por
n
X n
X
D (y; ) = 2{C(y) + logi + yi /i },
i=1 i=1
em que C(y) uma funo arbitrria, porm limitada. Se a parte sistemtica

do modelo contm um intercepto o desvio acima fica dado por D (y; ) =
P
2{n + C(y) + ni=1 logi }.
2.3.2 Tcnicas de diagnstico

O resduo componente do desvio padronizado assume para os modelos gama
a forma
2
t Di = p {log(i /yi ) (yi i )/i }1/2 ,
1 hii
em que yi > 0 e hii o i-simo elemento da diagonal principal da matriz
H = W1/2 X(XT WX)1 XT W1/2 com i = (di /di )2 /2i . Em particular
quando h um intercepto em i o resduo componente do desvio tDi assume
a forma reduzida
2
t Di = p {log(i /yi )}1/2 .
1 hii
Estudos de simulao indicam que o resduo tDi se aproxima da normalidade,
particularmente para grande.
120
2.4 Aplicaes
Quando a i-sima observao excluda a distncia de Cook aproxi-

mada fica dada por
hii (yi i )2
LDi = .
(1 hii )2 2i
Grficos de tDi e hii contra os valores ajustados i como tambm grficos de
ndices de LDi so recomendados para a anlise de diagnstico.
2.4 Aplicaes
2.4.1 Comparao de cinco tipos de turbina de avio

Apresentamos na Tabela 2.1 (ver Lawless 1982, p. 201) os resultados de um
experimento conduzido para avaliar o desempenho de cinco tipos de turbina
de alta velocidade para motores de avio. Foram considerados dez motores
de cada tipo nas anlises e foi observado para cada um o tempo (em unidades
de milhes de ciclos) at a perda da velocidade. Esses dados esto disponveis
no arquivo turbina.dat.
Tabela 2.1
Tempo at a perda da velocidade de cinco
tipos de turbina de avio.
Tipo de turbina
Tipo I Tipo II Tipo III Tipo IV Tipo V
3,03 3,19 3,46 5,88 6,43
5,53 4,26 5,22 6,74 9,97
5,60 4,47 5,69 6,90 10,39
9,30 4,53 6,54 6,98 13,55
9,92 4,67 9,16 7,21 14,45
12,51 4,69 9,40 8,14 14,72
12,95 5,78 10,19 8,59 16,81
15,21 6,79 10,71 9,80 18,39
16,04 9,37 12,58 12,28 20,84
16,84 12,75 13,41 25,46 21,51
121
2.4 Aplicaes
Denotaremos por Tij o tempo at a perda da velocidade para o j-

simo motor de tipo i, i = 1, . . . , 5 e j = 1, . . . , 10. Na tabela abaixo so
apresentadas as mdias, desvios padro e coeficientes de variao amostrais
para os cinco tipos de turbina.
0.08
0.06
Densidade
0.04
0.02
0.0
0 5 10 15 20 25 30
Tempo
Figura 2.2: Densidade aproximada para o tempo at a perda da velocidade

para todos os tipos de turbina de avio.
Estatstica Tipo I Tipo II Tipo III Tipo IV Tipo V

Mdia 10,69 6,05 8,64 9,80 14,71
D.Padro 4,82 2,91 3,29 5,81 4,86
C. Variao 45,09% 48,10% 38,08% 59,29% 33,04%
Ignorando o tipo de turbina temos na Figura 2.2 a densidade aproxi-

mada para o tempo at a perda da velocidade. Se assumirmos que Tij
G(, ) obtemos as estimativas de mxima verossimilhana = 9, 98 (0, 73)
122
2.4 Aplicaes
25
20
Tempo
15
10
5
1 2 3 4 5
Tipo
Figura 2.3: Boxplots sobre desempenho dos quatro tipos de turbina de avio.
e = 4, 01 (0, 77), confirmando pela estimativa de a assimetria direita

para a distribuio do tempo at a perda da velocidade. Contudo, pelos
boxplots correspondentes aos tempos dos cinco grupos (ver Figura 2.3) no-
tamos que as mdias parecem diferir com o tipo de turbina, enquanto os
coeficientes de variao parecem variar menos do que os desvios padro. Isso
sugere que uma distribuio gama de mdias diferentes e coeficiente de vari-
ao constante pode ser apropriada para explicar o tempo mdio at a perda
da velocidade.
Vamos assumir ento que Tij segue uma distribuio gama de mdia
i e parmetro de disperso 1 . A fim de facilitarmos as interpretaes
dos resultados ou mesmo fazermos comparaes com o modelo normal li-
near, vamos propor um modelo gama com ligao identidade, sendo a parte
sistemtica dada por
i = + i ,
123
2.4 Aplicaes
em que 1 = 0. Para ajustarmos o modelo no R devemos fazer o seguinte:

turbina = scan("turbina.dat", list(tipo=0, tempo=0))
attach(turbina)
tipo = factor(tipo)
fit1.turbina = glm(tempo tipo, family=Gamma(link=identity))
summary(fit1.turbina).
As estimativas de mxima verossimilhana ficam dadas por = 10, 693 (1, 543),
2 = 4, 643 (1, 773), 3 = 2, 057 (1, 983), 4 = 0, 895 (2, 093) e 5 =
4, 013 (2, 623) indicando para o tipo II um tempo mdio de sobrevivncia
significativamente menor do que o tipo I ao nvel de 5%. Para o tipo V no-
tamos um tempo mdio maior do que o tipo I enquanto que os outros trs
tipos apresentam tempos mdios pouco diferentes do tipo I. Esses resultados
confirmam a anlise descritiva apresentada na Figura 2.3. O desvio do mo-
delo foi de D (y; ) = 8, 861 5, 804 = 51, 43, com 45 graus de liberdade,
que leva a P = 0, 236 e indica um ajuste adequado.
A estimativa de mxima verossimilhana (erro padro aproximado)
do parmetro de preciso dada por = 5, 804 (1, 129), indicando que as
distribuies dos tempos at a perda da velocidade no devem ser muito
assimtricas. Podemos tentar avaliar atravs de um teste apropriado se os
indcios observados pelas estimativas individuais das mdias so verificados
conjuntamente. Vamos, ento, tentar agrupar os tipos I, III e IV. As hipte-
ses apropriadas so dadas por H0 : 4 = 3 = 0 contra H1 : 4 6= 0 ou 3 6= 0
do grupo IV. Como relativamente alto podemos aplicar a estatstica F
dada na Seo 1.7. Sob H0 obtemos D(y; ) = 9, 091 para 47 graus de liber-
dade e sob a hiptese alternativa D(y; ) = 8, 861 para 45 graus de liberdade.
124
2.4 Aplicaes
A estatstica F fica dada por

(9, 091 8, 861)/2
F =
8, 861/45
= 0, 584,
que leva a P = 0, 562, ou seja, pela no rejeio de H0 . As novas estimativas

so dadas por = 9, 71 (0, 81), 2 = 3, 66 (1, 19) e 5 = 5, 00 (2, 27).
Obtemos = 5, 66 (1, 10) e D (y; ) = 51, 47 para 47 graus de liberdade
com P = 0, 30.
49
1.5
Distancia de Cook
1.0
47
0.5
0.0
0 10 20 30 40 50
Indice
Figura 2.4: Grfico da distncia de Cook aproximada referente ao modelo

gama ajustado ao dados sobre desempenho de turbinas de avio.
Na Figura 2.4 temos o grfico de ndices da distncia de Cook apro-

ximada. Notamos um forte destaque para a observao #49 seguida da ob-
servao # 47 que correspondem, respectivamente, aos valores 25,46 e 12,75
para o tempo at a perda da velocidade de um dos motores de tipo IV e
tipo II. O valor 25,46, como mostra o boxplot correspondente na Figura 2.3
125
2.4 Aplicaes
destoa dos demais tempos. A eliminao dessa observao aumenta a signi-

ficncia marginal de 4 , embora esse efeito continue no significativo a 10%.
No h mudanas inferenciais nos demais resultados.
O grfico normal de probabilidades com envelope para os componentes
padronizados do desvio apresentado na Figura 2.5. Notamos, pelo grfico,
que no h indcios de afastamentos srios da suposio de distribuio gama
para os tempos at a perda da velocidade dos motores, bem como para a
suposio de homogeneidade do coeficiente de variao para os cinco grupos.
A sequncia de comandos para construirmos os grficos de diagnstico e
normal de probabilidades descrita no Apndice B.
3
2
1
0
-1
-2
-3
-2 -1 0 1 2
Percentil da N(0,1)
Figura 2.5: Grfico normal de probabilidades referente ao modelo gama ajus-

tado aos dados sobre desempenho de turbinas de avio.
Portanto, podemos concluir neste exemplo que no existe diferena

significativa entre os tipos I, III e IV, enquanto os tipos II e V aparecem
126
2.4 Aplicaes
de forma significativa com o menor e maior tempo mdio at a perda da

velocidade, respectivamente.
0.004
0.003
Densidade
0.002
0.001
0.0
0 200 400 600
cpue
Figura 2.6: Densidade aproximada da cpue para todas as embarcaes.
2.4.2 Espinhel de fundo

O espinhel de fundo definido como um mtodo de pesca passivo, sendo
utilizado em todo o mundo em operaes de pesca de diferentes magnitu-
des, da pesca artesanal a modernas pescarias mecanizadas. adequado para
capturar peixes com distribuio dispersa ou com baixa densidade, alm de
ser possvel utiliz-lo em reas irregulares ou em grandes profundidades.
um dos mtodos que mais satisfazem s premissas da pesca responsvel, com
alta seletividade de espcies e comprimentos, alta qualidade do pescado, con-
sumo de energia baixo e pouco impacto sobre o fundo ocenico. No arquivo
pesca.dat esto parte dos dados de um estudo sobre a atividade das frotas
pesqueiras de espinhel de fundo baseadas em Santos e Ubatuba no litoral
127
2.4 Aplicaes
paulista (vide Paula e Oshiro, 2001). A espcie de peixe considerada o

peixe-batata pela sua importncia comercial e ampla distribuio espacial.
Uma amostra de n = 156 embarcaes foi analisada no perodo de 1995 a
1999 sendo 39 da frota de Ubatuba e 117 da frota de Santos. As vari-
veis consideradas para cada embarcao so as seguintes: frota (Santos ou
Ubatuba), ano (95 a 99), trimestre (1 ao 4), latitude1 (de 23,25o a 28,25o ),
longitude2 (de 41,25o a 50,75o ), dias de pesca, captura (quantidade de peixes
batata capturados, em kg) e cpue (captura por unidade de esforo, kg/dias
de pesca). Um dos objetivos desse estudo tentar explicar a cpue pelas vari-
veis frota, ano, trimestre, latitude e longitude. Estudos similares realizados
em outros pases verificaram que bastante razovel supor que a cpue tem
distribuio assimtrica direita, como o caso da distribuio gama (vide,
por exemplo, Goni, Alvarez e Adlerstein, 1999).
600
500
400
cpue
300
200
100
Santos Ubatuba
Frota
Figura 2.7: Boxplots da cpue segundo a frota.

1
distncia ao Equador medida ao longo do meridiano de Greenwich
2
distncia ao meridiano de Greenwich medida ao longo do Equador
128
2.4 Aplicaes
600
500
400
cpue
300
200
100
1995 1996 1997 1998 1999
Ano
Figura 2.8: Boxplots da cpue segundo o ano.
Para lermos o arquivo pesca.dat no R devemos fazer o seguinte:

pesca = source("pesca.dat", list(frota=0, ano=0, trimestre=0,
latitude=0, longitude=0, diaspesca=0, captura=0, cpue=0))
frota = factor(frota)
ano = factor(ano)
trimestre = factor(trimestre).
Antes de propormos um modelo para tentar explicar a cpue mdia pelas va-
riveis explicativas, vamos apresentar uma anlise descritiva dos dados. Na
Figura 2.6, em que temos a distribuio da cpue para todas as embarcaes,
podemos notar uma assimetria acentuada direita confirmando constata-
es de estudos anteriores. J nas Figuras 2.7, 2.8 e 2.9 so apresentados
os boxplots da cpue segundo os fatores frota, ano e trimestre. Notamos
uma superioridade da frota de Santos em relao frota de Ubatuba, porm
poucas diferenas entre os nveis dos fatores ano e trimestre, embora o ano
129
2.4 Aplicaes
600
500
400
cpue
300
200
100
1 2 3 4
Trimestre
Figura 2.9: Boxplots da cpue segundo o trimestre.
de 97 tenha uma mediana um pouco superior aos demais anos.
Frota Estatstica 95 96 97 98 99
Mdia 229,37 193,19 262,67 210,29 197,22
Santos D.Padro 148,07 132,55 153,60 122,95 103,45
C. Variao 64,55% 68,61% 58,48% 58,44% 52,45 %
n 19 8 17 27 46
Mdia 47,08 96,09 210,56 174,43 140,85

Ubatuba D. Padro 4,73 59,19 77,51 99,16 71,59
C. Variao 10,05% 61,60 % 36,81% 56,85% 50,83%
n 3 12 6 5 13
Pela Figura 2.10 notamos que a frota de Santos prefere latitudes e

longitudes maiores do que a frota de Ubatuba. Pelos diagramas de disperso
entre cpue e latitude e cpue e longitude apresentados na Figura 2.11 h
indcios de um ligeiro crescimento da cpue com a latitude, porm no est
bem definida a tendncia da cpue com a longitude.
130
2.4 Aplicaes
Na tabela dada a seguir so apresentadas as mdias, desvios padro e

coeficientes de variao amostrais para as frotas de Santos e Ubatuba refe-
rentes ao perodo 95-99.
48
28
27
46
Longitude
Latitude
26
44
25
24
42
Santos Ubatuba Santos Ubatuba
Frota Frota
Figura 2.10: Boxplots da latitude e longitude segunda a frota.

500
500
cpue
cpue
300
300
100
100
24 25 26 27 28 42 44 46 48
Latitude Longitude
(a) (b)
Figura 2.11: Diagramas de disperso da cpue contra latitude (a) e contra

longitude (b).
Portanto, a suposio de coeficiente de variao constante parece ser
131
2.4 Aplicaes
bastante razovel para a frota de Santos. Para a frota de Ubatuba as esti-

mativas de 95 e 97 destoam das demais, porm devemos levar em conta para
essa frota que as amostras so pequenas.
Como todas essas anlises so marginais, no levando em conta a pre-
sena das outras variveis, somente atravs de um modelo apropriado que
poderemos conhecer o efeito de cada varivel explicativa na presena das
demais. Definimos ento Yijk como sendo a cpue observada para a i-sima
embarcao da j-sima frota, (Santos, j = 1; Ubatuba j = 2), no k-simo
ano e -simo trimestre (k, = 1, 2, 3, 4). Vamos supor que Yijk G(ijk , )
com parte sistemtica dada por
logijk = + j + k + + 1 Latitudeijk + 2 Longitudeijk , (2.2)
em que j , k e denotam, respectivamente, os efeitos da j-sima frota, k-

simo ano e -simo trimestre. Como estaremos assumindo parametrizao
casela de referncia teremos as restries 1 = 0, 1 = 0 e 1 = 0. Temos
ainda que latitudeijk e longitudeijk denotam, respectivamente, a latitude e
longitude da i-sima embarcao da frota j no k-simo ano e trimestre .
Ajustamos aos dados o modelo gama com parte sistemtica dada por
(2.2) e aplicando o mtodo de Akaike (vide Seo 1.11.2) retiramos o fator
trimestre, permanecendo no modelo os fatores frota e ano alm das variveis
quantitativas latitude e longitude. Para ajustarmos o modelo e aplicarmos o
mtodo AIC devemos aplicar os seguintes comandos:
attach(pesca)
fit1.pesca = glm(cpue frota + ano + trimestre + latitude
+ longitude, family=Gamma)
summary(fit1.pesca)
require(MASS)
stepAIC(fit1.pesca).
132
2.4 Aplicaes
O procedimento stepAIC assume que o parmetro constante, ou seja,

no muda de um modelo para o outro. Como isso em geral no satisfeito
devemos aplicar algum procedimento alternativo a fim de confirmarmos o
modelo escolhido pelo mtodo AIC. Fizemos isso atravs da estatstica da
razo de versossimilhanas, confirmando a retirada do fator trimestre.
Tabela 2.2
Estimativas dos parmetros referentes ao modelo
gama ajustado aos dados sobre espinhel de fundo.
Latitude 0,204 2,81
Longitude -0,150 -1,97
Frota-Ubatuba -1,359 -3,68
Ano96 -0,064 -0,26
Ano97 0,141 0,74
Ano98 -0,043 -0,25
Ano99 -0,009 -0,06
FrotaUb*Ano96 0,806 1,77
3,67 9,17
O teste da razo de verossimilhanas para incluirmos a interao entre

os dois fatores que permaneceram no modelo, frota e ano, foi de RV = 14, 26
para 4 graus de liberdade e obtemos P = 0, 0065. Portanto, a interao
ser includa no modelo. As estimativas do modelo final que inclui os efeitos
principais latitude, longitude, frota e ano alm da interao entre ano e frota
so apresentadas na Tabela 2.2 e o desvio do modelo foi de D (y; ) =
162, 66 com 144 graus de liberdade e P = 0, 14, indicando um modelo bem
ajustado. Notamos que medida que aumenta a latitude aumenta a cpue,
ocorrendo tendncia contrria medida que aumenta a longitude. Logo, para
133
2.4 Aplicaes
latitudes altas e longitudes baixas (dentro dos limites amostrais), esperamos

valores maiores para a captura por unidade de esforo. Com relao a frota
e ano, como foi includa interao entre esses fatores, a interpretao das
estimativas deve ser feita com um pouco mais de cuidado. Para isso, exibimos
na Figura 2.12 os valores esperados da cpue fixando latitude e longitude
nos valores, respectivamente, 26o e 46o . Notamos pela figura que at 96 os
valores preditos para a frota de Ubatuba nessas latitude e longitude so bem
menores do que os valores preditos para a frota de Santos. Contudo, a partir
de 97 as diferenas entre os valores preditos para as duas frotas diminuem.
Os valores preditos para a frota de Santos variam pouco no perodo 95-99,
diferentemente dos valores preditos para a frota de Ubatuba.
250
200
cpue estimada
150
100
Santos
Ubatuba
50
95 96 97 98 99
Ano
Figura 2.12: Estimativas da cpue mdia para as frotas de Santos e Ubatuba

segundo o ano de operao fixando-se a latitude em 26o e a longitude em 46o
atravs do modelo gama.
134
2.4 Aplicaes
1.2
8
17
Distancia de Cook
0.8
0.8
Medida h
0.4
0.4
0.0
0.0
50 100 150 200 250 300 0 50 100 150
Valor Ajustado Indice

(a) (b)
7
2
Variavel z
6
0
5
-2
50 100 150 200 250 300 4.0 4.5 5.0 5.5
Valor Ajustado Preditor Linear

(c) (d)
Figura 2.13: Grficos de diagnstico referentes ao modelo gama ajustado aos

dados sobre espinhel de fundo.
Os grficos de diagnstico (Figura 2.13) no apresentam pontos de ala-

vanca ou aberrantes, nem indicaes de que a ligao utilizada inadequada.
Contudo, duas observaes aparecem com destaque no grfico de influncia,
as embarcaes #17 e #8. A embarcao #8 da frota de Ubatuba e ob-
teve uma cpue de 350 numa latitude de 24,25o (abaixo da latitude mdia
de 26,22o ) e longitude de 45,25o (prxima da longitude mdia de 46,28o ) no
ano de 98. J a embarcao #17 da frota de Santos, obteve uma cpue
de 450 numa latitude de 24,75o e longitude de 46,25o no ano de 99. Ambas
embarcaes alcanaram cpues bastante altas em latitudes relativamente bai-
xas, contrastando com a tendncia apresentada pelo modelo. A eliminao
135
2.4 Aplicaes
das embarcaes individualmente e em conjunto altera algumas estimati-

vas porm no muda as concluses inferenciais. Todos os efeitos continuam
marginalmente significativos ao nvel de 10%. O grfico normal de probabi-
lidades com envelope gerado (Figura 2.14) no apresenta indcios de que a
distribuio gama seja inadequada para explicar a cpue.
2
0
-2
-4
-2 -1 0 1 2
Percentil da N(0,1)
Figura 2.14: Grfico normal de probabilidades referente ao modelo gama

ajustado aos dados sobre espinhel de fundo.
2.4.3 Aplicao em seguros

A fim de ilustrarmos uma aplicao na rea de seguros, vamos considerar
parte dos dados descritos em de Jong e Heller (2008, pgs. 14-15) referentes aos
valores pagos de seguros individuais (em dlares australianos) por danos com
acidentes pessoais no perodo de julho de 1989 a junho de 1999. As anlises
136
2.4 Aplicaes
sero restritas ao perodo de janeiro de 1998 a junho de 1999, um total de

769 seguros pagos. Alm do valor pago ao segurado sero consideradas as
seguintes variveis explicativas: legrep, representao legal (0: no, 1: sim)
e optime, tempo operacional para pagamento do seguro. Essa ltima varivel
assume valores no intervalo (0, 100) e por exemplo um valor 23 significa que
23% dos seguros foram pagos antes do seguro em anlise. Como estamos
considerando apenas parte dos dados (referentes aos ltimos 18 meses), os
valores de optime iro variar de 0,1 a 31,9. O subconjunto de dados analisado
est descrito no arquivo insurance.dat.
10
10
log(Valor do Seguro)
log(Valor do Seguro)
8
8
6
6
4
0 5 10 15 20 25 30 0 5 10 15 20 25 30
Tempo Operacional Tempo Operacional

(a) (b)
Figura 2.15: Diagrama de disperso entre o valor pago de seguro e o tempo

operacional para os grupos sem representao legal (a) e com representao
legal (b).
Na Figura 2.15 temos o diagrama de disperso entre o logaritmo do

valor pago e o tempo operacional para os grupos sem representao legal
137
2.4 Aplicaes
(Figura 2.15a) e com representao legal (Figura 2.15b) e as tendncias ajus-

tadas de forma no paramtrica. Notamos pela Figura 2.15a um crescimento
aproximadamente quadrtico do logaritmo do valor pago com o tempo opera-
cional, contudo a variablidade parece ser maior para valores baixos do tempo
operacional. J para os indivduos com representao legal (Figura 2.15b),
notamos que o logaritmo do valor pago cresce linearmente com o tempo ope-
racional enquanto a variabilidade se mantm aproximadamente constante.
Notamos tambm que os valores pagos de seguro so em geral maiores para
o grupo com representao legal.
0.00012
0.00012
0.00008
0.00008
Densidade
Densidade
0.00004
0.00004
0.00000
0.00000
0 20000 50000 0 40000 100000
Valor do Seguro Valor do Seguro

(a) (b)
Figura 2.16: Distribuio do valor do seguro para os grupos sem representa-

o legal (a) e com representao legal (b).
Na Figura 2.16 temos a distribuio aproximada do valor pago de se-
138
2.4 Aplicaes
guro para os dois grupos, sem representao legal (Figrua 2.16a) e com re-
presentao legal (Figura 2.16b). Em ambos os grficos podemos notar que a
distribuio fortemente assimtrica direita, sugerindo distribuies gama
ou normal inversa para explicar o valor pago de seguro.
Vamos denotar por Yij o valor pago de seguro para o j-simo indivduo
do i-simo grupo (i = 0, sem representao legal e i = 1 com representao
legal) e j = 1, . . . , ni sendo n0 = 227 e n1 = 542. Conforme sugerido pelas
Figuras 2.16a e 2.16b assumiremos inicialmente Yij G(ij , i ) tais que
log0j = 0 + 10 optimej + 20 optime2j e

log1j = 1 + 11 optimej .
Tabela 2.3
aos modelos com resposta gama ajustados
aos dados sobre seguro.
0 7,223 44,13
10 0,204 6,72
20 -0,005 -5,08
0 0,78 12,55
1 8,805 140,50
11 0,023 5,48
1 2,22 17,66
As estimativas dos modelos propostos, que foram ajustados separa-

damente, so descritas na Tabela 2.3. Notamos pelas estimativas que as
tendncias observadas nas Figuras 2.15a e 2.15b foram confirmadas de forma
significativa. Contudo, pelos grficos normais de probabilidades (Figura 2.17)
notamos indcios de afastamentos da distribuio gama para o valor pago de
seguro, principalmente para o grupo com representao legal. Para o grupo
139
2.4 Aplicaes
sem representao legal notamos que os menores valores do seguro foram

superestimados pelo modelo. Os desvios dos dois modelos foram, respectiva-
mente, de D (y; ) = 270, 43 com 224 graus de liberdade e D (y; ) = 581, 72
com 540 graus de liberdade. Embora as estimativas de 0 e 1 sejam relati-
vamente pequenas, h indcios pelos valores dos desvios que os modelos no
esto bem ajustados.
4
2
2
0
0
-2
-2
-4
-4
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

(a) (b)
Figura 2.17: Grfico normal de probabilidades para os modelos com resposta

gama ajustados aos dados de seguro para os grupos sem representao legal
(a) e com representaa legal (b).
Analisando os grficos da distncia de Cook (Figura 2.18a) e resduo

componente do desvio contra os valores ajustados (Figrua 2.18b) apenas para
o grupo sem representao legal, notamos que no h indcios de observaes
aberrantes, contudo algumas observaes aparecem como possivelmente in-
fluentes. Essas observaes em geral correspondem a valores altos para o
140
2.4 Aplicaes
valor pago de seguro. A eliminao das 10 observaes com mais detaque

na Figura 2.18a no muda a inferncia, todos os coeficientes continuam alta-
mente significativos, porm a estimativa de 10 aumenta quase 20%.
42
0.3
2
Distancia de Cook
0.2
46
221
207
0
30
203
173
88 227
0.1
99
-2
0.0
-4
0 50 100 150 200 2000 4000 6000 8000 10000

(a) (b)
Figura 2.18: Grficos de diagnstico para o modelo com resposta gama ajus-
tado aos dados de seguro para o grupo sem representao legal.
Para o grupo com representao legal a utilizao de outras ligaes ou

mesmo outras distribuies so alternativas a fim de tentarmos melhorar a
qualidade do ajuste. Paula et al. (2012) comparam ajustes de modelos com
resposta gama com modelos com resposta log-Birnbaum-Saunders (log-BS)
e log-Birnbaum-Saunders-t (log-BS-t) para explicar o valor pago de seguro
para o grupo com representao legal, obtendo um ajuste satisfatrio com
os modelos log-BS-t. Essa distribuio acomoda melhor as observaes aber-
rantes que correspondem a valores altos de seguro.
141
2.5 Elasticidade
2.5 Elasticidade
O modelo log-linear com resposta gama pode ser utilizado para a estima-
o da elasticidade entre a demanda de um produto e seu preo unitrio.
Como ilustrao, vamos supor que Y denota a demanda e X o preo unit-
rio. usual em Econometria (ver, por exemplo, Gujarati, 2006, Seo 6.4)
assumirmos que
Y = 1 x2 eu , (2.3)
sendo u um erro aleatrio, em geral assumido N(0, 2 ). Isso implica em eu

2 /2 2 2
seguir distribuio log-normal de mdia e e varincia e (e 1). Em
vez de uma log-normal podemos assumir, alternativamente, eu G(1, ).
Assim, teremos que a mdia de Y dado x fica dada por
(x) = 1 x2 ,
ou seja log(x) = log1 + 2 logx, um MLG com resposta gama e ligao

logartmica.
Para entendermos a elasticidade entre a demanda e o preo do produto,
vamos supor que o preo aumente r 100% de modo que o novo preo seja
dado por xN = (1 + r)x, para 0 < r < 1. O novo valor esperado para a
demanda fica dado por
(xN ) = 1 xN2
e a razo entre as demandas mdias assume a forma

(xN )
= e2 log(1+r)
(x)
= (1 + r)2 .
Para r pequeno temos a aproximao

(xN )
= (1 + r2 ),
(x)
142
2.5 Elasticidade
de modo que se o preo aumentar 1% (r = 0, 01) a demanda aumenta 2 %,

ou seja,
(xN ) 2
= 1+ .
(x) 100
O parmetro 2 conhecido como elasticidade entre a demanda e o preo do
produto.
2.5.1 Modelo de Cobb-Douglas

O modelo (2.3) pode ser estendido para duas ou mais variveis explicativas
as quais podero representar outros tipos de preo ou mesmo algum tipo
de insumo. Em particular, o modelo de Cobb-Douglas (ver, por exemplo,
Gujarati, Exemplo 7.3) considera a seguinte equao para explicar a demanda
de um produto pelos insumos de mo de obra e capital:
Y = 1 x2 2 x3 3 eu , (2.4)
em que Y denota a demanda, x2 o valor do insumo de mo de obra, x3 o

valor do insumo de capital e u o erro aleatrio. Para x3 fixado (x2 fixado) o
parmetro 2 (3 ) mede a elasticidade parcial entre a demanda e o insumo
de mo de obra (capital). A soma 2 + 3 mede os retornos de escala, ou seja,
se 2 + 3 = 1 significa que os retornos so proporcionais, dobrando o uso
de insumos a demanda esperada aumenta duas vezes, triplicando os insumos
h aumento de trs vezes para a demanda esperada, e assim por diante.
Se 2 + 3 < 1 os retornos de escala sero menores, dobrando os insumos
esperamos demanda menor do que o dobro, e se 2 + 3 > 1 os retornos
de escala sero maiores, dobrando os insumos esperamos que a demanda
aumente mais que duas vezes.
Para mostrarmos esses resultados suponha que os novos insumos de
mo de obra e de capital sejam dados por x1N = rx1 e x2N = rx2 , ou seja,
143
2.5 Elasticidade
aumentam r vezes. Assim, a nova demanda esperada ser dada por
(x1N , x2N ) = 1 (rx2 )2 (rx3 )3

= r(2 +3 ) 1 x2 2 x3 3
= r2 +3 (x1 , x2 ),
em que (x1 , x2 ) a demanda esperada inicial. Logo, se 2 + 3 = 1 ento

(x1N , x2N ) = r(x1 , x2 ), ou seja, a demanda esperada aumenta r vezes. Por
outro lado, se 2 + 3 < 1 teremos que (x1N , x2N ) < r(x1 , x2 ), ou seja, a
demanda esperada aumenta menos que r vezes e se 2 + 3 > 1 teremos que
a demanda esperada aumenta mais que r vezes, (x1N , x2N ) > r(x1 , x2 ).
Obviamente que existem vrias distribuies candidatas para explicar
eu , sendo as distribuies gama e normal inversa as candidatas naturais na
classe dos MLGs. Podemos tambm assumir que logu tenha distribuio nor-
mal. Contudo, somente atravs de uma anlise de diagnstico que podemos
avaliar a adequao de cada distribuio.
2.5.2 Aplicao
Como ilustrao vamos considerar um experimento aleatorizado descrito em
Griffiths, Hill e Judge (1993, Seo 11.8.1c) em que a produtividade de milho
(libras/acre) estudada segundo vrias combinaes de nitrognio e fosfato
(40, 80, 120, 160, 200, 240, 280 e 320 libras/acre). Os dados esto descritos
no arquivo milho.dat. Nas Figuras 2.19a e 2.19b temos os diagramas de
disperso entre a produtividade de milho e as quantidades de nitrognio e
fosfato, respectivamente, e conforme podemos notar nessas figuras h indcios
de uma tendncia crescente da produtividade com o aumento dos insumos.
Notamos tambm um aumento da variabilidade com o aumento das quanti-
dades de nitrognio e fostato, sugerindo que a suposio de distribuio gama
144
2.5 Elasticidade
ou normal inversa para logu no modelo de Cobb-Douglas pode levar a um

ajuste adequado.
Denotaremos por Yi a produtividade de milho dada a combinao
(x1i , x2i ) de nitrognio e fosfato correspondente i-sima condio experi-
mental (i = 1, . . . , 30). Vamos ento supor que Yi G(i , ) com parte
sistemtica dada por logi = + 1 logx1i + 2 logx2i .
120
120
100
100
Produtividade
Produtividade
80
80
60
60
40
40
50 100 150 200 250 300 50 100 150 200 250 300
Nitrogenio Fosfato
(a) (b)
Figura 2.19: Diagramas de disperso entre a quantidade de nitrognio e a

produtividade de milho (a) e a quantidade de fosfato e a produtividade de
milho (b).
As estimativas so descritas na Tabela 2.4, e como podemos notar os

coeficientes so altamente significativos, confirmando as tendncias observa-
das na Figura 2.19. Na Figura 2.20a temos o grfico normal de probabilidades
que no apresenta observaes aberrantes nem indcios de afastamentos da
distribuio assumida para os erros. Pelo grfico da distncia de Cook (Fi-
145
2.6 Distribuio normal inversa
gura 2.20b) a observao #1 aparece com mais destaque. Reajustando o

modelo sem essa observao notamos variaes importantes nas estimativas
dos coeficientes 1 e 2 , respectivamente. Porm a inferncia no muda, es-
ses coeficientes continuam sendo altamente significativos. A estimativa de
sugere que a suposio de distribuio log-normal para os erros tambm
pode levar a um ajuste adequado, embora o modelo gama contemple a pos-
sibilidade de heteroscedasticidade.
Tabela 2.4
Estimativas dos parmetros referentes ao
modelo de Cobb-Douglas ajustado ao dados
sobre produtividade de milho.
0,469 1,67
1 0,350 8,30
2 0,410 10,07
46,59 11,99
A fim de verificarmos como ocorrem os retornos de produtividade de

milho com as aplicaes de fosfato e nitrognio vamos encontrar uma estima-
tiva intervalar para 1 + 2 . Temos que Var(1 + 2 ) = 0, 003143, assim uma
estimativa intervalar de coeficiente de confiana de 95% fica dada por [0,35

+ 0,41 + 1,96* 0, 003143] = [0,52; 0,87] que no cobre o valor 1,0. Por-
tanto, dobrando as aplicaes de insumos de nitrognio e fosfato os retornos
esperados de produtividade devem aumentar menos do que duas vezes.
Vamos supor que Y uma varivel aleatria com distribuio normal inversa
de mdia e parmetro de disperso 1 , denotamos Y NI(, ), cuja
146
1.0
1
3
2
0.8
Distancia de Cook
1
0.6
0
0.4
-1
-2
0.2
-3
0.0
-2 -1 0 1 2 0 5 10 15 20 25 30
Percentil da N(0,1) Indice

(a) (b)
Figura 2.20: Grfico normal de probabilidades (a) e distncia de Cook (b)

referentes ao modelo de Cobb-Douglas ajustado aos dados do experimento
sobre produtividade de milho.
funo densidade expressa na forma

1/2 (y )2
f (y; , ) = p exp
2y 3 22 y

y 1 1 3
= exp 2 + log(2y /) + ,
2 2 y
em que y > 0, > 0. Na Figura 2.21 temos a densidade da distribuio
normal inversa variando o parmetro de preciso para fixado. Notamos
que medida que aumenta a distribuio normal inversa fica mais sim-
trica em torno da mdia. Podemos mostrar que medida que aumenta
Y se aproxima de uma distribuio normal de mdia e varincia 3 1 .
Similarmente distribuio gama, a normal inversa torna-se atrativa para
o estudo de variveis aleatrias assimtricas e tambm simtricas em que a
varincia depende de forma cbica da mdia. Uma discusso sobre as su-
147
posies tericas para a construo da distribuio normal inversa pode ser

encontrada, por exemplo, em Leiva, Barros e Paula (2009, Cap. 2).
0.0 0.1 0.2 0.3 0.4 0.5

0.6
0.4
=1 =2 =3
0.4
f(x)
f(x)
f(x)
0.2
0.2
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6
x x x
0.5
0.4
0.4
=6
0.4
=4 = 10
0.3
f(x)
f(x)
f(x)
0.2
0.2
0.2
0.1
0.0
0.0
0.0
0 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6
x x x
Figura 2.21: Densidades da distribuio normal inversa para alguns valores

do parmetro de disperso e supondo = 2.
A funo de sobrevivncia da distribuio normal inversa de mdia

e parmetro de disperso 1 (ver, por exemplo, Collett, 2003, pp. 198-199)
dada por
p p
S(t) = {(1 t1 ) t1 exp(2/){(1 + t1 ) t1 }.
A funo de risco dada por h(t) = f (t)/S(t) em que f (y) denota a funo
densidade da NI(, ).
148
2.7 Modelos com resposta normal inversa
2.7 Modelos com resposta normal inversa
Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi NI(i , ).

Estamos assumindo que essas variveis possuem mdias diferentes e mesma
disperso 1 . Ademais, vamos supor g(i ) = i em que i = xTi com xi =
(xi1 , . . . , xip )T contendo valores de variveis explicativas e = (1 , . . . , p )T
sendo o vetor de parmetros de interesse. As ligaes mais usadas no caso
normal inversa so identidade (i = i ), logartmica (logi = i ) e recproca
quadrtica (i = i2 ), esta ltima sendo a ligao cannica.

Como foi visto na Seo 1.4 o desvio de um modelo com resposta normal
inversa dado por D (y; ) = D(y; ) em que
n
X
D(y; ) = (yi i )2 /(yi 2i ), (2.5)
i=1
com i = g 1 (i ), i = xTi e yi > 0. Como desconhecido devemos

estim-lo, por exemplo atravs de mxima verossimilhana, cuja soluo
dada por = n/D (y; ). Supondo que o modelo postulado est correto
temos, para grande, que o desvio D (y; ) segue distribuio qui-quadrado
com (n p) graus de liberdade. Assim, valores altos para o desvio podem
indicar inadequao do modelo ou falta de ajuste.

O resduo componente do desvio padronizado para os modelos com resposta
normal inversa assumem a forma

2 (yi i )
t Di =p ,
1 hii i yi
149
2.8 Aplicaes
em que yi > 0 e hii o i-simo elemento da diagonal principal da matriz

H = W1/2 X(XT WX)1 XT W1/2 com i = (di /di )2 /3i . Na expresso
para tDi no caso da distribuio normal inversa o sinal do resduo o mesmo
de (yi i ). Estudos de simulao indicam que o resduo tDi se aproxima da
distribuio normal, particularmente para grande.
Similarmente aos modelos com resposta gama podemos obter uma ex-
presso aproximada para a distncia de Cook quando a i-sima observao
excluda. Essa expresso fica dada por
hii (yi i )2
LDi = .
(1 hii )2 2i
Aqui tambm so sugeridos grficos de tDi e hii contra os valores ajustados

i e grficos de ndices de LDi .
2.8 Aplicaes
2.8.1 Comparao de cinco tipos de snack

Vamos considerar nesta seo parte dos dados de um experimento desenvol-
vido no Departamento de Nutrio da Faculdade de Sade Pblica da USP
em que 5 formas diferentes de um novo tipo de snack, com baixo teor de
gordura saturada e de cidos graxos, foram comparados ao longo de 20 se-
manas. Neste novo produto a gordura vegetal hidrogenada, responsvel pela
fixao do aroma do produto, foi substituda, totalmente ou parcialmente,
por leo de canola. As formas so as seguintes: A (22% de gordura, 0%
de leo de canola), B (0% de gordura, 22% de leo de canola), C (17% de
gordura, 5% de leo de canola), D (11% de gordura, 11% de leo de canola)
e E (5% de gordura, 17% de leo de canola). O experimento foi conduzido
de modo que nas semanas pares 15 embalagens de cada um dos produtos A,
150
2.8 Aplicaes
B, C, D e E fossem analisadas em laboratrio e observadas diversas variveis

(ver Paula, de Moura e Yamaguchi, 2004). Em particular, vamos estudar o
comportamento da textura dos produtos atravs da fora necessria para o
cisalhamento. Os dados referentes a esta varivel esto disponveis no arquivo
snack.dat.
Para lermos o arquivo snack.dat no R devemos fazer o seguinte:
snack = source("snack.dat", list(cisalhamento=0, grupo=0,
semana=0))
grupo = factor(grupo).
120
100
Cisalhamento
80
60
40
A B C D E
Grupo
Figura 2.22: Boxplots da fora de cisalhamento segundo o grupo e para

todas as semanas.
Notamos pela Figura 2.22, em que so apresentados os boxplots da

fora de cisalhamento segundo o grupo e para todas as semanas, que os
grupos A e C possuem os maiores valores, enquanto o grupo C tem valores
151
2.8 Aplicaes
intermedirios e os grupos D e E tm os menores valores. Nota-se uma

assimetria direita na distribuio da fora de cisalhamento para todos os
grupos. Esssas tendncias so confirmadas pela tabela dada a seguir em que
so apresentadas as mdias, desvio padro e coeficiente de variao para a
fora de cisalhamento para cada grupo.
Estatstica Grupo A Grupo B Grupo C Grupo D Grupo E

Mdia 66,201 55,294 61,632 51,027 50,257
D.Padro 18,707 13,143 19,601 10,960 11,402
C. Variao 28,20% 23,80% 31,80% 21,50% 22,70%
120
100
Cisalhamento
80
60
40
2 4 6 8 10 12 14 16 18 20
Semanas
Figura 2.23: Boxplots da fora de cisalhamento segundo a semana e para

todos os grupos.
J na Figura 2.23, em que so apresentados os boxplots para todos os

grupos ao longo das 20 semanas, uma tendncia crescente observada at a
152
2.8 Aplicaes
14a semana seguida de um decrescimento at a ltima semana. Verificamos

tambm, para cada semana, que a distribuio da fora de cisalhamento
mostra-se assimtrica direita sugerindo uma distribuio gama ou normal
inversa. Esssas tendncias so confirmadas pelo grfico de perfis para a fora
de cisalhamento (vide Figura 2.24) e pela tabela dada a seguir em que so
apresentadas as mdias, desvio padro e coeficiente de variao para a fora
de cisalhamento para cada semana.
Estatstica Semana 2 Semana 4 Semana 6 Semana 8 Semana 10

Mdia 50,95 44,66 50,08 55,57 60,15
D.Padro 13,12 9,76 15,97 16,28 14,72
C. Variao 25,80% 21,90% 31,90% 29,30% 24,50%
Estatstica Semana 12 Semana 14 Semana 16 Semana 18 Semana 20

Mdia 57,84 71,57 65,18 60,37 52,45
D.Padro 13,61 20,17 16,95 10,25 12,58
C. Variao 23,50% 28,20% 26,00% 17,00% 24,00%
Assim, denotaremos por Yijk a fora de cisalhamento referente k-

sima rplica do i-simo grupo na j-sima semana, para k = 1, . . . , 15, j =
2, 4, 6, . . . , 20 e i =1(A),2(B),3(C),4(D) e E(5). A fim de compararmos as
duas distribuies assimtricas vamos supor que Yijk G(ij , ) e Yijk
NI(ij , ) com parte sistemtica dada por
ij = + i + 1 semanaj + 2 semana2j , (2.6)
em que 1 = 0. Portanto o efeito da forma A, controlando pela semana,

e + i (i=2,3,4,5) so os efeitos das demais formas B, C, D e E, respecti-
vamente. Estamos supondo a mesma tendncia para os cinco tipos de snack.
Alternativamente poderamos incluir interao entre grupo e semana, possi-
bilitando o ajuste de tendncias separadas para cada grupo.
153
2.8 Aplicaes
A
B
80
C
D
E
70
Cisalhamento
60
50
40
5 10 15 20
Semanas
Figura 2.24: Perfis da fora de cisalhamento segundo as semanas e os grupos.
Para ajustarmos o modelo (2.6) com resposta normal inversa sem in-
terao devemos fazer o seguinte:
s1 = semana
s2 = s1*s1
fit1.snack = glm(cisalhamento grupo + s1 + s2,
family=inverse.gaussian(link=identity))
summary(fit1.snack).
Abaixo seguem os comandos para o ajuste com interao
fit2.snack = glm(cisalhamento grupo + s1 + s2 + s1*grupo
+s2*grupo, family=inverse.gaussian(link=identity))
Este um exemplo em que h uma ligeira superioridade da distribuio
normal inversa em relao distribuio gama. Embora a funo de varincia
154
2.8 Aplicaes
da normal inversa seja cbica enquanto para a gama temos funo de varin-
cia quadrtica, nem sempre possvel diferenciarmos de forma clara os dois
ajustes. Notamos pela Figura 2.25 que o grfico de resduos de Pearson con-
tra os valores ajustados apresenta uma tendncia sistemtica crescente sob
o modelo gama, que amenizada sob o modelo com erros normal inversa.
Os dois modelos ajustam-se muito bem aos dados como podemos notar pelo
valor do desvio do modelo gama D (y; ) = 756, 87 (753 g.l.) com P=0,35
e pelo grfico normal de probabilidades para o modelo com resposta normal
inversa apresentado na Figura 2.26.
4
4
3
3
2
2
Residuo de Pearson
Residuo de Pearson
1
1
0
0
1
1
2
40 45 50 55 60 65 70 40 45 50 55 60 65 70
Valor Ajustado Valor Ajustado

(a) (b)
Figura 2.25: Grficos do resduo de Pearson contra os valores ajustados refe-

rentes aos modelos gama (a) e normal inversa (b) ajustados aos dados sobre
snacks .
Na Tabela 2.5 so apresentadas as estimativas sob o modelo com res-

posta normal inversa. Todos os efeitos so altamente significativos, em par-
ticular o efeito de semana na forma quadrtica. Controlando esse efeito, a
maior fora mdia de cisalhamento ocorre com o produto sob a forma A (au-
155
2.8 Aplicaes
sncia de leo de canola) e a menor fora mdia de cisalhamento ocorre com

as formas D e E, confirmando-se as tendncias observadas na Figura 2.22.
4
2
0
2
4
3 2 1 0 1 2 3
Percentil da N(0,1)
Figura 2.26: Grfico normal de probabilidades referente ao modelo com res-

posta normal inversa ajustado aos dados sobre snacks.
Na Figura 2.27 temos os valores preditos para os 5 grupos ao longo

das 20 semanas. A estimativa do parmetro de preciso indica que a distri-
buio da fora de cisalhamento em cada grupo, fixando o tempo, apro-
ximadamente normal. Contudo, a varincia depende da mdia. A forma
cbica para a varincia mostrou-se ligeiramente superior forma quadrtica.
Outras formas para ajustarmos a varincia podem ser testadas, como por
exemplo, atravs de modelos de quase-verossimilhana que sero discutidos
no Captulo 5. O paralelismo entre as curvas apresentadas na Figura 2.27
devido no incluso de interao entre semana e grupo. Alternativa-
mente, poderamos incluir uma funo para cada grupo, ou ento, o efeito
156
2.8 Aplicaes
semana poderia ser controlado atravs de funes no paramtricas (ver, por

exemplo, Wood, 2006).
Tabela 2.5
Estimativas dos parmetros referentes ao
modelo com resposta normal inversa
ajustado aos dados sobre snacks.
Grupo B -10,916 -6,41
Grupo C -5,459 -3,03
Grupo D -15,357 -9,42
Grupo E -16,596 -10,30
Semana 2,727 8,18
2
Semana -0,091 -5,90
1005 -
Algumas observaes foram detectadas como possivelmente influentes

(vide Figura 2.28): #2 (2a semana, grupoB), #8 (2a semana, grupo B), #10
(2a semana, grupo B), #311 (2a semana, grupo C), #465 (2a semana, grupo
D) e #744 (ltima semana, grupo E). Embora os valores preditos para a
fora de cisalhamento dessas amostras estejam abaixo da mdia, os valores
observados so em geral altos quando comparados com os valores dos grupos e
das semanas correspondentes. Tambm o fato de 5 dessas observaes terem
ocorrido logo na segunda semana pode ser um indcio de alguma dificuldade
inicial com o experimento. A eliminao dessas 6 observaes do total de
744 observaes leva a algumas variaes desproporcioanis. Por exemplo, as
estimativas dos efeitos dos grupos B e C diminuem por volta de 8%. Todavia,
no ocorrem mudanas inferenciais importantes.
157
2.8 Aplicaes
70
60
Valor Predito
50
A
B
C
40
D
E
5 10 15 20
Semanas
Figura 2.27: Valores preditos para a fora mdia de cisalhamento para as 5

formas de snacks atravs do modelo com resposta normal inversa.
2.8.2 Projeo de vendas

Whitmore (1986) (ver tambm Faraway, 2006, Cap. 7) apresenta um con-
junto de dados em que o valor verdadeiro para as vendas relacionado com
o valor projetado para as vendas de 20 produtos. Os dados esto descritos
na Tabela 2.6. Como as vendas tendem a ter uma variablidade maior para
valores mais altos e os dados so positivos, a suposio de erros normais com
varincia constante no parece ser razovel. Whitmore (1986) sugere uma
distribuio normal inversa para a resposta Yi que denota o total de vendas
reais para o i-simo produto e que i = E(Yi ) relacionada com xi , o i-simo
valor projetado, de forma linear i = xi , ou seja, uma regresso linear pas-
sando pela origem. O diagrama de disperso dos dados descrito na Figura
2.29, juntamente com as retas ajustadas sob erros gama e normal inversa.
Notamos que as retas ajustadas so similares.
158
2.8 Aplicaes
0.20
10
744
0.15
Distancia de Cook 465 2
8
311
0.10
0.05
0.00
40 45 50 55 60 65 70
Valor Ajustado
Figura 2.28: Grfico da distncia de Cook contra os valores ajustados re-

ferente ao modelo com resposta normal inversa ajustado aos dados sobre
snacks.
Tabela 2.6
Vendas projetadas e reais de
vrios produtos.
Projetada Real Projetada Real
5959 5673 527 487
3534 3659 353 463
2641 2565 331 225
1965 2182 290 257
1738 1839 253 311
1182 1236 193 212
667 918 156 166
613 902 133 123
610 756 122 198
549 500 114 99
Como podemos notar pelos grficos do resduo de Pearson contra os

valores ajustados (Figura 2.30) os dois ajustes no parecem adequados, em-
159
2.9 Modelagem simultnea da mdia e da disperso
5000
4000
Vendas Reais
3000
2000
1000
Gama
N.Inversa
0
0 1000 2000 3000 4000 5000 6000
Vendas Projetadas
Figura 2.29: Modelos ajustados aos dados sobre vendas projetadas sob erros
gama e normal inversa.
bora a suposio de erros gama seja mais razovel do que normal inversa. Por
exemplo, as estimativas para o modelo gama so dadas por = 1, 089(0, 051)
e = 24, 94(7, 83). Assim, notamos pela estimativa de que o total proje-
tado de vendas um bom preditor do total real vendido e a estimativa de
indica que a distribuio do total real de vendas (dado o total projetado)
pode ser aproximada por uma normal heteroscedstica.
Eventualmente o coeficiente de variao pode no ser constante variando com

as observaes. Smyth (1989) introduziu os modelos lineares generalizados
duplos com modelagem conjunta da mdia e do parmetro de preciso (ou
disperso) e desenvolveu um processo de estimao baseado no mtodo de
mxima verossimilhana que descreveremos a seguir. Contudo, outros m-
160
4
3
3
2
2
Residuo de Pearson
Residuo de Pearson
1
1
0
0
1
1
2
2
3
0 1000 3000 5000 0 1000 3000 5000

(a) (b)
Figura 2.30: Grficos do resduo de Pearson contra os valores ajustados re-

ferentes aos modelos com resposta gama (a) e normal inversa (b) ajustados
aos dados sobre vendas projetadas.
todos alternativos de estimao, tais como mxima verossimilhana restrita,

foram propostos mais recentemente com o intuito de reduzir o vis das es-
timativas de mxima verossimilhana, particularmente dos coeficientes do
componente de disperso. Uma discusso a respeito desses mtodos pode ser
encontrada em Smyth, Huela e Verbyla (2001).
A fim de formalizarmos os MLGs duplos vamos supor que Y1 , . . . , Yn
so variveis aleatrias independentes com funo densidade ou funo de
probabilidades expressa na forma
f (y; i , i ) = exp[i {yi b(i )} + c(y, i )],
em que c(y, i ) = d(i ) + i a(y) + u(y). Essa decomposio, como vimos

na Seo 1.7.2, vale somente para as distribuies normal, normal inversa e
161
gama da famlia exponencial. Alm disso, vamos supor que
g(i ) = i = xTi e h(i ) = i = zTi ,
em que xi = (xi1 , . . . , xip )T e zi = (zi1 , . . . , ziq )T contm valores de variveis

explicativas e = (1 , . . . , p )T e = (1 , . . . , q )T so os parmetros a
serem estimados.
Seja = ( T , T )T , ento o logaritmo da funo de verossimilhana
fica dado por
n
X
L() = [i {yi i b(i )} + d(i ) + i a(yi ) + u(yi )]
i=1
n
X
= {i ti + d(i ) + u(yi )}, (2.7)
i=1
em que ti = yi i b(i ) + a(yi ). Portanto, se i for fixado a expresso (2.7)

coincide com o logaritmo da funo de verossimilhana de um modelo da
famlia exponencial com respostas independentes T1 , . . . , Tn (valores obser-
vados t1 , . . . , tn ), parmetros cannicos 1 , . . . , n e parmetro de disperso
igual a 1. Pelas propriedades da famlia exponencial segue que
Ti = E(Ti ) = d (i ) e Var(Ti ) = d (i ).
Essas quantidades so descritas na Tabela 2.7 para as distribuies normal,

normal inversa e gama. Os resultados acima podem ser obtidos, alterna-
tivamente, aplicando-se condies usuais de regularidade no logaritmo da
verossimilhana dado em (2.7).
Conforme observado por Verbyla (1989) para as distribuies normal
e normal inversa se chamarmos Di = 2Ti (i = 1, . . . , n) segue que
E2 (Di )
E(Di ) = 1
i e Var(Di ) = ,

162
em que = 12 . Portanto, a expresso (2.7) pode ser interpretada para os

modelos com resposta normal e normal inversa como um MLG de respostas
independentes D1 , . . . , Dn com distribuio gama de mdias 1 1
1 , . . . , n ,
respectivamente, e parmetro de disperso 1 = 2. Assim, para i fixado,

os parmetros da disperso podem ser estimados alternativamente atravs
de um MLG com respostas independentes gama, funo de ligao h() e
parmetro de disperso igual a 2.
Tabela 2.7
Derivao de algumas quantidades para distribuies da famlia exponencial.
Normal Normal inversa Gama
ti yi i 12 (2i + yi2 ) {yi /22i 1i + (2y i ) 1
} log(y i / i ) yi /i
1 1
d() 2
log 2
log log log()
d () (2)1 (2)1 (1 + log) ()
d () -(22 )1 -(22 )1 1 ()
2.9.1 Estimao
A funo escore e a matriz de informao de Fisher para podem ser obtidas
facilmente seguindo os passos da Seo 1.5.1. Assim, obtemos
U = XT W1/2 V1/2 (y ) e
K = XT WX,
em que X uma matriz np de linhas xTi (i = 1, . . . , n), W = diag{1 , . . . , n }

com pesos i = (di /di )2 /Vi , V = diag{V1 , . . . , Vn }, = diag{1 , . . . , n },
y = (y1 , . . . , yn )T e = (1 , . . . , n )T .
163
Para obtermos a funo escore para o parmetro , calculamos inici-

almente a derivada
n
X
di i di i
L()/j = ti + d (i )
i=1
di j di j
n
X
1 1
=
zij ti + d (i ) zij
i=1
h (i ) h (i )
Xn
zij
= {ti + d (i )},
i=1
h (i )
em que h (i ) = di /di . Portanto, em forma matricial obtemos
U = ZT H1
(t T ),
em que H = diag{h (1 ), . . . , h (n )}, t = (t1 , . . . , tn )T e T = (E(T1 ), . . . , E(Tn ))T

= (d (1 ), . . . , d (n ))T .
Para obtermos a matriz de informao de Fisher para o parmetro
precisamos das derivadas
n
X
2 zij di di
L()/j = ( )}2
d (i )h(i ) zi h (i ){ti + d (i )} zi
i=1
{h i d i d i
Xn
zij zi h (i )
= d (i ) {ti + d (i )}
i=1
{h (i )}2 h (i )
e cujos valores esperados ficam dados por

2 X n
L() d (i )
E = zij zi .
j i=1
{h (i )}2
Logo, em forma matricial obtemos
K = ZT PZ,
em que P = V H2
, V = diag{d (1 ), . . . , d (n )}. Devido ortogona-
lidade entre os parmetros i e i , segue diretamente a ortogonalidade entre
164
e . Assim, a matriz de informao de Fisher para bloco diagonal

K = diag{K , K }.
Similarmente aos MLGs podemos desenvolver um processo iterativo
escore de Fisher para encontrar as estimativas de mxima verossimilhana
e . Aps algumas manipulaes algbricas obtemos o proceso iterativo
(m+1) = (XT (m) W(m) X)1 XT (m) W(m) y(m) e (2.8)

(m+1) = (ZT P(m) Z)1 ZT P(m) z(m) , (2.9)
em que y = X + W1/2 V1/2 (y ), z = Z + V1 H (t T ) e

m = 0, 1, 2, . . . .. Conforme mencionado por Smyth (1989) o processo ite-
rativo (2.8)-(2.9) pode ser resolvido alternando-se as duas equaes at a
convergncia. Pode-se iniciar o processo iterativo (2.8) com as estimativas
do MLG com i comum a todas as observaes.
Sob as condies de regularidade apresentadas na Seo 1.6.3 temos que
para n grande Np (, K1 1
) e Nq (, K ), respectivamente. Alm
disso, devido ortogonalidade entre e segue a independncia assinttica

entre e .
2.9.2 Mtodos de diagnstico

Faremos nesta subseo uma adaptao de alguns procedimentos de diagns-
tico para a classe dos MLGs duplos.
Resduos
Na classe dos MLGs duplos podemos definir desvios para a mdia e para a
preciso, respectivamente. O desvio para a mdia assume a mesma expresso
da classe dos MLGs em que somente a mdia ajustada, com i no lugar
Pn 2
de . Denotaremos esse desvio por D1 (y; , ) = i=1 d1 (yi ; i , i ), em
165
que d2
1 (yi ; i , i ) = 2i [yi (i i ) + {b(i ) b(i )}]. Para i grande i o
desvio D1 (y; , ) pode ser comparado com os percentis da distribuio qui-

quadrado com (n p) graus de liberdade. Para o modelo normal heterosce-
P
dstico o desvio para a mdia fica dado por D1 (y; , ) = ni=1 i2 (yi yi )2 .
Na prtica deveremos substituir i por i = h1 (i ) = zTi .
O resduo Studentizado, no modelo normal heteroscedstico, assume a
forma
y yi
ti = pi ,
i 1 hii
em que hii = i2 xTi (XT X)1 xi com = diag{12 , . . . , n2 }. Para os
demais MLGs duplos o resduo componente do desvio para a mdia fica dado
por
d (yi ; i , i )
tD1i = 1p ,
1 hii
q
em que d1 (yi ; i , i ) 1 (yi ; i , i ), o sinal continua sendo o mesmo de
= d2
(yi i ) e hii o i-simo elemento da diagonal principal da matriz
1/2 1/2
H = W1/2 X(XT WX)1 XT W1/2 ,
ou seja,
hii = i i xTi (XT WX)1 xi .
Sugerimos o grfico normal de probabilidades para tD1i e o grfico de tD1i

contra os valores ajustados.
Pn
Denotaremos por D2 (y; , ) = i=1 d2
2 (yi ; i , i ) o desvio para a pre-
ciso, em que d2
2 (yi ; i , i ) = 2[ti (i ) + {d(i ) d(i )}], i soluo para
i sob o modelo saturado sendo dada por d (i ) = ti . Para os modelos com

resposta normal e normal inversa temos que i = (2ti )1 . J para modelos
com resposta gama i a soluo da equao {(i ) logi + 1} = ti . Aqui
166
tambm para i grande i o desvio D2 (y; , ) pode ser comparado com os

percentis da distribuio qui-quadrado com (n q) graus de liberdade.
O resduo componente do desvio para a preciso fica dado por
d2 (yi ; i , i )
tD2i = ,
1 rii
q
em que d2 (yi ; i , i ) = 2 (yi ; i , i ), o sinal sendo o mesmo de {ti +
d2
d (i )} e rii o i-simo elemento da diagonal principal da matriz
R = P1/2 Z(ZT PZ)1 ZT P1/2 ,
ou seja,
rii = pi zTi (ZT PZ)1 zi .
Note que pi = d (i ){h (i )}2 . Por exemplo, para ligao logartmica

temos que h(i ) = logi ento h (i ) = 1
i e portanto pi = 2i d (i ).
Assim, para os modelos com resposta normal e normal inversa segue que pi =
1
2i (22i )1 = 2
e para os modelos com resposta gama pi = i {i (i ) 1}.
Sugerimos o grfico normal de probabilidades para tD2i e o grfico de
tD2i contra os valores ajustados.
Influncia
Para avaliar a sensibilidade das estimativas dos parmetros que modelam a
mdia podemos usar a medida de influncia LDi definida na Seo 1.10.3 com
i no lugar de , que ser definida por
( )
hii
LDi = t2Si ,
1 hii
em que q
i (yi i )
tSi = q .
Vi (1 hii )
167
Grficos de ndices de LDi e hii contra os valores ajustados so recomendados.

Para avaliar a sensibilidade da estimativa quando a i-sima obser-
vao deletada usaremos uma aproximao de um passo, que obtida de
forma similar aproximao de uma passo (i) descrita na Seo 1.10.3, dada
por
(ZT PZ)1 zi {ti + d (i )}
(i) = , (2.10)
h (i )(1 rii )
em que rii o i-simo elemento da diagonal principal da matriz R.
Uma medida para avaliar a influncia nas estimativas dos parmetros
da preciso fica dada por
LDi = ( (i) )T (ZT PZ)( (i) )

rii
= t2 ,
1 rii Ti
em que
ti + d (i )
t Ti = p
h (i ) pi (1 rii )
ti + d (i )
= q .

d (i )(1 rii )
Grficos de ndices de LDi e rii contra os valores ajustados so recomendados.

Para os modelos com resposta normal e com resposta normal inversa
o resduo tTi assume a forma
ti + (2i )1
t Ti = ,
( 2i )1 1 rii
e para modelos com resposta gama obtemos
ti + {1 + logi (i )}
t Ti = q .
{ (i ) 1
i }(1 r ii )
168
Verbyla (1993) apresenta uma aproximao de uma passo para (i)

para o caso normal usando um esquema de perturbao especfico para mo-
delos normais heteroscedsticos. Para obtermos a aproximao apresentada
em (2.10) usamos a ponderao de casos usual para MLGs. Estudos sobre a
qualidade da aproximao apresentada em (2.10) ainda no foram desenvol-
vidos.
2.9.3 Aplicao
Pela anlise descritiva apresentada na Seo 2.8.1 sobre o comportamento
da fora de cisalhamento dos cinco tipos de snack ao longo das 20 sema-
nas e tambm pelo grfico de perfis para a fora de cisalhamento (Figura
2.31) nota-se que o coeficiente de variao no parece ser constante. Assim,
a modelagem dupla da mdia e da preciso pode levar a um ajuste mais
satisfatrio para o modelo com resposta gama. Dessa forma vamos supor
que Yijk G(ij , ij ), em que Yijk denota a fora de cisalhamento referente
k-sima rplica do i-simo grupo na j-sima semana, para k = 1, . . . , 15,
j = 2, 4, 6, . . . , 20 e i =1(A),2(B),3(C),4(D) e E(5), com parte sistemtica
dada por
ij = 0 + i + 6 semanaj + 7 semana2j e
logij = 0 + i + 6 semanaj + 7 semana2j ,
em que 1 = 0 e 1 = 0. Portanto 0 e 0 so os efeitos da forma A,

controlando-se pela semana, na mdia e na preciso, respectivamente, en-
quanto 0 + i e 0 + i so os efeitos das demais formas B, C, D e E na
mdia e preciso, respectivamente.
O MLG duplo pode ser ajustado no R atravs dos seguintes comandos:
require(dglm)
169
fit3.snack = dglm(cisalhamento grupo + s1 + s2,

grupo + s1 + s2, family=Gamma(link=identity))
0.35
A
B
C
D
0.30
E
CV do Cisalhamento
0.25
0.20
0.15
0.10
0.05
5 10 15 20
Semanas
Figura 2.31: Perfis do CV da fora de cisalhamento segundo as semanas e os

grupos.
Observarmos que a library dglm faz o ajuste de log(1

i ), ou seja da
disperso, sendo necessrio fazermos as adaptaes nos modelos com resposta

gama e normal inversa para obtermos log(i ), ajuste da preciso. Em par-
ticular no caso de modelos normais heteroscedsticos tem-se diretamente o
ajuste de logi2 , em que i2 a varincia.
Na Tabela 2.7 so apresentadas as estimativas com os respectivos erros
padro dos parmetros da mdia e da disperso.
170
Tabela 2.7
Estimativas dos parmetros referentes ao MLG duplo com resposta
gama ajustado aos dados sobre snacks.
Mdia Disperso
Efeito Estimativa E/E.Padro Estimativa E/E.Padro
Constante 36,990 11,53 1,560 7,27
Grupo B -10,783 -6,40 0,477 2,95
Grupo C -3,487 -1,98 0,050 0,31
Grupo D -14,829 -9,18 0,815 5,05
Grupo E -15,198 -9,54 0,817 5,06
Semana 5,198 9,88 0,155 3,91
2
Semana -0,189 -8,88 -0,005 -2,99
0.35
744
0.30
0.25
Distancia de Cook
0.20
553
405
0.15
0.10
0.05
0.00
0 200 400 600
Indice
Figura 2.32: Grfico da distncia de Cook para as estimativas dos coeficientes

da mdia referente ao MLG duplo com resposta gama ajustado aos dados
sobre snacks.
171
1.0
744
0.8
0.6
Distancia de Cook
0.4
0.2
0.0
0 200 400 600
Indice
Figura 2.33: Grfico da distncia de Cook para as estimativas dos coeficientes

da disperso referente ao MLG duplo com resposta gama ajustado aos dados
sobre snacks.
Podemos notar pelas estimativas dos parmetros da mdia as mesmas

tendncias observadas na Figura 2.22 para o modelo com resposta normal
inversa. O grupo A tem a maior mdia para a fora de cisalhamento enquanto
os grupos D e E tm as menores mdias. Com relao s estimativas dos
parmetros da disperso nota-se que a variabilidade (no sentido do coeficiente
de variao) depende do tempo de forma quadrtica e que os grupos A e C
apresentam maior variabilidade enquanto os grupos D e E apresentam as
menores variabilidades. Essas tendncias esto de acordo com os grficos das
Figuras 2.22, 2.23 e 2.24.
Nota-se ainda que os mesmos efeitos que so significativos para os par-
metros da mdia so tambm significativos para os parmetros da disperso.
Apenas trs observaes, #430, #595 e #744, aparecem como possivelmente
influentes nos parmetros da mdia e da disperso, como pode ser observado
pelas Figuras 2.32 e 2.33. A eliminao desses pontos no muda a infern-
172
2.10 Exerccios
2
0
2
4
3 2 1 0 1 2 3
Percentil da N(0,1)
Figura 2.34: Grfico normal de probabilidades para o resduo componente

do desvio para a mdia referente ao MLG duplo com resposta gama ajustado
aos dados sobre snacks.
cia. Pelos grficos normais de probabilidades para o resduo componente do

desvio para a mdia e para a disperso apresentados nas Figuras 2.34 e 2.35,
respectivamente, no h indcios de inadequao do MLG duplo.
2.10 Exerccios
1. Seja Y G(, ) e considere a varivel aleatria logY . Use a condio

de regularidade E(U ) = 0 para mostrar que E(logY ) = log log +
(), em que U = L(, )/.
2. Seja Y NI(, ) e considere a varivel aleatria Y 1 . Use a condio

de regularidade E(U ) = 0 para mostrar que E(Y 1 ) = 1 + 1 , em
que U = L(, )/.
3. Considere o logaritmo da funo de verossimilhana dado em (2.7).
173
2.10 Exerccios
4
2
0
2
4
6
3 2 1 0 1 2 3
Percentil da N(0,1)
Figura 2.35: Grfico normal de probabilidades para o resduo componente do

desvio para a disperso referente ao MLG duplo com resposta gama ajustado
aos dados sobre snacks.
Obtenha E(Ti ) e Var(Ti ) a partir das condies usuais de regularidade

E{L()/i } = 0 e E{ 2 L()/2i } = -E{(L()/i )2 }.
4. Mostre que o desvio da distribuio gama para o caso i.i.d., ou seja

Yi G(, ), dado por D (y; ) = 2nlog(y/y), em que y a mdia
geomtrica das observaes, isto y = (ni=1 yi )1/n .
5. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi NI(i , )

com parte sistemtica dada por g(i ) = i = xTi . (i) Calcule a es-
timativa de mxima verossimilhana de e Var(). (ii) Mostre que o
critrio de Akaike equivale a minimizar

D(y; )
AIC = nlog + 2p,
n
P
em que D(y; ) = ni=1 (yi i )2 /(yi 2i ).
174
2.10 Exerccios
6. Sejam Yi FE(1 , 1 ), i = 1, . . . , m, e Yi FE(2 , 2 ), i = m +

1, . . . , n, variveis aleatrias mutuamente independentes. Encontre a
estimativa comum de mxima verossimilhana para 1 e 2 sob a hip-
tese H0 : 1 = 2 . Particularize para os casos gama e normal inversa.
7. (Lawless, 1982, p. 338). Na tabela abaixo so apresentados os re-

sultados de um experimento em que a resistncia (em horas) de um
determinado tipo de vidro foi avaliada segundo quatro nveis de volta-
gem (em kilovolts) e duas temperaturas (em graus Celsus). Esses dados
esto tambm disponveis no arquivo vidros.dat. Na primeira coluna
do arquivo tem-se o tempo de resistncia, na segunda coluna a volta-
gem( 1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e na terceira coluna a
temperatura (1: 170o C e 2: 180o C). Seja Yijk o tempo de resistncia da
k-sima amostra de vidro submetida i-sima temperatura e j-sima
voltagem.
Faa inicialmente uma anlise descritiva dos dados, por exemplo apre-
sentando os perfis mdios da resistncia segundo a voltagem para os
dois nveis de temperatura. Cacule tambm para cada casela algumas
medidas descritivas tais como mdia, desvio padro e coeficiente de
variao. Comente.
O interesse principal desse estudo comparar as resistncias mdias,

denotadas por ij , i = 1, 2 e j = 2, 3, 4. usual neste tipo de es-
tudo assumir respostas com alguma distribuio assimtrica. Assim,
vamos supor que Yijk G(ij , ). Considere inicialmente uma repa-
rametrizao tipo casela de referncia sem interao, em que 11 = ,
1j = + j , 21 = + e 2j = + + j j = 2, 3, 4.
175
2.10 Exerccios
Voltagem(kV)
o
Temperatura ( C) 200 250 300 350
170 439 572 315 258
904 690 315 258
1092 904 439 347
1105 1090 628 588
180 959 216 241 241

1065 315 315 241
1065 455 332 435
1087 473 380 455
Verifique se possvel incluir a interao entre voltagem e tempera-

tura. Procure responder com o modelo final de que forma os nveis
de voltagem e temperatura afetam o tempo mdio de resistncia dos
vidros. Apresente, por exemplo, os perfis mdios ajustados e interprete
a estimativa de disperso. Faa tambm uma anlise de diagnstico.
8. Sejam Yi , i = 1, . . . , n, variveis aleatrias i.i.d. com distribuio nor-

mal inversa de mdia e parmetro de preciso .
(i) Como fica a estatstica da razo de verossimilhanas para testar

H0 : = 1 contra H1 : 6= 1?
(ii) Qual a distribuio nula assinttica da estatstica do teste?
9. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi G(i , )

com parte sistemtica dada por logi = 0 + 1 (xi x). Responda aos
itens abaixo:
(a) como fica a matriz de informao de Fisher para = (0 , 1 , )T

e a varincia assinttica de 0 , 1 e ?
176
2.10 Exerccios
(b) Como fica o teste de escore para testar H0 : = 1 contra H1 : 6=

1?
(c) Mostre que a estatstica do teste de escore para testar as hipteses
H0 : 0 = 1, 1 = 0 contra H1 : 0 6= 1 ou 1 6= 0 pode ser expressa
na forma
P
0 2 { ni=1 (xi x)(yi e)}2
SR = 2 n(y e) + Pn 2
.
e i=1 (xi x)
Qual a distribuio nula assinttica de SR ?
10. Supor Y1 , . . . , Yn variveis aleatrias independentes tais que Yi FE(, i )

com logi = + zi . Responda s seguintes questes:
(i) como fica a matriz modelo Z?

(ii) Calcule a varincia assinttica de .
(iii) Como fica a estatstica de escore para testar H0 : = 0 contra
H1 : 6= 0? Qual a distribuio nula assinttica da estatstica do
teste?
11. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi NI(i , )

com 1
i = . Encontre e Var(). Como fica a estatstica de Wald
para testar H0 : = 1 contra H1 : 6= 1? Qual a distribuio nula
assinttica da estatstica do teste?
12. Supor Y1 , . . . , Yn variveis aleatrias independentes tais que Yi NI(i , )

P
e i = i1 com i = + (xi x), em que x = n1 ni=1 xi ,
i = 1, . . . , n. Responda s seguintes questes:
(i) como fica a matriz modelo X?

(ii) Calcule as varincias assintticas Var() e Var(). Calcule Cov(, )
e comente.
177
2.10 Exerccios
(iii) Como fica a estatstica de Wald para testar H0 : = 0 contra

H1 : 6= 0? Qual a distribuio nula assinttica da estatstica do
teste?
13. (Cordeiro, Paula e Botter, 1994). Sejam Yi , i = 1, . . . , n, variveis ale-

atrias independentes com distribuio gama de mdia i e parmetro
de preciso . Mostre que a estatstica da razo de verossimilhanas
para testar H0 : = 1 contra H1 : 6= 1 vale
RV = 2n[log log() ( 1){1 ()}],
em que () a funo gama e () a funo digama. Use o resultado

P
log() () = D/2, em que D = ni=1 D(yi ; i )/n denota o desvio
mdio do modelo correspondente.
14. Supor Yij variveis aleatrias mutuamente independentes tais que Yij
G(i , ) para i = 1, 2 e j = 1, . . . , m, sendo log1 = e log2 = +
. (i) Obtenha a matrix modelo X. (ii) Expresse em forma fechada as
estimativas de mxima verossimilhana e . (iii) Calcule as varincias
assintticas Var() e Var() e mostre que Cov(, ) = 0. (iv) Como
fica o teste de escore para testar H0 : = 0 contra H1 : 6= 0? Qual a
distribuio nula assinttica da estatstica do teste?
15. No arquivo energy.dat esto descritos os dados referentes ao consumo

de energia em 53 domiclios (Montgomery, Peck e Vining, 2001, pgs.
175-178) em que o total de energia consumido num determinado ms
(em kilowatts-hora) utilizado para explicar a demanda de energia
na hora de pico. Faa inicialmente uma anlise descritiva dos dados.
Use um modelo de regresso normal linear (com erros homocedsticos)
para explicar a demanda mdia no horrio de pico atravs do consumo
178
2.10 Exerccios
mensal de energia. Proponha, alternativamente, modelos com erros

heteroscedsticos. Compare os ajustes e interprete os coeficientes esti-
mados do modelo escolhido.
16. No arquivo restaurante.dat esto descritos os faturamentos anuais

bem como os gastos com publicidade (em mil USD) de uma amostra
aleatria de 30 restaurantes (Montgomery, Peck e Vining, 2001, pgs.
197-200). O objetivo principal tentar relacionar o faturamento mdio
com o gasto com publicidade. Inicialmente faa uma anlise descritiva
dos dados, em particular o diagrama de disperso entre as variveis.
Tente ajustar inicialmente um modelo de regresso normal linear entre

faturamento e gastos e verifique atravs das tcnicas de diagnstico
se existem afastamentos srios das suposies feitas para o modelo.
Ajustar modelos com erros gama e normal inversa e um modelo normal
heteroscedstico. Compare os resultados.
17. (Myers, Montgomery e Vining, 2002, p. 192). A fim de avaliar-se a

qualidade de um determinado filme utilizado em mquinas fotogrficas,
o tempo de durao do filme (em horas) relacionado com a densidade
mxima do filme sob trs condies experimentais conforme descrito
na tabela abaixo e tambm no arquivo dfilme.dat.
Tempo Dmax Tempo Dmax Tempo Dmax

(72o C) (82o C) (92o C)
72 3,55 48 3,52 24 3,46
144 3,27 96 3,35 48 2,91
216 2,89 144 2,50 72 2,27
288 2,55 192 2,10 96 1,49
360 2,34 240 1,90 120 1,20
432 2,14 288 1,47 144 1,04
504 1,77 336 1,19 168 0,65
179
2.10 Exerccios
Faa um diagrama de disperso entre o tempo de durao e a densidade

mxima para cada condio experimental e proponha um modelo com
resposta gama para ajustar esses dados. Aplique mtodos de diagns-
tico e interprete as estimativas do modelo selecionado.
18. Considere novamente os dados descritos na Tabela 2.6 sobre a rela-

o entre o valor real e o valor projetado das vendas de 20 produtos.
Considere agora um modelo normal heteroscedtico tal que
yi = xi + i e logi2 = 1 + 2 xi ,
com i N(0, i2 ). Verifique a adequao desse modelo atravs de m-

todos de diagnstico.
19. (Feigl e Zelen, 1965). Apresentamos a seguir um conjunto de dados

em que pacientes com leucemia foram classificados segundo a ausncia
ou presena de uma caracterstica morfolgica nas clulas brancas. Pa-
cientes classificados de AG positivo foram aqueles com a presena da
caracterstica e pacientes classificados de AG negativo no apresenta-
ram a caracterstica. apresentado tambm o tempo de sobrevivncia
do paciente (em semanas) aps o diagnstico da doena e o nmero de
clulas brancas (WBC) no momento do diagnstico. Esses dados esto
descritos no arquivo sobrev.dat.
Supondo que o tempo de sobrevivncia aps o diagnstico segue uma

distribuio gama, proponha um modelo para explicar o tempo mdio
de sobrevivncia dados log(WBC) e AG(=1 positivo, =0 negativo).
Faa uma anlise de diagnstico com o modelo ajustado e interprete as
estimativas.
180
2.10 Exerccios
AG Positivo AG Negativo
WBC Tempo WBC Tempo
2300 65 4400 56
750 156 3000 65
4300 100 4000 17
2600 134 1500 7
6000 16 9000 16
10500 108 5300 22
10000 121 10000 3
17000 4 19000 4
5400 39 27000 2
7000 143 28000 3
9400 56 31000 8
32000 26 26000 4
35000 22 21000 3
100000 1 79000 30
100000 1 100000 4
52000 5 100000 43
100000 65
20. O arquivo claims.dat contm uma amostra aleatria de 996 aplices

de seguros de veculos extradas do livro de de Jong e Heller (2008) re-
ferente ao perodo 2004-2005. As variveis do arquivo esto na seguinte
ordem : (i) valorv (valor do veculo em 10000 dolares australianos),
(ii) expos (exposio do veculo), (iii) nsinistros (nmero de sinistros
no perodo), (iv) csinistros (custo total dos sinistros em dolares aus-
tralianos), (v) tipov (tipo do veculo em 11 categorias), (vi) idadev
(idade do veculo em 4 categorias), (vii) sexoc (sexo do condutor prin-
cipal), (viii) areac (rea de residncia do condutor principal) e (ix)
idadec (idade do condutor principal em 6 categorias).
Faa inicialmente uma anlise descritiva dos dados e procure agrupar

em um nmero menor de categorias algumas variveis categricas. Con-
181
2.10 Exerccios
sidere como varivel resposta cmsinistros = csinistros/nsinistros.

Aplique numa primeira etapa modelos com resposta gama e normal
inversa com constante. Faa uma anlise de diagnstico. Numa se-
gunda etapa, se necessrio, aplique modelos duplos com resposta gama
e normal inversa. Faa tambm uma anlise de diagnstico. Para o
modelo final selecionado interprete os coeficientes estimados.
182
Captulo 3
Modelos para Dados Binrios
3.1 Introduo
Neste captulo apresentamos modelos para a anlise de dados com resposta

binria, isto , que admite apenas dois resultados. Comumente chamado de
sucesso o resultado mais importante da resposta ou aquele que pretendemos
relacionar com as demais variveis de interesse. comum encontrarmos situ-
aes prticas em que esse tipo de resposta aparece. Como ilustrao, seguem
alguns exemplos: (i) o resultado do diagnstico de um exame de laboratrio,
positivo ou negativo; (ii) o resultado da inspeo de uma pea recm fabri-
cada, defeituosa ou no defeituosa; (iii) a opinio de um eleitor a respeito
da implantao do voto distrital, favorvel ou contrrio; (iv) o resultado de
um teste de aptido aplicado a um estudante, aprovado ou reprovado; (v)
o resultado de uma promoo de uma rede de lojas enviando para cada cli-
ente um cupom com desconto, cupom utilizado ou cupom no utilizado num
determinado perodo etc. H tambm situaes em que apenas duas possi-
183
3.2 Mtodos clssicos: uma nica tabela 2 2
bilidades so consideradas de interesse para uma varivel contnua, valores

menores do que um valor de referncia v0 e valores maiores ou iguais a v0 .
Nesses casos, podemos considerar uma nova varivel binria para essas duas
possibilidades. Por exemplo, numa determinada prova de conhecimentos v0
pode ser a nota mnima para ser aprovado no exame, ou o valor mnimo para
um exame de laboratrio ser considerado alterado. Assim, variveis binrias
podem surgir naturalmente num experimento ou serem criadas dependendo
do interesse do estudo.
Inicialmente, apresentamos neste captulo uma resenha dos principais
mtodos clssicos para a anlise de tabelas de contingncia do tipo 2 2. Em
seguida, introduzimos o modelo de regresso logstica para resposta binria
e fazemos uma analogia com os mtodos tradicionais para tabelas 2 2.
Discutimos tambm a seleo de modelos logsticos, mtodos de diagnstico,
alguns tipos de modelos de dose-resposta, sobredisperso e regresso logstica
condicional.
Mtodos clssicos em tabelas de contingncia 2 2 so datados da dcada

de 50. Os primeiros trabalhos foram motivados pelo interesse na inferncia
de certos parmetros com grande aplicabilidade na rea biomdica, especi-
almente em Epidemiologia. Vrios trabalhos foram publicados durante as
dcadas de 50 e 60 e at hoje as tcnicas desenvolvidas tm sido utilizadas,
particularmente na anlise descritiva dos dados, antes de um tratamento
mais sofisticado atravs de regresso. Apresentamos nesta seo uma re-
senha das principais tcnicas segundo o ponto de vista inferencial clssico.
Embora a metodologia apresentada possa ser aplicada em qualquer rea do
conhecimento, daremos nfase para a rea biomdica em que tem ocorrido
184
um nmero maior de aplicaes.
3.2.1 Risco relativo

Vamos supor que os indivduos de uma determinada populao sejam clas-
sificados segundo um fator com dois nveis, A e B, e a presena ou ausncia
de uma certa doena, denotados por D e D, respectivamente. As propores
populacionais ficam, nesse caso, descritas conforme a tabela abaixo.
Fator
Doena A B
D P1 P3
D P2 P4
Portanto, podemos definir outras quantidades:
P1 /(P1 + P2 ) : proporo de indivduos classificados como doentes no grupo

A;
P3 /(P3 + P4 ) : proporo de indivduos classificados como doentes no grupo

B.
A razo entre as duas propores acima foi denominada por Cornfield (1951)
como sendo o risco relativo de doena entre os nveis A e B, ou seja
P1 /(P1 + P2 ) P1 (P3 + P4 )
RR = = . (3.1)
P3 /(P3 + P4 ) P3 (P1 + P2 )
Cornfield (1951) tambm notou que se a doena for rara (P1 << P2 e P3 <<
P4 ) a quantidade (3.1) assume a forma simplificada
P1 P4
= , (3.2)
P3 P2
a qual denominou Odds Ratio, que para ns ser denominada razo de chan-
ces. Muitas vezes comum ser chamado de risco relativo, embora isso
185
somente seja vlido quando P1 e P3 forem muito pequenos. A grande van-

tagem do uso de a facilidade inferencial tanto na abordagem tradicional
como na abordagem atravs de regresso.
Como em geral a porcentagem de indivduos doentes muito menor do
que a porcentagem de no doentes, bastante razovel num estudo cujo ob-
jetivo avaliar a associao entre algum fator particular e uma certa doena,
que a quantidade de doentes na amostra seja a maior possvel. Assim, a amos-
tragem retrospectiva, em que os indivduos so escolhidos separadamente nos
estratos D e D, pode ser mais conveniente do que os demais procedimentos
amostrais. Um cuidado, entretanto, devemos ter nesses estudos. impor-
tante que os doentes (casos) sejam comparveis aos no doentes (controles)
segundo outros fatores (fatores potenciais de confundimento), possivelmente
associados com a doena. Nos estudos prospectivos, em que a amostragem
feita nos estratos A e B, esse tipo de problema pode ser controlado, embora
em geral seja necessrio um longo perodo at a obteno de um nmero
suficiente de doentes para uma anlise estatstica mais representativa.
Como as inferncias para os estudos retrospectivos e prospectivos so
idnticas, trataremos apenas o caso retrospectivo. Assim, assumimos que no
estrato D so amostrados n1 indivduos e no estrado D so amostrados n2
indivduos. O nmero observado de indivduos com presena de A nos estra-
tos D e D ser denotado por y1 e y2 , respectivamente. Os dados resultantes
dessa amostragem podem ser resumidos conforme a tabela abaixo.
Fator
Doena A B Total
D y1 n1 y 1 n1
D y2 n2 y 2 n2
Discutimos nas sees seguintes a abordagem clssica para analisar a tabela
acima.
186
3.2.2 Modelo probabilstico no condicional

Denotaremos por Y1 e Y2 o nmero de indivduos com presena de A nos estra-
tos D e D, respectivamente. Ser tambm assumido que essas variveis so
binomiais independentes de parmetros (n1 , 1 ) e (n2 , 2 ), respectivamente.
Logo, a funo de probabilidades conjunta de (Y1 , Y2 ) fica dada por

n1 n 2 y 1 y2
f (y; ) = (1 1 )n1 y1 (1 2 )n2 y2 , (3.3)
y1 y2 1 2
em que y = (y1 , y2 )T e = (1 , 2 )T . Seguindo a notao da seo anterior,
temos que 1 = P1 /(P1 + P3 ), 1 1 = P3 /(P1 + P3 ), 2 = P2 /(P2 + P4 ) e
1 2 = P4 /(P2 + P4 ). Assim, mostramos que
P1 P4 1 (1 2 )
= = ,
P3 P2 2 (1 1 )
e consequentemente que 1 = 2 /{2 + 1 2 }. A expresso (3.3) pode
ento ser expressa apenas em funo de (, 2 ),

2 (1 2 )n
f (y; ) exp y1 log + (y1 + y2 )log , (3.4)
1 2 {2 + 1 2 }n1
em que n = n1 +n2 . As estimativas de mxima verossimilhana de 1 e 2 so
dadas por 1 = y1 /n1 e 2 = y2 /n2 , respectivamente. Logo, a estimativa de
mxima verossimilhana no condicional de fica = y1 (n2 y2 )/y2 (n1 y1 ).
Note que E() = , o que impossibilita qualquer tipo de inferncia para
pequenas amostras. Por outro lado, para n1 e n2 grandes, segue uma
distribuio normal de mdia e varincia assinttica

2 1 1
VarA () = + .
n1 1 (1 1 ) n2 2 (1 2 )
Formalmente, podemos dizer que sob condies gerais de regularidade e as-
n1
sumindo que n
a > 0, quando n , vale o resultado assinttico

n( ) d N(0, VI ()),
187
em que VI () = 2 {1/a1 (1 1 ) + 1/(1 a)2 (1 2 )}. A varincia

assinttica VI () consistentemente estimada por nVarA ().
Alguns autores preferem trabalhar com log em vez de . Assim,
podemos mostrar, sob condies gerais de regularidade, que a estimativa no
condicional log segue para grandes amostras uma distribuio normal de
mdia log e varincia assinttica VarA (log) = {1/n1 1 (11 )+1/n2 2 (1
2 )}. De forma equivalente, quando n , temos que

n(log log) d N(0, 2 VI ()).
Esse resultado ser til na construo de intervalos de confiana para .
3.2.3 Modelo probabilstico condicional

Devido aos problemas inferenciais com o modelo no condicional para peque-
nas amostras, a utilizao de um modelo condicional, cuja construo ser
discutida a seguir, tem sido a soluo encontrada sob o ponto de vista clssico
para fazer inferncias a respeito de .
Assim, aplicando o teorema da fatorizao para a funo de probabili-
dades (3.4), mostramos que o conjunto de estatsticas (Y1 , Y1 +Y2 ) suficiente
minimal para o vetor de parmetros [log, log{2 /(1 2 )}]. Logo, a distri-
buio de (Y1 , Y2 ) condicionada a Y1 + Y2 = m, dever resultar numa funo
de probabilidades que depende apenas do parmetro de interese . Essa dis-
tribuio resultante (ver Cornfield, 1956) tem sido largamente utilizada em
pequenas amostras. Alguns autores questionam, entretanto, o procedimento
adotado, uma vez que a estatstica Y1 + Y2 no ancilar para ; isto , con-
tm informaes a respeito do parmetro (ver discusso, por exemplo, em
Lehnman, 1994, pgs. 546-547).
O condicionamento de (Y1 , Y2 ) em Y1 + Y2 = m produz o modelo carac-
terizado pela famlia de distribuies hipergeomtricas no centrais, definida
188
por
n1 n2
y1 my1
y1
f (y1 |m; ) = P n1
n2
, (3.5)
t t mt
t
em que 0 < < e t varia de max(0, m n2 ) a min(n1 , m). Em particu-
lar, quando = 1, a expresso (3.5) fica reduzida conhecida distribuio
hipergeomtrica central, dada por
n1
n2

y1 my1
f (y1 |m; = 1) = n1 +n2
,
m
cuja mdia e varincia so, respectivamente,

mn1
E(1) = E(Y1 |m; = 1) =
n
e
n1 n2 (n m)m
V(1) = Var(Y1 |m; = 1) = .
n2 (n 1)
Para o modelo condicional (3.5) o logaritmo da funo de verossimi-
lhana fica dado por
( )
X n1 n2
L() y1 log log t .
t
t m t
Denotaremos por a estimativa de mxima verossimilhana condicional.

Essa estimativa pode ser expressa como a soluo positiva da equao y1 =
E(Y1 |m; ). Temos que o momento de ordem r da distribuio condicional,
E(Y1r |m; ) dado por E(Y1r |m; ) = Pr ()/P0 (), em que
X n1 n2
Pr () = tr t , r = 1, 2, . . .
t
t m t
P n1 n2 t
e P0 () = t t mt
. Assim, a equao de mxima verossimilhana
para obtermos fica reescrita na forma
P1 ()
y1 = 0. (3.6)
P0 ()
189
Com o aumento de n1 , n2 , m e n m, fica impraticvel obtermos atravs de

(3.6), uma vez que essa equao contm polinmios em de grau bastante
elevado. Uma sada, nesses casos, resolvermos (3.6) atravs de mtodos
numricos que no requerem a extrao das razes do polinmio P1 ()P01 ()
(ver McCullagh e Nelder, 1989, p. 256 ; Silva, 1992).
Para ilustrarmos a obteno de , consideremos a tabela abaixo.
A B Total
D 1 3 4
D 1 2 3
Temos, nesse caso, que n1 = 4, n2 = 3 e m = 2. A distribuio condicional
fica ento dada por
X 4 3
4 3 y1
f (y1 |m; ) = / t,
y1 2 y1 t
t 2 t
em que o somatrio varia no intervalo 0 t 2. Isso resulta nas probabili-
dades condicionais
f (0|m; ) = 3/{3 + 12 + 6 2 }
f (1|m; ) = 12/{3 + 12 + 6 2 } e
f (2|m; ) = 6 2 /{3 + 12 + 6 2 }.
A equao E(Y1 |m; ) = y1 fica ento dada por
12 + 12 2 = 3 + 12 + 6 2 ,
que equivalente a 6 2 = 3 ou = 0, 707.

Similarmente ao estimador no condicional, podemos mostrar para
grandes amostras que segue uma distribuio normal de mdia e va-
1
rincia assinttica Var() = VA (), em que
190
1
1 1 1 1
VA () = + + +
EA () n1 EA () m EA () n2 m + EA () ,
e EA () sai da equao
EA (){n2 m + EA ()}
= , (3.7)
{n1 EA ()}{m EA ()}
que para fixo resulta numa equao quadrtica em EA (). Mostramos,
para 6= 1, que a nica raiz de (3.7) que satisfaz max(0, m n2 ) EA ()
min(n1 , m) dada por
EA () = ||r| s|,
em que r = 21 [n/( 1) + m + n1 ] e s = [r2 mn1 /( 1)]1/2 .

Formalmente, podemos dizer que sob condies gerais de regularidade e
assumindo ainda que n1 , n2 , m e nm so grandes, vale o seguinte resultado:

n( ) d N(0, VC ()),
em que VC () = limn nVar(). Logo, a varincia assinttica VC ()

consistentemente estimada por nVar().
Quando = 1, a expresso (3.7) no resulta numa forma quadrtica
em EA (). Verificamos facilmente, nesse caso, que
mn1
EA (1) =
n
e
n1 n2 m(n m)
VA (1) = .
n3
Podemos notar que a mdia e a varincia assinttica de , quando = 1,
coincidem praticamente com a mdia e a varincia da distribuio condicional
dada em (3.5).
191
3.2.4 Teste de hipteses

Testes exatos
Uma vez conhecida a distribuio condicional que depende apenas do par-
metro de interesse , podemos desenvolver testes exatos para pequenas amos-
tras. Um caso de interesse seria testarmos H0 : = 0 contra H1 : < 0 ,
em que 0 um valor conhecido. O nvel descritivo do teste, isto , a pro-
babilidade sob H0 de obteno de valores to ou mais desfavorveis a H0 (no
sentido de H1 ) definido por
X
PI = f (t|m; 0 ),
ty1
em que o somatrio vai de max(0, m n2 ) at y1 . Analogamente, para

P
testarmos H0 : = 0 contra H1 : > 0 , teremos PS = ty1 f (t|m; 0 ).
Nesse caso, o somatrio vai de y1 at min(n1 , m). Para o teste bilateral, H0 :
= 0 contra H1 6= 0 , o nvel descritivo definido por P= 2min{PI , PS }.
Em particular, quando fazemos 0 = 1, estamos objetivamente tes-
tando a no existncia de associao entre o fator e a doena, sendo o teste
resultante conhecido como teste exato de Fisher (ver, por exemplo, Everitt,
1977). Nesse caso, o nvel descritivo obtido computando as probabilidades
da distribuio hipergeomtrica central.
Podemos tambm utilizar o modelo condicional (3.5) para a estimao
intervalar de . Os respectivos limites de confiana sero baseados em PI
e PS e denotados por I e S , respectivamente. Como ilustrao, vamos
supor que estamos interessados em construir um intervalo de confiana de
coeficiente (1 ) para . Os limites I e S ficam ento, invertendo a
regio crtica do teste H0 : = 0 contra H1 : 6= 0 , determinados pelas
equaes
192
X X
= f (t|m; S ) e = f (t|m; I ),
2 ty 2 ty
1 1
que so polinmios de grau elevado em S e I medida que os tamanhos

amostrais crescem, o que praticamente inviabiliza a soluo dessas equaes.
Nesses casos, a sada procurarmos intervalos assintticos.
Voltando tabela da seo anterior, vamos supor que queremos testar
H0 : = 1 contra H1 : 6= 1. Temos ento os nveis descritivos PI =
f (0|m; = 1) + f (1|m; = 1) = 15/21 e PS = f (1|m; = 1) + f (2|m; =
1) = 18/21 o que leva a P= 1, 0. Por outro lado, os limites I e S ficam
dados por
1 2
X X
= f (t|m; S ) e = f (t|m; I )
2 t=0
2 t=1
que equivalente, supondo = 0, 20, a
0, 10 = f (0|m; S ) + f (1|m; S ) e 0, 10 = f (1|m; I ) + f (2|m; I ),
que levam s equaes
4I + 2I2
0, 10 = (I = 0, 0274)
1 + 4I + 2I2
e
1 + 4S
0, 10 = (S = 18, 25).
1 + 4S + 2S2
Testes assintticos
Para grandes amostras, n1 , n2 , m e n m grandes, a distribuio condicional
(3.5) se aproxima de uma distribuio normal de mdia EA () e varincia
193
VA () (ver Hannan e Harkness, 1963). Esse fato tem sido utilizado para o
desenvolvimento de testes assintticos para testarmos H0 : = 0 contra
H1 : 6= 0 (H1 : > 0 ou H1 : < 0 ). No caso de H1 : 6= 0 ,
utilizamos a estatstica qui-quadrado dada abaixo
{y1 EA (0 )}2
2
X = , (3.8)
VA (0 )
que sob H0 segue assintoticamente uma distribuio qui-quadrado com 1 grau
de liberdade. Para H1 : < 0 e H1 : > 0 , o nvel descritivo dado por
( )
y1 EA (0 )
PI = P r Z p
VA (0 )
e ( )
y1 EA (0 )
PS = P r Z p ,
VA (0 )
respectivamente, em que Z segue um distribuio N(0, 1). Em particular,
quando 0 = 1, a estatstica qui-quadrado (3.8) fica reduzida forma conhe-
cida
2
2 y1 mn
n
1
X = . (3.9)
n1 n2 m(n m)/n3
Um intervalo assinttico de confiana para pode ser obtido utilizando
a distribuio assinttica de log. Os limites desse intervalo so dados por
q
logI = log z(1/2) VarA (log)
e q
logS = log + z(1/2) VarA (log),
em que z(1/2) o percentil (1 /2) da distribuio normal padro. Esses

limites podem ser expressos em uma outra forma, levando em conta a esta-
tstica qui-quadrado para testarmos H0 : = 1 contra H1 : 6= 1. Essa
194
3.3 Mtodos clssicos: k tabelas 2 2
estatstica dada por

(log)2
X2 = , (3.10)
VarA (log)
que segue, para grandes amostras, uma distribuio qui-quadrado com 1 grau
de liberdade. Assim, os limites ficam reexpressos nas formas
I = (1z(1/2) /X)
e
S = (1+z(1/2) /X) .
Alguns autores (ver Breslow e Day, 1980, p. 135) tm constatado que para
n1 = n2 a probabilidade de cobertura do intervalo (I , S ) em geral menor
do que o valor nominal utilizado. Por outro lado, quando n1 e n2 so muito
diferentes, essa probabilidade de cobertura superestimada. Uma sugesto,
nesses casos, utilizarmos o valor de X obtido do teste condicional (3.9) em
vez do valor obtido do teste no condicional (3.10).
Muitas vezes temos interesse em controlar a associao entre dois fatores bi-
nrios atravs de um terceiro fator, comumente chamado de fator de confun-
dimento. O principal objetivo com esse tipo de estratificao eliminarmos
ou pelo menos reduzirmos a influncia desses fatores na associao de inte-
resse. Uma maneira mais eficiente de controlarmos fatores de confundimento
atravs da regresso logstica, que ser discutida na Seo 3.6. Nesta se-
o, assumiremos apenas um fator de confundimento com k nveis, que so
amostrados ni indivduos no i-simo estrato (n1i casos e n2i controles) e que
os mesmos so classificados conforme a tabela 2 2 abaixo.
195
Fator
Doena A B Total
D y1i n1i y1i n1i
D y2i n2i y2i n2i
Seguindo a mesma notao das sees anteriores temos que as estimativas
no condicional e condicional de i so, respectivamente, tais que
y1i (n2i y2i ) P1i (i )

i = e y1i = 0.
y2i (n1i y1i ) P0i (i )
As propriedades assintticas de i e i so as mesmas de e da Seo 3.2,

bem como as formas dos testes de hipteses e da estimao intervalar.
3.3.1 Estimao da razo de chances comum

Um teste de interesse quando h k tabelas de contingncia 2 2 verificar-
mos a no existncia de interao entre os estratos, isto , verificarmos se a
associao entre o fator e a doena no muda de um estrato para o outro.
Isso equivalente a verificarmos se as razes de chances so homogneas, ou
seja, testarmos as hipteses
H0 : 1 = = k
H1 : pelo menos dois valores diferentes.
H vrias propostas de estimativas para a razo de chances comum. As

estimativas de mxima verossimilhana no condicional e condicional sero
denotadas por e , respectivamente. A primeira estimativa pode ser ob-
tida facilmente atravs do ajuste de uma regresso logstica, enquanto que a
segunda mais complexa do ponto de vista computacional e ser omitida.
Duas estimativas no iterativas foram propostas por Mantel e Haenszel
(1959) e Wolf (1955), as quais sero denotadas por M H e W , respectiva-
196
mente. A estimativa de Mantel-Hanszel definida por

Pk
y1i (n2i y2i )/ni
M H = Pi=1
k
,
i=1 y 2i (n 1i y 1i )/n i
e pode tambm ser expressa como uma mdia ponderada de estimativas no

condicionais Pk
vi i
M H = Pi=1
k
,
i=1 vi
em que vi = y2i (n1i y1i )/ni . O estimador de Mantel-Hanszel consistente
e assintoticamente normal com varincia assinttica dada por
k
X k
X
VarA (M H ) = 2
ai i1 /( ai ) 2 ,
i=1 i=1
em que i = {n1i 1i (1 1i )}1 + {n2i 2i (1 2i )}1 e ai = n1i n2i (1

1i )2i /ni . A estimativa de Wolf dada por
Pk !
i=1 ui logi
W = exp Pk ,
i=1 ui
em que ui = {1/y1i + 1/(n1i y1i ) + 1/y2i + 1/(n2i y2i )}1 . Esse estimador
tambm consistente e assintoticamente normal com varincia dada por
VarA (W ) = 2 1 ,
em que = 1 + + k . Para as estimativas , M H e W de comum

assumimos o modelo no condicional para os dados.
3.3.2 Testes de homogeneidade

Suponha que estamos interessados em testar as hipteses H0 e H1 definidas
na seo anterior. A estatstica da razo de verossimilhanas que assume o
produto de 2k binomiais independentes a mais utilizada nesse caso. Do
197
ponto de vista de anlise preliminar dos dados, duas estatsticas tm sido

sugeridas. A primeira delas, proposta por Hosmer e Lemeshow (1989, p.
74), definida abaixo
k
X
2
XHL = i (logi logW )2 ,
i=1
que segue, sob H0 e assintoticamente (para n1i e n2i grandes, i), uma dis-
tribuio qui-quadrado com k 1 graus de liberdade. A outra estatstica,
definida em Breslow e Day (1980, p. 42), baseada no modelo condicional,
sendo dada por
k
X
2 {y1i EAi (M H )}2
XBD = ,
i=1 VAi (M H )
que tambm segue, sob H0 e para grandes amostras, uma distribuio qui-
quadrado com k 1 graus de liberdade. A novidade, nesse caso, a utilizao
da estatstica no iterativa de Mantel-Hanszel no lugar da estimativa condi-
cional .
Quando a hiptese nula no rejeitada, um teste imediato verificar-
mos a no existncia de associao entre o fator e a doena, mantendo apenas
o efeito da estratificao. Esse teste, conhecido como teste de Mantel-Hanszel
(1959), utiliza a seguinte estatstica:
P P
2 {( ki=1 y1i ki=1 EAi (1))}2
XM H = Pk ,
i=1 VAi (1)
que, sob H0 : = 1, segue para grandes amostras (ni grande i ou para

k grande) uma distribuio qui-quadrado com 1 grau de liberdade. Simi-
larmente ao caso de uma nica tabela 2 2, um intervalo assinttico de
confiana para com coeficiente de confiana (1 ) fica dado por
(1z /XM H )
(I , S ) = M H (1/2) ,
p
em que XM H = 2
XM H.
198
3.4 Mtodos clssicos: tabelas 2 k
A dicotomizao de um fator com mais de 2 nveis, a fim de deixarmos

mais simples o estudo da associao entre esse fator e uma determinada
doena, pode omitir informaes relevantes acerca da associao de cada um
dos nveis agrupados e a doena em estudo. Assim, sempre que possvel,
devemos manter para as anlises o maior nmero possvel de nveis do fator.
Uma tabela resultante, nesse caso, dada abaixo.
Fator
Doena Nvel 1 Nvel 2 Nvel k Total
Pk1
D y11 y12 n1 i=1 y n1
Pk1 1i
D y21 y22 n2 i=1 y2i n2
Analogamente ao caso de uma nica tabela 22, assumimos que so amostra-
dos n1 elementos do estrato D e n2 elementos do estrato D e que (Yi1 , . . . , Yik )T
segue uma distribuio multinomial de parmetros (i1 , . . . , ik )T , com ik =
Pk1
1 j=1 ij , i = 1, 2. Comumente, para analisarmos as associaes entre
os nveis do fator e a doena, definimos um nvel do fator como referncia,
que formar com os demais as razes de chances. Escolhendo o nvel 1 como
referncia, as razes de chances ficam dadas por
1j 21
1 = 1 e j = , j = 2, . . . , k,
2j 11
em que j a razo de chances entre o nvel j e o nvel 1 do fator. As
anlises inferenciais atravs do uso do modelo multinomial so tratadas em
textos correntes de anlise de dados categorizados (ver, por exemplo, Agresti,
1990). Aqui, nos concentraremos no estudo do modelo condicional, que
obtido aps o condicionamento de (Yi1 , . . . , Yik )T , i = 1, 2, nas estatsticas
suficientes minimais Y1j + Y2j = mj , j = 1, , k. O modelo resultante
caracterizado pela distribuio hipergeomtrica multivariada no central
199
que depende apenas dos parmetros de interesse 1 , . . . , k (ver McCullagh

e Nelder, 1989, p. 261). Em particular, a hiptese de ausncia de associao
completa entre os nveis do fator e a doena definida por H0 : j = 1, j, que
ser avaliada atravs da distribuio hipergeomtrica central k-dimensional,
cuja funo de probabilidades o produto de k distribuies hipergeomtricas
centrais
k n1j n2j
Y y1j mj y1j
f (y1 |m; = 1) = n1j +n2j
, (3.11)
j=1 mj
em que y1 = (y11 , . . . , y1k )T , m = (m1 , . . . , mk )T e = (1 , . . . , k )T . A

mdia, varincia e covarincia correspondentes distribuio (3.11) so, res-
pectivamente, dadas por
m j n1
Ej (1) = E(Y1j |mj ; = 1) = ,
n
n1 n2 (n mj )mj
Vj (1) = Var(Y1j |mj ; = 1) =
n2 (n 1)
e
m j m n1 n2
Cj = Cov(Y1j , Y1 |mj , m ; = 1) = , j 6= ,
n2 (n 1)
em que n = n1 + n2 . Um teste estatstico para H0 , que tem sido largamente
utilizado para testarmos a homogeneidade de k propores (Armitage, 1971),
dado por
k
(n 1) X 1 1
XA2 = {y1j Ej (1)}2
+
n j=1
E j (1) mj Ej (1)
k
1 1 X {y1j Ej (1)}2
= (n 1) + , (3.12)
n1 n2 j=1 mj
que segue, sob H0 e para valores grandes de n1 , n2 e mj , j, uma distribuio

qui-quadrado com k 1 graus de liberdade. Entretanto, quando os nveis do
fator so quantitativos ou qualitativos ordinais, pode ser mais informativo
200
3.5 Aplicaes
o uso de um teste para a tendncia do risco da doena com o aumento dos

nveis do fator. Como ilustrao, vamos supor que h k doses xj , j = 1, . . . , k,
associadas aos k nveis do fator. Um teste apropriado considerarmos a
regresso dos desvios {y1j Ej (1)} sobre xj (Armitage, 1955; Mantel, 1963).
A estatstica correspondente fica dada por
P
2
n2 (n 1)[ kj=1 xj {y1j Ej (1)}]2
XHOM = P P , (3.13)
n1 n2 {n kj=1 x2j mj ( kj=1 xj mj )2 }
que segue, para grandes amostras e sob H0 , uma distribuio qui-quadrado

com k 1 graus de liberdade.
Uma outra maneira de analisarmos a associao entre o fator e a doena
atravs da amostragem nos k nveis do fator de interesse. Nesse caso,
a distribuio resultante um produto de k binomiais independentes e a
hiptese de ausncia de associao entre o fator e a doena pode ser avaliada
atravs do ajuste de uma regresso logstica, que ser discutida na Seo 3.6.
Por outro lado, se tambm forem fixados os totais n1 e n2 , a distribuio
condicional resultante uma hipergeomtrica no central k-dimensional que
sob H0 fica reduzida a (3.11). Logo, as estatsticas dadas em (3.12) e (3.13)
podem ser aplicadas, pelo menos numa anlise preliminar dos dados, para
avaliarmos a ausncia de associao total entre o fator e a doena.
Generalizaes de (3.12) e (3.13) para o caso de h estratos so dadas
em Breslow e Day (1980, pgs. 148-149).
3.5 Aplicaes
3.5.1 Associao entre fungicida e desenvolvimento de tumor

Como ilustrao, analisaremos o conjunto de dados apresentado em Innes et
al. (1969), referente a um estudo para avaliar o possvel efeito cancergeno
201
3.5 Aplicaes
do fungicida Avadex. No estudo, 403 camundongos so observados. Desses,

65 receberam o fungicida e foram acompanhados durante 85 semanas, veri-
ficando o desenvolvimento ou no de tumor cancergeno. Os demais animais
no receberam o fungicida (grupo controle) e tambm foram acompanhados
pelo mesmo perodo, verificando a ocorrncia ou no de tumor. Dois fatores
potenciais de confundimento, sexo e raa, foram considerados nas anlises.
Os dados do experimento so resumidos na Tabela 3.1.
Tabela 3.1
Classificao dos camundongos quanto a raa (R1 ou R2),
sexo, grupo e ocorrncia ou no de tumor cancergeno.
Estrato Grupo Com tumor Sem tumor Total
Tratado 4 12 16
R1-Macho Controle 5 74 79
Total 9 86 95
Tratado 2 14 16
R2-Macho Controle 3 84 87
Total 5 98 103
Tratado 4 14 18
R1-Fmea Controle 10 80 90
Total 14 94 108
Tratado 1 14 15
R2-Fmea Controle 3 79 82
Total 4 93 97
Em virtude dos valores relativamente altos das marginais das quatro

tabelas 2 2 formadas pela combinao dos fatores sexo e raa, procedemos
inicialmente uma anlise atravs do modelo no condicional. Temos ento, na
primeira coluna da Tabela 3.2, as estimativas pontuais das razes de chances
de tumor maligno entre o grupo tratado e o grupo controle. Na segunda
202
3.5 Aplicaes
coluna apresentamos os intervalos assintticos de 95% para . Notamos que,

embora todas as estimativas sinalizem para uma associao positiva, apenas
o primeiro intervalo de confiana no cobre o valor = 1, evidenciando
associao apenas no primeiro estrato, ao nvel de 5%.
2
O teste de homogeneidade das razes de chances forneceu XBD = 0, 867
(3 g.l. e P= 0, 833), indicando fortemente pela no rejeio da ausncia de
2
interao entre os estratos. J o teste de Mantel-Hanszel forneceu XM H =
8, 289 (1 g.l. e P= 0, 004), indicando pela rejeio da hiptese de razo de

chances comum igual a um, isto , de que h fortes indcios de associao
entre os grupos controle e tratado. As estimativas de comum deram M H =
3, 079 e W = 3, 109, com intervalo assinttico de confiana de 95% dado por
[1, 43; 6, 62].
Tabela 3.2
Estimativas das razes de chances de tumor
cancergeno nos estratos de camundongos.
Estrato Estimativa Intervalo assinttico
R1-Macho 4,93 [1,28 ; 18,97]
R2-Macho 4,00 [0,69 ; 23,09]
R1-Fmea 2,29 [0,64 ; 8,14]
R2-Fmea 1,88 [0,19 ; 48,87]
3.5.2 Efeito de extrato vegetal

Consideremos agora parte dos dados de um experimento (ver Paula, Seva-
nes e Ogando, 1988) conduzido para avaliarmos o efeito de diversos extratos
vegetais na mortalidade de embries de Biomphalaria Glabrata (hospedeiro
da equistossomose). Para o extrato vegetal aquoso frio de folhas de P. Hyr-
siflora consideramos um total de k = 7 grupos sendo que os ni embries do
i-simo grupo foram submetidos a uma dose xi (ppm) do extrato vegetal,
203
3.6 Regresso logstica linear
observando aps o 20o dia o nmero de embries mortos. Os dados so resu-

midos na Tabela 3.3. Para aplicarmos o teste de tendncia dado em (3.13),
devemos considerar que n = 50 + + 50 = 350, n1 = y1 + + y7 = 178,
n2 = n n1 = 172 e mi = 50, i. Assim, obtemos Ei (1) = 25, 43 para
2
i = 1, . . . , 7. A estatstica forneceu o valor XHOM = 131, 82, que altamente
significativo, indicando uma forte tendncia crescente para a proporo de
mortes com o aumento da dose.
Tabela 3.3
Distribuio dos embries segundo
os nveis de exposio do estrato
vegetal aquoso.
xi 0 15 20 25 30 35 40
mi 50 50 50 50 50 50 50
yi 4 5 14 29 38 41 47
3.6.1 Introduo
A regresso logstica tem se constitudo num dos principais mtodos de mo-
delagem estatstica de dados. Mesmo quando a resposta de interesse no
originalmente do tipo binrio, alguns pesquisadores tm dicotomizado a res-
posta de modo que a probabilidade de sucesso possa ser ajustada atravs da
regresso logstica. Isso ocorre, por exemplo, em anlise de sobrevivncia dis-
creta em que a resposta de interesse o tempo de sobrevivncia, no entanto,
em algumas pesquisas, a funo de risco tem sido ajustada por modelos lo-
gsticos. Tudo isso se deve, principalmente, pela facilidade de interpretao
dos parmetros de um modelo logstico e tambm pela possibilidade do uso
desse tipo de metodologia em anlise discriminante.
204
Embora a regresso logstica seja conhecida desde os anos 50, foi atra-
vs de Cox (1970) (ver tambm Cox e Snell, 1989) que a regresso logstica
ficou popular entre os usurios de Estatstica. Nesta seo apresentamos al-
guns resultados relacionados com o modelo logstico linear que completam o
que foi apresentado no Captulo 1, onde vimos esse modelo como um caso
particular de modelos lineares generalizados.
3.6.2 Regresso logstica simples

Vamos considerar inicialmente o modelo logstico linear simples em que (x),
a probabilidade de sucesso"dado o valor x de uma varivel explicativa qual-
quer definida tal que

(x)
log = + x, (3.14)
1 (x)
em que e so parmetros desconhecidos. Esse modelo poderia, por exem-
plo, ser aplicado para analisar a associao entre uma determinada doena e
a ocorrncia ou no de um fator particular. Seriam ento amostrados, inde-
pendentemente, n1 indivduos com presena do fator (x=1) e n2 indivduos
com ausncia do fator (x=0) e (x) seria a probabilidade de desenvolvimento
da doena aps um certo perodo fixo. Dessa forma, a chance de desenvolvi-
mento da doena para um indivduo com presena do fator fica dada por
(1)
= e+ ,
1 (1)
enquanto que a chance de desenvolvimento da doena para um indivduo com
ausncia do fator simplesmente
(0)
= e .
1 (0)
Logo, a razo de chances fica dada por
(1){1 (0)}
= = e ,
(0){1 (1)}
205
dependendo apenas do parmetro . Mesmo que a amostragem seja retros-

pectiva, isto , so amostrados n1 indivduos doentes e n2 indivduos no do-
entes, o resultado acima continua valendo. Essa uma das grandes vantagens
da regresso logstica, a possibilidade de interpretao direta dos coeficientes
como medidas de associao. Esse tipo de interpretao pode ser estendido
para qualquer problema prtico.
Vamos supor agora que temos dois estratos representados por x1 (x1 =
0 estrato 1, x1 = 1 estrato 2) e que so amostrados do estrato 1 n11 indi-
vduos com presena do fator e n21 indivduos com ausncia do fator e n12
e n22 , respectivamente, do estrato 2. A probabilidade de desenvolvimento
da doena ser denotada por (x1 , x2 ), com x2 (x2 =1 presena do fator,
x2 = 0 ausncia do fator). Temos aqui quatro parmetros a serem estima-
dos, (0, 0), (0, 1), (1, 0) e (1, 1). Logo, qualquer reparametrizao dever
ter no mximo quatro parmetros (modelo saturado).
Vamos considerar ento a seguinte reparametrizao:

(x1 , x2 )
log = + x1 + x2 + x1 x2 ,
1 (x1 , x2 )
em que representa o efeito do estrato, o efeito do fator e a interao
entre estrato e fator. Para entendermos melhor essa reparametrizao, vamos
calcular as razes de chances em cada estrato
(0, 1){1 (0, 0)}
1 = = e
(0, 0){1 (0, 1)}
e
(1, 1){1 (1, 0)}
2 = = e+ .
(1, 0){1 (1, 1)}
Assim, a hiptese de homogeneidade das razes de chances (H0 : 1 = 2 )
equivalente hiptese de no interao (H0 : = 0). Portanto, a ausncia
de interao entre fator e estrato significa que a associao entre o fator e a
206
doena no muda de um estrato para o outro. Contudo, pode haver efeito

de estrato. Como ilustrao nesse caso, vamos supor que no rejeitamos a
hiptese H0 : = 0. Assim, o logaritmo da chance de desenvolvimento da
doena fica dado por

(x1 , x2 )
log = + x1 + x2 ,
1 (x1 , x2 )
ou seja, o mesmo nos dois estratos a menos da quantidade . Isso quer dizer
que mesmo no havendo interao entre os dois estratos (razo de chances
constante), as probabilidades de desenvolvimento da doena podem estar em
patamares diferentes. Num estrato essas probabilidades so maiores do que
no outro estrato. Essas interpretaes podem ser generalizadas para trs ou
mais tabelas.
Aplicao
Como ilustrao, vamos considerar novamente o exemplo descrito na Seo
3.5.1, supondo que agora temos apenas os estratos macho e fmea. Os dados
so resumidos na Tabela 3.4 e no arquivo camundongos.dat.
Tabela 3.4
Classificao de camundongos segundo sexo, grupo e
ocorrncia de tumor.
Macho Fmea
Tumor Tratado Controle Tratado Controle
Sim 6 8 5 13
No 26 158 28 159
Total 32 166 33 172
Denotamos por (x1 , x2 ) a probabilidade de desenvolvimento de tu-

mor dados x1 (x1 =1 macho, x1 =0 fmea) e x2 (x2 =1 tratado, x2 =0 con-
trole). Para testarmos a hiptese de ausncia de interao (H0 : = 0)
207
comparamos o desvio do modelo sem interao D(y; 0 ) = 0, 832 com os

percentis da distribuio qui-quadrado com 1 grau de liberdade (temos que
o desvio do modelo saturado zero). O nvel descritivo obtido dado por
P= 0, 362, indicando pela no rejeio da hiptese de homogeneidade das ra-
zes de chances. Assim, ajustamos o modelo sem interao. As estimativas
resultantes so apresentadas na Tabela 3.5.
Tabela 3.5
logstico ajustado aos dados sobre
ocorrncia de tumor em camundongos.
Constante -2,602 -9,32
Estrato -0,241 -0,64
Tratamento 1,125 2,81
Os nveis descritivos dos testes para H0 : = 0 e H0 : = 0 so, res-

pectivamente, dados por P= 0, 005 e P= 0, 520, indicando fortemente pela
presena de associao entre a exposio ao fungicida e o desenvolvimento
de tumor e que as probabilidades de desenvolvimento de tumor no so di-
ferentes entre os dois estratos.
Temos que = e , logo um intervalo assinttico de confiana para
com coeficiente (1 ), ter os limites
q
(I , S ) = exp{ z(1/2) Var()}.
Para o exemplo acima e assumindo um intervalo de 95%, esses limites ficam

dados por [1, 403; 6, 759].
O valor observado da varivel explicativa no modelo logstico dado
em (3.14) pode representar o valor de alguma varivel quantitativa qualquer
como, por exemplo, a dose ou a log-dose de uma determinada droga. Nesse
208
caso, faz sentido calcularmos a chance de um indivduo que recebeu a dose

x , ser curado, em relao a um outro indivduo que recebeu a dose x. A
razo de chances de cura, entre os dois nveis, fica dada por
(x ){1 (x)}
(x x) =
= exp{(x x)}.
(x){1 (x )}
Portanto, log(x x) proporcional diferena entre as duas doses. Se > 0,
temos que a chance de cura aumenta com o aumento da dose e se < 0 ocorre
o contrrio. Essa interpretao pode ser estendida para qualquer varivel
explicativa quantitativa.
3.6.3 Regresso logstica mltipla

Vamos considerar agora o modelo geral de regresso logstica

(x)
log = 1 + 2 x2 + + p xp ,
1 (x)
em que x = (1, x2 , . . . , xp )T contm os valores observados de variveis explica-

tivas. Como vimos na Seo 1.6.1, o processo iterativo para obtermos pode
ser expresso como um processo iterativo de mnimos quadrados reponderados
(m+1) = (XT V(m) X)1 XT V(m) z(m) ,
em que V = diag{1 (1 1 ), . . . , n (1 n )}, z = (z1 , . . . , zn )T a varivel

dependente modificada, zi = i + (yi i )/i (1 i ), m = 0, 1, . . . e i =
1, . . . , n. Para dados agrupados (k grupos), substitumos n por k, V =
diag{n1 1 (1 1 ), . . . , nk k (1 k )} e zi = i + (yi ni i )/{ni i (1 i )}.
ni
Assintoticamente, n no primeiro caso e para n
ai > 0 no segundo
caso, Np (0, (XT VX)1 ).
Uma interpretao interessante pode ser dada para as razes de chances
quando temos (q 1)(q p) das (p1) variveis explicativas do tipo binrio.
209
Como ilustrao, vamos supor q = 4 e que x2 (x2 = 1 presena, x2 = 0

ausncia) e x3 (x3 = 1 presena, x3 = 0 ausncia) representam dois fatores.
Vamos supor ainda que x4 = x2 x3 representa a interao entre os dois fatores.
O modelo fica ento dado por
Xp
(x)
log = 1 + 2 x2 + 3 x3 + 4 x4 + xj j .
1 (x) j=5
Denotaremos por ij a razo de chances entre um indivduo na condio

(x2 = i, x3 = j) em relao a um indivduo na condio (x2 = 0, x3 =
0), para i, j = 0, 1, supondo que os dois indivduos tm os mesmos valores
observados para as demais (p 4) variveis explicativas. Assim, podemos
mostrar facilmente que
10 = exp(2 ), 01 = exp(3 ) e 11 = exp(2 + 3 + 4 ).
Portanto, testarmos a hiptese H0 : 4 = 0 (ausncia de interao) equiva-

lente a testarmos a hiptese de efeito multiplicativo H0 : 11 = 10 01 . Em
particular, se x3 representa dois estratos (x3 = 0, estrato 1; x3 = 1, estrato
2), a razo de chances no primeiro estrato entre presena e ausncia do fator
fica dada por 10 = exp(2 ), enquanto que no segundo estrato essa razo de
chances vale 11 /01 = exp(2 + 4 ). Logo, testarmos H0 : 4 = 0 equivale
tambm a testarmos a hiptese de homogeneidade das razes de chances nos
dois estratos.
3.6.4 Bandas de confiana

Como foi visto na Seo 1.8.2 uma banda assinttica de confiana de coefi-
ciente 1 pode ser construda para (z), z IRp (ver tambm Piegorsch
e Casella, 1988). Assintoticamente Np (0, (XT VX)1 ). Logo, uma
banda assinttica de confiana de coeficiente 1 para o preditor linear
210
zT , z IRp , fica dada por

zT c {zT (XT VX)1 z}1/2 , z IRp ,
em que c tal que P r{2p c } = 1 . Aplicando a transformao logito

podemos, equivalentemente, encontrar uma banda de confiana de coeficiente
1 para (z), dada por

exp[zT c {zT (XT VX)1 z}1/2 ]
, z IRp .
T T T 1
1 + exp[z c {z (X VX) z} ] 1/2
importante observarmos que z um vetor p 1 que varia livremente no

IRp , enquanto X uma matriz fixa com os valores das variveis explicativas.
3.6.5 Seleo de modelos

Uma vez definido o conjunto de covariveis (ou fatores) a ser includo num
modelo logstico, resta saber qual a melhor maneira de encontrarmos um mo-
delo reduzido que inclua apenas as covariveis e interaes mais importantes
para explicarmos a probabilidade de sucesso (x). Esse problema poderia
ser resolvido pelos mtodos usuais de seleo de modelos discutidos na Se-
o 1.11. Contudo, a questo de interpretao dos parmetros crucial num
modelo logstico, implicando que uma forma puramente mecnica de seleo
pode levar a um modelo sem sentido e de difcil interpretao. Particular-
mente, a incluso de certas interaes impe a permanncia no modelo de
seus respectivos efeitos principais de ordem inferior, na tica do princpio hi-
errquico. Muitas vezes, variveis consideradas biologicamente importantes
no devem ser deixadas de lado pela sua falta de significncia estatstica.
Assim, a seleo de um modelo logstico deve ser um processo conjugado de
seleo estatstica de modelos e bom senso.
211
Mtodo stepwise
Um dos mtodos mais aplicados em regresso logstica o mtodo stepwise.
O mtodo, como foi visto na Seo 1.11, baseia-se num algoritmo misto de
incluso e eliminao de variveis explicativas segundo a importncia das
mesmas de acordo com algum critrio estatstico. Esse grau de importncia
pode ser avaliado, por exemplo, pelo nvel de significncia do teste da razo
de verossimilhanas entre os modelos que incluem ou excluem as variveis em
questo. Quanto menor for esse nvel de significncia tanto mais importante
ser considerada a varivel explicativa. Como a varivel mais importante por
esse critrio no necessariamente significativa do ponto de vista estatstico,
devemos impor um limite superior PE (os valores usuais esto no intervalo
[0, 15; 0, 25]) para esses nveis descritivos, a fim de atrairmos candidatos im-
portantes em princpio entrada.
Dado que a incluso de novas variveis explicativas num modelo pode
tornar dispensveis outras variveis j includas, faremos a verificao da
importncia dessas variveis confrontando os seus respectivos nveis com um
limite superior PS . As variveis explicativas com um nvel descritivo maior
do que PS sero assim candidatas remoo.
Descrevemos a seguir uma variante desse algoritmo usada por Hosmer
e Lemeshow (1989, Cap. 3) (ver tambm Silva, 1992). A etapa inicial comea
com o ajustamento do modelo apenas com o intercepto e completada pelos
passos seguintes:
1. construmos testes da razo de verossimilhanas entre o modelo inicial

e os modelos logsticos simples formados com cada uma das variveis
explicativas do estudo. O menor dos nveis descritivos associados a cada
teste ser comparado com PE . Se PE for maior, inclumos a varivel
referente quele nvel e passamos ao passo seguinte; caso contrrio,
212
paramos a seleo e adotamos o ltimo modelo;
2. partindo do modelo incluindo a varivel explicativa selecionada no

passo anterior, introduzimos individualmente as demais variveis. Cada
um desses novos modelos testado contra o modelo inicial desse passo.
Novamente, o menor valor dos nveis descritivos comparado com PE .
Se for menor do que PE , implica na incluso no modelo da varivel cor-
respondente e a passagem ao passo seguinte. Caso contrrio, paramos
a seleo;
3. comparamos o desvio do modelo logstico contendo as variveis selecio-

nadas nos passos anteriores com os desvios dos modelos que dele resul-
tam por excluso individual de cada uma das variveis. Se o maior n-
vel descritivo dos testes da razo de verossimilhanas for menor do que
PS , a varivel explicativa associada a esse nvel descritivo permanece
no modelo. Caso contrrio, ela removida. Em qualquer circunstncia,
o algoritmo segue para o passo seguinte;
4. o modelo resultante do passo anterior ser ajustado, no entanto, an-

tes de tornar-se o modelo inicial da etapa 2 (seleo de interaes de
primeira ordem entre as variveis explicativas includas), avaliamos a
significncia de cada um dos coeficientes das variveis selecionadas, por
exemplo atravs de um teste de Wald. Se alguma varivel explicativa
no for significativa podemos exclu-la do modelo;
5. uma vez selecionadas as variveis explicativas mais importantes", ou

os efeitos principais, damos entrada na etapa 2 com o passo 1 que
agora envolve apenas interaes de primeira ordem entre as variveis
selecionadas, e assim por diante.
213
comum que algumas variveis explicativas ou interaes de interesse ou

com algum significado no estudo sejam mantidas no modelo desde o incio,
mesmo que no sejam significativas. tambm comum que a seleo de
interaes seja feita dentre aquelas de interesse ou com algum significado no
problema.
Uma desvantagem do procedimento descrito pelos passos 1-5 de exi-
gir as estimativas de mxima verossimilhana em cada passo, o que encarece
o trabalho computacional, particularmente quando h muitas variveis ex-
plicativas (ou fatores). Alguns autores tm sugerido aproximaes para esse
processo de seleo. O aplicativo cientfico BMDP (Dixon, 1987) usa apro-
ximaes lineares nos testes da razo de verossimilhanas. Peduzzi, Hardy
e Holford (1980) apresentam uma variante desse mtodo baseada no uso da
estatstica de Wald.
Mtodo de Akaike
Um procedimento mais simples para selecionarmos variveis explicativas num
modelo logstico atravs do mtodo de Akaike descrito na Seo 1.11. Uma
sugesto primeiro fazermos uma seleo dos efeitos principais e depois num
segundo passo, das interaes de 1a ordem. Para ilustrarmos uma aplicao
do mtodo, vamos supor que as respostas binrias estejam armazenadas em
resp e as variveis explicativas sejam denotadas por var1, var2 e var3. O
ajuste do modelo logstico apenas com os efeitos principais pode ser realizado
atravs dos comandos
ajuste < glm(resp var1 + var2 + var3, family=binomial).
A seleo dos efeitos principais pode ser realizada pelos comandos
require(MASS)
stepAIC(ajuste).
214
Eventualmente algumas variveis explicativas selecionadas podem no

ser significativas marginalmente e a retirada das mesmas do modelo poder
ser confirmada atravs de algum teste estatstico apropriado, como por exem-
plo o teste da razo de verossimilhanas. A incluso de interaes de 1a ordem
pode ser feita individualmente dentre aquelas interaes de interesse ou de
fcil interpretao.
3.6.6 Amostragem retrospectiva

Em muitas situaes prticas, especialmente no estudo de doenas raras,
pode ser mais conveniente a aplicao de uma amostragem retrospectiva em
que um conjunto de n1 casos (indivduos com y = 1) e n2 controles (indi-
vduos com y = 0) selecionado aleatoriamente e classificado segundo os
valores de x = (x1 , . . . , xp )T . Esse tipo de planejamento muitas vezes
motivado por questes econmicas ligadas ao custo e a durao do experi-
mento. A amostragem retrospectiva assim constituda levaria diretamente
a um modelo para P r(X = x|y), ao contrrio dos dados prospectivos que
esto associados ao modelo (x) = P r(Y = y|x). Como o desenvolvimento
de um modelo para P r(X = x|y) pode ficar muito complexo medida que o
valor x envolve um nmero maior de variveis explicativas, particularmente
contnuas, a proposta de uma abordagem alternativa atravs da especificao
de um modelo para P r(Y = y|x), de modo a induzirmos um modelo para
P r(X = x|y), tem sido bastante utilizada.
Vamos supor ento um modelo logstico linear para explicarmos (x) =
P r(Y = 1|x). Mostraremos a seguir que a probabilidade (x), a menos de
uma constante adicionada ao intercepto do modelo, coincide com a probabi-
lidade (x) = P r(Y = 1|x, Z = 1) se a seleo amostral no depende de
x, em que Z uma varivel indicadora da classificao amostral (ver, por
215
exemplo, Armitage, 1971). Denotaremos
1 = P r(Z = 1|Y = 1) e
2 = P r(Z = 1|Y = 0),
em que 1 a probabilidade de um caso ser selecionado e 2 a probabilidade

de um controle ser selecionado da populao global. Estamos supondo que
1 e 2 no dependem de x. Portanto
(x) = P r(Y = 1|x, Z = 1)

P r(Z = 1|Y = 1)P r(Y = 1|x)
= P ,
y=0,1 P r(Z = 1|Y = y)P r(Y = y|x)
que pode ser expressa em funo de (x), ou seja

1 (x)
(x) =
2 {1 (x)} + 1 (x)
h i
1 (x)
2 1(x)
= h i.
1 (x)
1+ 2 1(x)
Assim, obtemos
elog{1 /2 }+
(x) = ,
1 + elog{1 /2 }+
Pp
em que = j=1 xj j .
Portanto, se fazemos uma amostragem retrospectiva e ajustamos um
modelo logstico como se fosse uma amostragem prospectiva, os coeficientes
devem coincidir desde que a seleo tenha sido feita independente de x. Se,
no entanto, temos interesse particular em estimar (x), isto , fazer predies
dado x, devemos corrigir a constante do modelo ajustado, obtendo o novo
intercepto
1 = 1 log(1 /2 ),
em que 1 o intercepto do modelo ajustado. Apresentamos um exemplo

ilustrativo na prxima seo.
216

Como vimos na Seo 1.4 , quando o nmero de grupos k fixo num expe-
ni
rimento binomial e n
ai > 0 quando n , o desvio D(y; ) segue sob
a hiptese do modelo adotado ser verdadeiro uma distribuio qui-quadrado
com (k p) graus de liberdade. Esse resultado no vale quando n
e ni i (1 i ) fica limitado. Nesse caso, Hosmer e Lemeshow (1989) suge-
rem uma estatstica alternativa para avaliao da qualidade do ajuste. Essa
estatstica definida comparando o nmero observado com o nmero espe-
rado de sucessos de g grupos formados. O primeiro grupo dever conter
n1 elementos correspondentes s n1 menores probabilidades ajustadas, as
quais sero denotadas por (1) (2) (n1 ) . O segundo grupo
dever conter os n2 elementos correspondentes s seguintes probabilidades
ajustadas (n1 +1) (n1 +2) (n1 +n2 ) . E assim, sucessivamente, at
o ltimo grupo que dever conter as ng maiores probabilidades ajustadas
(n1 ++ng1 +1) (n1 ++ng1 +2) (n) . O nmero observado de su-
Pn1
cessos no primeiro grupo formado ser dado por O1 = j=1 y(j) , em que
y(j) = 0 se o elemento correspondente fracasso e y(j) = 1 se sucesso. Ge-

Pn1 ++ni
neralizando, obtemos Oi = j=n ++n +1 y(j) , 2 i g. A estatstica
1 i1
definida por
g
X (Oi n i )2i
C = ,
i=1
ni i (1 i )
em que
n1 ni ++ni
1 X 1 X
1 = (j) e i = (j) ,
n1 j=1 ni
j=n1 ++ni1 +1
para 2 i g. Hosmer e Lemeshow sugerem a formao de g = 10 grupos de

mesmo tamanho (aproximadamente), de modo que o primeiro grupo conte-
nha ni elementos correspondentes s [n/10] menores probabilidades ajustadas
e assim por diante at o ltimo grupo com n10 elementos correspondentes s
217
[n/10] maiores probabilidades ajustados. Quando no h empates, isto ,

ni = 1, i, fica relativamente fcil montarmos os 10 grupos com tamanhos
aproximadamente iguais. No entanto, quando h empates, pode ser neces-
srio que dois indivduos com a mesma configurao de covariveis sejam
alocados em grupos adjacentes a fim de que os grupos formados no tenham
tamanhos muito desiguais. Hosmer e Lemeshow verificaram atravs de simu-
laes que a distribuio nula assinttica de C pode ser bem aproximada por
uma distribuio qui-quadrado com (g 2) graus de liberdade.

Estudos de simulao (ver, por exemplo, Williams, 1984) tm sugerido o
resduo tDi para as anlises de diagnstico em modelos lineares generalizados,
uma vez que o mesmo tem apresentado nesses estudos propriedades similares
quelas do resduo ti da regresso normal linear. Em particular, para os
modelos binomiais, esse resduo expresso, para 0 < yi < ni , na forma
s 1/2
2 yi ni y i
t Di = yi log + (ni yi )log ,
1 hii ni i ni ni i
em que o sinal o mesmo de yi yi . Quando yi = 0 ou yi = ni , o componente

do desvio padronizado toma as formas
{2ni |log(1 i )|}1/2 {2ni |logi |}1/2

t Di = p e t Di = p ,
1 hii 1 hii
respectivamente. O resduo Studentizado tSi , tambm utilizado para avaliar-
mos a presena de observaes aberrantes mesmo tendo em geral distribuio
assimtrica acentuada, toma a forma
1 (yi ni i )
tSi = p 1/2
.
1 hii {ni i (1 i )}
218
Para medirmos a influncia das observaes nas estimativas dos coeficientes,

utilizamos a distncia de Cook aproximada dada por
hii (yi ni i )2
LDi = .
(1 hii )2 ni i (1 i )
Hosmer e Lemeshow (1989) observam que hii depende das probabili-

dades ajustadas i , i = 1, . . . , k, e consequentemente os resduos tSi e tDi e a
medida de influncia LDi tambm dependem. Temos que
hii = ni i (1 i )xTi (XT VX)1 xi ,
com V = diag{n1 1 (11 ), . . . , nk k (1k )}. Hosmer e Lemeshow mostram

atravs de um estudo numrico que o comportamento de hii numa regresso
logstica pode ser muito diferente do comportamento de hii na regresso linear
para uma mesma matrix modelo X.
Tabela 3.6
Possveis valores para algumas medidas de diagnstico segundo
as probabilidades ajustadas.
Probabilidade ajustada
Medida 0,0-0,1 0,1-0,3 0,3-0,7 0,7-0,9 0,9-1,0
2
tSi grande ou moderado moderado ou moderado grande ou
pequeno pequeno pequeno
LDi pequeno grande moderado grande pequeno
hii pequeno grande moderado ou grande pequeno
pequeno
A Tabela 3.6 descreve os possveis valores de algumas medidas de di-
agnstico em funo das probabilidades ajustadas. A medida hii pode ser
interpretada de maneira similar medida hii da regresso normal linear para
0, 1 i 0, 9. No entanto, quando i pequena ou alta, hii fica em geral
pequeno o que pode dificultar a deteco de pontos que estejam mais afasta-
dos no subespao gerado pelas colunas da matrix X. A sugesto, portanto,
219
so os grficos de t2Si , t2Di e LDi contra as probabilidades ajustadas i . Es-

ses grficos podem ser informativos a respeito do posicionamento dos pontos
aberrantes e influentes com relao s probabilidades ajustadas. Os grficos
dessas quantidades contra hii podem ser complementares, pelo menos para
verificarmos se as tendncias apresentadas na Tabela 3.11 so confirmadas
para o modelo ajustado.
Outros grficos recomendados em regresso logstica so os grficos da
varivel adicionada e de |max | contra i .
3.6.9 Aplicaces
Processo infeccioso pulmonar
Voltemos agora ao exemplo discutido na Seo 1.12.2 em que 175 pacientes
com processo infeccioso pulmonar foram classificados de acordo com as vari-
veis tipo de tumor, sexo, idade, nvel de HL e nvel de FF. Para simplicidade
das anlises, iremos reagrupar os nveis de HL e FF de modo que os nveis
de intensidade ausente"e discreto"sejam agora considerados como inten-
sidade baixa"e os nveis moderado"e intenso"sejam agora de intensidade
alta"(ver Tabela 3.7).
Nesse estudo os pacientes foram amostrados retrospectivamente, sendo
que os controles (processo benigno) foram formados por uma amostra de 104
pacientes de um grupo de 270, enquanto que os casos (processo maligno)
foram todos os pacientes diagnosticados com processo infeccioso pulmonar
maligno durante o perodo da pesquisa. Portanto, seguindo a notao da
Seo 3.6.6 , temos que 1 = 1 e 2 = 104/270 1 .
1
Estamos supondo que a razo 1 /2 = 270/104 vale tambm se as amostras tivessem
sido feitas diretamente da populao
220
Tabela 3.7
Descrio das novas variveis referentes ao exemplo
sobre processo infeccioso pulmonar.
Varivel Descrio Valores
Y Processo Infecioso 1:maligno
0:benigno
IDADE Idade em anos
SEXO Sexo 0:masculino
1:feminino
HL Intensidade de 1:alta
Histicitos-linfcitos 0:baixa
FF Intensidade de 1:alta
Fibrose-frouxa 0:baixa
Aplicaremos a seguir o mtodo de seleo stepwise proposto por Hos-

mer e Lemeshow (1989). Na etapa 1 consideraremos apenas os efeitos princi-
pais. Adotaremos PE = 0, 20 (nvel para incluso de covariveis) e PS = 0, 25
(nvel para eliminao de covariveis).
No passo 1 inclumos a varivel explicativa IDADE, uma vez que o nvel
descritivo dessa varivel foi o menor dentre os nveis descritivos das demais
variveis explicativas e tambm foi menor do que PE . No passo seguinte
inclumos a varivel explicativa HL, e agora com duas variveis includas
no modelo verificamos se possvel eliminar uma das duas. O maior nvel
descritivo da IDADE que encontra-se na Tabela 3.8 na linha de referncia do
passo 2. O nvel descritivo dessa varivel no superior a PS , logo mantemos
a IDADE no modelo. Seguindo essa lgica, encontramos os menores nveis
descritivos em cada passo como sendo o elemento da diagonal principal de
cada passo. No passo 3, por exemplo, entra a varivel explicativa SEXO que
tem o menor nvel descritivo que por sua vez menor do que PE . Dado que
SEXO entra no modelo verificamos se uma das duas variveis j includas
no modelo pode sair. Assim, no mesmo passo 3, notamos que o maior nvel
221
descritivo (em asterisco) corresponde varivel explicativa HL que no deve

sair do modelo pois o nvel descritivo no maior do que PS . Seguindo essa
mesma lgica todos os efeitos principais so includos no modelo. Em resumo,
o modelo resultante na etapa 1 o modelo com todos os efeitos principais.
De forma anloga procedemos a etapa 2, cujos nveis descritivos para
tomada de deciso em cada passo encontram-se na Tabela 3.9. Por exemplo,
no passo 1, entra a interao entre IDADE e HL que tem o menor nvel
descritivo que por sua vez menor do que PE . No verificamos nessa etapa se
algum efeito principal deve sair do modelo mesmo que fique no siginifcativo
com a incluso das interaes. Isso pode ser reavaliado aps a seleo do
modelo final. No passo 4, por exemplo, notamos que a interao entre IDADE
e FF no entra no modelo pois o nvel descritivo correspondente maior
do que PE . Assim, como essa interao no entra no modelo, no preciso
verificar a retirada das demais interaes j includas no modelo. Conclumos
ento que apenas trs interaes de primeira ordem sero includas no modelo.
Essas interaes so IDADE HL, HL FF e SEXO FF.
Na etapa 3 nenhuma interao de segunda ordem foi selecionada, uma
vez que o menor nvel descritivo dos testes de incluso foi menor do que PE .
Assim, o modelo resultante contm os efeitos principais e trs interaes de
primeira ordem.
Tabela 3.8
Nveis descritivos referentes etapa 1
do processo de seleo stepwise.
Passo IDADE HL SEXO FF
1 0,000 0,000 0,288 0,001
2 0,000 0,000 0,100 0,003
3 0,000 0,000 0,050 0,125
4 0,000 0,000 0,072 0,183
5 0,000 0,000 0,072 0,183
222
Tabela 3.9
Nveis descritivos referentes etapa 2 do processo de seleo stepwise.
Passo IDA*HL HL*FF SEX*FF IDA*FF IDA*SEX HL*SEX
1 0,013 0,014 0,059 0,056 0,657 0,063
2 0,023 0,027 0,060 0,231 0,218 0,099
3 0,028 0,005 0,012 0,234 0,275 0,176
4 0,208 0,403 0,794
O desvio do modelo foi de D(y; ) = 146, 22 (167 graus de liberdade),

indicando um ajuste adequado. As Figuras 3.1a-3.1d apresentam alguns gr-
ficos de diagnstico. Na Figura 3.1a temos o grfico de hii contra os valores
ajustados e notamos dois pontos com maior destaque, #6 e #69. No grfico
de resduos tDi , Figura 3.1b, a maioria dos pontos cai dentro do intervalo
[-2,2], com apenas duas observaes, #21 e #172, fora do intervalo, porm
muito prximas aos limites. J o grfico de influncia LDi destaca novamente
a observao #69 e a observao #172. O paciente #172 do sexo feminino,
tem processo maligno, idade 55 anos e nveis altos para HL e FF. Pelos re-
sultados das estimativas seria mais provvel esperarmos de um paciente com
esse perfil um processo benigno. O paciente #69 tambm do sexo femi-
nino, tem 78 anos, nveis altos para HL e FF e no tem processo maligno.
Aqui seria um pouco menos provvel processo benigno para o paciente. Perfil
parecido tem o paciente #6. J o paciente #21 tem processo benigno, 82
anos, do sexo feminino e tem nvel alto para HL e baixo para FF. Seria
mais provvel nesse caso processo maligno para o paciente. Finalmente, te-
mos na Figura 3.1d o grfico normal de probabilidades para o resduo tDi e
no notamos nenhum indcio de que a distribuio utilizada seja inadequada.
Retirando cada uma das observaes destacadas pelos grficos de diagns-
tico notamos mudana inferencial quando a observao #172 excluda, a
interao SEXO FF deixa de ser significativa. Ou seja, a significncia da
223
interao SEXO FF induzida pela observao #172. Logo, essa interao

deve ser retirada do modelo.
As estimativas dos parmetros do modelo final sem a interao SEXO FF
bem como os valores padronizados pelos respectivos erros padro aproxima-
dos encontram-se na Tabela 3.10.
Como temos interesse em estudar a associao entre o tipo de processo
infeccioso pulmonar e as covariveis histolgicas HL e FF, formamos algumas
razes de chances envolvendo essas covariveis. Como ilustrao, a razo de
chances de processo infeccioso maligno entre um paciente no nvel alto de HL
e um paciente no nvel baixo de HL, que denotaremos por HL , supondo que
os pacientes tenham o mesmo sexo, idade e nvel de FF, estimada por
HL = exp{5, 371 + 0, 061IDADE + 2, 255FF}.
Tabela 3.10
logstico ajustado aos dados sobre processo
infeccioso pulmonar.
Efeito Parmetro Estimativa E/E.Padro
Constante 1 -1,247 -1,36
IDADE 2 0,038 2,23
HL 3 -5,371 -3,34
SEXO 4 0,765 1,60
FF 5 -2,090 -2,36
IDADE*HL 6 0,061 2,18
HL*FF 7 2,255 2,11
Logo, podemos concluir que a chance de processo maligno maior

para pacientes com nvel baixo de HL do que para pacientes com nvel alto
de HL, quando ambos esto no nvel baixo de FF e tambm tenham a mesma
idade. Por outro lado, quando ambos esto na categoria alta de FF, HL fica
maior do que um aps a idade de 52 anos (aproximadamente), indicando
224
uma chance maior de processo maligno para pacientes no nvel alto de HL

aps essa idade.
Analogamente, denotaremos por F F a razo de chances de processo
infeccioso maligno entre um paciente com nvel alto de FF e um paciente
com nvel baixo de FF. Supondo que os pacientes so semelhantes nas demais
covariveis esse parmetro estimado por
F F = exp{2, 090 + 2, 255HL}.
Dessa expresso podemos deduzir que a chance de processo maligno maior

para pacientes com intensidade baixa de FF do que para pacientes com in-
tensidade alta de FF, isso no grupo de pacientes com intensidade baixa de
HL. Ocorre o contrrio no grupo de pacientes com intensidade alta de HL.
Na comparao dos pacientes com relao ao sexo temos que a razo
de chances de processo infeccioso pulmonar entre pacientes do sexo feminino
e masculino estimada por F M = exp(0, 765)
= 2, 15.
Se temos interesse em prever P r{Y = 1|x}, probabilidade de um paci-
ente da populao com um determinado conjunto de valores para as covari-
veis estar com processo infeccioso maligno, devemos antes estimar 1 fazendo
a correo
1 = 1 log(270/104) = 1, 247 0, 954 = 2, 201.
Tabela 3.11
Discriminao do modelo logstico ajustado
aos dados sobre processo infeccioso pulmonar.
Classificao Classificao pelo modelo
Correta Benigno Maligno
Benigno 81 23
Maligno 13 58
225
0.4
69
3
172
6
2
0.3
1
Alavanca
0.2
0
1
0.1
2
21
3
0.0
0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8

(a) (b)
3
172
1.5
2
Distancia de Cook
69
1.0
0
1
0.5
2
0.0
0.0 0.2 0.4 0.6 0.8 2 1 0 1 2
Valor Ajustado Percentil da N(0,1)

(c) (d)
Figura 3.1: Grficos de diagnstico referentes ao modelo logstico ajustado

aos dados sobre processo infeccioso pulmonar.
A regresso logstica tem mltiplas utilidades, entre as quais a possi-

bilidade de tambm ser utilizada em anlise discriminante quando h ape-
nas dois grupos para serem discriminados. O objetivo aqui encontrarmos
um modelo ajustado que melhor discrimine os dois grupos. Como aproxi-
madamente 21% dos 341 pacientes foi diagnosticado com processo maligno
podemos verificar qual a taxa de acertos do modelo ajustado. Um critrio
seria classificarmos com processo maligno todo indivduo com probabilidade
ajustada de pelo menos 0,21. Caso contrrio o indivduo seria classificado
com processo benigno. A Tabela 3.11 apresenta a discriminaao feita pelo
modelo ajustado aos dados sobre processo infeccioso pulmonar. Temos que
226
a taxa de acertos de 139/175 = 0,795 (79,5%).
Ocorrncia de vaso-constrio
Como outra aplicao, vamos considerar os dados de um experimento desen-
volvido para avaliar a influncia da quantidade de ar inspirado na ocorrncia
de vaso-constrio na pele dos dedos da mo (Finney, 1978; Pregibon, 1981).
Os dados do experimento so descritos na Tabela 3.12 e tambm no arquivo
pregibon.dat. A resposta, nesse exemplo, a ocorrncia (Y = 1) ou au-
sncia (Y = 0) de compresso de vasos e as covariveis so o logaritmo do
volume e o logaritmo da razo de ar inspirado. Vamos supor para a i-sima
unidade experimental que Yi Be(i ), em que

i
log = 1 + 2 log(volume)i + 3 log(razao)i ,
1 i
com i denotando a probabilidade de ocorrncia de vaso-constrio.
227
Tabela 3.12
Dados do experimento sobre a influncia da razo e do volume de ar
inspirado na ocorrncia de vaso-constrio da pele dos dedos da mo.
Obs Volume Razo Resposta Obs. Volume Razo Resposta
1 3,70 0,825 1 20 1,80 1,800 1
2 3,50 1,090 1 21 0,40 2,000 0
3 1,25 2,500 1 22 0,95 1,360 0
4 0,75 1,500 1 23 1,35 1,350 0
5 0,80 3,200 1 24 1,50 1,360 0
6 0,70 3,500 1 25 1,60 1,780 1
7 0,60 0,750 0 26 0,60 1,500 0
8 1,10 1,700 0 27 1,80 1,500 1
9 0,90 0,750 0 28 0,95 1,900 0
10 0,90 0,450 0 29 1,90 0,950 1
11 0,80 0,570 0 30 1,60 0,400 0
12 0,55 2,750 0 31 2,70 0,750 1
13 0,60 3,000 0 32 2,35 0,030 0
14 1,40 2,330 1 33 1,10 1,830 0
15 0,75 3,750 1 34 1,10 2,200 1
16 2,30 1,640 1 35 1,20 2,000 1
17 3,20 1,600 1 36 0,80 3,330 1
18 0,85 1,415 1 37 0,95 1,900 0
19 1,70 1,060 0 38 0,75 1,900 0
39 1,30 1,625 1
As estimativas dos parmetros so descritas na Tabela 3.13 e como

podemos notar as variveis explicativas log(volume) e log(razo) so al-
tamente significativas. O desvio do modelo foi de D(y; ) = 29, 36 (com 36
graus de liberdade), indicando um ajuste adequado. As Figuras 3.2a-3.2d
descrevem alguns dos grficos sugeridos acima bem como o grfico normal
de probabilidades com envelope para o resduo tDi . Na Figura 3.2a temos o
grfico de hii contra os valores ajustados e podemos notar que a observao
#31 destacada mais do que as restantes.
228
Tabela 3.13
logstico ajustado aos dados sobre
vaso-constrio.
1 -2,875 -2,18
2 5,179 4,85
3 4,562 2,49
Na Figura 3.2b temos o grfico de LDi contra os valores ajustados e

notamos duas observaes mais discrepantes, #4 e #18, cujos valores ajusta-
dos so menores do que 0, 11. Uma tendncia similar exibida na Figura 3.2c
onde temos o grfico de t2Si contra os valores ajustados. A eliminao da ob-
servao #4 levou s novas estimativas 1 = 5, 204(2, 17), 2 = 7, 452(2, 93)
e 3 = 8, 465(3, 246) com variao, respectivamente, de -81%, 64% e 63%. O
desvio do modelo reduziu para D(y; ) = 22, 42 (35 g.l.), variao de 24%.
Resultado parecido ocorreu com a eliminao da observao #18. Nesse
caso obtemos 1 = 4, 757(2, 008), 2 = 6, 879(2, 718) e 3 = 7, 669(2, 937)
com variao, respectivamente, de -66%, 48% e 51%. O desvio caiu para
D(y; ) = 23, 58 (35 g.l.), reduo de 20%. Mesmo com as variaes despro-
porcionais no houve mudana inferencial. Esses resultados indicam que os
pontos #4 e #18 so influentes e aberrantes. Note que para os dois casos
houve ocorrncia de ar inspirado, porm o valor do volume e da razo so
relativamente baixos contrariando a tendncia observada pelo modelo ajus-
tado. O grfico normal de probabilidades para o resduo tDi (Figura 3.2d) no
fornece indcios de afastamentos srios da suposio de distribuio binomial
para a resposta. Podemos notar a maioria dos pontos dentro do envelope
gerado.
229
Tabela 3.14
Quantidades usadas para o clculo da estatstica C
referente ao modelo logstico ajustado aos dados
sobre vaso-constrio.
Grupo Obervaes Oi ni i
1 7,9,10,11,32 0 5 0,0024
2 4,18,21,26,30 2 5 0,0459
3 12,13,22,28,38 0 5 0,2737
4 8,19,23,29,37 1 5 0,5113
5 6,24,31,33,39 3 5 0,6728
6 5,15,34,35,36 5 5 0,7956
7 3,14,20,25,27 5 5 0,8974
8 1,2,16,17 4 4 0,9766
Apresentamos na Tabela 3.14 os grupos formados com as observaes

da Tabela 3.12 para o clculo da estatstica C proposta por Hosmer e Le-
meshow (1989). Foram formados sete grupos com cinco observaes cada e
um grupo com quatro observaes. Os termos para o clculo de C so dados
abaixo
C = 0, 0120 + 14, 3157 + 1, 8842 + 1, 9391

+ 0, 1203 + 1, 2846 + 0, 5716 + 0, 0958
= 20, 2233,
cujo nvel descritivo para uma qui-quadrado com 6 graus de liberdade dado
por P= 0, 0025, indicando que o ajuste no adequado. Por outro lado, se
eliminamos as observaes #4 e #18, obtemos C = 5, 9374, que leva ao nvel
descritivo P= 0, 4302. Portanto, as duas observaes destacadas pelas an-
lises de diagnstico tm grande influncia na falta de ajuste detectada pela
estatstica C. O programa para a gerao do envelope da Figura 3.2d des-
230
0.25
31 4
1.2
0.20
18
Distancia de Cook
0.15
0.8
Alavanca
0.10
0.4
0.05
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

(a) (b)
14
4
12
2
(Resid.Studentizado)^2
10
1
18
8
0
6
-1
4
-2
2
0
0.0 0.2 0.4 0.6 0.8 1.0 -2 -1 0 1 2
Valor Ajustado Percentil da N(0,1)

(c) (d)

aos dados sobre vaso-constrio.
crito no Apndice B. Assumimos que os resultados do ajuste esto disponveis

em fit.model.
Preferncia de consumidores
Para ilustrarmos uma terceira aplicao com resposta binria vamos analisar
parte dos dados descritos no arquivo prefauto.dat sobre a preferncia de
consumidores americanos com relao a automveis. Uma amostra aleatria
de 263 consumidores foi considerada. As seguintes variveis foram observadas
para cada comprador: preferncia do tipo de automvel (1: americano, 0:
231
japons), idade (em anos), sexo (0: masculino; 1: feminino) e estado civil
(0: casado, 1: solteiro). Para maiores detalhes ver Foster, Stine e Waterman
(1998, pgs. 338-339). Na Tabela 3.15 temos a distribuio da preferncia do
comprador segundo o sexo e estado civil, respectivamente.
Tabela 3.15
Distribuio da preferncia do comprador de
automvel segundo o sexo e o estado civil.
Masculino Feminino
Americano 61 (42,4%) 54 (45,4%)
Japons 83 (57,6%) 65 (54,6%)
Total 144 119
Casado Solteiro
Americano 83 (48,8%) 32 (34,4%)
Japons 87 (51,2%) 65 (65,6%)
Total 170 93
Podemos notar que para ambos os sexos a maior preferncia por

carro japons. Dentre os casados h pequena vantagem por carro japons.
Contudo, essa preferncia bem mais acentuada entre os solteiros. Pelos
boxplots da Figura 3.3 notamos que a idade mediana dos compradores de
automvel americano ligeiramente superior idade mediana dos compra-
dores de automvel japons.
Tabela 3.16
ao modelo logstico ajustado aos dados
sobre preferncia de compradores.
Constante -1,600 -2,31
Idade 0,049 2,30
E.Civil -0,526 -1,94
232
60
50
Idade
40
30
20
Japones Americano
Figura 3.3: Boxplots da idade dos compradores de automveis japons e

americano.
Denotamos por Yi a preferncia com relao ao tipo do automvel pelo

i-simo comprador (1: americano, 0: japons). Vamos supor inicialmente
um modelo logstico sem interao em que Yi Be(i ) com

i
log = 1 + 2 idadei + 3 sexoi + 4 ecivili ,
1 i
sendo i a probabilidade do i-simo comprador preferir automvel americano.
Aplicando o mtodo AIC retiramos a varivel sexo do modelo. As estimativas
dos parmetros do modelo final sem interao so descritas na Tabela 3.16.
No foi significativa a incluso no modelo da interao entre a idade e

o estado civil do comprador. Assim, temos que a preferncia por automvel
americano aumenta com a idade do comprador. Com relao ao estado civil
notamos que os casados preferem mais carro americano do que os solteiros.
233
0.10
0.30
99 99
Distancia de Cook
223
0.20
Medida h
0.06
0.10
0.02
0.0
0.3 0.4 0.5 0.6 0.7 0 50 100 150 200 250

(a) (b)
Residuo Componente do Desvio
2
2
1
1
0
0
-1
-1
-2
-2
0 50 100 150 200 250 -3 -1 0 1 2 3
Indice Percentil da N(0,1)

(c) (d)

aos dados sobre preferncia de consumidores.
Essa razo de chances (entre casados e solteiros) por carro americano pode
ser estimada por = exp(0, 526) = 1, 69. Nos grficos de diagnstico da
Figura 3.4 duas observaes so destacadas como possivelmente pontos de
alvanca e influentes, #99 (idade de 60 anos, solteira e prefere carro japons)
e #223 (idade de 54 anos, solteiro e prefere carro americano). Porm, no h
indcios de observaes aberrantes nem de afastamentos srios da suposio
de distribuio de Bernoulli para a resposta. Na Tabela 3.17 so apresentadas
as estimativas dos parmetros sem essas duas observaes. Embora ocorram
algumas variaes desproporcionais no h mudana inferencial.
234
Tabela 3.17
logstico ajustado aos dados sobre preferncia
de consumidores sem as observaes #99 e #223.
Efeito Estimativa E/E.Padro Variao
Constante -1,942 -2,65 -21,4%
Idade 0,060 2,65 22,4%
E.Civil -0,474 -1,72 9,9%
Efeito Estimativa E/E.Padro Variao
Constante -1,463 -2,07 8,6%
Idade 0,045 2,05 -8,1%
E.Civil -0,550 -2,02 -4,6%
3.6.10 Modelos de dose-resposta

O modelo logstico frequentemente utilizado em Toxicologia no estudo do
comportamento de determinados medicamentos, que medido pela probabi-
lidade (x) de algum efeito produzido pelo medicamento em estudo, segundo
a dose (ou a log-dose) x aplicada. Essa probabilidade pode ser escrita pela
expresso geral Z x
(x) = f (u)du, (3.15)

em que f () representa uma funo densidade de probabilidade, tambm co-

nhecida como funo de tolerncia. Como vimos na Seo 1.3.1, alguns can-
didatos naturais para f (u) so as funes de densidade da normal padro,
da distribuio logstica e da distribuio do valor extremo, as quais levam
aos modelos probito, logstico e complementar log-log, respectivamente. Uti-
lizamos o preditor linear = 1 + 2 x no lugar de x em (3.15) a fim de
ampliarmos o leque de opes para (x).
Os modelos de dose-resposta visam no somente a predio da pro-
babilidade de sucesso (x) para uma dosagem especfica x, mas tambm a
determinao da dosagem necessria para atingirmos uma probabilidade de
235
sucesso p. Essa dosagem chamada de dose letal. A notao usual para uma
dose letal de 100p% dada por DL100p . Logo,
p = (1 + 2 DL100p ), 0 < p < 1.
A dose letal mais comum em Toxicologia a dose mediana (DL50 ), embora

em certos casos sejam tambm de interesse doses extremas, tais como DL1
ou DL99 . Devemos observar que hoje em dia modelos de dose-resposta so
definidos em vrias reas do conhecimento, em que a dose pode ser a idade,
o peso, a resistncia de um material etc.
Supondo o modelo logstico com preditor linear = 1 + 2 x, a esti-
mativa de mxima verossimilhana de DL100p fica, pela propriedade de inva-
rincia, dada por

c 1 p
DL100p = d() = log 1 ,
2 1p
em que a estimativa de mxima verossimilhana de = (1 , 2 )T .

c 100p pode ser obtida aps uma aproxima-
A varincia assinttica de DL
o de primeira ordem por srie de Taylor de d() em torno de , levando
ao seguinte:
c 100p ] = D()T (XT VX)1 D(),
VarA [DL
em que
T
1 1 p
D() = d()/ = , 1 log .
2 22 1p
Lembramos que (XT VX)1 contm as varincias e covarincia estimadas de

1 e 2 . Portanto, um intervalo de confiana assinttico de coeficiente (1 )
para DL100p fica dado por
q
c 100p z(1/2)
DL VarA [d()].
236
3.6.11 Aplicaes
Exposio de besouros
Tabela 3.18
Mortalidade de besouros expostos
a disulfeto de carbono gasoso.
Dose Besouros Besouros
log10 CS2 expostos mortos
1,6907 59 6
1,7242 60 13
1,7552 62 18
1,7842 56 28
1,8113 63 52
1,8369 59 53
1,8610 62 61
1,8839 60 60
Em Bliss (1935) (ver tambm Silva, 1992) encontramos uma situao

tpica para o ajuste de um modelo logstico de dose-resposta. O estudo
baseia-se no comportamento de besouros adultos exposio de disulfeto de
carbono gasoso (CS2 ) durante cinco horas. Os resultados obtidos a partir dos
481 besouros expostos segundo diferentes doses so apresentados na Tabela
3.18 e no arquivo besouros.dat. Ajustando um modelo logstico do tipo
logit{(x)} = 1 +2 x aos dados, em que x denota a dose de CS2 , obtemos as
estimativas 1 = 60, 72(5, 18), 2 = 34, 27(2, 91) e Cov(1 , 2 ) = 15, 04.
O desvio do modelo foi de D(y; ) = 11, 23 para 6 graus de liberdade, o
que leva a um nvel descritivo de P= 0, 0815, indicando um ajuste razovel.
O grfico de envelope descrito na Figura 3.5 confirma essa falta de ajuste.
Talvez a incluso de um termo quadrtico ou mesmo o ajuste de um modelo
logstico no linear (ver Silva, 1992) possam melhorar a qualidade do ajuste.
237
2
1
0
-1
-2
-3
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Percentil da N(0,1)
Figura 3.5: Grfico normal de probabilidades referente ao modelo logstico

ajustado aos dados sobre exposio de besouros.
Uma vez conhecida a covarincia assinttica entre 1 e 2 , podemos

calcular a varincia assinttica de DL100p para alguns valores de p e con-
sequentemente os intervalos assintticos de confiana. Em particular, para
p = 0, 50, obtemos

c 50 = 1 0, 5
DL log 1
2 1 0, 5
1 60, 72
= =
2 34, 27
= 1, 772.
Um intervalo de confiana assinttico de 95% para DL50 fica ento dado por
s
T T 1
0, 029
1, 772 1, 96 (0, 029, 0, 052) (X VX)
0, 052
p
= 1, 772 1, 96 0, 00001488
= [1, 764; 1, 780].
238
1.0
0.8
Porporcao de Mortos
0.6
0.4
0.2
0.0
1.65 1.70 1.75 1.80 1.85 1.90
dose
Figura 3.6: Modelo logstico ajustado proporo de besouros mortos.
A Figura 3.6 descreve a curva ajustada e as frequncias observadas.

Como podemos observar os pontos abaixo de (x) = 0, 50 parecem mais mal
ajustados do que os pontos com resposta estimada acima desse valor. Isso
sugere que um modelo binomial com ligao complemento log-log poderia ser
mais apropriado. A parte sistemtica desse modelo fica expressa na forma
log{log(1 (x))} = 1 + 2 x,
em que x denota a dose de CS2 . As estimativas paramtricas ficam dadas

por 1 = 39, 57(3, 24), 2 = 22, 04(1, 80) e Cov(1 , 2 ) = 5, 82. O desvio
do modelo caiu para D(y; ) = 3, 45 com 6 graus de liberdade, que leva a
um nvel descritivo de P= 0, 751. Logo, no rejeitamos o modelo. O grfico
da curva ajustada (Figura 3.7a) e o grfico normal de probabilidades (Figura
3.7b) confirmam essa indicao de modelo bem ajustado.
239
1.0
2
0.8
Porporcao de Mortos
1
0.6
0
0.4
-1
0.2
-2
0.0
-3
1.65 1.70 1.75 1.80 1.85 1.90 -1.5 -0.5 0.0 0.5 1.0 1.5
dose Percentil da N(0,1)

(a) (b)
Figura 3.7: Curva ajustada para a proporo de besouros mortos (a) e grfico
normal de probabilidades sob o modelo complementar log-log (b).
Para o modelo com ligao complemento log-log a estimativa de m-

xima verossimilhana de DL100p fica dada por
h i
c 100p = d() = 1 log{log(1 p)} 1 ,
DL
2
para a qual obtemos a varincia assinttica
c 100p ] = D()T (XT WX)1 D(),

VarA [DL
em que
T
1 1
D() = d()/ = , {1 log(log(1 p))} ,
2 22
com W sendo uma matriz diagonal de pesos dados por i = ni i1 (1
240
i )log2 (1 i ) i = 1, . . . , 8. Em particular, para p = 0, 50, obtemos
c 50 = 1 h i
DL log{log(1 0, 5)} 1
2
1
= (0, 3665 + 39, 57)
22, 04
= 1, 779.
Logo, um intervalo assinttico de 95% para DL50 fica dado por

s
T T 1
0, 0454
1, 779 1, 96 (0, 0454, 0, 0807) (X WX)
0, 0807
p
= 1, 779 1, 96 0, 00001606
= [1, 771; 1, 787].
Podemos notar que as estimativas intervalares para DL50 so praticamente

as mesmas sob os dois modelos ajustados.
Garotas de Varsvia
Os problemas de dose-resposta no se esgotam em Toxicologia. Milecer e
Szczotka (1966) investigam a idade do incio da menstruao em 3918 ga-
rotas de Varsvia. Para 25 mdias de idade foram observadas a ocorrncia
(Y = 1) ou no (Y = 0) do incio de perodos de menstruao nas adoles-
centes. Os dados desse estudo so apresentados na Tabela 3.19 e no arquivo
meninas.dat. Adotamos o modelo logstico linear

(x)
log = 1 + 2 x,
1 (x)
em que (x) = P r{Y = 1|x} e x denota a idade mdia. As estimativas

de mxima verossimilhana deram 1 = 21, 23(0, 769), 2 = 1, 63(0, 059)
e Cov(1 , 2 ) = 0, 045. Na Figura 3.8 so apresentadas a curva ajustada
241
e as frequncias observadas. O desvio do modelo foi de D(y; ) = 26, 80

(23 graus de liberdade) para um nvel descritivo de P= 0, 264, indicando um
ajuste adequado.
Tabela 3.19
Ocorrncia do incio da menstruao em garotas de Varsvia.
Nmero de garotas Nmero de garotas
Idade Menstruadas Entrevistadas Idade Menstruadas Entrevistadas
9,21 0 376 13,08 47 99
10,21 0 200 13,33 67 106
10,58 0 93 13,58 81 105
10,83 2 120 13,83 88 117
11,08 2 90 14,08 79 98
11,33 5 88 14,33 90 97
11,58 10 105 14,58 113 120
11,83 17 111 14,83 95 102
12,08 16 100 15,08 117 122
12,33 29 93 15,33 107 111
12,58 39 100 15,58 92 94
12,83 51 108 15,83 112 114
17,53 1049 1049
A estimativa da idade mediana de incio do perodo de menstruao

fica portanto dada por
c 50 = 21, 23 = 13, 02,

DL
1, 63
com o seguinte intervalo assinttico de confiana de 95%:
p
13, 02 1, 96 0, 004524 = [12, 89; 13, 15].
Pelo grfico de envelope descrito na Figura 3.9a notamos que os resduos

apresentam uma tendncia sistemtica dentro do envelope gerado, sugerindo
242
1.0
Porporcao de Garotas Menstruadas
0.8
0.6
0.4
0.2
0.0
10 12 14 16 18
Idade
Figura 3.8: Curva ajustada pelo modelo logstico linear para a proporo de
garotas de Varsvia.
a incluso de um termo quadrtico na parte sitemtica do modelo. O ajuste

de um modelo com parte sistemtica dada por
(x) = 1 + 2 x + 3 x2
forneceu as seguintes estimativas: 1 = 30, 96(5, 24), 2 = 3, 12(0, 78) e

3 = 0, 06(0, 03) com desvio D(y, ; ) = 23, 40 (22 graus de liberdade) para
um nvel descritivo de P= 0, 38. O grfico de envelope descrito na Figura
3.9b confirma a adequao do modelo com termo quadrtico.
Stukel (1988) (ver tambm Silva, 1992) mostra que o uso de um modelo
logstico no linear pode melhorar substancialmente a qualidade do ajuste dos
modelos de dose-resposta apresentados nesta seo.
243
3.6.12 Estimao da dose letal

Intervalos de confiana aproximados para a dose letal DL100p podem ser cons-
c 100p , conforme descrito na
trudos utilizando a varincia assinttica para DL
seo anterior. H, contudo, um outro mtodo que baseado no teorema de
0
Fieller (1954) e ser descrito a seguir. Chamamos = 1
, em que 0 e 1 so
estimados por 0 e 1 e assumimos que essas estimativas so normalmente
distribudas com mdias 0 e 1 , varincias v00 e v11 e covarincia v01 . Defi-
nimos a funo = 0 1 . Ento, se 0 e 1 so estimativas no viesadas
de 0 e 1 , obtemos E() = 0. A varincia de fica, portanto, dada por
v = Var() = v00 + 2 v11 2v01 . (3.16)
Desde que 0 e 1 so normalmente distribudos, ento tambm normal-

mente distribudo. Consequentemente, a varivel

(0 1 )/ v
segue uma distribuio normal padro. Assim, um intervalo assinttico de

confiana para com coeficiente (1 ) formado pelos valores de tais
que

| 0 1 | z(1/2) v.
Os limites desse intervalo de confiana saem da equao quadrtica
02 + 2 12 20 1 z(1/2)
2
v = 0,
que, aps algumas manipulaes algbricas e usando (3.16), fica dada por
(12 z(1/2)
2
v11 )2 + (2v01 z(1/2)
2
20 1 ) + 02 v00 z(1/2)
2
= 0.
Portanto, as razes da equao acima formam os limites inferior e superior do

intervalo de confiana para . Basta chamarmos = 1 /2 e aplicarmos os
244
resultados acima para encontrarmos um intervalo assinttico de coeficiente

(1 ) para DL50 .
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
-2 -1 0 1 2 -2 -1 0 1 2
(a) Percentil da N(0,1) (b) Percentil da N(0,1)
Figura 3.9: Grficos normais de probabilidades para os modelos logstico com

componente sistemtica linear (a) e no linear (b) ajustados aos dados sobre
garotas de Varsvia.
3.6.13 Modelos de retas paralelas

Modelos de retas paralelas so comumente aplicados na rea de Farmacologia
para compararmos a eficincia de drogas do mesmo tipo, ou seja, com ao
similar (ver, por exemplo, Finney, 1971; Collett, 1991). Nesses estudos,
o interesse principal compararmos as potncias entre as drogas definindo
uma droga particular como nvel base ou droga padro. Para aplicarmos
esses modelos em experimentos com respostas binrias assumimos que Yijk ,
o efeito produzido pela j-sima dose correspondente i-sima droga no k-
245
simo indivduo, i = 1, . . . , g, j = 1, . . . , di e k = 1, . . . , nij , segue uma

distribuio de Bernoulli com probabilidade de sucesso ij definida tal que
g(ij ) = i + logxij , (3.17)
e que as variveis Yijk s so mutuamente independentes. Se tomarmos a

primeira droga como padro, a potncia i da i-sima droga com relao
primeira definida por
logi = (i 1 )/,
i = 1, . . . , g. Essa suposio leva seguinte relao:
g(ij ) = 1 + logi xij ,
isto , x unidades da droga i tm o mesmo efeito que i x unidades da primeira

droga.
Aplicao
A Tabela 3.20 resume os resultados de um experimento (ver Collett, 1991)
em que trs inseticidas so aplicados num determinado tipo de inseto e
verificado o nmero de sobreviventes para cada dose aplicada. Esses dados
esto tambm descritos no arquivo insetic.dat.
Tabela 3.20
Mortalidade de insetos segundo as doses de trs inseticidas.
Dose mg/cm2
Inseticida 2,00 2,64 3,48 4,59 6,06 8,00
DDT 3/50 5/49 19/47 19/50 24/49 35/50
-BHC 2/50 14/49 20/50 27/50 41/50 40/50
DDT + -BHC 28/50 37/50 46/50 48/50 48/50 50/50
Ajustando o modelo (3.17) com ligao logito aos dados, obtemos as

estimativas 1 = 4, 555(0, 361), 2 = 3, 842(0, 333), 3 = 1, 425(0, 285)
246
e = 2, 696(0, 214), com desvio dado por D(y; ) = 21, 282, para 14 graus
de liberdade, P= 0, 0946. Isso quer dizer que o ajuste do modelo de retas
paralelas parece ser razovel.
3
2
1
0
-1
-2
-2 -1 0 1 2
Percentil da N(0,1)
Figura 3.10: Grfico normal de probabilidades para o modelo logstico de

retas paralelas ajustado aos dados sobre trs tipos de inseticida.
Temos, portanto, os seguintes ajustes para as trs drogas:

1 (xj )
log = 4, 555 + 2, 696logxj (DDT);
1 1 (xj )

2 (xj )
log = 3, 842 + 2, 696logxj (BHC) e
1 2 (xj )

3 (xj )
log = 1, 425 + 2, 696logxj (DDT + BHC),
1 3 (xj )
para j = 1, . . . , 6. Notamos, pelas estimativas, que h um aumento de
potncia quando as drogas DDT e -BHC so misturadas. Em particu-
247
lar, a potncia da mistura com relao s drogas DDT e -BHC esti-

mada, respectivamente, por 1 = exp{(1, 425 + 4, 555)/2, 696} = 3, 19 e
2 = exp{(1, 425 + 3, 842)/2, 696} = 2, 45.
Pelo grfico normal de probabilidades (Figura 3.10), notamos que to-
dos os resduos caem dentro do envelope gerado. No entanto, parece haver
uma tendncia no grfico, uma vez que os resduos negativos apresentam-se
ligeiramente abaixo da mdia enquanto os resduos positivos apresentam-se
ligeiramente acima. Isso pode ser um indcio de sobredisperso, isto , que as
rplicas (para cada dose e cada inseticida) no so totalmente independentes.
Em Collett (1991, Cap. 6) h uma discusso sobre o assunto. Apresentare-
mos a seguir uma abordagem para esse tipo de problema.
3.6.14 Sobredisperso
Sobredisperso ou variao extrabinomial um fenmeno comum que ocorre
na modelagem de dados binrios agrupados e cuja ocorrncia caracterizada
quando a variao observada excede aquela assumida pelo modelo (ver, por
exemplo, Hinde e Demtrio, 1998). Em particular em regresso logstica,
quando o desvio D(y; ) maior que o nmero de graus de liberdade (g p),
pode haver indcios de sobredisperso, em que g o nmero de grupos. Isso
pode ser avaliado mais precisamente pelo nvel descritivo do teste de ajus-
tamento comparando D(y; ) com os percentis da distribuio qui-quadrado
com (g p) graus de liberdade.
Diferentes circunstncias, entretanto, podem causar um valor alto para
o desvio. Algumas delas representam uma sobredisperso aparente. Por
exemplo, alguns pontos aberrantes podem aumentar substancialmente o valor
do desvio e a simples eliminao desses pontos pode reduzir as evidncias de
sobredisperso. Outra causa aparente de sobredisperso a ausncia de
248
algum termo extra na parte sistemtica do modelo. Medidas de diagnstico

so ferramentas importantes para detectarmos o fenmeno. Em sntese, h
duas possveis causas de sobredisperso: correlao entre as rplicas binrias
ou variao entre as probabilidades de sucesso de um mesmo grupo. Do ponto
de vista prtico difcil distinguirmos entre os dois casos, contudo, como
veremos a seguir, os procedimentos estatsticos para tratarmos o problema
podem ser os mesmos.
Caso I
Vamos supor inicialmente a existncia de g grupos de modo que para o i-simo
grupo sejam observadas ni repeties de uma varivel aleatria Yij Be(i )
(Bernoulli com probabilidade de sucesso i ). O nmero total de sucessos no
i-simo grupo ser definido por
Yi = Yi1 + + Yini .
Segue que E(Yij ) = i e Var(Yij ) = i (1 i ). Vamos supor adicionalmente

a existncia de correlao entre as repeties do i-simo grupo. Logo,
ni
X ni
X ni
X
Var(Yi ) = Var(Yij ) + Cov(Yij , Yik ).
j=1 j=1 k=1,k6=j
Se essa correlao constante, Corr(Yij , Yik ) = para j 6= k, ento teremos

que Cov(Yij , Yik ) = i (1 i ). Da obtemos
ni
X ni
X ni
X
Var(Yi ) = i (1 i ) + i (1 i )
j=1 j=1 k=1,k6=j
= ni i (1 i ) + ni (ni 1)i (1 i )
= i2 ni i (1 i ),
em que i2 = 1 + (ni 1). Se exigido que i2 > 0, ento devemos ter
1 + (ni 1) > 0,
249
que implica em > 1/(ni 1). Portanto, haver a restrio

1
1.
ni 1
Assim, assumir valores negativos apenas para ni pequeno. Caso contrrio,
assumir valores positivos. Logo, teremos em geral Var(Yi ) > ni i (1 i )
(sobredisperso).
Caso II
Vamos supor agora que pi representa a probabilidade de sucesso nas respostas
do i-simo grupo tal que E(pi ) = i e Var(pi ) = i (1 i ), 0. Temos
portanto um modelo de efeito aleatrio, que reduz ao modelo usual de efeito
fixo se tomarmos = 0. Assumimos ainda que Yij |pi Be(pi ) de onde segue
que E(Yij |pi ) = pi e Var(Yij |pi ) = pi (1 pi ). Da obtemos
E(Yi ) = E{E(Yi |pi )} = ni i
Var(Yi ) = E{Var(Yi |pi )} + Var{E(Yi |pi )}

= ni i (1 i )(1 ) + n2i i (1 i )
= ni i (1 i ){1 + (ni 1)},
que coincidem com os resultados obtidos para o primeiro caso. No entanto

aqui temos a restrio 0.
Estimao
A estimao de tem sido discutida em vrios contextos. No primeiro caso,
por exemplo, pode ser consistentemente estimado por
g
X X
= rPi rPi /(N p), (3.18)
i=1 <
250
p
em que rPi = (yi i )/ i (1 i ) o resduo de Pearson estimado,
P
N = 21 gi=1 ni (ni 1) e i a estimativa de mxima verossimilhana de
i supondo = 0. Podemos, contudo, estimar e simultaneamente atra-
vs de um processo iterativo. Uma proposta o uso de equaes de estimao
generalizadas (Liang e Zeger, 1986) as quais sero discutidas no Captulo 5.
As novas estimativas, denotadas por G e , saem do sistema de equaes
g
X
{1 + (ni 1)}1 xi (yi ni i ) = 0.
i=1
Dada uma estimativa inicial para , que pode ser , temos o seguinte processo
iterativo para obter G :
g g
X (m)
X (m) (m) (m) (m)
(m+1) (m) T 1
= +{ i xi xi } {i xi (yi ni i )/ni i (1 i )},
i=1 i=1
(3.19)
m = 0, 1, 2 . . ., em que i = ni i (1 i )/{1 + (ni 1)}. O processo iterativo
(3.19) alternado com (3.18) at chegarmos convergncia. Podemos mos-
trar que o estimador G consistente e assintoticamente normal. A varincia
assinttica de G dada por
g
X
Var( G ) = { i xi xTi }1 .
i=1
H tambm uma proposta de varincia assinttica robusta no caso da estru-

tura de correlao ter sido definida incorretamente, que dada por
g g g
X X X
T 1 T
Var( G ) = { i xi xi } { i xi xi }{ i xi xTi }1 ,
i=1 i=1 i=1
P
em que i = {1 + (ni 1)}2 , (yi i )(yi i ). Um desvio corrigido
P
para esse modelo fica dado por D(y; G ) = gi=1 {1 + (ni 1)}d2i , em que d2i
o i-simo componente do desvio de um modelo binomial, avaliado em G .
251
Apresentamos a seguir os procedimentos para resolvermos (3.19) no R.

Inicialmente iremos propor uma funo corpearson para obtermos (3.18).
Denotaremos os vetores (y1 /n1 , . . . , yg /ng )T , (y1 , . . . , yg )T e (n1 , . . . , ng )T por
fr, yt e nt, respectivamente, e o nmero de parmetros por npar. A funo
definida por
corpearson = function(fr, yt, nt, npar) {
nt1 = 0.5*sum(nt*(nt-1))
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum1 = sum(sum1)
rho = sum1/(nt1-npar)
rho }.
Vamos supor que temos duas variveis explicativas representadas por x1 e
x2 sem intercepto e que os resultados do ajuste do modelo supondo inde-
pendncia sejam colocados em fit.model. Em fit.gee so armazenados os
resultados do processo iterativo dado em (3.19) e vamos supor 10 iteraes.
Seguem os comandos
fit.model = glm(resp x1 + x2 - 1, family=binomial)
eta = predict(fit.model)
fr = fitted(fit.model)
rr = corpearson(fr, yt, nt, npar)
i = 1
while(i <= 10) {
fit.gee = glm(resp x1 + x2 -1, family=binomial, start=
mu = exp(eta)/(1 + exp(eta)),
maxiter = 1,
weights = 1/(1 + (nt - 1)*rr))
252
eta = predict(fit.gee)
fr = fitted(fit.gee)
rr = corpearson(fr, yt, nt, npar)
i = i + 1 }.
A estimativa final da correlao est armazenada em rr. Para rodarmos os
programas descritos acima no R colocamos inicialmente a funo corpearson
num arquivo externo, por exemplo denominado corr.s, e executamos o
mesmo atravs do comando abaixo
source(corr.s).
Ento a funo corpearson estar instalada. Em seguida devemos fazer
o mesmo para ajustarmos o modelo colocando os demais comandos num
arquivo externo, por exemplo denominado super.s, fazendo o seguinte:
source(super.s).
Teste de ausncia de sobredisperso

Podemos ter interesse particular em testar a hiptese de ausncia de sobre-
disperso H0 : = 0 contra H1 : > 0. Como o conhecimento da distribuio
de Yij bastante complexo sob a hiptese alternativa, o que inviabilizaria a
aplicao de testes tradicionais tais como razo de verossimilhanas, Wald
e escore, propomos a aplicao de um teste tipo escore que requer apenas o
conhecimento dos dois primeiros momentos de Yij e a estatstica do teste
avaliada sob a hiptese nula (modelo binomial de respostas independentes).
A estatstica do teste (ver Paula e Artes, 2000) assume a forma
Pg
Mi
S = qPi=1 ,
g 2
i=1 M i
P
em que Mi = < rPi rPi de modo que H0 seja rejeitada quando S >
z(1) . Podemos mostrar que essa estatstica corresponde forma padroni-
253
zada (sob H0 ) de . Para calcularmos S propomos a funo abaixo em que

fr denota os valores ajustados sob a hiptese nula.
escore = function(fr,yt,nt) {
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum2 = sum(sum1*sum1)
sum1 = sum(sum1)
escore = sum1/sqrt(sum2)
escore }.
Quase-Verossimilhana
Uma outra possibilidade de estudarmos o fenmeno de sobredisperso atra-
vs do uso do modelo beta-binomial em que Yi | B(ni , ) enquanto
segue uma distribuio beta. Podemos mostrar que a varincia de Yi dada
por
Var(Yi ) = ni i (1 i ){1 + (ni 1)},
em que i e dependem dos parmetros da distribuio beta. A estimao

de bastante complexa nesse caso requerendo o uso de mtodos iterativos
e de integrao numrica (ver, por exemplo, Collett, 1991, Cap. 6).
Podemos ainda supor i2 = 1 , estimarmos consistentemente dos

dados ou do modelo ajustado e substituirmos a estimativa obtida nas quan-
tidades que envolvem . Quando ni grande, i, podemos estimar direta-
mente do desvio
D(y; )
1 = .
gp
254
2
1
0
-1
-2
-3
-2 -1 0 1 2
Percentil da N(0,1)
Figura 3.11: Grfico normal de probabilidades para o resduo corrigido para

o modelo logstico de retas paralelas ajustado aos dados sobre trs tipos de
inseticida.
No caso de ni pequeno, para algum i, recomendamos a estimativa abaixo

g
1 1 X (yi ni i )2
= ,
g p i=1 ni i (1 i )
em que p denota o nmero de parmetros da parte sistemtica do modelo

e 1 , . . . , g so as probabilidades ajustadas nos g grupos. Sob a hiptese
de que o modelo verdadeiro, essa estimativa tambm consistente para .
Essa opo um caso particular de modelos de quase-verossimilhana que
sero discutidos no Captulo 5.
No exemplo da seo anterior, envolvendo a comparao de trs inse-
ticidas, temos um total de 18 grupos com probabilidades ajustadas i (xj ),
i = 1, 2, 3 e j = 1, . . . , 6. Como ni = 50 para a maioria dos grupos e prximo
a esse valor para os demais grupos, podemos estimar consistentemente
255
atravs de
D(y; ) 21, 282
1 = = = 1, 52.
gp 14
Algumas quantidades que envolvem devero ser corrigidas,
Var() = 1 (XT VX)1 ,
D (y; ) = D(y; ) e
q
tDi = tDi . O novo grfico normal de probabilidades, agora com tDi ,
apresentado na Figura 3.11 e no apresenta indcios de afastamentos srios
das suposies feitas para o modelo. importante observarmos que o novo
resduo tDi no corresponde ao componente do desvio de nenhum modelo
particular. Nos modelos de quase-verossimilhana a distribuio da resposta
em geral desconhecida e o uso de D (y; ) deve ser encarado de forma
descritiva.
Aplicao
Collett (1991, Seo 6.9) descreve um experimento com duas espcies de
rotifers, um tipo microscpico de invertebrado aqutico. O objetivo do ex-
perimento determinar a densidade relativa para cada uma das espcies.
Foi utilizado um mtodo indireto que consiste em centrifugar os animais em
recipientes com densidades relativas de uma determinada substncia e ento
utilizar uma regresso logstica para ajustar a proporo de rotifers que per-
manece suspensa segundo a densidade relativa. A densidade relativa de cada
espcie pode ser estimada pela DL50 , que nesse caso representa a densidade
relativa da substncia que deixa suspenso 50% de rotifers.
Seja Yij o nmero de animais da i-sima espcie que permanecem sus-
pensos num recipiente com densidade relativa dj da soluo, onde foram
256
colocados nij rotifers. Assumimos inicialmente que Yij B(nij , ij ), i = 1, 2

e j = 1, . . . , 20, em que

ij
log = i + i dj .
1 ij
Tabela 3.21
Distribuio de rotifers das duas espcies.
Polyarthra major Keratella cochlearis
Densidade Suspensos Expostos Suspensos Expostos
1,019 11 58 13 161
1,020 7 86 14 248
1,021 10 76 30 234
1,030 19 83 10 283
1,030 9 56 14 129
1,030 21 73 35 161
1,031 13 29 26 167
1,040 34 44 32 286
1,040 10 31 22 117
1,041 36 56 23 162
1,048 20 27 7 42
1,049 54 59 22 48
1,050 20 22 9 49
1,050 9 14 34 160
1,060 14 17 71 74
1,061 10 22 25 45
1,063 64 66 94 101
1,070 68 86 63 68
1,070 488 492 178 190
1,070 88 89 154 154
Na Tabela 3.21 e no arquivo rotifers.dat so apresentados para cada

espcie a densidade relativa da substncia, o nmero de rotifers expostos
257
6
4
2
0
-2
-4
-6
-2 -1 0 1 2
Percentil da N(0,1)
Figura 3.12: Grfico normal de probabilidades do modelo logstico ajustado

aos dados sobre rotifers.
e o nmero de rotifers em suspenso. Para a espcie Polyathra as esti-

mativas de mxima verossimilhana so dadas por 1 = 109, 72(5, 22) e
1 = 105, 67(5, 02), enquanto que para a espcie Keratella obtemos 2 =
114, 35(4, 03) e 2 = 108, 75(3, 86). Embora essas estimativas sejam alta-
mente significativas, o desvio do modelo D(y; ) = 434, 02 (36 graus de liber-
dade) indica para um ajuste inadequado. O grfico normal de probabilidades
descrito na Figura 3.12 confirma a sobredisperso. Segundo Collett (1991,
Cap. 6) a sobredisperso nos dados pode ter sido causada por uma poss-
vel m distribuio dos animais nos recipientes, uma vez que rotifers mais
jovens so menos densos do que os mais maduros. Collett (1991) prope
um modelo logstico com efeito aleatrio para ajustar a proporo de ani-
mais em suspenso e consegue uma reduo substancial no valor do desvio.
258
Vamos assumir, alternativamente, o modelo proposto na Seo 3.6.14, que

com uma adaptao de notao corresponde a assumirmos E(Yij ) = nij ij
e Var(Yij ) = nij ij (1 ij ){1 + (nij 1)}, em que denota a correlao
intraunidade experimental. 1
Residuo de Pearson
0
-1
-2
16
-3
0.0 0.2 0.4 0.6 0.8
Valor Ajustado
Figura 3.13: Grfico de resduos de Pearson contra os valores ajustados para

o modelo logstico de sobredisperso ajustado aos dados sobre rotifers.
Usando o processo iterativo dado na seo anterior obtemos as novas

estimativas 1 = 90, 64(13, 18), 1 = 87, 22(12, 66), 2 = 117, 25(14, 91),
2 = 111, 45(14, 21) e = 0, 0815. Pela Figura 3.13 notamos que exceto a
observao #16, que corresponde a uma unidade experimental com baixa
proporo de rotifers, 10/22, para uma densidade alta, os demais resduos
permanecem no intervalo [-2,2] e no apresentam nenhuma tendncia siste-
259
mtica contra os valores ajustados. A aplicao da estatstica S para testar

H0 : = 0 contra H1 : > 0 forneceu o valor S = 3, 126, com nvel descritivo
P= 0, 0009, indicando fortemente pela rejeio da hiptese nula. Portanto,
h indcios de sobredisperso nos dados.
3
18
0.6

28
2
Distancia de Cook
0.4
1
0.2
0
0.0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
Indice Indice
Figura 3.14: Grficos de diagnstico para o modelo logstico condicional

aplicado aos dados sobre diabetes.
3.6.15 Modelo logstico condicional

Em alguns estudos de caso e controle ou de seguimento o nmero de estratos
formados pode ser relativamente grande. Isso ocorre em particular nos estu-
dos emparelhados de caso e controle, em que a influncia de fatores suspeitos
de confundimento controlada atravs de emparelhamentos de casos com
controles, segundo alguns nveis desses fatores. Para cada emparelhamento
260
temos um estrato. Assim, se adotado um modelo logstico linear, alm

dos parmetros correspondentes aos efeitos includos no modelo, temos um
parmetro (intercepto) para cada estrato. Nos casos de estratos com poucas
observaes, o nmero de parmetros pode ser da mesma ordem do nmero
total de observaes, o que em geral leva a estimativas viesadas (ver Cox e
Hinkley, 1974, p. 292).
Como ilustrao, vamos supor um estudo de caso e controle com k
emparelhamentos do tipo 1:1 (1 caso por 1 controle) segundo os nveis de um
fator binrio de exposio representado pela varivel X (X = 1 presena da
exposio, X = 0 ausncia da exposio). Denotamos por Yi (x) o resultado
da resposta para o indivduo do i-simo estrato com X = x (Yi (x) = 1 caso,
Yi (x) = 0 controle). Vamos supor que Yi (x) Be{i (x)}, em que

i (x)
log = i + x.
1 i (x)
A razo de chances de ser caso entre o indivduo exposto e o indivduo no
exposto no i-simo estrato fica dada por
i (1)/{1 i (1)}
= = exp()
i (0)/{1 i (0)}
sendo, portanto, constante ao longo dos estratos.
Para eliminarmos os parmetros i s podemos trabalhar com a distri-
buio condicional de Yi (1) dado Yi (1) + Yi (0) = m. Essa distribuio foi
discutida na Seo 3.2.3. A funo de probabilidades pode ser expressa na
forma
1 1
a ma
a
f (a|m; ) = Pv 1
1 ,
t
t=u t mt
em que a = 0, 1 e m = 0, 1, 2. fcil mostrar que f (a|0; ) = f (a|2; ) = 1,

havendo portanto informao a respeito de somente nos estratos em que
261
Yi (1) + Yi (0) = 1. A funo de probabilidades nesse caso definida para

a = 0 e a = 1, sendo as probabilidades dadas por
f (0|1; ) = 1/(1 + )
e
f (1|1; ) = /(1 + ).
Se definirmos para o i-simo estrato duas novas variveis binrias X1i e X2i
representando, respectivamente, o nvel de exposio do caso e do controle,
poderemos expressar as probabilidades condicinais na forma
exp(x1i x2i )
f (a|1, ) = ,
1 + exp(x1i x2i )
em que a = 0, 1. Assim, para k estratos, a funo de verossimilhana conjunta
condicional, que depende apenas de e ser denotada por (), assume a
forma

exp{(xi1 xi2 )}
() = ki=1 .
1 + exp{(xi1 xi2 )}
Temos que a expresso acima coincide com a funo de verossimilhana de
uma regresso logstica com k sucessos em k ensaios, com uma nica cova-
rivel com valores observados zi = xi1 xi2 , i = 1, . . . , k, e passando pela
origem.
Generalizando para p covariveis e supondo ainda emparelhamentos
1:1, teremos o modelo

i (x)
log = i + xT ,
1 i (x)
em que x = (x1 , . . . , xp )T , = (1 , . . . , p )T e i (x) = P r{Yi = 1|x}, i =

1, . . . , k. Se observamos no i-simo estrato os valores xi1 = (xi11 , . . . , xi1p )T
para o caso e os valores xi2 = (xi21 , . . . , xi2p )T para o controle, a funo de
262
verossimilhana conjunta condicional assume a forma geral (ver, po exemplo,

Breslow e Day, 1980, p. 205; Hosmer e Lemeshow, 1989, Cap. 7)

k exp{(xi1 xi2 )T }
() = i=1 .
1 + exp{(xi1 xi2 )T }
Logo, a estimao de pode ser feita atravs do ajuste de uma regresso
logstica com k sucessos em k ensaios, com valores observados das covari-
veis dados por zij = xi1j xi2j , i = 1, . . . , k e j = 1, . . . , p e passando pela
origem. Devemos observar que embora algumas quantidades da regresso
logstica condicional para estudos emparelhados do tipo 1:1 coincidam com
as quantidades de uma regresso logstica no condicional passando pela ori-
gem, tais como estimativas dos parmetros e erros padro assintticos, as
distribuies dos modelos so diferentes. No primeiro caso temos o produto
de hipergeomtricas independentes enquanto que no segundo caso temos o
produto de binomiais independentes. Isso pode refletir na obteno de alguns
resultados, como por exemplo, gerao de envelope para o resduo compo-
nente do desvio que usa a distribuio da resposta no processo de gerao
dos dados.
Tcnicas de diagnstico
Moolgavkar, Lustbader e Venzon (1985) e Pregibon (1984) tm mostrado
que a maioria das tcnicas usuais de diagnstico do modelo logstico no
condicional podem ser estendidas para o modelo logstico condicional. Como
a varivel resposta no modelo logstico condicional sempre assume o valor 1,
o resduo componente do desvio sempre positivo, sendo dado por

2|logi |
t Di = p ,
1 hii
263
em que
exp(zTi )
i = e hii = i (1 i )zTi (ZT VZ)1 zi .
1+ exp(zTi )
Os grficos de tDi e hii contra os valores ajustados i podem revelar em-
parelhamentos discrepantes com algum tipo de influncia nos resultados do
modelo.
De forma similar, a distncia de Cook no caso emparelhado fica dada
por
hii
LDi = rP2 i ,
(1 hii )2
em que
1 i
rPi = p
i (1 i )
o resduo de Pearson. Temos que rP1 assume sempre valores no negativos.
O grfico de LDi contra os valores ajustados i pode revelar aqueles empare-
lhamentos com maior influncia nas estimativas dos parmetros. A gerao
de envelope, contudo, somente pode ser feita atravs do modelo logstico
condicional.
Para ilustrarmos o ajuste no R, vamos supor um estudo com k = 20
emparelhamentos do tipo 1:1 e que foram observados os valores de duas
covariveis V 1 e V 2. Os valores observados dos casos sero armazenados nos
objetos v11 e v12 e os valores observados dos controles nos objetos v21 e
v22. O ajuste segue os seguintes passos:
resp < rep(1, times=20)
z1 < v11 - v21
z2 < v12 - v22
fit.cond < glm(resp z1+z2 - 1, family=binomial).
Podemos analisar fit.cond em geral da mesma forma que analisamos a
sada de um modelo logstico linear. Por exemplo, as estimativas e os erros
264
padro, como foi mostrado acima, coincidem com as estimativas e os erros

padro obtidos pelo modelo logstico condicional.
Aplicao
Como aplicao, discutimos a seguir um estudo cujo objetivo foi avaliar o
efeito da obesidade, do histrico familiar e de atividades fsicas no desenvol-
vimento de diabetes no dependente de insulina. 30 indivduos no diabticos
foram emparelhados com 30 indivduos diabticos no dependentes de insu-
lina pela idade e pelo sexo. A obesidade foi medida atravs do ndice de
massa coporal (IMC), que definida como sendo o peso (em kg) dividido
pela altura (em metros quadrados). O histrico familiar com diabetes (HF)
e as atividades fsicas (ATF) foram tratadas como sendo variveis binrias
(HF=1 presena, HF=0 ausncia; ATF=1 presena, ATF=0 ausncia). Os
dados so descritos em Lee (1991, p. 312) e reproduzidos na Tabela 3.22 e
esto tambm no arquivo diabetes.dat. Denotaremos por xi11 , xi12 e xi13 ,
respectivamente, o valor da massa corporal (IMC), histrico familiar (HF) e
atividades fsicas (ATF) para o i-simo indivduo diabtico e por xi21 , xi22
e xi23 os valores dessas variveis para o i-simo indivduo no diabtico. A
funo de verossimilhana do modelo logstico condicional ser dada por

30 exp(zi1 1 + zi2 2 + zi3 3 )
() = i=1 ,
1 + exp(zi1 1 + zi2 2 + zi3 3 )
em que zi1 = xi11 xi21 , zi2 = xi12 xi22 e zi3 = xi13 xi23 .
As estimativas de mxima verossimilhana (erro padro aproximado)
so dadas por 1 = 0, 090(0, 065), 2 = 0, 968(0, 588) e 3 = 0, 563(0, 541),
cujos nveis descritivos so, respectivamente, dados por 0, 166, 0, 099 e 0, 298,
indicando indcios de efeito significativo apenas para o histrico familiar.
Na Figura 3.14 so apresentados alguns grficos de diagnstico em que
podemos notar a influncia das observaes #18 e #28 como possivelmente
265
Tabela 3.22
Emparelhamento de 30 diabticos no
dependentes de insulina (casos) e 30
no diabticos (controles).
Casos Controles
Par IMC HF ATF IMC HF ATF
1 22,1 1 1 26,7 0 1
2 31,3 0 0 24,4 0 1
3 33,8 1 0 29,4 0 0
4 33,7 1 1 26,0 0 0
5 23,1 1 1 24,2 1 0
6 26,8 1 0 29,7 0 0
7 32,3 1 0 30,2 0 1
8 31,4 1 0 23,4 0 1
9 37,6 1 0 42,4 0 0
10 32,4 1 0 25,8 0 0
11 29,1 0 1 39,8 0 1
12 28,6 0 1 31,6 0 0
13 35,9 0 0 21,8 1 1
14 30,4 0 0 24,2 0 1
15 39,8 0 0 27,8 1 1
16 43,3 1 0 37,5 1 1
17 32,5 0 0 27,9 1 1
18 28,7 0 1 25,3 1 0
19 30,3 0 0 31,3 0 1
20 32,5 1 0 34,5 1 1
21 32,5 1 0 25,4 0 1
22 21,6 1 1 27,0 1 1
23 24,4 0 1 31,1 0 0
24 46,7 1 0 27,3 0 1
25 28,6 1 1 24,0 0 0
26 29,7 0 0 33,5 0 0
27 29,6 0 1 20,7 0 0
28 22,8 0 0 29,2 1 1
29 34,8 1 0 30,0 0 1
30 37,3 1 0 26,5 0 0
266
influentes nas estimativas dos parmetros. A eliminao do emparelhamento

#18 no muda os resultados inferenciais embora aumente a significncia do
histrico familiar. J a eliminao do emparelhamento #28 muda os re-
sultados inferenciais uma vez que o ndice de massa corporal passa a ser
significante ao nvel de 10%. Nesse emparelhamento o controle tem histrico
familiar e atividade fsica enquanto o caso no apresenta as duas caracters-
ticas. Alm disso, o caso tem um ndice de massa corporal menor do que o
controle.
Emparelhamento 1:M
Para emparelhamentos do tipo 1:M (M 2) e k estratos a funo de verossi-
milhana (ver, por exemplo, Breslow e Day, 1980; Cordeiro e Paula, 1989b)
para = (1 , . . . , p )T fica dada por
M
X
() = ki=1 {exp(xTi0 )/ exp(xTi )}, (3.20)
=0
cujo logaritmo assume a forma

k
X XM
L() = log() = [xTi0 log{ exp(xTi )}], (3.21)
i=1 =0
em que xi0 = (xi01 , . . . , xi0p )T denota os valores observados para o caso e

xi = (xi1 , . . . , xip )T denota os valores observados para o -simo controle.
A funo de verossimilhana (3.21) coincide com a funo de veros-
similhana do modelo de regresso de Cox (Cox, 1972; Cox e Oakes, 1974)
quando no h ocorrncia de empates. Isso permite que os modelos logsticos
condicionais para emparelhamentos 1:M (M 2) sejam ajustados atravs de
programas desenvolvidos para o modelo de Cox.
267
3.7 Exerccios
3.7 Exerccios
1. Os dados abaixo so de um estudo de seguimento cujo objetivo foi

avaliar a associao de duas tcnicas cirrgicas, A e B, e a ocorrncia
de problemas graves ps-operatrios segundo duas faixas de idade.
Faixa I Faixa II
Problema A B A B
Sim 6 7 7 4
No 14 23 9 12
Obtenha um intervalo assinttico de confiana de 95% para a razo

de chances em cada estrato. Teste a hiptese de homogeneidade das
razes de chances. Comente.
2. A tabela abaixo resume um estudo de caso e controle em que foram

considerados como casos 200 homens adultos diagnosticados com cncer
de esfago num hospital de uma determinada comunidade. Os controles
foram uma amostra de 775 homens adultos escolhidos aleatoriamente da
lista de eleitores da comunidade. Esses dois grupos foram classificados
segundo os nveis alto (mais de 80g/dia) e baixo (at 80g/dia) do fator
Exposio ao Alcool.
Alto Baixo Total

Caso 96 104 200
Controle 109 666 775
Total 205 770 975
Verifique, atravs de um teste apropriado, se h associao entre o fator

de exposio e a doena. Encontre um intervalo de confiana assinttico
para a razo de chances. Indique as suposies utilizadas e interprete
os resultados.
268
3.7 Exerccios
3. (Day e Byar, 1979). Suponha Yij B(nij , ij ) mutuamente indepen-

dentes, i, j = 1, 2 com as probabilidades ij sendo definidas por

i1 i2
log = i e log = i + .
1 i1 1 i2
Interprete 1 , 2 e . Mostre que o teste de escore para testar H0 :
= 0 contra H1 : 6= 0, coincide com o teste de Mantel-Hanszel
2
(XM H ) para testar H0 : = 1 contra H1 : 6= 1, em que =
i2 (1 i1 )/i1 (1 i2 ), i = 1, 2.
ind
4. Supor um modelo binomial quadrtico de dose-resposta, em que Yi
B(ni , i ), com g(i ) = + xi + x2i , i = 1, . . . , k. Como fica expressa
a estimativa DL c 100p ? E a varincia assinttica de DL c 100p ?
5. Suponha o modelo logstico com ligao de Aranda-Ordaz. Desenvolva

um processo iterativo para estimar ( T , )T e escreva um programa
em R. Aplique esse processo iterativo para ajustar os dados do exemplo
sobre a exposio de besouros descrito na Seo 3.6.11. Assuma =
1 + 2 x. significativamente diferente de um? Com fica o resduo
componente do desvio? E o desvio? Houve melhora na qualidade do
ajuste? Tente gerar envelope.
ind
6. Supor um modelo binomial quadrtico de dose-resposta, em que Yi
B(ni , i ), com g(i ) = i = + xi + x2i , i = 1, . . . , k. Assumir que
2 /x2 < 0, x. Qual a soluo para /x = 0? Denotando essa
soluo por x0 , interprete e encontre uma estimativa intervalar para x0 .
7. (Paula, Sevanes e Ogando, 1988). Os conjuntos de dados apresentados

nos arquivos dose1.dat, dose2.dat e dose3.dat so provenientes de
um experimento de dose-resposta conduzido para avaliar a influncia
dos extratos vegetais aquoso frio de folhas", aquoso frio de frutos"e
269
3.7 Exerccios
de um extrato qumico, respectivamente, na morte de um determinado

tipo de caramujo. Para cada conjunto, ajuste um modelo logstico li-
near simples e um modelo complementar log-log linear simples. Para
o melhor ajuste (use envelopes como critrio), encontre um intervalo
assinttico de 95% para a dose letal DL50 , construa as bandas de con-
fiana e verifique se h indcios de sobredisperso aplicando um teste
apropriado.
8. (Collett, 1991, p.127). Os dados abaixo so provenientes de um experi-

mento desenvolvido para avaliar a germinao de um determinado tipo
de semente segundo trs condies experimentais: nvel da temperatura
(21o C, 42o C e 62o C); nvel da umidade (baixo, mdio e alto) e tem-
peratura da germinao (11o C e 21o C). A tabela abaixo apresenta o
nmero de sementes que germinaram aps cinco dias para cada 100 se-
mentes submetidas a cada condio experimental. Assuma um modelo
logstico para explicar o nmero de sementes que germinaram. Aplique
o mtodo AIC para selecionar um modelo considerando interaes de
1a ordem. Interprete os resultados. Faa uma anlise de resduos com
o modelo selecionado. Esses dados esto descritos no arquivo semen-
tes.dat.
Temperatura da Nvel da Nvel da Temperatura

Germinao Umidade 21o C 42o C 62o C
o
11 C baixo 98 96 62
11o C mdio 94 79 3
11o C alto 92 41 1
21o C baixo 94 93 65
21o C mdio 94 71 2
o
21 C alto 91 30 1
9. Mostre que a varincia assinttica do estimador de mxima verossimi-
270
3.7 Exerccios
lhana no condicional da razo de chances numa tabela 2 2 dada

por
2 1 1
VarA () = + .
n1 1 (1 1 ) n2 2 (1 2 )
Lembre que: sob condies gerais de regularidade, os estimadores de
mxima verossimilhana so assintoticamente normais e no viesados
com varincia assinttica igual inversa da matriz de informao de
Fisher.
10. Sejam Y1 e Y2 variveis aleatrias independentes tais que Y1 B(n1 , 1 )

e Y2 B(n2 , 2 ). Seja RR = 1 /2 o risco relativo. (i) Expresse a
funo de probabilidades conjunta de Y1 e Y2 em funo de (RR, 2 ),
c e 2 , (iii)
(ii) encontre as estimativas de mxima verossimilhana RR
como fica a matriz de informao de Fisher para (RR, 2 )? e a varincia
c (iv) Desenvolva o teste da Wald para testar H0 :
assinttica de RR?
RR = 1 contra H1 : RR 6= 1. Qual a distribuio nula assinttica do
teste?
11. A tabela abaixo descreve o resultado de um experimento em que vrios

pacientes foram submetidos a um de quatro nveis de exposio de um
tratamento particular e foi observado, aps 12 meses, se o paciente foi
curado ou no curado.
Nvel de Exposio
Resultado E1 E2 E3 E4
Curado 20 16 12 5
No-Curado 80 84 48 20
Seja Yi o nmero de pacientes curados dentre os ni submetidos ao nvel

de exposio Ei. Suponha que Yi B(ni , i ), i = 1, . . . , 4. Tome o nvel
E1 como nvel de referncia e teste a hiptese de homogeneidade das
271
3.7 Exerccios
razes de chances contra a alternativa de razes de chances diferentes.

Sugesto: use a estaststica XA2 .
12. Sejam Y1 , . . . , Yn variveis aleatrias mutuamente independentes tais

que Yi B(m, i ), em que log{i /(1 i )} = . (i) Encontre a es-
timativa de mxima verossimilhana de . (ii) Calcule Var(). (iii)
Como fica o teste da razo de verossimilhanas para testar H0 : = 0
versus H1 : 6= 0? Qual a distribuio nula assinttica da estatstica
do teste?
13. Considere o modelo logstico de dose-resposta em que Yi B(m, i ),

i = 1, . . . , k, com parte sistemtica dada por

i
log = + xi ,
1 i
Expresse o logaritmo da funo de verossimilhana em funo da dose
letal = DL50 e de . Encontre a funo escore U = L(, )/.
Considere agora as hipteses H0 : = a contra H1 : 6= a. Como fica
o teste de escore para testar H0 contra H1 ? Qual a distribuio nula
assinttica da estatstica do teste? Sugesto: para facilitar a notao
expresse a varincia assinttica de em funo das quantidades v00 =
Var(), v11 = Var() e v01 = Cov(, ).
14. (Lawless, 1982, p.389; Efron, 1988). Vamos considerar agora uma apli-
cao de regresso logstica em anlise de sobrevivncia. Seja i (t) a
probabilidade de um equipamento do tipo i falhar no intervalo It =
(t 1, t] dado que o mesmo no falhou at o tempo t 1. Seja Yit o
nmero de falhas no intervalo It e seja nit o nmero de equipamentos
que no falharam at o tempo t 1 no i-simo grupo. Assumiremos
que Yit B(nit , i (t)) e que as falhas so independentes. Ajustar um
272
3.7 Exerccios
modelo logstico do tipo

i (t)
log = i + i t + i t2 (3.22)
1 i (t)
ao seguinte conjunto de dados:
Tipo A Tipo B Tipo C

Tempo n1t y1t n2t y2t n3t y3t
1 42 4 50 6 48 11
2 38 3 44 11 37 10
3 35 3 32 10 27 12
4 31 5 22 8 15 8
5 26 6 12 6 6 4
Apresente o grfico com as curvas ajustadas e os valores observados.

Tente selecionar um submodelo apropriado. Verifique a adequao do
modelo adotado atravs do grfico normal de probabilidades com enve-
lope utilizando o resduo tDi . Interprete os resultados. Os dados esto
descritos no arquivo equipamentos.dat.
15. (Hosmer e Lemeshow, 1989, Cap.7). No arquivo matched.dat esto os

dados de um estudo de caso-controle com emparelhamentos do tipo 1:1,
em que os casos foram mulheres com diagnstico confirmado de tumor
benigno na mama e os controles de mulheres sadias diagnosticadas no
mesmo hospital e perodo dos casos. A varivel de emparelhamento foi
a idade da paciente na poca da entrevista AGMT. Escolha trs variveis
do arquivo mencionado e verifique atravs de uma regresso logstica
condicional a associao entre as variveis escolhidas e o diagnstico
da doena (sim=1, no=0) representado pela varivel FNDX. Interprete
as estimativas dos parmetros do modelo ajustado. Faa uma anlise
de diagnstico e gere envelope. Obsevao: caso voc escolha alguma
273
3.7 Exerccios
varivel com observaes perdidas, exclua das anlises as pacientes cor-

respondentes.
16. (Morgan, 1992, p.90). A tabela abaixo descreve os resultados de um

experimento em que a toxicidade de trs concentraes (R-rotenine,
D-deguelin e M-mistura, essa ltima como uma mistura das duas pri-
meiras) investigada. As concentraes foram testadas em insetos e
observado para cada dose o nmero de insetos mortos. Os dados esto
descritos no arquivo morgan.dat.
Concentrao Dose Expostos Mortos

R 0,41 50 6
R 0,58 48 16
R 0,71 46 24
R 0,89 49 42
R 1,01 50 44
D 0,71 49 16
D 1,00 48 18
D 1,31 48 34
D 1,48 49 47
D 1,61 50 47
D 1,70 48 48
M 0,40 47 7
M 0,71 46 22
M 1,00 46 27
M 1,18 48 38
M 1,31 46 43
M 1,40 50 48
Suponha inicialmente o modelo log{i (x)/(1 i (x))} = i + i x, i =

1, 2, 3, em que i (x) a proporo esperada de insetos mortos sob a
concentrao i e dose x. Faa uma anlise de diagnstico e verifique
274
3.7 Exerccios
se h indcios de sobredisperso aplicando um teste apropriado. Teste

a hiptese de paralelismo com todos os pontos e sem as observaes
discrepantes. Comente.
17. Vamos considerar agora uma aplicao de regresso logstica em trans-

portes. Seja i (t) a probabilidade de um caminho do tipo i ser desa-
tivado durante o ano t dado que o mesmo no foi desativado durante
o ano t 1. Assuma que durante o ano t foram desativados yit cami-
nhes dentre os nit existentes no comeo do ano, i = 1, 2 e t = 1, . . . , k.
Suponha que Yit B(nit , i (t)) e que so mutuamente independentes.
Considere o modelo

1 (t) 2 (t)
log = t e log = t + .
1 1 (t) 1 2 (t)
O que significa testar H0 : = 0? Qual a matriz X do modelo? Como
fica Var()? Mostre que a estatstica de escore para testar H0 : = 0
contra H1 : 6= 0 pode ser expressa na forma
( k )2 k
X yt n2t X yt n1t n2t (nt yt )
SR = y2t / ,
t=1
nt t=1
n3t
em que nt = n1t + n2t e yt = y1t + y2t . Qual a distribuio nula

assinttica de SR ?
18. Sejam Y1 , . . . , Yk variveis aleatrias independentes tais que a funo

de probabilidades de Yi seja dada por

1 1
yi 1yi
iyi
f (yi ; i ) = P 1 1 1 t ,
t=0 t 1t i
em que yi = 0, 1. Supor a parte sistemtica logi = . (i) Encontre a

estimativa de mxima verossimilhana de ; (ii) encontre a informao
275
3.7 Exerccios
de Fisher para ; (iii) como fica o teste de escore para testar H0 : = 0

contra H1 : 6= 0? Qual a distribuio
q nula assinttica do teste? (iv)
Expresse o resduo ri = (yi i )/ Var(Yi ) em funo de yi e ; (v)
Como voc faria para gerar valores de Yi da distribuio dada acima?
19. (Agresti, 1990, p.253). Considere a tabela abaixo em que um grupo

de gestantes fumantes foi classificado segundo os fatores: idade (< 30
ou 30 ou +), nmero de cigarros consumidos por dia (< 5 ou 5 ou +),
tempo de gestao ( 260 dias ou > 260 dias) e a situao da criana
(sobreviveu ou no sobreviveu).
Durao da Sobrevivncia
Idade No. de cigarros Gestao No Sim
< 30 <5 260 50 315
> 260 24 4012
5+ 260 9 40
> 260 6 459
30+ <5 260 41 147
> 260 14 1594
5+ 260 4 11
> 260 1 124
Ajustar um modelo logstico linear em que a resposta a sobrevivncia

da criana (sim=1, no=0). Considere at interaes de 1a ordem.
Verifique a adequao do modelo e interprete os resultados atravs de
estimativas intervalares para as razes de chances. Esss dados esto
descritos no arquivo gestantes.dat.
20. (Everitt, 1994). Os dados do arquivo leuce.dat referem-se a um es-

tudo com 51 pacientes adultos, previamente diagnosticados com um
tipo agudo de leucemia, que receberam um tipo de tratamento e foi
verificado aps um certo perodo a eficincia ou no do tratamento.
276
3.7 Exerccios
Algumas variveis explicativas pr-tratamento foram tambm observa-

das. As variveis em estudo so as seguintes: (i) idade do paciente na
poca do diagnstico (em anos), (ii) mancha diferencial da doena (em
%), (iii) infiltrao na medula (em %), (iv) clulas com leucemia na
medula (em %), (v) malignidade da doena (103 ), (vi) temperatura
mxima antes do tratamento (10o F ), (vii) tratamento (1: satisfat-
rio, 0: no satisfatrio), (viii) tempo de sobrevivncia aps o diagns-
tico (em meses) e (ix) situao (1: sobrevivente, 0: no sobrevivente).
Considere um modelo logstico linear para explicar a probabilidade de
eficincia do tratamento dadas as seis variveis explicativas. Selecio-
nar as variveis explicativas bem como as interaes de primeira ordem
atravs do mtodo stepwise. Usar PE = PS = 0, 20. Fazer uma anlise
de diagnstico com o modelo selecionado e interpretar algumas razes
de chances. Calcular a estatstica de Hosmer-Lemeshow para avaliar a
qualidade do ajuste do modelo selecionado.
21. (McCullagh e Nelder, 1989, pgs. 128-135). No arquivo grahani.dat

esto os dados referentes distribuio de duas espcies de lagarto
(grahani e opalinus) segundo quatro fatores: (i) perodo do dia (manh,
meio-dia, tarde), (ii) comprimento da madeira (curta, comprida), (iii)
largura da madeira (estreita, larga) e (iv) local de ocupao (claro,
escuro). Suponha que o nmero de lagartos encontrados da espcie
grahani tenha distribuio binomial.
(i) Proponha um modelo logstico (sem interao) para explicar a pro-

poro de lagartos da espcie grahani. Ajuste o modelo e verifique
atravs do teste da razo de verossimilhanas quais efeitos so signifi-
cativos ao nvel de 10%.
(ii) Verifique separadamente se cada interao de primeira ordem pode
277
3.7 Exerccios
ser includa no modelo ao nvel de 5%. Construa o ANODEV.
(iii) Interprete os resultados tentando falar de uma forma no tcnica

sobre as preferncias dos dois tipos de lagarto.
22. (Agresti, 1990, pgs. 122-123). Cinquenta e quatro indivduos consi-

derados idosos so submetidos a um exame psiquitrico para avaliar a
ocorrncia ou no de sintoma de caduquice. Acredita-se que o escore
obtido num exame psicolgico feito previamente esteja associado com
a ocorrncia ou no do sintoma. Os dados so apresentados abaixo
(score: escala no exame psicolgico e resp: ocorrncia (resp=1) ou
no ocorrncia (resp=0) do sintoma). Esses dados esto descritos no
arquivo caduquice.dat.
Score Resp Score Resp Score Resp Score Resp Score Resp
9 1 7 1 7 0 17 0 13 0
13 1 5 1 16 0 14 0 13 0
6 1 14 1 9 0 19 0 9 0
8 1 13 0 9 0 9 0 15 0
10 1 16 0 11 0 11 0 10 0
4 1 10 0 13 0 14 0 11 0
14 1 12 0 15 0 10 0 12 0
8 1 11 0 13 0 16 0 4 0
11 1 14 0 10 0 10 0 14 0
7 1 15 0 11 0 16 0 20 0
9 1 18 0 6 0 14 0
Ajustar um modelo logstico para explicar a probabilidade de ocorrncia

do sintoma em funo do escore. Interpretar os resultados. Calcule a
estatstica de Hosmer-Lemeshow. Faa uma anlise de diagnstico com
o modelo ajustado.
278
3.7 Exerccios
23. (Neter et el., 1996, pgs. 582-584). Em um estudo para investigar a

incidncia de dengue numa determinada cidade da costa mexicana, um
total de 196 indivduos, escolhidos aleatoriamente em dois setores da
cidade, respondeu s seguintes perguntas: (i) idade, idade do entre-
vistado (em anos), (ii) nivel, nvel scio-econmico (nivel=1, nvel
alto; nivel=2, nvel mdio; nivel=3, nvel baixo) e (iii) setor, setor
da cidade onde mora o entrevistado (setor=1, setor 1; setor=2, setor
2) e (iv) caso, se o entrevistado contraiu (caso=1) ou no (caso=0) a
doena recentemente. Um dos objetivos do estudo tentar prever ou
explicar a probabilidade de um indivduo contrair a doena dadas as
variveis explicativas idade, nivel e setor. Os dados esto descritos
no arquivo dengue.dat. Tente selecionar um modelo atravs da apli-
cao do mtodo AIC considerendo interaes de 1a ordem. Faa uma
interpretao do modelo selecionado (atravs de razes de chances) e
faa uma anlise de diagnstico do mesmo. Verifique a qualidade do
ajuste atravs da estatstica de Hosmer-Lemeshow.
24. (McCullagh e Nelder, 1989, p.144). No arquivo olhos.dat so apre-

sentados dados referentes a 78 famlias com pelo menos seis filhos cada
uma. Na primeira coluna tem-se a classificao dos olhos dos pais se-
gundo a cor (1: ambos claros, 2: ambos castanhos, 3: ambos escuros, 4:
claro e castanho, 5: claro e escuro e 6: castanho e escuro), na segunda
coluna a classificao dos olhos dos avs segundo a cor (1: todos claros,
2: todos castanhos, 3: todos escuros, 4: trs claros e um castanho, 5:
trs claros e um escuro, 6: um claro e trs castanhos, 7: um escuro
e trs castanhos, 8: um claro e trs escuros, 9: um castanho e trs
escuros, 10: dois claros e dois castanhos, 11: dois claros e dois escuros,
12: dois castanhos e dois escuros, 13: dois claros, um castanho e um
279
3.7 Exerccios
escuro, 14: um claro, dois castanhos e um escuro e 15: um claro, um

castanho e dois escuros), na terceira coluna tem-se o nmero de filhos
na famlia e na ltima coluna o nmero de filhos com olhos claros. Seja
Yi o nmero de filhos com olhos claros pertencentes i-sima famlia.
Assuma inicialmente que Yi B(ni , i ), i = 1, . . . , 78. Resolver os tens
abaixo.
(i) Ajustar inicialmente um modelo logstico linear apenas com o fator

cor dos olhos dos pais. Construir grficos de resduos. Identifi-
car os pontos aberrantes. Quais as mudanas nos resultados com a
eliminao desses pontos. H indcios de sobredisperso? Ajustar
um modelo de quase-verossimilhana com e sem os pontos aber-
rantes. Comente.
(ii) Incluir agora o fator cor dos olhos dos avs. Refazer todos os
passos acima. Comente os resultados.
25. No arquivo pulso.dat so descritas as variveis pulsao em repouso

(1: normal, 2: alta), hbito de fumar (1: sim, 2: no) e peso (em kg) de
92 adultos do sexo masculino. Ajuste um modelo logstico linear para
explicar a probabilidade de pulsao alta dadas as demais variveis.
Faa uma anlise de diagnstico. Apresente as curvas ajustadas para
cada grupo de hbito de fumar com as respectivas bandas de confiana
de 95%.
280
Captulo 4
Modelos para Dados de Contagem
4.1 Introduo
Neste captulo apresentamos alguns mtodos para a anlise de dados de con-

tagem. Inicialmente so apresentados os principais mtodos tradicionais e
em seguida discutimos a modelagem atravs de regresso. Duas situaes
de interesse so consideradas. Na primeira delas, muito comum em estudos
de seguimento, as unidades amostrais so classificadas segundo os nveis de
categorias, tais como sexo, faixa etria, tipo de tratamento etc, e so acom-
panhadas por um perodo fixo pr-estabelecido ou at a ocorrncia de um
determinado evento. Temos, portanto, um tempo particular de observao
para cada unidade amostral, o qual dever ser incorporado nas anlises. Na
segunda situao, o interesse estudarmos o nmero de ocorrncias de um
evento particular segundo os nveis de categorias, de modo que seja poss-
vel construirmos uma tabela tpica de contingncia. Aqui, a suposio de
distribuio de Poisson para o nmero de ocorrncias do evento em cada
281
4.1 Introduo
configurao de nveis das categorias leva a resultados equivalentes supo-

sio de distribuio multinomial para as caselas da tabela de contingncia
formada. Assim, muitas tabelas de contingncia que seriam originalmente
analisadas atravs de um modelo log-linear multinomial podem ser analisa-
das, alternativamente, por um modelo log-linear de Poisson. A vantagem
disso o fato do modelo log-linear de Poisson ser ajustado mais facilmente
do que o modelo log-linear multinomial, alm da possibilidade de todos os
procedimentos desenvolvidos para os MLGs serem diretamente estendidos
para o modelo log-linear de Poisson. No discutimos, contudo, aspectos par-
ticulares na anlise de tabelas de contingncia, tais como testes ou modelos
multinomiais mais especficos.
Discutimos tambm neste captulo o fenmeno de sobredisperso que
pode ocorrer com dados de contagem quando a varincia da varivel resposta
maior do que a mdia. Nesses casos, a suposio de distribuio de Poisson
para a resposta inadequada sendo necessrio o uso de modelos alternati-
vos. O modelo de quase-verossimilhana com parmetro de disperso leva
s mesmas estimativas do modelo de Poisson, porm corrige a variabilidade
das estimativas. Daremos, contudo, ateno especial aos modelos com res-
posta binomial negativa, os quais permitem uma anlise mais completa dos
dados do que os modelos de quase-verossimilhana. Finalmente, abordamos
de forma sucinta os modelos de Poisson e binomial negativo com excesso de
zeros.
4.1.1 Mtodos clssicos: uma nica tabela 2 2

Considere inicialmente a tabela abaixo resultante de um estudo de segui-
mento (em que indivduos expostos e no expostos so acompanhados ao
longo do tempo por um perodo fixo ou at a ocorrncia de um evento).
282
4.1 Introduo
E E
Casos y1 y2
Pessoas-Tempo t1 t2
Vamos assumir que Y1 e Y2 seguem, respectivamente, distribuio de Poisson
com parmetros 1 e 2 , em que 1 a taxa mdia de casos (por unidade
de tempo) no grupo exposto e 2 a taxa mdia de casos no grupo no
exposto. O parmetro de interesse nesse tipo de estudo a razo entre as
1
taxas, denotada por = 2
. O objetivo principal fazermos inferncias a
respeito de .
A funo de probabilidades conjunta de (Y1 , Y2 ) fica ento dada por
e1 t1 (1 t1 )y1 e2 t2 (2 t2 )y2
f (y; ) =
y1 ! y2 !
= exp{2 t1 2 t2 + y1 log + (y1 + y2 )log2
+ y1 logt1 + y2 logt2 logy1 ! logy2 !},
em que y = (y1 , y2 )T e = (1 , 2 )T . Portanto, pelo teorema da fatorizao

temos que as estatsticas (Y1 , Y1 + Y2 ) so suficientes minimais para (, 2 ).
Logo, condicionando em Y1 +Y2 = m, obtemos uma distribuio que depende
apenas de , isto
f (a|m; ) = P r{Y1 = a | Y1 + Y2 = m}

m a
= (1 )(ma) ,
a
em que = t1 /{t2 + t1 } = /{t2 /t1 + }, sendo a probabilidade de um
caso ter sido exposto. Equivalentemente, temos que
t2
= .
(1 )t1
Aqui o interesse testarmos H0 : = 1 contra H1 : 6= 1, que equivalente
a testarmos H0 : = 0 contra H1 : 6= 0 , em que 0 = t1 /(t1 + t2 ).
283
4.1 Introduo
O nvel descritivo exato para testarmos a hiptese H0 contra H1 dado

por P = 2min{PI , PS }, em que
a
X m
PI = 0x (1 0 )(mx)
x=0
x
e m
X m x
PS = 0 (1 0 )(mx) .
x=a
x
Podemos usar o resultado abaixo (ver, por exemplo, Leemis e Trivedi, 1996)
para expressarmos a distribuio condicional de Y1 dado Y1 + Y2 = m em
funo de uma distribuio Fu,v , ou seja uma distribuio F com u e v graus
de liberdade. Supondo Y B(n, p), temos que
P r(Y y) = P r{F2y,2(ny+1) < (n y + 1)p/y(1 p)}, (4.1)
com 0 < p < 1. Da temos, sob H0 : = 0 , que

Xm
m x
PI = 1 0 (1 0 )(mx)
x=a+1
x

(m a 1 + 1)0
= 1 P r Fu,v <
(a + 1)(1 0 )
= 1 P r {Fu,v < bt1 /(a + 1)t2 } ,
com b = ma, u = 2(a+1) e v = 2b. Similarmente, obtemos sob H0 : = 0 ,

que
PS = P r{Fu,v < (b + 1)t1 /at2 },
com u = 2a e v = 2(b + 1). De (4.1) temos que que os limites exatos de

confiana para p, para um coeficiente de confiana (1 ), so tais que
X
= P r(Y = t; pI ) = P r(Y y; pI )
2 ty
284
4.1 Introduo
e
X
= P r(Y = t; pS ) = 1 P r(Y y + 1; pS ).
2 ty
Logo, usando (4.1) obtemos

1
pI = ny+1
1+ yF2y,2(ny+1) (/2)
e
1
pS = ny ,
1+ (y+1)F2(y+1),2(ny) (1/2)
em que Fu,v (/2) denota o percentil /2 de uma distribuio F com u e v

graus de liberdade. Portanto, temos para , fazendo y = a e m = a + b, o
limite inferior exato de confiana
1
I = b+1
1+ aFu,v (/2)
= aFu,v (/2)/{b + 1 + aFu,v (/2)},
em que u = 2a e v = 2(b + 1). De forma anloga obtemos o limite superior

exato
1
S = b
1+ aFu,v (1/2)
= aFu,v (1 /2)/{b + aFu,v (1 /2)},
em que u = 2(a + 1) e v = 2b. A estimativa de mxima verossimilhana

para considerando a distribuio no condicional (produto de Poissons
independentes) fica dada por
1
= ,
2
em que 1 = y1 /t1 e 2 = y2 /t2 . Portanto, obtemos = y1 t2 /y2 t1 . Se,
por outro lado, utilizamos a distribuio condicional, B(m, ), temos que a
285
4.1 Introduo
estimativa de mxima verossimilhana de fica dada por

t2
= ,
(1 )t1
em que = y1 /m e (1 ) = y2 /m. Logo, fica expresso de forma anloga

ao caso no condicional. A explicao desse fato, que no ocorre nos estu-
dos de caso e controle com respostas binomiais, que a estatstica Y1 + Y2 ,
alm de ser suficiente para 2 , tambm ancilar para , isto , no contm
qualquer informao acerca de . No caso do produto de duas binomiais
independentes, Y1 + Y2 suficiente para 2 , no entanto, no ancilar para .
Uma consequncia desse fato que a estimativa de mxima verossimilhana
condicional no coincide com a estimativa no condicional.
Aplicao
Vamos considerar, como aplicao, os dados apresentados em Boice e Monson
(1977) referentes a um estudo de seguimento com dois grupos de mulheres
com tuberculose, um grupo exposto a radiao e o outro grupo no exposto,
sendo observado ao longo do tempo o desenvolvimento ou no de cncer de
mama. Os resultados desse estudo so resumidos na Tabela 4.1.
Tabela 4.1
Casos de cncer de mama em mulheres
com tuberculose.
Radiao
Exposto No Exposto
Casos 41 15
Pessoas-anos 28010 19017
Temos, portanto, que a = 41, b = 15, t1 = 28010 e t2 = 19017. Os nveis

descritivos correspondentes ao teste exato para testar H0 : = 1 contra
286
4.1 Introduo
H1 : 6= 1 ficam dados por
PI = 1 P r{F84,30 < 0, 526} = 0, 988
e
PS = P r{F82,32 < 0, 575} = 0, 024,
e obtemos o nvel descritivo P= 0, 048 que indica, para um nvel de signi-

ficncia de 5%, pela rejeio de H0 . Isso quer dizer que h indcios de que
mulheres com tuberculose e expostas a radiao tm uma chance maior de
desenvolvimento de cncer de mama do que mulheres no expostas com a
mesma doena. Uma estimativa pontual de mxima verossimilhana para
0,73219017
fica dada por = 0,26828010
= 1, 85 e um intervalo exato de confiana de
95% para tem os limites
I = 41 F82,32 (0, 025)/{16 + 41 F82,32 (0, 025)}

= 0, 597 e
S = 41 F84,30 (0, 975)/{15 + 41 F84,30 (0, 975)}
= 0, 838.
Desses limites obtemos os limites exatos de confiana para

I t2 0, 597 19017
I = =
(1 I )t1 (1 0, 597) 28010
= 1, 007 e
S t2 0, 838 19017
S = =
(1 S )t1 (1 0, 838) 28010
= 3, 512.
Temos que o intervalo [1, 007; 3, 512] no cobre o valor = 1, como era
esperado.
287
4.1 Introduo
4.1.2 Estratificao: k tabelas 2 2

Se o dados so estratificados segundo um fator com k nveis, cada tabela
resultante pode ser expressa na forma abaixo.
E E
Casos y1i y2i
Pessoas-Tempo t1i t2i
Temos aqui as suposies Y1i P(1i t1i ) e Y2i P(2i t2i ), i = 1, . . . , k.

Consequentemente, a distribuio condicional de Y1i dado Y1i + Y2i = mi
uma B(mi , i ), em que i = i /{t2i /t1i + i }, ou equivalentemente
i t2i
i = .
(1 i )t1i
Se temos interesse em testar a homogeneidade das razes de taxas H0 : 1 =
. . . = k contra a alternativa de pelo menos duas diferentes, a estimativa
comum , sob H0 , sai do sistema de equaes
k
X k
X
y1i = mi /{ + t2i /t1i },
i=1 i=1
que tem no mximo uma raiz positiva. Alternativamente, de forma anloga

aos estudos de caso e controle, podemos construir uma verso da estimativa
de Mantel-Haenszel dada por
Pk
y1i t2i /ti
M H = Pi=1
k
,
i=1 y2i t1i /ti
em que ti = t1i + t2i . Segundo Breslow e Day (1987), M H consistente e

assintoticamente normal com varincia assinttica estimada por
P
M H ki=1 t1i t2i mi /t2i
VarA (M H ) = nP o2 .
k t1i t2i mi
i=1 ti (t1i +M H t2i )
288
4.1 Introduo
A estatstica sugerida para testar H0 definida por

Xk
2 (y1i y1i )2 (y2i y2i )2
X = + ,
i=1
y1i y2i
em que y1i = mi i , y2i = mi (1 i ) e
M H
i = .
t2i /t1i + M H
A distribuio nula assinttica de X 2 uma qui-quadrado com k 1 graus de
liberdade. Quando a hiptese de homogeneidade das razes de chances no
rejeitada, podemos testar a hiptese de associao entre o fator e a doena
levando em conta o efeito de estrato. Isso equivale a testarmos H0 : = 1
contra H1 : 6= 1. O teste qui-quadrado apropriado dado por
P P
2 { ki=1 y2i ki=1 E(Y2i |mi , = 1)}2
X = Pk
i=1 Var(Y2i |mi , = 1)
Pk P
{ i=1 y2i ki=1 mi t1i /(t1i + t2i )}2
= Pk . (4.2)
m t t /(t + t ) 2
i=1 i 1i 2i 1i 2i
ni
A distribuio nula assinttica de X 2 , quando n
ai > 0 fazendo n ,
em que n = n1 + + nk , uma 21 .
Temos que a varincia assinttica de log(M H ) estimada por
2
VarA {log(M H )} = M H VarA (M H ).
Assim, um intervalo assinttico de confiana com coeficiente (1 ) para

1 1/2
log fica dado por log(M H ) z(1/2) M H {VarA (M H )} o que implica
nos limites de confiana superior e inferior dados abaixo
q
1
I = M H exp{z(1/2) M H VarA (M H )} e
q
1
S = M H exp{z(1/2) M H VarA (M H )}.
Esse intervalo deve ser construdo quando a aplicao da estatstica (4.2)

levar rejeio da hiptese H0 : = 1.
289
4.2 Modelos de Poisson
4.2.1 Propriedades da Poisson

Vamos supor que Y P() cuja funo de probabilidades dada por
e y
P r(Y = y) = , y = 0, 1, 2, . . . .
y!
Podemos mostrar (ver, por exemplo, McCullagh e Nelder, 1989, p. 195) que
quando

(Y )/ d N(0, 1).
Em outras palavras, para grande temos que Y segue aproximadamente

uma distribuio normal de mdia e desvio padro . Se queremos,
no entanto, aplicar um modelo normal linear para explicar , teremos o
incoveniente do desvio padro depender da mdia, o que inviabiliza o uso
de um modelo normal linear homocedstico. Uma maneira de contornarmos
esse problema atravs da aplicao de uma transformao na resposta Y de
modo a alcanarmos a normalidade e a constncia de varincia, mesmo que
aproximadamente. Nesse sentido, temos que se Y Poisson, segue quando
o seguinte resultado:

{ Y E( Y )} d N(0, 1/4).

Portanto, quando grande, a varivel aleatria 2{ Y E( Y )} segue
aproximadamente uma distribuio N(0, 1). Assim, se temos uma amostra
aleatria Y1 , . . . , Yn tal que Yi P(i ) e queremos explicar i atravs de
variveis explicativas, podemos propor para i grande, i, o modelo normal
linear abaixo
p
Yi = xTi + i ,
em que i N(0, 2 ), i = 1, . . . , n. Isso foi feito na Seo 1.12.3 no exemplo

sobre sobrevivncia de bactrias.
290
4.2.2 Modelos log-lineares: k tabelas 2 2

Como foi visto no Captulo 1, os modelos log-lineares so recomendados para
a anlise de dados de contagem, mesmo quando o tempo de observao no
o mesmo para cada unidade amostral. Em particular, se temos um conjunto
de k tabelas 2 2, uma modelagem possvel para a taxa mdia por unidade
de tempo em cada casela supormos que Y1i P(1i t1i ) e Y1i P(1i t1i ),
i = 1, . . . , k, mutuamente independentes e com a seguinte parte sistemtica:
log11 = ,
log21 = + ,
log1i = + i e
log2i = + + i + i ,
para i = 2, . . . , k. Portanto, temos a reparametrizao (11 , 21 , . . . , 1k , 2k )

(, , 2 , 2 , . . . , k , k ). A razo de taxas na i-sima tabela fica definida
por i = 2i /1i = exp( +i ), com 1 = 0. Assim, testarmos H0 : 1 = =
k o mesmo que testarmos na nova parametrizao H0 : 2 = = k = 0,
o que significa no haver interao entre as tabelas. Devemos lembrar que i
o efeito da i-sima tabela com relao primeira tabela. Logo, testarmos
H0 : 2 = = k , dado que i = 0, significa testarmos a ausncia de efeito
de estrato.
Aqui tij denota o total de unidades de tempo na casela (i, j), i = 1, 2
e j = 1, . . . , k. Assim, temos que logij = logtij + logij , em que logtij
desempenha o papel de um offset. Pela propriedade de que os totais mar-
ginais Y1i + Y2i so estatsticas suficientes para os parmetros 21 , . . . , 2k
e ancilares para 1 , . . . , k , devemos esperar que as estimativas de mxima
verossimilhana no condicionais i = exp( + i ), i = 1, . . . , k, coincidam
com as estimativas condicionais.
291
Uma maneira de verificarmos se razovel a suposio de distribuio

de Poisson nas unidades de tempo tratarmos logTij como sendo uma varivel
explicativa, isto , ajustarmos o modelo com parte sistemtica dada por
logij = logtij + logij . Assim, ao testarmos H0 : = 1 contra H1 : 6= 1,
a no rejeio de H0 indica que a suposio de distribuio de Poisson nas
unidades de tempo no inadequada. Como veremos a seguir isso significa
que os tempos tm distribuio exponencial.
Relao com a exponencial

O logaritmo da funo de verossimilhana do modelo de Poisson para a an-
lise de k tabelas 2 2 dado por
2 X
X k
L() (yij logij ij tij ), (4.3)
i=1 j=1
em que = (11 , 21 , . . . , k1 , k2 )T . Temos, portanto, para cada casela (i, j)

um estudo de seguimento em que as unidades amostrais foram observadas um
total de tij unidades de tempo. Sem perda de generalidade, vamos supor que
tij = N e que nesse subestrato foram acompanhadas I unidades amostrais
cujos tempos de observao foram, respectivamente, N1 , N2 , . . . , NI . Faremos
u = 1 se o evento sob estudo ocorrer para a -sima unidade amostral antes
de um tempo pr-fixado T . Quando o evento no ocorrer para a -sima
unidade amostral durante o perodo de estudo (u = 0) dizemos que h
censura, sendo aqui o tempo de observao dado por N = T . Vamos supor
ainda que a taxa de ocorrncia do evento, que definida por
P r{o evento ocorrer em (t, t + t)}
= lim ,
t0 t
dado que o evento no ocorreu at o tempo t, permanece constante durante
o perodo de observao. Finalmente, assumimos que as ocorrncias so
292
independentes entre as unidades amostrais. Sob essas condies, mostramos

que a distribuio conjunta das variveis (N , u ), = 1, . . . , I, um produto
de I exponenciais independentes de parmetro . Se o evento ocorrer antes
do tempo T para a -sima unidade amostral (N < T, u = 1) a mesma
contribui com o fator eN na funo de verossimilhana. Caso contrrio
(N = T, u = 0), o fator dado por eT . O logaritmo da funo de
verossimilhana conjunta fica ento dado por
I
X
L() = (u log N )
=1
I
X I
X
= log u N . (4.4)
=1 =1
Se considerarmos que para a casela (i, j) o evento ocorreu yij vezes, as unida-
des amostrais foram observadas um total de tij unidades de tempo e a taxa
de ocorrncia do evento ij , ento (4.4) fica reexpressa na forma
L(ij ) = yij logij ij tij ,
que coincide com o termo geral da expresso (4.3). Portanto, a suposio

de modelo de regresso log-linear de Poisson com offset logtij equivale su-
posio de tempos exponenciais para as unidades amostrais. No entanto,
importante ressaltarmos que as inferncias exatas para no modelo ex-
ponencial so bastante complexas em virtude da ocorrncia de censura (ver
discusso, por exemplo, em Breslow e Day, 1987, p. 132). J os resultados
assintticos so equivalentes queles obtidos para o modelo de Poisson.
Aplicao
A Tabela 4.2 resume os resultados de um estudo de seguimento em que dou-
tores Britnicos foram acompanhados durante a dcada de 50 e observado,
293
em particular, a ocorrncia de mortes por cncer de pulmo segundo o con-

sumo mdio dirio de cigarros e a faixa etria. Esses dados esto disponveis
no arquivo breslow.dat. Denotamos por Yij o nmero de mortes para o
i-simo nvel de consumo e j-sima faixa etria, i, j = 1, . . . , 4. Vamos supor
que Yij P(ij tij ), em que ij a taxa mdia de mortes por unidade de
tempo para o consumo i e faixa etria j. O modelo saturado nesse caso
dado por
logij = + i + j + ij ,
em que 1 = 0, i o efeito da i-sima classe de consumo de cigarros com

relao classe de no fumantes, i = 2, 3, 4, 1 = 0, j o efeito da j-
sima faixa etria com relao faixa etria de 40 49 anos e ij denota
a interao entre faixa etria e consumo de cigarros, em que i1 = 1j = 0,
para i, j = 1, . . . , 4.
Tabela 4.2
Nmero de casos de morte por cncer de pulmo e pessoas-anos
de observao em doutores Britnicos segundo a faixa etria
e o consumo mdio dirio de cigarros.
Consumo mdio dirio Faixa Etria
de cigarros 40-49 50-59 60-69 70-80
0 mortes 0 3 0 3
p-anos 33679 21131,5 10599 4495,5
1-9 mortes 0 1 3 3
p-anos 6002,5 4396 2813,5 1664,5
10-30 mortes 7 29 41 45
p-anos 34414,5 25429 13271 4765,5
+ 30 mortes 3 16 36 11
p-anos 5881 6493,5 3466,5 769
294
O teste de ausncia de interao, H0 : ij = 0, ij, contra a alternativa

de pelo menos um parmetro diferente de zero forneceu RV = 11, 91 (9
graus de liberdade) que equivale a um nvel descritivo P= 0, 218. Adotamos,
portanto, um modelo sem interao.
Tabela 4.3
Estimativas dos parmetros do modelo log-linear
de Poisson para explicar a taxa mdia de morte
de doutores Britnicos com cncer de pulmo.
Constante -11,424 -22,44
C(1-9) 2 1,409 2,53
C(10-20) 3 2,866 6,86
C(+30) 4 3,758 8,80
F(50-59) 2 1,769 5,10
F(60-69) 3 2,897 8,62
F(70-80) 4 3,791 11,12
As estimativas so apresentadas na Tabela 4.3. Notamos claramente

que as estimativas so significativamente diferentes de zero e que h fortes in-
dcios de um aumento (exponencial) da taxa mdia de mortes com o aumento
da faixa etria e/ou com o aumento do consumo mdio dirio de cigarros. O
ajuste do modelo com logTij como varivel explicativa forneceu a estimativa
de mxima verossimilhana = 1, 839(0, 610). O teste de Wald para testar-
mos H0 : = 1 contra H1 : 6= 1 forneceu o valor RV = 1, 89, cujo nvel
descritivo dado por P= 0, 17, indicando que o modelo pode ser ajustado
com logtij como sendo offset.
4.2.3 Modelos gerais de Poisson

Vamos supor agora que Yi so variveis aleatrias independentes distribudas
tais que Yi P(i ), i = 1, . . . , n, com parte sistemtica dada por g(i ) = i ,
295
em que i = xTi , xi = (xi1 , . . . , xip )T contm valores de variveis explicativas

e = (1 , . . . , p )T um vetor de parmetros desconhecidos. As ligaes

mais utilizados so logartmica (g(i ) = logi ), raiz quadrada (g(i ) = i )
e identidade (g(i ) = i ). O processo iterativo para estimao de , como
foi visto na Seo 1.6.1, dado por
(m+1) = (XT W(m) X)1 XT W(m) z(m) ,
m = 0, 1, . . ., varivel dependente modificada z = + W1/2 V1/2 (y ),

= (1 , . . . , n )T , y = (y1 , . . . , yn )T , = (1 , . . . , n )T , V = diag{1 , . . . , n }
e W = diag{1 , . . . , n } com i = (di /di )2 /i . Em particular temos
i = i para ligao logartmica, i = 4 para ligao raiz quadrada e i = 1
i
para ligao identidade.

No caso das unidades experimentais serem observadas em tempos dis-
tintos ti s e for assumido que Yi P(i ti ), i = 1, . . . , n, a parte sistemtica
do modelo para ligao logartmica fica dada por
logi = logti + xTi ,
em que logti desempenha papel de offset e isso deve ser informado ao sistema.
Outra possibilidade incluirmos os tempos ti s como valores da varivel ex-
plicativa logTi . Nesse caso, a parte sistemtica assume a forma
logi = logti + xTi .
O teste de H0 : = 1 contra H1 : 6= 1 verifica se logti deve ser includo no

modelo como offset. A no rejeio da hiptese nula significa a suposio de
tempos exponenciais nas unidades experimentais.
O estimador de mxima verossimilhana consistente, eficiente e
tem distribuio assinttica dada por
Np (0, (XT WX)1 ),
296
portanto, assintoticamente, Var() = (XT WX)1 .

A funo desvio de um modelo de Poisson supondo yi > 0, i, definida por
n
X
D(y; ) = 2 {yi log(yi /i ) (yi i )}.
i=1
Porm, se yi = 0, o i-simo termo de D(y; ) fica dado por 2i .

2
1
0
-1
-2
-3
-2 -1 0 1 2
Percentil da N(0,1)
Figura 4.1: Grfico normal de probabilidades referente ao modelo log-linear

de Poisson ajustado aos dados sobre morte por cncer de pulmo de doutores
Britnicos.
Em particular, para ligao logartmica e se o modelo inclui uma cons-

Pn
tante na parte sistemtica, mostramos que i=1 (yi i ) = 0, ficando a
Pn
funo desvio reexpressa na forma D(y; ) = i=1 yi log(yi /i ). Logo, se
297
particionamos o vetor de parmetros tal que = ( T1 , T2 )T , em que 1 e

2 so subvetores de dimenso p q e q, respectivamente, a estatstica da
razo de verossimilhanas para testarmos H0 : 2 = 0 contra H1 : 2 6= 0 em
modelos log-lineares fica dada por
RV = D(y; 0 ) D(y; )
n
X
= 2 yi log(0i /i ).
i=1
Sob H0 e para grandes amostras RV 2q . Os resultados assintticos para

os modelos de Poisson valem tanto para p fixo e n como para n fixo e
i , i.

Um dos resduos mais recomendados para modelos com resposta de Poisson
o componente do desvio padronizado, que para yi > 0, fica dado por

2
t Di = p {yi log(yi /i ) (yi i )}1/2 ,
1 hii
em que hii o i-simo elemento da diagonal principal da matriz de projeo
H = W1/2 X(XT WX)1 XT W1/2 . Quando yi = 0 o resduo componente do
p
desvio padronizado assume a forma tDi = 2i / 1 hii .
Estudos de simulao (ver Williams, 1984) mostram que em geral a dis-
tribuio de tDi no se afasta muito da distribuio normal padro, podendo
ser usadas nas anlises de diagnstico as mesmas interpretaes da regres-
so normal linear. Em particular, a construo de envelopes fortemente
recomendada para tDi .
A Figura 4.1 apresenta o grfico normal de probabilidades para o res-
duo tDi correspondente ao modelo ajustado aos dados da Tabela 4.2. Como
podemos notar, todos os resduos cairam dentro do envelope gerado sem
298
apresentarem nenhuma tendncia sistemtica, indicando que a suposio de

distribuio de Poisson parece ser bastante razovel. O programa utilizado
para gerarmos o grfico de envelopes apresentado no Apndice B. Os re-
sultados do modelo ajustado devem ser colocados no arquivo fit.model.
4.2.6 Aplicao
Como ilustrao vamos considerar os dados apresentados em Neter et al.
(1996, p. 613) sobre o perfil dos clientes de uma determinada loja oriundos
de 110 reas de uma cidade. O objetivo do estudo relacionar o nmero
esperado de clientes em cada rea com as seguintes variveis explicativas em
cada rea: nmero de domiclios (em mil), renda mdia anual (em mil USD),
idade mdia dos domiclios (em anos), distncia ao concorrente mais prximo
(em milhas) e distncia loja (em milhas). Portanto, a rea a unidade
experimental. Esses dados esto tambm descritos no arquivo store.dat.
Tabela 4.4
de Poisson ajustado aos dados sobre perfil
de clientes.
Domiclio 1 0,606 4,27
Renda 2 -0,012 -5,54
Idade 3 -0,004 -2,09
Dist1 4 0,168 6,54
Dist2 5 -0,129 -7,95
Na Figura 4.2 so apresentados os diagramas de disperso entre o

nmero de clientes (varivel resposta) e as variveis explicativas renda e
idade mdia, distncia ao concorrente mais prximo (dist1) e distncia
loja (dist2). Indcios mais evidentes de relao linear podem ser observados
299
entre a resposta e as distncias dist1 e dist2. Ou seja, h indcios de que o

nmero de clientes aumenta medida que a distncia ao concorrente mais
prximo aumenta e a distncia loja diminui.
30
30
20
20
Clientes
Clientes
10
10
5
5
0
0
20000 60000 100000 0 10 20 30 40 50 60
Renda Idade
(a) (b)
30
30
20
20
Clientes
Clientes
10
10
5
5
0
1 2 3 4 5 6 2 4 6 8 10
Dist1 Dist2
(c) (d)
Figura 4.2: Diagramas de disperso entre o nmero de clientes que visitaram

a loja e algumas variveis explicativas.
Denotamos por Yi o nmero de clientes da i-sima rea que foram loja

no perodo determinado. Vamos supor que Yi P(i ) com parte sistemtica
dada por
logi = + 1 domici + 2 rendai + 3 idadei + 4 dist1i + 5 dist2i .
Temos que a varivel nmero de domiclios (domic) deve ser includa no

modelo uma vez que as reas no tm o mesmo nmero de domiclios. As
300
estimativas dos parmetros so apresentadas na Tabela 4.4 e como podemos

notar todas as estimativas so altamente significativas. O desvio do modelo
foi de D(y; ) = 114, 98 (104 graus de liberdade) que equivale a um nvel
descritivo P= 0, 35 indicando um ajuste adequado. Notamos pela tabela que
o nmero esperado de clientes na loja cresce com o aumento do nmero de
domiclios na rea e da distncia ao concorrente mais prximo, porm diminui
com o aumento da renda mdia e da idade mdia dos domiclios bem como da
distncia da rea loja. Isso sugere que deve ser uma loja de convenincia.
43
0.4
Distancia de Cook
0.8
20
Medida h
0.2
0.4
0.0
0.0
5 10 15 20 25 30 35 0 20 40 60 80 100

(a) (b)
3
3.5
2.5
1
Variavel z
0
-1
1.5
-3
0.5
5 10 15 20 25 30 35 1.5 2.0 2.5 3.0 3.5
Valor Ajustado Preditor Linear

(c) (d)
Figura 4.3: Grficos de diagnstico referentes ao modelo log-linear de Poisson

ajustado aos dados sobre perfil de clientes.
301
2
0
-2
-2 -1 0 1 2
Percentil da N(0,1)

de Poisson ajustado aos dados sobre perfil de clientes.
Podemos fazer algumas interpretaes. Por exemplo, se aumentarmos

em 1 mil USD a renda mdia dos domiclios de uma determinada rea espera-
mos aumento relativo no nmero de clientes que iro loja de exp(0, 012) =
0, 988. Ou seja, decrescimento de 1,2%. Por outro lado, se a distncia ao
concorrente mais prximo aumentar em uma milha esperamos aumento re-
lativo no nmero de clientes de exp(0, 168) = 1, 183. Ou seja, aumento de
18,3%.
Dentre as observaes destacadas pelos grficos de diagnstico (ver
Figura 4.3), apenas as reas #20 e #43 apresentam algumas variaes des-
proporcionais nas estimativas dos parmetros, porm no houve mudana
inferencial. Pela Figura 4.3d no h indcios de que a ligao utilizada seja
inapropriada e o grfico de envelope (Figura 4.4) no apresenta indicaes de
afastamentos srios da suposio de distribuio de Poisson para o nmero
de clientes.
302
4.3 Modelos com resposta binomial negativa
4.3.1 Distribuio binomial negativa

O fenmeno de sobredisperso, similarmente ao caso de dados com resposta
binria discutido na Seo 3.6.14, ocorre quando esperada uma distribuio
de Poisson para a resposta, porm a varincia maior do que a resposta
mdia. Uma causa provvel desse fenmeno a heterogeneidade das unidades
amostrais que pode ser devido variabilidades interunidades experimentais.
Isso pode ser visto, por exemplo, supondo que para um conjunto fixo x =
(x1 , . . . , xp )T de valores de variveis explicativas, Y |z tem mdia z e varincia
z, no entanto Z, que no observvel, varia nas unidades amostrais com x
fixo, de modo que E(Z) = . Ento,
E(Y ) = E[E(Y |Z)] = E[Z] = e
Var(Y ) = E[Var(Y |Z)] + Var[E(Y |Z)]

= + Var(Z).
Podemos, adicionalmente, supor que Y |z tem distribuio de Poisson com

mdia z e funo de probabilidades denotada por f (y|z) e que Z segue uma
distribuio gama de mdia e parmetro de disperso k = cuja funo
de densidade ser denotada por g(z; , k).
Temos E(Z) = e Var(Z) = 2 /k de modo que E(Y ) = e Var(Y ) =
+ 2 /k = (1 + )/. Assim, as funes densidades f (y|z) e g(z; , k)
assumem as seguintes formas:
k
ez z y 1 zk kz 1
f (y|z) = e g(z; , k) = e .
y! (k) z
303
Logo, Y tem funo de probabilidades dada por

Z
P r{Y = y} = f (y|z)g(z; , k)dz
0
k Z
1 k
= ez(1+k/) z k+y1 dz.
y!(k) 0
Fazendo a transformao de varivel t = z(1 + k ) temos que dz

dt
= (1 + k )1 .
Ento,
k (k+y) Z
1 k k
P r{Y = y} = 1+ et tk+y1 dt
y!(k) 0
(y + k)k
=
(y + 1)(k)(1 + )y+k
k y
(y + k) 1
=
(y + 1)(k) 1 + 1+
(y + k)
= (1 )k y , y = 0, 1, 2, . . . ,
(y + 1)(k)
em que = 1/(1 + ). Portanto, Y tem distribuio binomial negativa de

mdia e parmetro de forma k.
Podemos, similarmente, supor que Y |z P(z) e que Z G(, ), em
que no depende de . Nesse caso E(Z) = e Var(Z) = 2 / de onde
segue que E(Y ) = e Var(Y ) = + 2 /. Temos ento que

ez z y 1 z z 1
f (y|z) = e g(z; , ) = e .
y! () z
A funo de probabilidades de Y fica dada por
Z
P r{Y = y} = f (y|z)g(z; , )dz
0
Z
1
= ez(1+/) z +y1 dz.
y! 0
304
Fazendo a transformao de varivel t = z(1 + ) temos que dz

dt
= (1 + )1 .
Da segue que
(+y) Z
1
P r{Y = y} = 1+ et t+y1 dt
y!() 0
y
( + y)
=
()(y + 1)( + )+y
y
( + y)
=
(y + 1)() + +
( + y)
= (1 ) y , y = 0, 1, 2, . . . ,
(y + 1)()
com = /( + ). Portanto, neste caso Y tambm segue distribuio

binomial negativa de mdia e parmetro de forma . Denotamos Y
BN(, ). Podemos mostrar (ver, por exemplo, Jrgensen,1996, p. 96) que
1
(Y ) d N(0, /(1 )2 ), quando .

Podemos obter tambm aproximaes da binomial negativa para a Poisson
e gama.
4.3.2 Modelos de regresso com resposta binomial negativa

Vamos supor ento que Y1 , . . . , Yn so variveis aleatrias independentes tais
que Yi BN(i , ). A funo de probabilidades de Yi fica dada por
yi
( + yi ) i
f (yi ; i , ) = , yi = 0, 1, 2, . . . .
(yi + 1)() i + i +
Temos que E(Yi ) = i e Var(Yi ) = i + 2i /. Similarmente aos MLGs

assumimos parte sistemtica dada por g(i ) = i = xTi , em que xi =
(xi1 , . . . , xip )T contm valores de variveis explicativas, = (1 , . . . , p )T
um vetor de parmetros desconhecidos e g() a funo de ligao. Como
305
nos modelos de Poisson as ligaes mais utilizados so logartmica (g(i ) =

logi ), raiz quadrada (g(i ) = i ) e identidade (g(i ) = i ).
Definindo = ( T , )T o logaritmo da funo de verossimilhana fica
dado por
n
X
( + yi )
L() = log + log + yi logi ( + yi )log(i + ) ,
i=1
(yi + 1)()
em que i = g 1 (xTi ). A fim de obtermos a funo escore para calculamos

inicialmente as derivadas
Xn
yi di i ( + yi ) di i
L()/j =
i=1
i di j ( + i ) di j
Xn
yi di ( + yi ) di
= xij xij
i=1
i d i ( + i ) d i
Xn
(di /di )
= (yi i )xij
i=1
i ( + i )
n
X
= i fi1 (yi i )xij ,
i=1
em que i = (di /di )2 /(2i 1 +i ) e fi = di /di . Logo, podemos espressar

a funo escore na forma matricial
U () = XT WF1 (y ), (4.5)
em que X a matriz modelo com linhas xTi , i = 1, . . . , n, W = diag{1 , . . . , n },

F = diag{f1 , . . . , fn }, y = (y1 , . . . , yn )T e = (1 , . . . , n )T . De forma simi-
lar a funo escore para fica dada por
n
X
U () = [( + yi ) () (yi + )/( + i ) + log{/( + i )}+ 1], (4.6)
i=1
em que () a funo digama.
306
Para obtermos a matriz de informao de Fisher calculamos as deriva-

das
Xn 2
2 ( + yi ) yi di
L()/j = xij xi
i=1
( + i )2 2i di
Xn
yi ( + yi ) d2 i
+ xij xi ,
i=1
i ( + i ) di2
cujos valores esperados ficam dados por

n
X
2 (di /di )2
E{ L()/j } = xij xi
i=1
( + i )
Xn
= i xij xi .
i=1
Logo, podemos expressar a informao de Fisher para em forma matricial

2 L()
K () = E = XT WX.
T
Lawless(1987) mostra que a informao de Fisher para pode ser expressa
na forma
n
X
X
K () = { ( + j)2 P r(Yi j) 1 i /(i + )},
i=1 j=0
e que e so parmetros ortogonais. Assim , a matriz de informao de

Fisher para assume a forma bloco diagonal

K 0
K = .
0 K
As estimativas de mxima verossimilhaa para e podem ser obtidas
atravs de um algoritmo de mnimos quadrados reponderados, aplicando o
mtodo escore de Fisher, a partir de (4.5) e do mtodo de Newton-Raphson
para obter desenvolvido a partir de (4.6), os quais so descritos abaixo
(m+1) = (XT W(m) X)1 XT W(m) y(m)
307
e
(m) (m)
(m+1) = (m) {U /L },
para m = 0, 1, 2, . . ., em que
y = X + F1 (y )
uma varivel dependente modificada e

n
X
L = { ( + yi ) + (yi 2i )/( + i )2 } + n1 {1 ()}.
i=1
Tabela 4.5
Quantidades i e fi para algumas ligaes.
Ligao i fi
1
logi = i i /(i + 1) i
i = i (2i 1 + i )1 1
1
i = i 4/(i + 1) 2 i
Os dois procedimentos so aplicados simultaneamente at a convergn-

T
cia. Podemos encontrar as estimativas de mxima verossimilhana ( , )T
pela aplicao do comando library(MASS) do R. Como ilustrao, vamos su-
por um modelo log-linear com resposta binomial negativa resp e covariveis
cov1 e cov2. Devemos acionar os seguintes comandos no R:
library(MASS)
fit.bn = glm.nb( resp cov1 + cov2).
No objeto fit.bn estaro os resultados do ajuste. Outras ligaes,
alm da ligao logartmica, podem ser usadas com a distribuio binomial
negativa. Por exemplo, para o ajuste de um modelo com resposta binomial
negativa e ligao identidade se resp considerada resposta e cov1 e cov2
so consideradas variveis explicativas, devemos fazer o seguinte:
library(MASS)
308
fit.bn = glm.nb( resp cov1 + cov2, link=identity).

A Tabela 4.5 apresenta as expresses para i e fi para algumas ligaes
usuais em modelos com resposta binomial negativa.
Usando os mesmos argumentos da Seo 1.6 temos que para n grande
segue distribuio aproximadamente normal p-variada de mdia e ma-
triz de varincia-covarincia K1 1
, ou seja , para n grande Np (, K ).
Similarmente para n grande N(, K1

). Alm disso, e so assintoti-
camente independentes.

A funo desvio assumindo fixo fica dada por
Xn
i + yi (i + )
D (y; ) = 2 log + yi log ,
i=1
y i + i (y i + )
em que i = g 1 (xTi ). Quando yi = 0 o i-simo componente da funo

desvio D (y; ) fica dado por
d2 (yi , i ) = 2{logf (0; yi , ) logf (0; i , )}

= 2log{/(yi + )} 2log{/(i + )}
= 2log{(i + )/(yi + )}
= 2log{(i + )/}.
Portanto, os componentes do desvio no caso binomial negativo assumem as

seguintes formas:
h n o n oi
2 log (i +) + yi log yi (i +) se yi > 0;
d2 (yi ; i ) = n (yi +) o i (yi +)
2log (i +) se yi = 0.

Sob a hiptese de que o modelo adotado est correto D (y; ) segue para
grande e i grande, i, uma distribuio qui-quadrado com (n p) graus de
liberdade.
309
Vamos supor agora a partio = ( T1 , T2 )T em que 1 um vetor

q-dimensional enquanto 2 tem dimenso p q e que fixo ou conhecido.
O teste da razo de verossimilhanas para testarmos H0 : 1 = 0 contra
H1 : 1 6= 0 reduz, neste caso, diferena entre dois desvios
RV = D (y; 0 ) D (y; ),
em que 0 e so, respectivamente, as estimativas de sob H0 e H1 . Para

desconhecido o teste da razo de verossimilhanas fica expresso na seguinte
forma:
n
X
RV = 2 [log{( + yi )(0 )/(0 + yi )()} + log{/( + i )}
i=1
log{0 /(0 + 0i )} + yi log{i (0 + 0i )/0i ( + i )}],

0
em que 0 e so as estimativas de mxima verossimilhana de sob H0 e

H1 , respectivamente. Para n grande e sob H0 temos que RV 2q .

Fazendo uma analogia com os MLGs a matriz de projeo H assume aqui a
seguinte forma:
H = W1/2 X(XT WX)1 XT W1/2 .
O i-simo elemento da diagonal principal de H fica dado por

(di /di )2 T T
hii = x (X WX)1 xi .
(i 1 + i ) i
Em particular, para os modelos log-lineares hii fica dado por
i
hii = xTi (XT WX)1 xi ,
( + i )
em que i = i /( + i ). Como hii dever depender de i , grficos de hii
contra os valores ajustados so mais informativos do que os grficos de hii
contra a ordem das observaes.
310
Estudos de Monte Carlo desenvolvidos por Svetliza (2002) (ver tambm

Svetliza e Paula, 2003) indicam boa concordncia entre o resduo componente
do desvio
d (yi ; i )
t Di = p
1 hii
com a distribuio normal padro, em que
h n o n oi1/2
2 log i + + y log yi (i +) se yi > 0;
i
d (yi ; i ) = h n yi + oi i (yi +)
2 log (i +) se yi = 0.

Para extrairmos a quantidade di (yi ; i ) do objeto fit.bn devemos fa-

zer o seguinte:
d = resid(fit.bn, type= deviance").
Uma verso da distncia de Cook aproximada dada por
hii
LDi = rP2 i ,
(1 hii ) 2
p
em que rPi = (yi i )/ Var(Yi ) e Var(Yi ) = i + 2i /. A quantidade rPi
obtida no R atravs do comando
rp = resid(fit.bn, type=pearson").
O grfico de LDi contra as observaes ou valores ajustados pode re-
velar pontos influentes nas estimativas e . Svetliza (2002) desenvolveu as
expresses matriciais para a obteno de max para e .

Similarmente aos modelos lineares generalizados, pelo critrio de Akaike de-
vemos encontrar um submodelo para o qual a quantidade abaixo seja mini-
mizada
AIC = D (y; ) + 2p.
311
Devemos acionar no R os seguintes comandos:

library(MASS)
stepAIC(fit.model).
Aqui fit.model denota o objeto com o modelo binomial negativo ajus-
tado.
4.3.6 Aplicaes
Estudantes australianos
Venables e Ripley(1999, Caps. 6 e 7) apresentam os resultados de um estudo
sociolgico desenvolvido na Austrlia com 146 estudantes de 8a srie e ensino
mdio com o objetivo de comparar a ausncia na escola segundo os seguintes
fatores: ano que o estudante est cursando (1: 8a srie, 2: 1o ano do ensino
mdio, 3: 2o ano do ensino mdio, 4: 3o ano do ensino mdio), etnia (0: abo-
rgine, 1: no aborgine), desempenho escolar (0: insuficiente, 1: suficiente)
e sexo (0: masculino, 1: feminino). Para obtermos esses dados no R devemos
acionar o comando library(MASS) e em seguida quine. Uma cpia desses
dados est disponvel no arquivo quine.dat. Denotamos por Yijkm o nmero
de faltas num determinado perodo referentes ao m-simo aluno, cursando o
i-simo ano, de etnia j, com desempenho escolar k e pertencente ao -simo
sexo, em que i = 1, 2, 3, 4, j, k, = 1, 2 e m = 1, . . . , 144. Vamos supor que
Yijkm BN(ijk , ), em que
logijk = + i + j + k + ,
com 1 = 0, 1 = 0, 1 = 0 e 1 = 0. Assim, temos um modelo casela de

referncia em que 2 , 3 e 4 denotam os incrementos do primeiro, segundo
e terceiro ano do ensino mdio, respectivamente, em relao 8a srie, 2
a diferena entre os efeitos do grupo no aborgine com relao ao grupo
312
aborgine, 2 denota a diferena entre os efeitos dos grupos com desempenho

suficiente e insuficiente e a diferena entre os efeitos do sexo feminino e
masculino.
Tabela 4.6
Estimativas de mxima verossimilhana referentes ao modelo
log-linear binomial negativo ajustado aos dados sobre ausncia
escolar de estudantes australianos.
Efeito Modelo 1 E/E.Padro Modelo 2 E/E.Padro
Intercepto 2,895 12,70 2,628 10,55
Etnia -0,569 -3,72 0,131 0,38
Sexo 0,082 0,51
Ano2 -0,448 -1,87 0,178 0,56
Ano3 0,088 0,37 0,827 2,61
Ano4 0,357 1,44 0,371 1,11
Desemp 0,292 1,57
Etn*Ano2 -0,991 -2,26
Etn*Ano3 -1,239 -2,78
Etn*Ano4 -0,176 -0,38
1,275 7,92 1,357 7,80
Na Tabela 4.6 temos as estimativas de mxima verossimilhana com os

respectivos erros padro aproximados. O desvio do modelo ajustado (modelo
1) foi de D (y; ) = 167, 95 (139 graus de liberdade). Notamos que os fatores
sexo e desempenho escolar no so significativos a 10%, sendo portanto reti-
rados do modelo. Contudo, notamos a necessidade de incluso da interao
ano*etnia no novo modelo. O valor da estatstica da razo de verossimilhan-
as nesse caso de RV = 11, 16 (P= 0, 0109). As novas estimativas so
tambm apresentadas na Tabela 4.6. O desvio do novo modelo (modelo 2)
foi de D (y; ) = 167, 84 (138 graus de liberdade). A Figura 4.5 apresenta
as mdias ajustadas do modelo final. Podemos notar que o grupo no abo-
rgine tem em geral um no mdio menor de dias ausentes. A maior mdia
observada para estudantes do grupo aborgine cursando o 2o do ensino mdio
313
e o menor valor mdio observado para estudantes do grupo no aborgine

cursando o 1o do ensino mdio.
30
Abor
Nabo
25
Valore Ajustado
20
15
10
8a.Serie Ano1 Ano2 Ano3
Ano
Figura 4.5: Valores mdios estimados pelo modelo log-linear binomial nega-
tivo ajustado aos dados sobre ausncia escolar de estudantes australianos.
Verificamos tambm, neste estudo, como fica o ajuste atravs de um

modelo log-linear de Poisson. Temos nas Figura 4.6a e 4.6b os grficos nor-
mais de probabilidades para os dois ajustes e notamos uma clara superi-
oridade do modelo log-linear com resposta binomial negativa. O modelo
log-linear de Poisson apresenta fortes indcios de sobredisperso com os re-
sduos cruzando o envelope gerado. Isso justificado pelo valor do desvio
314
D (y; ) = 1597, 11 (138 graus de liberdade).

10
3
2
5
1
0
0
-1
-2
-5
-3
-2 -1 0 1 2 -2 -1 0 1 2

(a) (b)
Figura 4.6: Grficos normais de probabilidades referentes ao modelo log-

linear de Poisson (a) e ao modelo log-linear binomial negativo (b) ajustados
aos dados sobre ausncia escolar de estudantes australianos.
Nas Figuras 4.7a a 4.7d so apresentados alguns grficos de diagnstico.

Na Figura 4.7a em que so apresentados os valores de hii nenhum dos 8 grupos
formados so destacados como alavanca. J pela Figura 4.7b notamos pelo
menos trs pontos com mais destaque como influentes em , so os alunos
#72, #104 e #36. Os trs alunos tm vrios dias ausentes, respectivamente,
67, 69 e 45. O aluno #72 no aborgine e estava cursando a 8a srie. O aluno
#104 tambm no aborgine, porm estava cursando o 3o ano, enquanto
o aluno #36 aborgine e estava tambm cursando a 8a srie. Pela Figura
4.7c notamos dois pontos com mais destaque como aberrantes, #98 e #61.
Esses alunos no tiveram faltas, estavam cursando o 3o ano, um aborgine
(#61) e o outro (#98) no aborgine. Em geral os pontos aberrantes desse
exemplo referem-se a alunos sem nenhuma falta. A retirada desses pontos
315
no altera os resultados inferenciais. Finalmente, a Figura 4.7d indica que a

escolha da ligao logartmica no parece ser inadequada.
72
Distancia de Cook
0.8
0.8
Medida h
36 104
0.4
0.4
0.0
0.0
10 15 20 25 30 0 20 40 60 80 100 140

(a) (b)
6
2
5
Variavel z
4
0
3
-2
61 98
1
-4
0 20 40 60 80 100 140 2.0 2.5 3.0 3.5
Indice Preditor Linear

(c) (d)
Figura 4.7: Grficos de diagnstico referentes ao modelo binomial negativo

ajustado aos dados sobre ausncia escolar de estudantes australianos.
Demanda de TV a cabo
Na Tabela 4.7 apresentado um conjunto de dados sobre a demanda de TVs
a cabo em 40 reas metropolitanas dos EUA (Ramanathan, 1993). Esses
dados esto tambm disponveis no arquivo tvcabo.dat. Foram observadas,
para cada rea, o nmero de assinantes (em milhares) de TV a cabo (nass),
316
Tabela 4.7
Demanda de TV a cabo em 40 reas metropolitanas dos EUA.
Nass Domic Perc Percap Taxa Custo Ncabo Ntv
105 350 30,000 9839 14,95 10 16 13
90 255,631 35,207 10606 15 7,5 15 11
14 31 45,161 10455 15 7 11 9
11,7 34,840 33,582 8958 10 7 22 10
46 153,434 29,980 11741 25 10 20 12
11,217 26,621 42,136 9378 15 7,66 18 8
12 18 66,667 10433 15 7,5 12 8
6,428 9,324 68,940 10167 15 7 17 7
20,1 32 62,813 9218 10 5,6 10 8
8,5 28 30,357 10519 15 6,5 6 6
1,6 8 20,000 10025 17,5 7,5 8 6
1,1 5 22,000 9714 15 8,95 9 9
4,355 15,204 28,644 9294 10 7 7 7
78,910 97,889 80,612 9784 24,95 9,49 12 7
19,6 93 21,075 8173 20 7,5 9 7
1 3 33,333 8967 9,95 10 13 6
1,65 2,6 63,462 10133 25 7,55 6 5
13,4 18,284 73,288 9361 15,5 6,3 11 5
18,708 55 34,015 9085 15 7 16 6
1,352 1,7 79,529 10067 20 5,6 6 6
170 270 62,963 8908 15 8,75 15 5
15,388 46,540 33,064 9632 15 8,73 9 6
6,555 20,417 32,106 8995 5,95 5,95 10 6
40 120 33,333 7787 25 6,5 10 5
19,9 46,39 42,897 8890 15 7,5 9 7
2,45 14,5 16,897 8041 9,95 6,25 6 4
3,762 9,5 39,600 8605 20 6,5 6 5
24,882 81,98 30,351 8639 18 7,5 8 4
21,187 39,7 53,368 8781 20 6 9 4
3,487 4,113 84,780 8551 10 6,85 11 4
3 8 37,500 9306 10 7,95 9 6
42,1 99,750 42,206 8346 9,95 5,73 8 5
20,350 33,379 60,966 8803 15 7,5 8 4
23,15 35,5 65,211 8942 17,5 6,5 8 5
9,866 34,775 28,371 8591 15 8,25 11 4
42,608 64,840 65,713 9163 10 6 11 6
10,371 30,556 33,941 7683
317 20 7,5 8 6
5,164 16,5 31,297 7924 14,95 6,95 8 5
31,150 70,515 44,175 8454 9,95 7 10 4
18,350 42,040 43,649 8429 20 7 6 4
o nmero de domiclios (em milhares) na rea (domic), a porcentagem de

domiclios com TV a cabo (perc), a renda per capita (em USD) por domiclio
com TV a cabo (percap), a taxa de instalao de TV a cabo (taxa) em USD, o
custo mdio mensal de manuteno de TV a cabo (custo) em USD, o nmero
de canais a cabo disponveis na rea (ncabo) e o nmero de canais no pagos
com sinal de boa qualidade disponveis na rea (ntv).
8
2
6
4
0
2
0
-2
-2
-4
-4
-2 -1 0 1 2 -2 -1 0 1 2

(a) (b)
Figura 4.8: Grficos normais de probabilidades referentes aos modelos log-

linear de Poisson(a) e log-linear binomial negativo (b) ajustados aos dados
sobre demanda de TV a cabo.
Como so dados de contagem podemos pensar inicialmente num mo-

delo de Poisson em que nassi denota o nmero de assinantes na i-sima regio
tal que nassi P(i ), em que
logi = + 1 domici + 2 percapi + 3 taxai + 4 custoi + 5 ncaboi + 6 ntvi
para i = 1, . . . , 40. No entanto, o ajuste do modelo forneceu desvio D(y; ) =

225 para 33 graus de liberdade indicando fortes indcios de sobredisperso,
318
que confirmado pelo grfico normal de probabilidades da Figura 4.8a. Ten-

tamos ento um modelo binomial negativo em que nassi BN(i , ). O gr-
fico normal de probabilidades (Figura 4.8b) bem como o desvio D (y; ) =
42, 35 fornecem indcios de ajuste adequado. No entanto, pela Figura 4.9,
notamos uma rea altamente influente (observao #14) e outra rea com
moderada influncia (observao #1). A rea #14 apresenta custos altos de
instalao e manuteno de TV a cabo, porm um alto ndice de assinantes.
1.0
14
4
0.8
Distancia de Cook
1
Medida h
0.6
2
0.4
1
0.2
0.0
0 50 100 150 200 250 0 10 20 30 40

(a) (b)
5
3
2
4
Variavel z
1
3
0
1
2
1
3
0 10 20 30 40 2 3 4 5
Indice Preditor Linear

(c) (d)
Figura 4.9: Grficos de diagnstico referentes ao modelo log-linear binomial

negativo ajustado aos dados sobre demanda de TV a cabo.
A rea #1 tem um baixo ndice de assinantes com grande oferta de canais
319
a cabo e canais no pagos de boa qualidade. As estimativas dos coeficientes

com todos os pontos e eliminando as observaes mais discrepantes (1 e 14)
so apresentadas na Tabela 4.8. Como podemos observar h indcios de
que quatro coeficientes (percap, taxa, ncabo e ntv) so marginalmente no
significativos a 10%. Aplicamos ento o teste da razo de verossilhanas
para testarmos H0 : 2 = 3 = 5 = 6 = 0 contra pelo menos um parmetro
diferente de zero que forneceu o valor RV = 2, 50 para 4 graus de liberdade
(P=0,64), indicando pela no rejeio da hiptese nula. Isso significa que
as duas observaes discrepantes so responsveis pela significncia de trs
desses coeficientes que aparecem significativos marginalmente com todos os
pontos, bem como pelo aumento da sobredisperso uma vez que a estimativa
de cresce com a eliminao das duas reas.
Tabela 4.8
Estimativas de mxima verossimilhana referentes do modelo log-linear
binomial negativo ajustado aos dados sobre demanda de TV a cabo.
Efeito Todos pontos E/E.Padro Sem 1 e 14 E/E.Padro
Intercepto 2,437 1,99 3,608 3,34
Domic 0,013 8,24 0,014 9,69
Percap 6 105 0,42 2 106 -0,01
Taxa 0,041 1,84 0,010 0,50
Custo -0,207 1,95 -0,266 -2,69
Ncabo 0,067 2,01 0,050 1,63
Ntv -0,135 1,84 -0,071 -1,02
3,311 3,49 5,060 2,89
Portanto, um modelo mais recomendado envolveria apenas as variveis

explicativas domic e custo, ou seja, com parte sitemtica dada por logi = +
1 domici + 4 custoi . O desvio desse modelo fica dado por D (y; ) = 41, 05
para 35 graus de liberdade (P= 0, 22), indicando um ajuste adequado. As
novas estimativas sem as reas #1 e # 14 (erro padro aproximado) ficam
dadas por = 3, 620(0, 637), 1 = 0, 015(0, 001), 4 = 0, 242(0, 091) e
320
= 4, 54(1, 51).
Portanto, pela estimativa de 4 , se o custo mensal de manuteno
aumentar de USD 1 esperamos uma reduo aproximada de 22% no nmero
de assinantes com TV a cabo na rea.
4.3.7 Sobredisperso e quase-verossimilhana

De uma forma geral o fenmeno de sobredisperso sugere que a varincia de
Y seja dada por Var(Y ) = 2 , em que 2 > 1. Uma maneira mais simples
de resolvermos o problema ajustarmos um modelo log-linear de Poisson aos
dados e estimarmos 2 separadamente (mtodo de quase-verossimilhana),
por exemplo, usando a estimativa proposta por Wedderburn (1974), dada
por
n
X
2 (yi i )2
= /(n p), (4.7)
i=1
i
em que i = exp(xTi ). Algumas quantidades, tais como a matriz de varincia-

covarincia assinttica de , o desvio, resduos etc, devero ser corrigidos de
maneira similar ao caso tratado na Seo 3.6.14. Finalmente, podemos pen-
sar na aplicao de modelos mais gerais de quase-verossimilhana que sero
discutidos no Captulo 5.
Aplicao
Como ilustrao, vamos considerar os dados descritos na Tabela 4.9 (Mc-
Cullagh e Nelder, 1989, Seo 6.3.2) e tambm no arquivo navios.dat em
que avarias causadas por ondas em navios de carga so classificadas segundo
o tipo do navio (A-E), ano da fabricao (1:1960-64, 2:1965-69, 3:1970-74 e
4:1975-79) e perodo de operao (1:1960-74 e 2:1975-79).
321
Tabela 4.9
Distribuio de avarias em navios de
carga segundo o tipo do navio, ano de
fabricao perodo de operao
e total de meses em operao.
Tipo Ano Perodo Meses Avarias
A 1 1 127 0
A 1 2 63 0
A 2 1 1095 3
A 2 2 1095 4
A 3 1 1512 6
A 3 2 3353 18
A 4 2 2244 11
B 1 1 44882 39
B 1 2 17176 29
B 2 1 28609 58
B 2 2 20370 53
B 3 1 7064 12
B 3 2 13099 44
B 4 2 7117 18
C 1 1 1179 1
C 1 2 552 1
C 2 1 781 0
C 2 2 676 1
C 3 1 783 6
C 3 2 1948 2
C 4 2 274 1
D 1 1 251 0
D 1 2 105 0
D 2 1 288 0
D 2 2 192 0
D 3 1 349 2
D 3 2 1208 11
D 4 2 2051 4
E 1 1 45 0
E 2 1 789 7
E 2 2 437 7
E 3 1 1157 5
E 3 2322 2161 12
E 4 2 542 1
3
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
-2 -1 0 1 2 -2 -1 0 1 2

(a) (b)

linear de Poisson (a) e log-linear de quase-verossimilhana (b) ajustados aos
dados sobre avarias em navios de carga.
Foi tambm considerado o tempo em que cada navio ficou em operao
(em meses). Inicialmente, sugerimos um modelo log-linear de Poisson com
offset dado por log(meses) e efeitos principais. Assim, denotamos por Yijk
o nmero de avarias observadas para o navio do tipo i, construdo no ano j
que operou no perodo k e vamos supor que Yijk P(ijk tijk ), em que tijk
o total de meses de operao e ijk o nmero mdio esperado de avarias por
unidade de tempo. A parte sistemtica do modelo dada por
logijk = + 1(i) + 2(j) + 3(k) ,
com as restries 1(1) = 2(1) = 3(1) = 0, para i = 1, . . . , 5; j = 1, . . . , 4 e

k = 1, 2, com 1 , 2 e 3 denotando, respectivamente, o efeito de tipo, de ano
de construo e perodo de operao. O desvio do modelo foi de D(y; ) =
38, 69 (25 graus de liberdade) que corresponde a um nvel descritivo P=
0, 040, indicando que o ajuste no est satisfatrio.
323
Pelo grfico normal de probabilidades, descrito na Figura 4.10a, no-

tamos a maioria dos resduos prximos dos limites superior e inferior do
envelope gerado, sugerindo sobredisperso que nesse caso deve ser devido ao
fato de um mesmo navio ter sido observado mais de uma vez. Usando (4.7)
obtemos 2 = 1, 69, e corrigindo o componente do desvio padronizado de
modo que q
tDi = di / 1 hii ,
obtemos um novo grfico normal de probabilidades descrito na Figura 4.10b,

em que os resduos esto melhor distribudos dentro do envelope gerado.
Tabela 4.10
log-linear de quase-verossimilhana ajustado
aos dados sobre avarias em navios de carga.
Constante -6,406 -22,69
Tipo
A 0,000 -
B -0,543 -2,36
C -0,687 -1,61
D -0,076 0,20
E 0,326 1,06
Ano
60-64 0,000 -
65-69 0,697 3,59
70-74 0,818 3,71
75-79 0,453 1,50
Perodo
60-74 0,000 -
75-79 0,384 2,50
O novo desvio fica dado por D (y; ) = D(y; )/ 2 = 38,69/1,69 =

22,89 (25 graus de liberdade), indicando um ajuste adequado. Devemos
324
4.4 Relao entre a multinomial e a Poisson
observar que tanto o resduo tDi como o desvio D (y; ) devem ser olha-
dos de maneira meramente descritiva uma vez que em modelos de quase-
verossimilhana a distribuio da resposta em geral desconhecida. As esti-
mativas de mxima verossimilhana e os valores padronizados pelos respecti-
vos erros padro aproximados, j multiplicados pelo fator , so apresentadas
na Tabela 4.10. Williams (1987) mostra que o problema de sobredisperso
neste exemplo causado particularmente por duas observaes discrepantes
e sugere a incluso da interao tipo*ano com pelo menos uma dessas obser-
vaes excludas. Pela Tabela 4.10 notamos que os navios de tipos B e C so
aqueles com uma incidncia menor de avarias por unidade de tempo. Por
outro lado, os navios fabricados de 65 a 74 como tambm aqueles que ope-
raram de 75 a 79 apresentam uma inicidncia maior de avarias por unidade
de tempo do que os demais.
Vamos supor agora que todas as unidades amostrais so acompanhadas du-

rante o mesmo perodo e que so classificadas segundo s nveis de exposio
e r grupos, conforme descrito abaixo.
Exposio
Grupo E1 E2 E3 Es
G1 y11 y12 y13 y1s
G2 y21 y22 y23 y2s

Gr yr1 yr2 yr3 yrs
Supondo que Yij P(ij ), i = 1, . . . , r e j = 1, . . . , s, temos que

X n! a
P r{Y = a| Yij = n} = i,j ijij ,
i,j
i,j aij !
325
P
em que ij = ij /++ , ++ = i,j ij , Y = (Y11 , . . . , Yrs )T e a = (a11 , . . . , ars )T .
Vamos considerar o modelo log-linear de Poisson com parte sistemtica dada
por logij = +1(i) +2(j) +12(ij) , com as restries 1(1) = 2(1) = 12(1j) =
12(i1) = 0 para i = 1, . . . , r e j = 1, . . . , s. Temos que
r X
X s
= ++ = exp{ + 1(i) + 2(j) + 12(ij) }
i=1 j=1
Xr X s

= e exp{1(i) + 2(j) + 12(ij) },
i=1 j=1
e podemos definir as probabilidades

exp{ + 2(j) + 12(ij) }
ij = Pr Ps 1(i) ,
i=1 j=1 exp{1(i) + 2(j) + 12(ij) }
em que o total do denominador invariante com a parametrizao utilizada

no modelo. Temos que as probabilidades ij s no dependem do parmetro .
Como veremos a seguir, a estimativa de mxima verossimilhana do vetor
correspondente ao modelo multinomial coincide com a estimativa de mxima
verossimilhana para = ( T1 , T2 , T12 )T referente ao modelo log-linear de
Poisson. Se, por exemplo, ajustarmos um modelo multinomial do tipo log-
linear aos dados tal que
logij = + 1(i) + 2(j) + 12(ij) ,

P P P
teremos, devido imposio i,j ij = 1, que exp( ) = 1/ i j exp{1(i) +
2(j) + 12(ij) }, ou seja, = log( ). O que muda a estimativa do in-
tercepto, embora na prtica sempre seja possvel obtermos atravs de
e vice-versa. Para mostrarmos a equivalncia das estimativas partiremos da
relao abaixo
P r{Y = a; Y++ = n}
P r{Y = a|n} = ,
P r{Y++ = n}
326
P
em que Y++ = i,j Yij . Denotando Ly|n () = logP r{Y = a|n}, Ly (, ) =
logP r{Y = a; Y++ = n} e Ly++ ( ) = logP r{Y++ = n} temos que
Ly (, ) = Ly++ ( ) + Ly|n (), (4.8)
em que
Ly++ ( ) = + y++ log log(y++ !)
e
X X
Ly|n () = logn! + aij logij logaij !.
i,j i,j
Portanto, maximizarmos Ly (, ) com relao a equivalente a maximizar-

mos Ly|n () com relao a . Isso quer dizer que as estimativas de mxima
verossimilhana para o vetor so as mesmas sob o modelo log-linear multi-
nomial com probabilidades 11 , . . . , rs e sob o modelo log-linear de Poisson
de mdias 11 , . . . , rs . As matrizes de segundas derivadas com relao a ,
para os dois modelos, so tais que
2 Ly (, ) 2 Ly|n ()
= .
T T
Devido linearidade em (4.8) segue que a matriz de informao observada
para (, T )T bloco-diagonal com elementos dados por 2 Ly (, )/ 2
e 2 Ly (, )/ T , respectivamente. Segue, portanto, que a matriz de
informao de Fisher ser tambm bloco-diagonal com os valores esperados
das quantidades acima,
n 2 o
Ey L
y (,)
2 0
K = n 2 o .
0 Ey
Ly (,)
T
A varincia assinttica de fica ento dada por
Vary () = [Ey { 2 Ly (, )/ T }]1 .
327
Palmgren (1981) mostra que K coincide com a matriz de informao ob-

servada sob a restrio = n.
Esses resultados podem ser generalizados para quaisquer dimenses
de tabelas bem como sob a presena de variveis explicativas contnuas. A
varincia assinttica de fica no modelo multinomial dada por
2 1
Ly|n ()
Vary|n () = Ey|n ,
T
coincidindo com a varincia assinttica do modelo no condicional sob a
restrio = n. Contudo, do ponto de vista prtico, as varincias assintticas
de devem coincidir uma vez que a estimativa de mxima verossimilhana
de dada por = n.
4.4.1 Modelos log-lineares hierrquicos

Um modelo log-linear dito hierrquico se dado que uma interao est no
modelo, todas as interaes de ordem menor como tambm os efeitos princi-
pais correspondentes devero estar tambm no modelo. A utilizao de tais
modelos tem a vantagem de permitir uma interpretao das interaes nulas
como probabilidades condicionais. Em muitos casos podemos expressar as
estimativas dos valores mdios em forma fechada, evitando assim a utilizao
de processos iterativos.
Como ilustrao, vamos supor o modelo log-linear apresentado na seo
anterior. Podemos mostrar que a hiptese H0 : 12(ij) = 0, ij, equivalente
hiptese de independncia na tabela, isto H0 : ij = i+ +j , ij. Dado
que no h interao, testarmos a ausncia de efeito de exposio, isto
testarmos H0 : 1(i) = 0, i = 1, . . . , r, equivalente a testarmos H0 : 1+ =
= r+ = 1/r. Finalmente, dado que no h interao, testarmos a
ausncia de efeito de grupo, isto testarmos H0 : 2(j) = 0, j = 1, . . . , s,
equivalente a testarmos H0 : +1 = = +s = 1/s.
328
Vamos supor agora um modelo log-linear de Poisson com trs fatores

de r, s e t nveis, respectivamente. Podemos representar a parte sistemtica
do modelo saturado da seguinte forma:
logijk = + 1(i) + 2(j) + 3(k) + 12(ij) + 13(ik) + 23(jk) + 123(ijk) , (4.9)
com as restries 1(1) = 2(1) = 3(1) = 0, 12(1j) = 12(i1) = 0, 13(1k) =

13(i1) = 0, 23(1k) = 23(j1) = 0, 123(1jk) = 123(i1k) = 123(ij1) = 0, para
i = 1, . . . , r; j = 1, . . . , s e k = 1, . . . , t. Temos vrias classes de modelos
hierrquicos que correspondem a situaes de interesse na tabela de contin-
gncia formada. Uma primeira classe corresponde hiptese de ausncia
de interao de segunda ordem, representada por H0 : 123(ijk) = 0, ijk,
sendo equivalente hiptese de associao entre dois fatores quaisquer ser
constante nos nveis do terceiro. Isso quer dizer, em outras palavras, que
a razo de produtos cruzados ijk i j k /ij k i jk , representando a associao
entre os nveis (i, j) e (i , j ) dos dois primeiros fatores, constante nos nveis
do terceiro fator. Se omitimos no modelo (4.9) a interao de segunda ordem
mais uma interao de primeira ordem, dizemos que os dois fatores omitidos
correspondentes interao de primeira ordem so independentes do terceiro
fator. Por exemplo, se omitimos 123(ijk) e 23(jk) , ijk, ficando com a parte
sistemtica
logijk = + 1(i) + 2(j) + 3(k) + 12(ij) + 13(ik) ,
dizemos que os fatores 2 e 3 so independentes nos nveis do primeiro fator,

ou equivalentemente, que
ijk = ij+ i+k /i++ , ijk.
Se agora omitimos alm de 123(ijk) e 23(jk) tambm 13(ik) , ijk, ficando a

parte sistemtica
logijk = + 1(i) + 2(j) + 3(k) + 12(ij) ,
329
dizemos que o terceiro fator independente dos dois primeiros, ou equivalen-

temente, que
ijk = ij+ ++k , ijk.
O modelo apenas com os efeitos principais cuja parte sistemtica dada por
logijk = + 1(i) + 2(j) + 3(k) ,
equivale hiptese de independncia entre os trs fatores, isto , que
ijk = i++ +j+ ++k , ijk.
A Tabela 4.11 resume as trs situaes de independncia para o modelo (4.9).
Tabela 4.11
Algumas interaes em modelos log-lineares de Poisson.
Forma para ijk Interao Interpretao
i++ +j+ ++k nenhuma fatores mutuamente
independentes
ij+ ++k 12(ij) fatores 1 e 2 independentes
do fator 3
ij+ i+k /i++ 12(ij) + 13(ik) fatores 2 e 3 independentes
nos nveis do fator 1
Em muitos desses casos possvel expressarmos as estimativas das proba-
bilidades ijk s em forma fechada. Uma anlise mais completa de modelos
hierrquicos pode ser encontrada, por exemplo, em Cordeiro e Paula (1989b,
Cap. 3) e Agresti (1990, Cap. 5).
4.4.2 Aplicaes
Associao entre renda e satisfao no emprego
A Tabela 4.12 apresenta o resultado de uma pesquisa com 901 indivduos
(Agresti, 1990, pgs. 20-21) classificados segundo a renda anual e o grau de
330
satisfao no emprego. Denotamos por Yij o nmero de indivduos pertencen-

tes classe de renda i com grau de satisfao j. Esses dados esto disponveis
no arquivo emprego.dat.
Tabela 4.12
Classificao de indivduos segundo a renda
e o grau de satisfao no emprego.
Grau de Satisfao
Renda (US$) Alto Bom Mdio Baixo
<6000 20 24 80 82
6000-15000 22 38 104 125
15000-25000 13 28 81 113
>25000 7 18 54 92
2
1
0
-1
-2
-3
-2 -1 0 1 2
Percentil da N(0,1)

de Poisson ajustado aos dados sobre renda e satisfao no emprego.
331
Tabela 4.13
de Poisson ajustado ao dados sobre renda e
satisfao no emprego.
Renda 2 1(2) 0,338 3,71
Renda 3 1(3) 0,132 1,389
Renda 4 1(4) -0,186 -1,81
Grau 2 2(2) 0,555 3,49
Grau 3 2(3) 1,638 11,87
Grau 4 2(4) 1,894 13,93
Vamos supor que Yij P(ij ) com parte sistemtica inicialmente dada
por (modelo saturado)
logij = + 1(i) + 2(j) + 12(ij) ,
em que ij denota o nmero esperado de indivduos pertencentes classe

de renda i com grau de satisfao j, 1(i) denota o efeito renda, 2(j) de-
nota o efeito satisfao e 12(ij) denota a interao. Temos as restries
1(1) = 2(1) = 0. O teste da razo de verossimilhanas para testarmos
H0 : 12(ij) = 0, ij (ausncia de interao) fornece o valor RV = 12, 04 com
nvel descritivo P= 0, 21, indicando pela ausncia de interao ou indepen-
dncia entre os dois fatores. Se denotarmos por ij a proporo de indivduos
na classe de renda i e grau de satisfao j, no rejeitarmos H0 equivalente
a escrevermos ij = i+ +j , ij, em que i+ denota a proporo de indiv-
duos na classe de renda i e +j denota a proporo de indivduos com grau
de satisfao j. Ou seja, temos independncia entre renda e satisfao no
emprego. Isso significa que a distribuio do grau de satisfao no emprego
mesma em todos as faixas de renda. A Tabela 4.13 apresenta as estimativas
dos parmetros do modelo com efeitos principais.
332
Os fatores renda e grau de satisfao so altamente significativos. No-

tamos pelas estimativas dos parmetros que h uma proporo maior de
indivduos na classe de renda 2 (6000-15000) e uma proporo menor na
classe de renda 4 (>25000). Por outro lado, notamos que a proporo de
indivduos cresce com o aumento do grau de satisfao. O desvio do mo-
delo foi de D(y; ) = 12, 04 (9 graus de liberdade) com nvel descritivo de
P= 0, 21, indicando um ajuste adequado. Pelo grfico normal de probabili-
dades com o resduo tDi (Figura 4.11) no h indcios fortes de que o modelo
adotado seja incorreto, embora o fato dos resduos negativos estarem abaixo
da reta mediana e os resduos positivos ligeiramente acima seja uma indcio
de sobredisperso nos dados. 3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
-2 -1 0 1 2 -2 -1 0 1 2

(a) (b)

linear de Poisson (a) e log-linear de quase-verossimilhana (b) ajustados aos
dados sobre doena das coronrias.
333
Doena das coronrias
Tabela 4.14
Distribuio de 1330 pacientes segundo
ocorrncia de doena das coronrias,
nvel de colesterol e presso arterial.
Doena das Nvel de Presso arterial
coronrias colesterol 1 2 3 4
1 2 3 3 4
Sim 2 3 2 1 3
3 8 11 6 6
4 7 12 11 11
1 117 121 47 22
No 2 85 98 43 20
3 119 209 68 43
4 67 99 46 33
Vamos considerar agora os dados da Tabela 4.14 (Everitt, 1977) re-

ferente classificao de 1330 pacientes segundo trs fatores: doena das
coronrias (sim ou no), nvel de colesterol (1: menor do que 200 mg/100 cc,
2: 200-219, 3: 220-259 e 4: 260 ou +) e presso arterial (1: menor do que
127 mm Hg, 2: 127-146, 3: 147-166 e 4: 167 ou +). Os dados esto tambm
descritos no arquivo heart.dat. Denotamos por Yijk o nmero de pacientes
nos nveis (i, j, k) dos trs fatores: doena das coronrias, nvel de colesterol
e presso arterial, respectivamente. Vamos supor que Yijk P(ijk ) com
parte sistemtica inicialmente dada por (modelo saturado)
logijk = + 1(i) + 2(j) + 3(k) + 12(ij) + 13(ik) + 23(jk) + 123(ijk) ,
em que ijk denota o nmero esperado de indivduos pertencentes aos nveis

(i, j, k), respectivamente, 1(i) denota o efeito doena das coronrias, 2(j) de-
nota o efeito nvel de colesterol, 3(k) denota o efeito presso arterial e 12(ij) ,
334
13(ik) , 23(jk) e 123(ijk) so as interaes de 1a e 2a ordens, respectivamente,

com as restries dadas na Seo 4.4.1.
Tabela 4.15
Resumo do ANODEV referente ao modelo
log-linear de Poisson ajustado aos
dados sobre doena das coronrias.
(D:doena, C:colesterol e P:presso)
Efeito Desvio g.l. Diferena g.l.
D+C+P 78,96 24 - -
+ D.C 48,51 21 30,45 3
+ D.P 24,40 18 24,10 3
+ C.P 4,77 9 19,63 9
Pela Tabela 4.15 notamos que, segundo o princpio hierrquico, apenas

a interao de segunda ordem pode ser eliminada. A incluso dos efeitos
principais altamente significativa. Dado que os efeitos principais esto
no modelo, a incluso da interao doena*colesterol (12(ij) ) leva a RV =
30, 45 (3 graus de liberdade) com P= 0, 00. Dado que essa interao est no
modelo, a incluso da interao doena*presso (13(ik) ) fornece RV = 24, 10
(3 graus de liberdade) com P= 0, 00. Finalmente, dadas as duas interaes
de primeira ordem, a incluso da interao remanescente, colesterol*presso,
leva a RV = 19, 62 (9 graus de liberdade) com P= 0, 02. O desvio do
modelo (4.9) sem a interao de segunda ordem de D(y; ) = 4, 77 (9 graus
de liberdade) para um nvel descritivo de P= 0, 853, indicando um ajuste
adequado.
A ausncia de interao de segunda ordem neste exemplo significa que
as razes de chances (entre os nveis de colesterol ou entre os nveis de presso
arterial) so as mesmas nos grupos de doentes e no doentes. Contudo,
o grfico normal de probabilidades descrito na Figura 4.12a indica que os
resduos negativos esto acima da mdia esperada, ocorrendo o contrrio
335
4.5 Modelos com excesso de zeros
com os resduos positivos, embora todos sejam em geral pequenos. Isso

um indcio modesto de subdisperso, fenmeno que tambm pode ocorrer
em modelos de Poisson.
Um modelo de quase-verossimilhana similar ao que foi usado no exem-
plo da Seo 4.2.6 leva estimativa 2 = 0, 53. Na Figura 4.12b temos o
grfico normal de probabilidades com o resduo componente do desvio cor-
rigido pela estimativa de disperso. Notamos que os resduos esto melhor
distribudos dentro do envelope gerado. A concluso deste exemplo que h
associao entre os fatores dois a dois e que essa associao constante nos
nveis do terceiro fator.
4.5.1 Modelos truncados em zero

Os modelos truncados em zero so tambm conhecidos como modelos de
barreira (ver, por exemplo, Mullaby, 1986). Para formaliz-los vamos supor
que Y uma varivel aleatria com funo de probabilidades dada por
(
se y = 0,
P {Y = y} = fZ (y)
(1 ) {1fZ (0)} se y = 1, 2, . . . ,
em que 0 < < 1 e fZ (y) denota a funo de probabilidades de uma varivel

aleatria Z, por exemplo, Poisson ou binomial negativa. Portanto, desde que
P
y=1 fZ (y) = 1 fZ (0), segue que

X
P {Y 1} = (1 ) fZ (y)/{1 fZ (0)}
y=1
= (1 ){1 fZ (0)}/{1 fZ (0)}
= 1 .
336
P
Logo, y=0 P {Y = y} = + (1 ) = 1. Um exemplo poderia ser Y
denotando o nmero de dias que pacientes dependendes de lcool que esto
fazendo tratamento consumiram a bebida. O zero representa os pacientes que
ficaram em abstinncia no perodo. Os fatores que explicam a probabilidade
de zero podem ser diferentes daqueles que explicam a probabilidade de con-
sumo da bebida. Se queremos apenas estudar os pacientes que consumiram
a bebida no perodo podemos assumir no modelo = 0.
Os dois primeiros momentos de Y ficam dados por

X fZ (y)
E(Y ) = y(1 )
y=1
{1 fZ (0)}

(1 ) X
= yfZ (y)
{1 fZ (0)} y=1
E(Z)(1 )
=
{1 fZ (0)}
e

X
2 fZ (y)
E(Y ) = y 2 (1 )
y=1
{1 fZ (0)}

(1 ) X 2
= y fZ (y)
{1 fZ (0)} y=1
E(Z 2 )(1 )
= .
{1 fZ (0)}
Da segue que

(1 ) 2 E2 (Z)(1 )
Var(Y ) = E(Z ) .
{1 fZ (0)} {1 fZ (0)}
Iremos denotar Y TR{, fZ (y)}. Por exemplo, podemos assumir

que Y TR{, P()} (modelo de Poisson truncado em zero) ou que Y
TR{, BN(, )} (modelo binomial negativo truncado em zero). Logo, se
337
Z P() ento fZ (y) = e y /y! e em particular fZ (0) = e . Para

Z BN(, ) temos que
y
( + y)
fZ (y) = ,
(y + 1)() + +
em particular fZ (0) = /( + ) .
4.5.2 Modelos de regresso truncados em zero

Vamos supor agora que Y1 , . . . , Yn so variveis aleatrias independentes tais
que Yi TR{i , fZi (yi )}. Ento,
(
i se yi = 0,
P {Yi = yi } = fZi (yi )
(1 i ) {1fZ (0)} se yi = 1, 2, . . . ,
i
para i = 1, . . . , n. O logaritmo da funo de verossimilhana fica dado por

P
LT R = ni=1 logfYi (yi ), em que logfYi (0) = logi e logfYi (yi ) = log(1 i ) +
logfZi (yi ) log{1 fZi (0)} para yi = 1, 2, . . . .
Por exemplo, se assumimos que Yi TR{, P(i )} em que i = exi
T
e i = E(Yi ), ento segue que
E(Zi )(1 )
i =
{1 fZ (0)}
i (1 )
=
{1 ei }
exi (1 )
T
= .
[1 exp{exp(xTi )}]
Portanto,
logi = xTi + log(1 ) log[1 exp{exp(xTi )}].
338
4.5.3 Modelos inflacionados de zeros

Os modelos inflacionados de zeros (ver, por exemplo, Lambert, 1992) so ca-
racterizados pela ocorrncia de zeros em duas situaes: (i) zeros que ocor-
rem segundo uma distribuio de contagem ou (ii) zeros estruturais. Por
exemplo, podemos estar interessados em estudar o nmero de dias num de-
terminado perodo que um indivduo consumiu um determinado produto.
Aqueles indivduos que no consomem o produto por alguma razo, por
exemplo intolerncia ao produto, sero tratadas como zeros estruturais e
aqueles indivduos que no consumiram o produto no perodo, mas podem
vir a consum-lo, como zeros eventuais que sero associados a alguma distri-
buio de contagem Z. Nesse caso, a varivel aleatria Y , nmero de dias que
um indivduo consumiu o produto, tem funo de probabilidades expressa na
seguinte forma:

+ (1 )fZ (0) se y = 0,
P {Y = y} =
(1 )fZ (y) se y = 1, 2, . . . ,
em que 0 < < 1 e fZ (y) denota a funo de probabilidades de uma va-

rivel aleatria Z, por exemplo, Poisson ou binomial negativa. Desde que
P P
y=1 fZ (y) = 1 fZ (0) obtemos y=0 P {Y = y} = + (1 )fZ (0)} + (1
){1 fZ (0)} = + (1 ) = 1.
Os dois primeiros momentos de Y ficam dados por

X
E(Y ) = y(1 )fZ (y)
y=1

X
= (1 ) yfZ (y)
y=1
= (1 )E(Z)
339
e

X
2
E(Y ) = y 2 (1 )fZ (y)
y=1

X
= (1 ) y 2 fZ (y)
y=1
= (1 )E(Z 2 ).
Assim,
Var(Y ) = E(Y 2 ) E2 (Y )
= (1 )E(Z 2 ) (1 )2 E2 (Z)
= (1 ){E(Z 2 ) (1 )E2 (Z)}.
Iremos denotar Y IZ{, fZ (y)}. Por exemplo, Y IZ{, P()} ou

Y IZ{, BN(, )}.
4.5.4 Modelos de regresso inflacionados de zeros

Vamos supor agora que Y1 , . . . , Yn so variveis aleatrias independentes tais
que Yi IZ{i , fZi (yi )}. Ento,

i + (1 i )fZ (0) se yi = 0,
P {Yi = yi } =
(1 i )fZ (yi ) se yi = 1, 2, . . . ,
para i = 1, . . . , n. O logaritmo da funo de verossimilhana fica dado

Pn
por LIZ = i=1 logfYi (yi ), em que logfYi (0) = log{i + (1 i )fZi (0)} e
logfYi (yi ) = log(1 i ) + logfZi (yi ) para yi = 1, 2, . . ..

Por exemplo, podemos supor que Zi P(i ) com i = exi e log{i /(1
T
340
4.6 Exerccios
i )} = uTi . Dessa forma segue que i = E(Yi ) fica expresso como
i = (1 i )E(Zi )
= (1 i )i
( )
e ui
T
= 1 e i
xT
1+e u T
i
e xi
T
= .
{1 + eui }
T
Isto ,
logi = xTi log{1 + eui }.
T
O ajuste de modelos de barreira (modelos de hurdle) ou de modelos

inflacionados de zeros no R pode ser realizado, por exemplo, atravs da library
pscl (Jackman, 2008) acionada atravs do comando
require(pscl).
Os ajustes de modelos de barreira usam o comando hurdle() enquanto
os ajustes de modelos inflacionados de zeros usam o comando zeroinfl().
4.6 Exerccios
1. Seja Y uma varivel aleatria com distribuio binomial negativa, isto

, Y o nmero de ensaios at a ocorrncia do r-simo sucesso, em que
a probabilidade de sucesso em cada ensaio. Mostre que a funo de
probabilidades de Y pode ser expressa na forma exponencial. Calcule
e V (). Use a forma abaixo para a funo de probabilidades de Y

y1 r
f (y; , r) = (1 )(yr) ,
r1
em que y = r, r+1, . . .. Obtenha a funo desvio supondo uma amostra
de n variveis aleatrias independentes de probabilidades de sucesso i .
341
4.6 Exerccios
2. Seja Y varivel aleatria com distribuio binomial negativa biparam-

trica de mdia e parmetro de forma , cuja funo de probabilidades
dada por
y
( + y)
f (y; , ) = ,
(y + 1)() + +
em que > 0, > 0 e y = 0, 1, 2, . . . . Mostre que para conhecido
a distribuio de Y pertence famlia exponencial de distribuies.
Encontrar a funo de varincia. Obtenha a funo desvio supondo
uma amostra de n variveis aleatrias independentes de mdias i e
parmetro de disperso .
3. Sejam Y1 e Y2 variveis aleatrias independentes tais que Yi P(i ),

i = 1, 2. Considere a razo de taxas = 1 /2 . Encontre a varincia
assinttica de , VarA ().
4. (Breslow e Day, 1987). A tabela abaixo apresenta o nmero de mortes

por cncer respiratrio e o nmero de pessoas-anos de observao entre
trabalhadores de indstrias siderrgicas do estado de Montana (EUA)
segundo o nvel de exposio ao arsnico.
Nvel de Exposio
Alto Baixo
Casos 68 47
Pessoas-Anos 9018 13783
Sejam Y1 e Y2 o nmero de casos observados para o nvel alto e baixo de
arsnico, respectivamente. Suponha que Yi P(i ti ), em que ti denota
o nmero de pessoas-anos, i = 1, 2. Considere a razo de taxas =
1 /2 . Encontre e um intervalo de confiana exato de 95% para .
Com base neste intervalo qual sua concluso sobre a hiptese H0 : =
1? Informaes teis: F136,96 (0, 025) = 0, 694 e F138,94 (0, 975) = 1, 461.
342
4.6 Exerccios
5. (Neter et al., 1996, p. 623). No arquivo geriatra.dat esto descritos

os dados de um estudo prospectivo com 100 indivduos de pelo menos
65 anos de idade em boas condies fsicas. O objetivo do estudo
tentar relacionar o nmero mdio de quedas num perodo de seis
meses com algumas variveis explicativas. Os dados esto descritos na
seguinte ordem: quedas (nmero de quedas no perodo), interveno
(=0 educao somente, =1 educao e exerccios fsicos), sexo (=0
feminino, =1 masculino), balano (escore) e fora (escore). Para as
variveis balano e fora quanto maior o valor maior o balano e
a fora do indivduo, respectivamente. Tente selecionar um modelo
apropriado apenas com os efeitos principais. Interprete os resultados e
faa uma anlise de diagnstico.
6. (Breslow e Day, 1987, pgs. 140-142). Os dados do arquivo canc1.dat

so provenientes de um estudo de seguimento para estudar a associao
entre a taxa anual de cncer nasal em trabalhadores de uma refinaria de
nquel no Pas de Gales e algumas variveis explicativas: idade no pri-
meiro emprego (4 nveis), ano do primeiro emprego (4 nveis) e tempo
decorrido desde o primeiro emprego (5 nveis). So tambm apresenta-
dos o nmero de casos de cncer nasal e o total de pessoas-anos para
cada combinao desses trs fatores. Proponha um modelo log-linear
com resposta de Poisson sendo o nmero de casos de cncer nasal com
offset dado por log(pessoas-anos). Considere inicialmente apenas os
efeitos principais dos trs fatores: idade no primeiro emprego, ano do
primeiro emprego e tempo decorrido desde o primeiro emprego. Veri-
fique se possvel incluir alguma interao de primeira ordem. Faa
uma anlise de diagnstico com o modelo final e interprete os resul-
tados, por exemplo, fazendo uma comparao das taxas estimadas de
343
4.6 Exerccios
cncer nasal entre os nveis de um mesmo fator.
7. (Hinde, 1982). No arquivo rolos.dat so apresentados os dados refe-

rentes produo de peas de tecido numa determinada fbrica. Na
primeira coluna tem-se o comprimento da pea (em metros) e na se-
gunda coluna o nmero de falhas. Faa inicialmente um grfico do
nmero de falhas contra o comprimento da pea. Ajuste um modelo
log-linear de Poisson apropriado. Faa uma anlise de resduos e veri-
fique se h indcios de sobredisperso. Em caso afirmativo ajuste um
modelo de quase-verossimilhana e um modelo log-linear com distribui-
o binomial negativa. Interprete os resultados pelas razes de mdias
(x + 1)/(x), em que x denota o comprimento da pea.
8. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi P(i )

P P
e parte sistemtica dada por i = pj=1 xij j tal que ni=1 xij xi = 0,
para j 6= . Ou seja, as colunas da matriz modelo X so ortogonais.
Encontre a ligao que faz com que Corr(j , ) = 0, para j 6= .
Comente sobre as vantagens desse resultado.
9. Considere um experimento em que duas mquinas, M1 e M2, so ob-

servadas durante o mesmo perodo sendo computados para cada uma
o nmero de peas defeituosas produzidas, conforme descrito pelo es-
quema abaixo.
M1 M2
P. Defeituosas y1 y2
Suponha que Y1 P(1 ) e Y2 P(2 ) e considere o modelo log-linear

log1 = e log2 = + . Obtenha a varincia assinttica de ,
344
4.6 Exerccios
Vary (), expressando-a em funo de e . Proponha agora um mo-

delo binomial condicional, dado Y1 + Y2 = m. Expresse a probabilidade
de sucesso em funo de . Interprete e encontre a varincia as-
sinttica de , Vary|m (). Mostre que as duas varincias assintticas
estimadas coincidem e so dadas por
(1 + e )2
Var() = ,
me
em que o estimador de mxima verossimilhana de . Comente.
10. Supor Y1 , . . . , Yn variveis aleatrias independents tais que Yi P(i )

e seja i = + (xi x), em que x a mdia amostral de x1 , . . . , xn .
(i) Obtenha a matriz modelo X. (ii) Calcule as varincias assintticas
Var() e Var(). (iii) Mostre tambm que Cov(, ) = 0 e comente.
(iv) Como fica o teste de escore para testar H0 : = 0 contra H1 : 6=
0? Qual a distribuio nula assinttica da estatstica do teste?
11. Sejam Yij variveis aleatrias mutuamente independentes tais que Yij
BN(i , ) para i = 1, 2 e j = 1, . . . , m com parte sistemtica dada por
1 = e 2 = +. (i) Como fica a matriz modelo X? (ii) Calcule
Var() e (iii) mostre que a estatstica de escore para testar H0 : = 0
contra H1 : 6= 0 pode ser expressa na forma
m 0 (y2 y1 )2
SR = ,
2y (y + 0 )
em que y = (y1 + y2 )/2 e 0 denota a estimativa de sob H0 .
12. Sejam Y1 , . . . , Yn variveis aleatrias independentes tais que Yi BN(i , )

P
xi
com parte sistemtica dada por logi = + (xi x) em que x = n
.
(i) Como fica a matriz modelo X? (ii) Obtenha Var(). (iii) Como fica
345
4.6 Exerccios
o teste de escore para testar H0 : = 0 contra H1 : 6= 0? Qual a

distribuio nula assinttica da estatstica do teste?
13. Sejam Y1 , . . . , Yn variveis i.i.d. tais que Yi BN(, ), i = 1, . . . , n.

Como fica o teste da razo de verossimilhanas para testar H0 : = 1
contra H1 : 6= 1? Qual a distribuio nula assinttica da estatstica
do teste? Como fica a estimativa de sob as duas hipteses?
14. Na tabela abaixo uma amostra de 174 alunos de Estatstica Bsica no

IME-USP foi classificada segundo o curso e o desempenho na disciplina.
Resultado da Avaliao
Curso Aprovado Reprovado Reavaliao
Pedagogia 32 16 3
Geografia 32 18 10
Fsica 35 14 14
Ajustar um modelo log-linear de Poisson para explicar ij , a proporo

de alunos do curso i com resultado j, em que i, j = 1, 2, 3. Interprete
os resultados e faa uma anlise de diagnstico.
15. (Hand et al., 1994). No arquivo recrutas.dat so descritos os resul-

tados de um estudo desenvolvido em 1990 com recrutas americanos
referente a associao entre o nmero de infees de ouvido e alguns
fatores. Os dados so apresentados na seguinte ordem: hbito de nadar
(ocasional ou frequente), local onde costuma nadar (piscina ou praia),
faixa etria (15-19, 20-25 ou 25-29), sexo (masculino ou feminino) e
nmero de infeces de ouvido diagnosticadas pelo prprio recruta. Ve-
rifique qual dos modelos, log-linear de Poisson, quase-verossimilhana
ou log-linear binomial negativo, se ajusta melhor aos dados. Utilize
mtodos de diagnstico como critrio.
346
4.6 Exerccios
16. Supor, por um lado, o modelo log-linear de Poisson em que Yi P(i ),

i = 1, 2, 3, em que log1 = , log2 = + 2 e log3 = + 3 . Fazendo
= 1 +2 +3 expresse o logaritmo da funo de verossimilhana desse
modelo em funo de (, 2 , 3 ). Mostre que a matriz de informao
de Fisher bloco diagonal K = diag{K , K }, em que = (2 , 3 )T .
Por outro lado, sabe-se que a distribuio condicional Y = a|Y1 + Y2 +
Y3 = n, em que Y = (Y1 , Y2 , Y3 )T e a = (a1 , a2 , a3 )T , multinomial
M (a1 , a2 , a3 ; 1 , 2 , 3 ). Supor o modelo log-linear log1 = , log2 =
+ 2 e log3 = + 3 , em que = log(1 + e2 + e3 ) devido
restrio 1 + 2 + 3 = 1. Encontre a matriz de informao de
Fisher K para = (2 , 3 )T no modelo multinomial. Mostre que
as estimativas de mxima verossimilhana para coincidem nos dois
modelos log-lineares. Mostre tambm que K = K quando = n,
comente.
17. (Bishop, Fienberg e Holland, 1975, p. 143). A tabela abaixo apre-

senta o resultado de uma pesquisa em que 1008 pessoas receberam
duas marcas de detergente, X e M, e posteriormente responderam s
seguintes perguntas: maciez da gua (leve, mdia ou forte); uso an-
terior do detergente M (sim ou no); temperatura da gua (alta ou
baixa); preferncia (marca X ou marca M). Esses dados esto descritos
no arquivo detergente.dat.
347
4.6 Exerccios
Maciez
Temperatura Uso de M Preferncia Leve Mdia Forte
Alta Sim X 19 23 24
M 29 47 43
No X 29 33 42
M 27 23 30
Baixa Sim X 57 47 37
M 49 55 52
No X 63 66 68
M 53 50 42
Ajustar um modelo log-linear de Poisson para explicar ijk , a pro-

poro de indivduos que responderam, respectivamente, nvel de tem-
peratura (i=1 alta, i=2 baixa), uso prvio de M (j=1 sim, j=2 no),
preferncia (k=1 X, k=2 M) e nvel de maciez ( = 1 leve, = 2
mdio, = 3 forte). Selecionar atravs do mtodo AIC os efeitos prin-
cipais significativos. Depois incluir apenas as interaes significativas
de primeira ordem. Interpretar os resultados e fazer uma anlise de
diagnstico.
18. Supor que Yij P(ij ), para i = 1, . . . , r e j = 1, . . . , c, com parte

sistemtica dada por
logij = + i + j ,
em que 1 = 1 = 0. Supor ainda que os i s referem-se aos efeitos

do fator A e os j s aos efeitos do fator B. Defina um modelo multi-
nomial equivalente e mostre que a representao acima corresponde
independncia (no sentido probabilstico) entre os fatores A e B.
19. Seja o modelo trinomial em que 0 = P r(Y = 0), 1 = P r(Y = 1) e

2 = P r(Y = 2) com a restrio 0 + 1 + 2 = 1. Suponha que Y = 0
348
4.6 Exerccios
se (Z0 = 1, Z1 = 0, Z2 = 0), Y = 1 se (Z0 = 0, Z1 = 1, Z2 = 0) e Y = 2

se (Z0 = 0, Z1 = 0, Z2 = 1). Note que Z0 + Z1 + Z2 = 1. Portanto, a
funo de probabilidades de (Z0 , Z1 , Z2 ) fica dada por
g(z0 , z1 , z2 ; 0 , 1 , 2 ) = 0z0 1z1 2z2 .
Logo, para uma amostra aleatria de tamanho n a funo de probabi-

lidades de Y = (Y1 , . . . , Yn )T pode ser expressa na forma
z0i z1i z2i

g(y; 0 , 1 , 2 ) = ni=1 0i 1i 2i .
usual considerar a parte sistemtica

1i T 2i
log = 1i = xi 1 e log = 2i = xTi 2
0i 0i
sendo que xi = (xi1 , . . . , xip )T , 1 = (11 , . . . , 1p )T e 2 = (21 , . . . , 2p )T .

Responda aos itens abaixo:
(a) Verifique que 0i = {1 + e1i + e2i }1 , 1i = e1i /{1 + e1i + e2i }

e 2i = e2i /{1 + e1i + e2i }.
(b) Encontre as funes escore U1 e U2 de 1 e 2 , respectivamente.
(c) Encontre a matriz de informao de Fisher para = ( T1 , T2 )T .
(d) Desenvolva um processo iterativo para obter a estimativa de m-

xima verossimilhana de . Deixe o processo iterativo em forma
matricial. Como inici-lo?
(e) Como fica o desvio do modelo? E o resduo componente do desvio?
20. (Lang et al., 1994). No arquivo nitrofen.dat esto descritos os dados

de um experimento com uma amostra de 50 C.dubia (pequeno animal
invertebrado aqutico de gua doce), que foram submetidos a dosagens
349
4.6 Exerccios
diferentes do herbicida Nitrofen: 0, 80, 160, 235 e 310 mg/. Para

cada nvel de Nitrofen 10 animais ficaram expostos e foi observado o
total de ovos eclodidos aps 3 ninhadas. Faa inicialmente uma anlise
descritiva dos dados, por exemplo um diagrama de disperso entre o
nmero de ovos eclodidos (tovos) contra o nvel de exposio do her-
bicida (dose). Compare os ajustes de alguns modelos com resposta de
Poisson para explicar o total de ovos eclodidos dado o nvel de exposi-
o. Escolha o melhor ajuste atravs de mtodos de diagnstico. Para o
modelo selecionado faa uma interpretao dos coeficientes estimados.
350
Captulo 5
Modelos de Quase-Verossimilhana
5.1 Introduo
Wedderburn (1974) props uma funo biparamtrica, denominada funo de

quase-verossimilhana, que engloba algumas funes de verossimilhana da
famlia exponencial. Todavia, na maioria das situaes no possvel atravs
da funo de quase-verossimilhana recuperar a verdadeira distribuio da
varivel resposta. Se Y a varivel aleatria de interesse o logaritmo da
funo de quase-verossimilhnaa definido por
Z
1 yt
Q(; y) = 2 dt,
y V (t)
em que V (t) uma funo positiva e conhecida, < y, < e 2 > 0
um parmetro de disperso. Como temos acima uma integral definida, segue
que
Q(; y) yt
= |
2 V (t) y
y
= .
2 V ()
351
5.1 Introduo
Aplicando as condies abaixo de regularidade

n o
Q(;Y )
(i) E
=0 e
n o2 n o
Q(;Y ) 2 Q(;Y )
(ii) E
= E 2
,
mostra-se facilmente que E(Y ) = e Var(Y ) = 2 V (). Ou seja, a

mdia da varivel resposta e a varincia de Y proporcional a V (), como
nos MLGs, embora nem sempre V () seja uma funo de varincia. Uma
terceira propriedade mostrada por Wedderburn (1974) a seguinte:
n 2 o n 2 o
(iii) E Q(;Y
2
)
E L(;Y )
2
.
Essa relao mostra que a informao a respeito de quando se conhece

apenas a relao entre a varincia e a mdia menor do que a informao a
respeito de quando se conhece a distribuio da resposta (informao de
Fisher). Assim, a quantidade E{ 2 (Q L)/2 } pode ser interpretada como
o ganho quando acrescenta-se ao conhecimento da relao mdia-varincia
tambm o conhecimento da distribuio da resposta.
Dependendo das especificaes de 2 e V () poderemos recuperar a
distribuio de Y . Abaixo so apresentados alguns exemplos.
Exemplos
Normal
Vamos supor V () = 1 e < , y < . Logo, o logaritmo da funo de
quase-verossimilhana fica dado por
Z
yt (y t)2 1
Q(; y) = 2
dt = 2
|y = 2 {(y )2 /2},
y 2
que proporcional ao logaritmo da funo de verossimilhana de uma N (, 2 )

para 2 conhecido.
352
5.1 Introduo
Poisson
Vamos supor V () = e y 0, > 0. Logo, obtemos
Z
yt
Q(; y) = dt
y 2t
1
= 2
(ylogt t)|y

1
= {ylog ylogy + y}.
2
Se assumirmos 2 = 1 e y > 0 temos que Q(; y) proporcional ao logaritmo
da funo de verossimilhana de uma P().
Para y = 0 obtemos
Z
t t
Q(; y) = 2
dt = 2 |0 = 2 ,
0 t
que coincide quando 2 = 1 com logP (Y = 0), em que Y P().
Binomial
Supor a funo V () = (1 ), 0 y 1 e 0 < < 1. O logaritmo da
funo de quase-verossimilhana fica nesse caso dado por
Z
yt
Q(; y) = dt
y 2 t(1
t)
Z Z
y 1 1 1
= 2
dt 2 dt
y t(1 t) y (1 t)

y t 1
= 2
log |y + 2 log(1 t)|y
1t
y 1
= 2
[log{(1 ) log{y/(1 y)}] + 2 {log(1 ) log(1 y)},

para 0 < y, < 1.
353
5.1 Introduo
Para y = 0 temos que

Z
t
Q(; y) = dt
0 2 t(1
t)
Z
1 t
= 2 dt
0 t(1 t)
1
= 2
log(1 t)|0

1
= log(1 ),
2
que para 2 = 1 coincide com logP (Y = 0), em que Y B().
Quando y = 1 segue que
Z
(1 t)
Q(; y) = dt
1 2 t(1
t)
Z
1 1
= 2
1 t
1
= logt|1
2
1
= log,
2
que para 2 = 1 coincide com logP (Y = 1), em que Y B().
Gama
Supor a funo V () = 2 e y, > 0. O logaritmo da funo de quase-
verossimilhana fica nesse caso dado por
Z
yt
Q(; y) = dt
y 2 t2
1
= (y/t logt)|y
2
1
= {y/ log + 1 + logy}.
2
Fazendo 2 = 1 temos que Q(y; ) proporcional ao logaritmo da funo de
verossimilhana de uma G(, 1).
354
5.2 Respostas independentes
Funo V () = 2 (1 )2
Suponha 0 < < 1 e 0 y 1. Nesse caso o logaritmo da funo de
quase-verossimilhana fica dada por
Z
1 yt
Q(; y) = dt
y t (1 t)2
2 2
1
[(2y 1)log{/(1 )} y/ (1 y)/(1 )].
2
A funo Q(; y) obtida acima no corresponde a nenhuma funo com ve-
rossimilhana conhecida. Portanto, apenas para algumas funes de quase-
verossimilhana tem-se uma funo de verossimilhana correspondente.
Vamos supor que Y1 , . . . , Yn so variveis aleatrias independentes com loga-

ritmo da funo de quase-verossimilhana Q(i ; yi ), i = 1, . . . , n. O logaritmo
da funo de quase-verossimilhana correspondente distribuio conjunta
fica dado por
n
X
Q(; y) = Q(i ; yi ). (5.1)
i=1
Vamos supor ainda que
g(i ) = i = xTi , (5.2)
em que xi = (xi1 , . . . , xip )T contm valores de variveis explicativas, =
(1 , . . . , p )T e g() uma funo de ligao. Note que os MLGs so um caso
particular de (5.1)-(5.2).
5.2.1 Estimao
Denotando Q() = Q((); y), podemos mostrar que a funo quase-escore
para fica expressa na forma
Q() 1
U = = 2 DT V1 (y ),

355
em que D = / = W1/2 V1/2 X, = (1 , . . . , n )T , y = (y1 , . . . , yn )T ,

V = diag{V1 , . . . , Vn }, W = diag{1 , . . . , n } com i = (d/d)2i /Vi e X
uma matriz n p de linhas xTi , i = 1, . . . , n. A matriz de quase-informao
para fica dada por

2 Q() 1 T 1
K = E = D V D.
T 2
A estimativa de quase-verossimilhana para sai da soluo da equao
U = 0 que pode ser resolvida pelo mtodo escore de Fisher resultando no
seguinte processo iterativo:
(m+1) = (m) + {D(m)T V(m) D(m) }1 D(m)T V(m) {y (m) }, (5.3)
m = 0, 1, 2, . . . . Note que o processo iterativo (5.3) no depende de 2 , no

entanto, precisa ser iniciado numa quantidade (0) . Mostra-se, sob certas
condies de regularidade (vide, por exemplo, McCullagh e Nelder, 1989, p.
333), que consistente e assintoticamente normal com matriz de varincia-
covarincia dada por Var() = 2 (DT V1 D)1 . O parmetro de disperso
2 deve ser estimado separadamente.
5.2.2 Estimador de momentos

Podemos verificar facilmente que
( )
(Yi i )
Var p = 1,
V (i )
e da segue ( )
(Yi i )
Var p = 2,
V (i )
e, portanto, um estimador de momentos para 2 fica dado por
n
X (yi i )2
2 1
= .
(n p) i=1 V (i )
356
5.2.3 Funo quase-desvio

possvel definir uma funo tipo desvio para os modelos de quase-verossimilhana
de forma similar aos MLGs. Sejam Q(y; y) e Q(; y), respectivamente, as
funes de quase-verossimilhana do modelo saturado e do modelo sob inves-
tigao. A funo quase-desvio no escalonada definida por
D(y; ) = 2 2 {Q(y; y) Q(; y)}

Xn
= 2 2 Q(; y) = 2 2 Q(i ; yi )
i=1
n Z
X yi
yi t
= 2 dt,
i=1 i V (t)
que no depende de 2 . natural que se compare a funo quase-desvio

escalonada D (y; ) = 2 D(y; ) com os percentis da distribuio 2(np) ,
embora no seja em geral conhecida a distribuio nula de 2 D(y; ). Apre-
sentamos abaixo a funo quase-desvio no escalonada para alguns casos
particulares supondo uma nica observao.
V () Componente de D(y; )
2{ylog ylogy + y}, y, > 0
(1 ) 2[ylog{/(1 )} + log(1 ) logy], 0 < y, < 1
2 2{1 y/ log + logy}, y, > 0
5.2.4 Teste de hipteses

Seja o vetor paramtrico particionado tal que = ( T1 , T2 )T , 1 e 2
so subvetores de dimenso q e p q, respectivamente. Suponha que temos
interesse em testar H0 : 1 = 0 contra H1 : 1 6= 0. McCullagh (1983)
mostra que tambm no caso de quase-verossimilhana a diferena entre duas
funes quase-desvio funciona como um teste da razo de verossimilhanas.
357
Ou seja, se denotarmos por D(y; 0 ) a funo quase-desvio sob H0 e por

D(y; ) a funo quase-desvio sob H1 , para n grande e sob H0 , temos que
1 0

2
D(y; ) D(y; ) 2q ,

para 2 fixo que pode ser estimado consistemente, como ocorre com os MLGs.
Testes tipo Wald e tipo escore so tambm possveis de serem desenvolvidos.
Usando resultados do Captulo 1 podemos mostrar que
Var( 1 ) = {DT1 V1/2 M2 V1/2 D1 }1 ,
em que M2 = I H2 , H2 = V1/2 D2 (DT2 VD2 )1 DT2 V1/2 , D1 = W1/2 V1/2 X1

e D2 = W1/2 V1/2 X2 . Assim, um teste tipo Wald fica dado por
T 1
W = 1 Var ( 1 ) 1 ,
em que Var( 1 ) denota que a varincia est sendo avaliada em . J o teste

quase-escore para testar H0 : 1 = 0 contra H1 : 1 6= 0 fica dado por
0 0
SR = U1 ( )T Var0 ( 1 )U1 ( ),
em que
Q()
U1 =
1
1 T 1
= D V (y ),
2 1
0 0T 0
com todas as quantidades sendo avaliadas em = (0T , 2 )T e 2 sendo
a estimativa de 2 sob H0 . Sob H0 e sob condies usuais de regularidade
temos que, para n , W , SR 2q .
358
5.2.5 Resduos
O no conhecimento da verdadeira funo de verossimilhana de dificulta
o desenvolvimento de alguns mtodos de diagnstico. Tanto o estudo de
resduos como de medidas de influncia dependem em geral do conhecimento
de L(). O que tem sido proposto em modelos de quase-verossimilhana
no sentido de avaliar a qualidade do ajuste so grficos de resduos. Uma
sugesto (vide McCullagh e Nelder, 1989, Cap. 9) o grfico do resduo de
Pearson
yi i
rPi = p
V (i )
contra alguma funo dos valores ajustados, como por exemplo contra g(i ),
em que g() a funo de ligao. Espera-se uma distribuio aleatria dos
resduos em torno do eixo zero. Tendncias diferentes, como por exemplo
aumento da variabilidade, podem indicar que a funo V (i ) no adequada.
Um outro resduo que pode tambm ser utilizado, embora de forma descritiva,
dado por
d( yi ; i )
t Di = p ,
1 hii
em que d(yi ; i ) a raiz quadrada com sinal de yi i do i-simo compo-
nente do quase-desvio D(y; ), enquanto hii o i-simo elemento da diagonal
principal da matriz H = V1/2 D(DT V1 D)1 DT V1/2 .
5.2.6 Influncia
Uma verso da distncia de Cook para os modelos de quase-verossimilhana
fica dada por
hii
LDi = rP2 i ,
(1 hii ) 2
em que rPi o resduo de Pearson e hii denota o i-simo elemento da diagonal

principal da matriz H. Grficos de LDi contra a ordem das observaes ou
359
contra os valores ajustados podem revelar pontos possivelmente influentes

nos parmetros do preditor linear.
5.2.7 Seleo de Modelos

Uma extenso natural do mtodo de Akaike para os modelos de quase-
verossimilhana (ver, por exemplo, Pan, 2001) considerar
AIC = 2Q() + 2p,
em que Q() a funo de quase-verossimilhana avalianda em .
5.2.8 Aplicaes
Mosca do chifre
No arquivo mosca.dat apresentado parte dos dados de um experimento
desenvolvido para estudar a distribuio do nmero de caros em placas de
esterco de gado bovino no estado de S. Paulo (Paula e Tavares, 1992). Essas
placas so depsitos de ovos da mosca do chifre (Haematobia irritans), uma
das pragas mais importantes da pecuria brasileira. Os caros so inimigos
naturais da mosca do chifre uma vez que se alimentam de ovos e larvas dessas
moscas. No arquivo mosca.dat tem-se a distribuio do nmero de caros
de quatro espcies segundo algumas variveis de interesse: (i) N, nmero de
partes da posio da placa onde foram coletados os caros, (ii) Posio, po-
sio na placa onde foram coletados os caros (1: lateral, 0: central), (iii)
Regio, regio onde a placa foi coletada (1: So Roque, 2: Pindamonhan-
gaba, 3: Nova Odessa e 4: Ribeiro Preto) e (iv) Temp, temperatura no local
da coleta (em o C).
360
Tabela 5.1
Estimativas dos parmetros do modelo de quase-verossimilhana
com funo V () = 2 ajustado aos dados
sobre a mosca do chifre.
Com todos os pontos Sem pontos aberrantes
Constante -0,828 -0,74 -2,575 -2,13
Posio -0,288 -0,64 0.380 0,78
Pinda -0,424 -0,66 -0,910 -1,31
N. Odessa -1,224 -1,71 -1,836 -2,36
R. Preto -2,052 -2,98 -2,589 -3,46
Temp. 0,029 0,67 0,087 1,84
2 5,129 5,913
Pensou-se inicialmente, como trata-se de dados de contagem, num mo-

delo log-linear de Poisson para explicar o nmero mdio de caros segundo
as variveis explicativas. Denotando por Yijk o nmero de caros coleta-
dos na i-sima posio da k-sima placa e j-sima regio, vamos supor que
Yijk P(ijk ), ijk = Nijk ijk , i = 1, 2 e j = 1, . . . , 6, com Nijk denotando
o nmero de partes na i-sima posio da k-sima placa coletada na j-sima
regio. A parte sistemtica do modelo fica dada por
logijk = logNijk + logijk , (5.4)
em que
logijk = + i + j + Tempjk , (5.5)
logNijk desempenha papel de offset, i denota o efeito da posio, j o efeito

da regio e Tempjk a temperatura na j-sima regio no momento da coleta
da k-sima placa. Temos as restries 1 = 1 = 0. O desvio do modelo
ajustado para a espcie 6 foi de D(y; ) = 318, 69 (96 graus de liberdade)
indicando fortes indcios de sobredisperso. Propomos ento um modelo
de quase-verossimilhana com funo dada por V (ijk ) = ijk . Esse modelo
361
parece tambm inadequado pelo grfico de resduos de Pearson rPijk = (yijk

p
ijk )/ ijk contra logijk (Figura 5.1).
5
4
Residuo de Pearson
3
2
1
0
-1
-2 -1 0 1
Log Valor Ajustado
Figura 5.1: Grfico do resduo de Pearson contra log para o modelo ajustado
com funo V () = aos dados sobre a mosca do chifre.
Nota-se um aumento da variabilidade com o aumento do logaritmo das

mdias ajustadas, indcio de que a variabilidade no foi totalmente contro-
lada. Para ajustar o modelo no R, vamos supor que as variveis Posio,
Regio e Temp sejam colocadas em posicao, regiao e temp, respectivamente,
e que logN denota o logaritmo do nmero de partes da placa. O nmero de
caros ser denotado por acaros. A sequncia de comandos dada abaixo
regiao = factor(regiao)
fit1.mosca = glm(acaros posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu")).
362
84
28 61
3
Residuo de Pearson
2
1
0
-2 -1 0 1
Log Valores Ajustado
Figura 5.2: Grfico do resduo de Pearson contra log para o modelo ajustado
com funo V () = 2 aos dados sobre a mosca do chifre.
Se colocarmos em phi a estimativa do parmetro de disperso, o resduo de

Pearson padronizado ser obtido pelo comando
phi = summary(fit1.mosca)$dispersion
rp = resid(fit.mosca, type = "pearson")/sqrt(phi).
No objeto fit.mosca esto os principais resultados do ajuste. Propomos
agora, a fim de controlar a variabilidade, um modelo de quase-verossimilhana
com funo quadrtica V (ijk ) = 2ijk e parte sistemtica dada por (5.4)-
(5.5). O grfico do resduo de Pearson contra o logaritmo das mdias ajus-
tadas (Figura 5.2) parece bastante razovel, embora apaream 9 placas com
valores para rPijk acima de 2. Na Tabela 5.1 apresentamos as estimativas dos
parmetros com todas as placas e tambm eliminando as placas com resduos
mais aberrantes, #28, #61 e #84.
Os comandos no R para ajustar os dois modelos so dados abaixo
363
offset(logN), family=quasi(link=log, variance= "mu 2"), maxit=50)

offset(logN), family=quasi(link=log, variance= "mu 2 "), subset
= -c(28,61,84), maxit=50).
Nota-se pelas estimativas dos dois modelos ajustados que Nova Odessa
e Ribeiro Preto apresentam um nmero mdio de caros bem menor do
que as outras duas regies. No h indcios de efeito de posio, porm a
eliminao das trs placas com valores mais aberrantes faz com que o efeito de
temperatura fique mais acentuado, havendo indcios de que o nmero mdio
de caros cresce com o aumento da temperatura.
As placas #28, #61 e #84 tm em comum o fato de apresentarem
um nmero mdio de caros (por parte de placa) pelo menos duas vezes
acima da mdia em temperaturas relativamente baixas. Essas placas foram
coletadas nas regies de Pindamonhangaba, Nova Odessa e Ribeiro Preto,
respectivamente. Assim, esperado que a eliminao dessas placas reduza
o valor das estimativas dos efeitos dessas regies como tambm aumente a
estimativa do coeficiente da temperatura. A fim de que as 9 placas com
resduos mais aberrantes possam ser melhor ajustadas pode-se tentar outras
formas para a funo V (), como por exemplo V () = 2 (1+)2 (vide Paula
e Tavares, 1992).
Demanda de TV a cabo
Vamos reanalisar nesta seo o exemplo sobre demanda de TV a cabo discu-
tido no Captulo 4 sob um enfoque de modelo log-linear com resposta bino-
mial negativa. Proporemos aqui um modelo um pouco diferente. Ao invs de
ser ajustado o nmero mdio esperado de assinantes de TV a cabo ser ajus-
tada a proporo esperada de assinantes de TV a cabo em cada rea. A pro-
poro observada dada por Razao = Nass/Domic. Como 0 Razao 1,
364
propomos o seguinte modelo de quase-verossimilhana:
E(Razaoi ) = i e
Var(Razaoi ) = 2 i (1 i ),
em que i denota a proporo esperada de assinantes na i-sima rea, i =

1, . . . , 40. A parte sistemtica do modelo ser dada por

i
log = + 1 Percapi + 2 Taxai + 3 Custoi + 4 Ncaboi + 5 Ntvi .
1 i
Na Figura 5.3 apresentado o grfico da distncia de Cook contra
das observaes com destaque para as reas #5 e #14. A observao #5
corresponde a uma rea de renda alta porm com uma proporo pequena
de assinantes de TV a cabo, talvez devido aos altos custos de instalao e
manuteno. J a rea #14 tem uma proporo alta de assinantes de TV a
cabo embora as taxas tambm sejam altas. Tambm na Figura 5.3 temos o
p
grfico do resduo rPi = (Razaoi i )/ i (1 i ) contra o logito dos va-
lores ajustados e como pode-se notar h um ligeiro aumento da variabilidade
com o aumento da proporo de reas com o TV a cabo.
Tabela 5.2
Estimativas dos parmetros do modelo de quase-verossimilhana
com funo V () = (1 ) ajustado aos
dados sobre demanda de TV a cabo.
Com todos os pontos Sem reas 5 e 14
Intercepto -2,407 -1,72 -2,440 -1,60
4 4
Percap 4 10 2,50 4 10 2,80
Taxa 0,023 0,93 0,016 0,64
Custo -0,203 -1,79 -0,252 -2,27
Ncabo 0,073 1,94 0,079 2,22
Ntv -0,216 -2,61 -0,201 -2,61
2
0,114 0,098
365
14
3
0.5
2
0.4
1
Resduo de Pearson
Distncia de Cook
0.3
0
0.2
1
0.1
2
0.0
0 10 20 30 40 1.5 1.0 0.5 0.0 0.5
ndice Preditor Linear
Figura 5.3: Distncia de Cook e grfico do resduo de Pearson contra o logito

de para o modelo ajustado com funo V () = (1 ) aos dados sobre
demanda de TV a cabo.
A eliminao dessas duas reas, como pode ser observado pela Tabela
5.2, no altera os resultados inferenciais (ao nvel de 5%) com todas as obser-
vaes, embora aumente a significncia dos coeficientes. Nota-se que apenas
o coeficiente da varivel Taxa parece no ser significativo marginalmente.
Uma tentativa no sentido de tentar reduzir a variabilidade observada
na Figura 5.3 utilizando uma funo do tipo V () = 2 (1 )2 . Na Figura
5.4 temos o grfico da distncia de Cook e o grfico do resduo de Pearson
contra o logito dos valores ajustados supondo V () = 2 (1 )2 . Nota-se
comportamentos muito similares queles encontrados na Figura 5.3. Assim,
podemos assumir para esse exemplo o ajuste com a funo V () = (1 ).
366
Nota-se, que sob esse ajuste, mais variveis permanecem no modelo do que
sob o ajuste do nmero esperado de domiclios com TV a cabo com resposta
binomial negativa, como foi visto no Captulo 4.
0.5
14
3
5
0.4
2
1
Resduo de Pearson
0.3
Distncia de Cook
0
0.2
1
0.1
2
0.0
0 10 20 30 40 1.5 1.0 0.5 0.0 0.5

de para o modelo ajustado com funo V () = 2 (1 )2 aos dados sobre
demanda de TV a cabo.
Para o ajuste do modelo de quase-verossimilhana com V () = 2 (1

)2 preciso requerer a library gnm e usar a famlia wedderburn conforme os
comandos dados abaixo
require(gnm)
367
ajuste.tvcabo = glm(razao percap + taxa + custo + ncabo +

ntv, family=wedderburn).
Todavia, os resultados com a famlia wedderburn ficaram muito pare-
cidos com aqueles resultados apresentados com a funo V () = (1 ).
0.8
Area Afetada
0.6
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9 10
Variedade
Figura 5.5: Boxplots da proporo da rea afetada segundo a variedade para

os dados sobre manchas na folha da cevada.
Manchas na folha da cevada

Esses dados esto descritos em McCullagh e Nelder (1982, Tabela 9.2)
e no arquivo cevada.dat, em que a incidncia de um tipo de mancha
observada na folha da cevada segundo 10 variedades em 9 locais diferentes.
A amostra consiste de 90 observaes em que a resposta a rea afetada da
folha (em proporo) e os fatores so a variedade e o local.
368
0.8
Area Afetada
0.6
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9
Local
Figura 5.6: Boxplots da proporo da rea afetada segundo o local para os

dados sobre manchas na folha da cevada.
Nas Figuras 5.5 e 5.6 so apresentados os boxplots da rea afetada

(em proporo) segundo a variedade e local, respectivamente. Nota-se no
primeiro grfico um aumento da mediana da proporo da rea afetada e
tambm da disperso com a variedade. Tendncia similar pode ser observada
no segundo grfico. Seja Yij a proporo da rea afetada da folha da cevada
correspondente ao i-simo local e j-sima variedade para i = 1, . . . , 9 e j =
1, . . . , 10. Conforme sugerido por McCullagh e Nelder (1989, Cap. 9) vamos
supor o seguinte modelo de quase-verossimilhana:
E(Yij ) = ij e
Var(Yij ) = 2 V (ij ),
com parte sistemtica dada por

ij
log = + i + j ,
1 ij
369
em que ij denota a proporo esperada da rea afetada para a j-sima

variedade do i-simo local, 1 = 0 e 1 = 0.
65
3
1.5
2
38
1
Resduo de Pearson
1.0
Distncia de Cook
0
1
0.5
2
0.0
0 20 40 60 80 8 6 4 2 0 2

de para o modelo ajustado com funo V () = (1 ) aos dados sobre
manchas na folha da cevada.
Nas Figuras 5.7 e 5.8 so apresentados grficos de diagnstico para

ajustes do modelo de quase-verossimilhana supondo V (ij ) = ij (1 ij ) e
V (ij ) = ij2 (1 ij )2 , respectivamente. Nota-se ao compararmos os grficos
de resduos que o segundo ajuste mais adequado embora algumas observa-
es sejam destacadas como possivelmente influentes. As observaes #24,
370
5.3 Classe estendida
#65 e #76 apresentam propores amostrais acima das propores mdias

amostrais das variedades e locais correspondentes, enquanto a observao
#52 tem uma proporo amostral abaixo da proporo mdia do local cor-
respondente. A eliminao dessas observaes no muda a inferncia com
relao s propores mdias dos locais, porm muda a inferncia com rela-
o s menores propores mdias das variedades. Em geral as estimativas
de quase-verossimilhana indicam um aumento da proporo esperada da
rea afetada com o aumento da variedade e do local conforme descrito nos
boxplots apresentados nas Figuras 5.5 e 5.6.
O logaritmo da funo de quase-verosssimilhana Q(; y) assume que a fun-

o V () conhecida, logo a mudana dessa funo significa que um novo
modelo est sendo definido. No sentido de permitir comparaes de diferentes
funes V () para um mesmo modelo como tambm possibilitar a obteno
de uma estimativa para o erro padro assinttico de 2 , Nelder e Pregibon
(1987) propuseram uma (log) quase-verossimilhana estendida, definida por
1 1
Q+ (; y) = D(y; ) log{2 2 V (y)},
2 2 2
Ry 1
em que D(y; ) = 2
{(y t)/V (t)}dt o quase-desvio e = 2
o par-
metro de disperso. Similarmente a Q, Q+ no pressupe que a distribuio
completa de Y seja conhecida, mas somente os dois primeiros momentos. A
estimativa de maximizando-se Q+ (y; ), para uma amostra aleatria de
tamanho n, coincide com a estimativa de quase-verossimilhana para , uma
vez que Q+ uma funo linear de Q. A estimativa de maximizando Q+
371
24
3
1.0
2
0.8
65
1
Resduo de Pearson
Distncia de Cook
0.6
76
52
0
0.4
1
0.2
2
0.0
0 20 40 60 80 8 6 4 2 0 2

de para o modelo ajustado com funo V () = 2 (1 )2 aos dados sobre
manchas na folha da cevada.
dada por = D(y; )/n. Portanto, para os casos especiais em que Q+ corres-
ponde s distribuies normal e normal inversa, corresponde estimativa
de mxima verossimilhana de . Para a distribuio gama, Q+ difere do
logaritmo da funo de verossimilhana por um fator dependendo somente
de . Para as distribuies de Poisson, binomial e binomial negativa, Q+
obtida do logaritmo da funo de verossimilhana correspondente substi-
tuindo qualquer fatorial k! pela aproximao de Stirling k!
= (2k)1/2 k k ek .
Discusses mais interessantes e aplicaes da classe estendida so dadas em
Nelder e Pregibon (1987).
372
5.4 Respostas correlacionadas
A fim de estabelecermos a notao a ser utilizada nesta seo, denotaremos

por Yi = (Yi1 , . . . , Yiri )T o vetor resposta multivariado para a i-sima uni-
dade experimental, i = 1, . . . , n, e assumiremos em princpio que apenas
conhecida a distribuio marginal de Yit , dada por
f (y; it , ) = exp[{yit b(it )} + c(y, )], (5.6)
em que E(Yit ) = it = b (it ), Var(Yit ) = 1 Vit , Vit = dit /dit a funo

de varincia e 1 > 0 o parmetro de disperso, em geral desconhecido.
Podemos definir um modelo linear generalizado para cada instante t acres-
centando a (5.6) a parte sistemtica
g(it ) = it , (5.7)
em que it = xTit o preditor linear, = (1 , . . . , p )T um vetor de

parmetros desconhecidos a serem estimados, xit = (xit1 , . . . , xitp )T repre-
senta os valores de variveis explicativas observadas para a i-sima unidade
experimental no tempo t e g() a funo de ligao.
A funo escore e a matrix de informao para , ignorando-se a estru-
tura de correlao intraunidade experimental, ficam, respectivamente, dadas
por
n
X
U = DTi Vi1 (yi i ) (5.8)
i=1
e n
X
K = DTi Vi Di , (5.9)
i=1
1/2 1/2
em que Di = Wi Vi Xi , Xi uma matriz ri p de linhas xTit , Wi =
diag{i1 , . . . , iri } a matriz de pesos com it = (dit /dit )2 /Vit , Vi =
diag{Vi1 , . . . , Viri }, yi = (yi1 , . . . , yiri )T e i = (i1 , . . . , iri )T . Quando h
373
ligao cannica a funo escore e a matriz de informao de Fisher ficam

P P
dadas por U = ni=1 XTi (yi i ) e K = ni=1 XTi Vi Xi , respectiva-
mente. O estimador de , ignorando-se a estrutura de correlao intrauni-
dade experimental, sai da equao U = 0. Esse estimador consistente e
assintoticamente normal. Note que podemos supor que a distribuio mar-
ginal de Yit desconhecida assumindo uma funo V (it ) diferente daquela
que caracteriza a distribuio de Yit . Nesse caso, teremos um modelo de
quase-verossimilhana em cada instante t com funo escore e matriz de in-
formao, ignorando-se a estrutura de correlao, dadas por (5.8) e (5.9),
respectivamente.
Um tpico de pesquisa importante, que tem interessado a vrios pes-
quisadores, o desenvolvimento de metodologias para a estimao dos pa-
rmetros de interesse quando os dados so correlacionados e a distribuio
marginal no normal, como o caso introduzido nesta seo. Uma maneira
de resolver o problema ignorar a estrutura de correlao, como vimos acima,
produzindo estimadores consistentes e assintoticamente normais, porm mui-
tas vezes com perda de eficincia. Uma outra maneira, que descreveremos
a seguir, introduzindo alguma estrutura de correlao na funo escore,
produzindo um novo sistema de equaes para estimar . A fim de facili-
tarmos o entendimento dessa metodologia, vamos supor inicialmente que os
dados so no correlacionados e que a matriz de correlao correspondente
ao i-simo grupo denotada por Ri . Logo, teremos Ri = Iri . A matriz de
varincia-covarincia para Yi , por definio, dada por
1/2 1/2
Var(Yi ) = 1 Vi Ri Vi , (5.10)
que no caso de dados no correlacionados fica simplesmente dada por 1 Vi .

A ideia introduzirmos em (5.10) uma matriz de correlao no diagonal,
por exemplo dada por Ri (), com reflexos na funo escore que passaria a
374
depender tambm de Ri (). O incoveniente dessa proposta o fato da cor-

relao, que restrita ao intervalo [1, 1], depender de , o que aumentaria
a complexidade do processo de estimao. A soluo encontrada para con-
tornar esse problema foi dada por Liang e Zeger (1986) que propuseram uma
matriz de correlao dada por Ri (), em que = (1 , . . . , q )T um vetor de
parmetros de perturbao que no dependem de . Ou seja, os parmetros
da matriz de correlao no dependem dos parmetros de posio.
Para entender melhor essa proposta definimos
1/2 1/2
i = 1 Vi Ri ()Vi ,
em que i a matriz de varincia-covarincia de Yi se a verdadeira correlao

entre os elementos de Yi for dada por Ri (). Note que Ri () uma matriz
ri ri que depende de um nmero finito de parmetros = (1 , . . . , q )T ,
sendo denominada matriz trabalho. Para estimarmos devemos resolver o
seguinte sistema de equaes:
S ( G ) = 0, (5.11)
denominado equaes de estimao generalizadas (EEGs), em que

n
X
S () = DTi 1
i (yi i ).
i=1
Note que (5.11) reduz-se a U = 0 quando Ri () = Iri , isto , quando igno-

rada a estrutura de correlao intraunidade experimental. Na verdade S ()
depende tambm de e = (1 , . . . , q )T que so estimados separadamente
de .
375
5.4.1 Estimao
O processo iterativo para a estimao de , que uma modificao do mtodo
escore de Fisher, dado por
Xn
(m+1) (m) (m)T (m) (m) 1
G = G +{ Di i Di }
i=1
n
X (m)T (m) (m)
[ Di i {yi i }], (5.12)
i=1
m = 0, 1, 2 . . . . As estimativas e so dadas inicialmente e modificadas

separadamente a cada passo do processo iterativo.
Supondo que e so estimadores consistentes de e , respectiva-
mente, temos que

n( G ) d Np (0, ),
em que
n
X n
X n
X
= lim [n( DTi 1 1
i Di ) { DTi 1 1
i Var(Yi )i Di }( DTi 1 1
i Di ) ].
n
i=1 i=1 i=1
Se a matriz de correlao Ri () definida corretamente, ento um estimador

consistente para Var( G ) dado por H1
1 ( G ), em que
n
X 1
H1 ( G ) = (DTi i Di ),
i=1
com Di sendo avaliado em G e i avaliado em (, , G ). Entretanto, se a

matriz trabalho Ri () definida incorretamente H1
1 ( G ) pode ser inconsis-
tente. Um estimador robusto para Var( G ), sugerido por Liang and Zeger
(1986), dado por
VG = H1 1
1 ( G )H2 ( G )H1 ( G ),
P 1 1
em que H2 ( G ) = ni=1 {DTi i (yi i )(yi i )T i Di }. O estimador
VG consistente mesmo se a matriz trabalho for definida incorretamente.
376
5.4.2 Estruturas de correlao

No estruturada
Quando a matriz de correlao Ri no estruturada teremos ri (ri 1)/2
parmetros para serem estimados. Denotando Ri = {Rijj }, o (j, j )-simo
elemento de Ri poder ser estimado por
n
1 X (yij ij ) (yij ij )
Rjj = q q .
n i=1
Vij Vij
Simtrica ou permutvel
Neste caso assumimos Ri = Ri (), em que o (j, j )-simo elemento de Ri
fica dado por Rijj = 1, para j = j , e Rijj = , para j 6= j . Um estimador
consistente para fica dado por
n ri ri
1X 1 X X (yij ij ) (yij ij )
= q q .
n i=1 ri (ri 1) j=1 j =1,j 6=j
Vij Vij
Autoregressiva AR(1)
Aqui tambm assumimos Ri = Ri (), em que o (j, j )-simo elemento de

Ri fica dado por Rijj = 1, para j = j , e Rijj = |jj | , para j 6= j . Um
estimador consistente para fica dado por
n r 1
1X 1 Xi
(yij ij ) (yi(j+1) i(j+1) )
= q q .
n i=1 (ri 1) j=1
Vij Vi(j+1)
Parmetro de disperso
O parmetro de disperso 1 pode ser estimado consistentemente por
Xn X ri
1 1 (yij ij )2
= ,
(N p) i=1 j=1 Vij
377
Pn
em que N = i=1 ri . Assim, o processo iterativo (5.12) deve alternar com
as estimativas para e at a convergncia.
Testes de hipteses para ou para subconjuntos de podem ser
desenvolvidos atravs de estatsticas tipo Wald com a matriz de varincia-
covarincia estimada VG .
5.4.3 Mtodos de diagnstico

Tcnicas de diagnstico para EEGs podem ser encontradas, por exemplo,
em Hardin e Hilbe (2003) e Venezuela et al. (2007) e mais recentemente
em Venezuela et al. (2011). Os procedimentos apresentados a seguir foram
extrados de Venezuela et al. (2007).
Resduos
Aplicando para as EEGs um procedimento similar quele apresentado na
Seo 1.10.2 chega-se ao seguinte resduo de Pearson:
1/2
eTij Ai (Vi Wi )1 (yi i )
rPij = q ,
1 hijj
1/2 1/2 1/2

para i = 1, . . . , n e j = 1, . . . , ri , em que Ai = Wi R1
i Wi uma
matriz de dimenso ri ri , eTij um vetor de dimenso 1 ri de zeros com
1 na j-sima posio e hijj o j-simo elemento da diagonal principal da
matriz
1/2 1/2
Hi = Ai Xi (XT AX)1 XTi Ai ,
em que X = (XT1 , . . . , XTn )T tem dimenso N p e A = diag{A1 , . . . , An }

P
tem dimenso N N com N = ni=1 ri .
378
Alavanca
Duas medidas de alavanca so usualmente aplicadas em EEGs. Medida de
alavanca referente ao j-simo indivduo do i-simo grupo, dada por hijj e
medida de alavanca referente ao i-simo grupo, definida por
ri
1X
hi = hijj .
ri j=1
Grficos de ndices para hijj e hi ou contra os valores ajustados so recomen-

dados.
Influncia
Uma verso aproximada da distncia de Cook para avaliar o impacto da
eliminar individual das observaes na estimativa G dada por
hijj
LDij = rP2 ij .
(1 hijj )
Grficos de ndices para LDij so recomendados.

Uma proposta de critrio para seleo de modelos em EEGs (ver, por exem-
plo, Hardin e Hilbe, 2003) dado por
QIC = 2Q( G ) + 2tr(VG H1I ),
em que G a estimativa de quase-verossimilhana para uma matriz espe-

cfica de correlao Ri () e H1I a matriz H1 avaliada sob a estrutura de
independncia. Esse critrio pode ser aplicado para selecionar submodelos
encaixados ou para selecionar a matriz de correlao para um modelo espe-
cfico.
379
5.5 Exemplos
5.5 Exemplos
5.5.1 Ataques epilpticos

No arquivo ataques.dat (Diggle, Liang e Zeger, 1994, Seo 8.4) so resumi-
dos os resultados de um ensaio clnico com 59 indivduos epilpticos os quais
foram aleatorizados de modo que cada um recebesse uma droga antiepilptica
denominada progabide ou placebo. Os dados de cada indivduo consistiram
de um nmero inicial de ataques epilpticos num perodo de oito semanas
antes do tratamento, seguido do nmero de ataques em cada perodo de duas
semanas, num total de quatro perodos, aps o tratamento. O interesse da
pesquisa saber se a droga reduz a taxa de ataques epilpticos.
Para ajustar esses modelos no R usaremos a library gee, que deve ser
acionada atravs do comando
require(gee).
Os ajustes podem ser feitos de forma muito similar aos MLGs desde que os
dados estejam descritos de forma apropriada. Existem outras formas de gerar
dados longitudinais atravs de outras subrotinas que facilitam, por exemplo,
a elaborao de grficos de perfis. Nesses casos, ser necessrio informarmos
nos comandos de ajuste como as unidades experimentais esto dispostas e o
tipo de correlao intraunidade experimental a ser assumida.
No caso dos ataques epilpticos uma possvel distribuio marginal
para os dados a distribuio de Poisson, uma vez que tem-se dados de
contagem. Contudo, observando-se a tabela abaixo, onde esto descritos os
valores amostrais para a razo varincia/mdia para os 10 grupos experimen-
tais, nota-se um forte indcio de sobredisperso sugerindo que o parmetro
de disperso no deve ser fixado como sendo igual a um.
380
5.5 Exemplos
100
placebo
progabide
80
60
Ataques
40
20
0
8 10 12 14 16
Tempo
Figura 5.9: Grfico de perfis com o nmero de ataques por perodo de 2

semanas.
Antes Per1 Per2 Per3 Per4

Placebo 22,13 10,98 8,04 24,50 7,24
Progradibe 24,76 38,77 16,70 23,75 18,79
Para compararmos o nmero de ataques epilpticos nos 10 perodos
experimentais, devemos padronizar os valores referentes ao perodo anterior
ao tratamento em que os pacientes foram observados por 8 semanas. Assim,
ser possvel uma comparao com os demais perodos de 2 semanas. Na
Figura 5.9 temos o grfico de perfis com os dois tratamentos. Nota-se que pelo
menos um paciente (#49), que foi tratado com a droga progabide, apresenta
um nmero alto de ataques antes e depois do tratamento.
Vamos supor ento que Yijk representa o nmero de ataques epilpti-
cos ocorridos com o k-simo indivduo do i-simo grupo no j-simo perodo.
381
5.5 Exemplos
Assumimos que Yijk P(ij tj ), tj denota o nmero de semanas do j-simo

perodo, i = 1, 2; j = 0, 1, 2, 3, 4 e k = 1, . . . , rij , em que r1j = 28 (grupo
placebo), r2j = 31 (grupo tratado), t0 = 8 e t1 = t2 = t3 = t4 = 2. Assumi-
mos tambm uma estrutura de correlao permutvel para cada indivduo,
isto , Corr(Yijk , Yijk ) = , para k 6= k e (i, j) fixos. A parte sistemtica do
modelo ser dada por
log10 = ,
log1j = + ,
log20 = + e
log2j = + + + ,
para j = 1, 2, 3, 4, em que denota o nvel base, o efeito de tratamento,

o efeito de grupo e a interao entre tratamento e grupo. Note que, antes
do tratamento, o logaritmo da razo entre as taxas dos dois grupos dado
por
log{20 /10 } = + = . (5.13)
Aps o tratamento, o logaritmo da razo entre as taxas fica dado por
log{2j /1j } = + + + = + . (5.14)
Portanto, se o tratamento no eficaz espera-se que o logaritmo da razo no

mude aps o tratamento. Logo, avaliar a eficincia do tratamento equivale a
testar H0 : = 0 contra H1 : 6= 0.
382
5.5 Exemplos
20
(49,1)
(18,1)
(15,1)
15
Resduo de Pearson Padronizado
(29,1)
(38,1)
(5,1) (25,4)
10
5
0
0 10 20 30 40 50 60
Unidade Experimental
Figura 5.10: Grfico do resduo de Pearson referente ao modelo de Poisson

com estrutura de correlao permutvel ajustado aos dados sobre ataques
epilpticos.
Tabela 5.3
Estimativas dos parmetros do modelo log-linear de Poisson
aplicado aos dados sobre ataques epilpticos.
Com todos os pacientes Sem o paciente #49
Parmetro Estimativa z-robusto Estimativa z-robusto
1,347 8,564 1,347 8,564
0,112 0,965 0,112 0,965
0,027 0,124 -0,107 -0,551
-0,105 -0,491 -0,302 -1,768
0,771 0,593
1 19,68 10,53
Se denotarmos por ij = E(Yijk ), a parte sistemtica do modelo em
383
5.5 Exemplos
20
15
Resduo de Pearson Padronizado
10
5
0
5
3 2 1 0 1 2 3
Percentil da N(0,1)
Figura 5.11: Grfico normal de probabilidades referente ao modelo de Poisson

com estrutura de correlao permutvel ajustado aos dados sobre ataques
epilpticos.
funo das mdias fica dada por
logij = logtj + logij ,
em que logtj desempenha o papel de offset. Para ajustarmos esse modelo no

R deve-se seguir a sequncia abaixo de comandos
fit1.ataques = gee(ataques grupo + periodo + grupo*perido
+ offset(log(semanas)), id=paciente, family=poisson,
corstr="exchangeable"),
em que grupo representa o grupo (=0 placebo, =1 progabide), periodo re-
presenta o perodo (=0 antes, =1 depois), semanas o nmero de semanas,
paciente o nmero do paciente (so 59 pacientes) e corstr o tipo de corre-
384
5.5 Exemplos
lao a ser assumida.

As estimativas dos parmetros (erro padro aproximado) so apresen-
tadas na Tabela 5.3. No h portanto nenhum indcio de efeito de tratamento.
Para a anlise de resduos vamos considerar o resduo de Pearson rPij defi-
nido na Seo 5.4.3. A gerao de envelopes para esse resduo um pouco
mais complexa do que no caso usual de respostas independentes, uma vez
que requer o conhecimento da distribuio conjunta das respostas de cada
indivduo. No entanto, mesmo quando essa distribuio no totalmente
desconhecida possvel, em alguns casos, gerar a distribuio emprica dos
dados (vide, por exemplo, Venezuela et al., 2007).
Nota-se pela Tabela 5.3 que a estimativa do parmetro de disperso
1 muito diferente da suposio de = 1 para modelos com resposta
de Poisson, sugerindo indcios fortes de sobredisperso. Assim, para uma
anlise de resduos mais
q apropriada deve-se considerar o resduo de Pearson
padronizado rP ij = rPij cujo grfico descrito na Figura 5.10. Nota-se 7
resduos com valores superiores a 10,0, todos referentes a medidas de diferen-
tes pacientes. O grfico normal de probabilidades para o resduo de Pearson
padronizado rP ij (Figura 5.11) mostra alguns afastamentos da suposio de
modelo marginal de Poisson, provavelmente devido sobredisperso que no
foi totalmente controlada. Finalmente, na Figura 5.12, temos a distncia de
Cook aproximada em que trs medidas se destacam. Nota-se novamente uma
medida referente ao paciente (#49) cujo perfil destoa na Figura 5.9. Vamos
fazer um estudo das estimativas no considerando esse paciente no ajuste.
Os comandos em R so dados abaixo.
fit2.ataques = gee(ataques grupo + periodo + grupo*perido
+ offset(log(semanas)), id=paciente, subset=-c(241, 242, 243, 244,
245), family=poisson, corstr="exchangeable").
385
5.5 Exemplos
As novas estimativas (vide Tabela 5.3) indicam evidncia de que o tratamento

com a droga progabide reduz o nmero mdio de ataques epilpticos, ou seja,
h mudana inferencial em relao ao modelo com todos os pontos.
8
(18,1)
(49,1)
6
(15,1)
Distncia de Cook
4
2
0
0 10 20 30 40 50 60
Figura 5.12: Distncia de Cook referente ao modelo de Poisson com estrutura

de correlao permutvel ajustado aos dados sobre ataques epilpticos.
5.5.2 Condio Respiratria

Vamos considerar agora um exemplo discutido em Myers, Montgomery e
Vining (2002, Seo 6.5) que envolve a comparao de dois tratamentos apli-
cados em pacientes com problemas respiratrios. Um total de 56 pacientes
foi considerado no estudo sendo que 27 receberam o tratamento com uma
droga ativa enquanto que os 29 pacientes restantes receberam placebo. Cada
386
5.5 Exemplos
paciente foi observado em quatro ocasies em que mediu-se a condio res-

piratria (boa ou ruim). Foram tambm observados o sexo e a idade (em
anos) de cada paciente alm da pr-existncia de um nvel base (sim ou no).
Apenas como ilustrao descrevemos abaixo a incidncia do problema respi-
ratrio em cada ocasio segundo os dois tratamentos.
Visita 1 Visita 2 Visita 3 Visita 4

Tratamento 22/27 13/27 5/27 1/27
Placebo 20/29 18/29 21/29 15/29
Nota-se pela tabela acima que na primeira visita h uma incidncia alta para
ambos os tratamentos de pacientes em condio respiratria ruim, contudo
a partir da segunda visita nota-se uma queda acentuada para os pacientes
tratados com a droga ativa e pouca variao para os pacientes tratados com
placebo. Portanto, h fortes indcios de que a droga reduz a chance de
condio respiratria ruim. Os dados completos desse experimento esto
descritos no arquivo respiratorio.dat.
Vamos denotar por Yij a condio (=1 ruim, =0 boa) do i-simo pa-
ciente na j-sima ocasio, i = 1, . . . , 56 e j = 1, 2, 3, 4. Como trata-se de
resposta binria ser assumido marginalmente que Yij Be(ij ) com parte
sistemtica dada por

ij
log + 1 Idadei + 2 Trati + 3 Sexoi + 4 Basei ,
1 ij
em que Idadei denota a idade (em anos), Trati (=0 droga ativa, =1 pla-
cebo), Sexoi (=0 feminino, =1 masculino) e Basei (=0 ausncia do nvel
base, =1 presena do nvel base) do i-simo paciente. Seguindo a sugesto
de Myers, Montgomery e Vining (2002, Seo 6.5) ser assumida uma estru-
tura de correlao AR(1) para as respostas de cada paciente, ou seja, que
387
5.5 Exemplos

Corr(Yij , Yij ) = 1 para j = j e Corr(Yij , Yij ) = |jj | para j 6= j . Para
ajustar esse modelo no R deve-se usar os comandos
fit1.respir = gee(condicao idade + trat + sexo + base,
id=paciente, family=binomial, corstr="AR-M", M=1).
As estimativas dos parmetros dos modelos com estrutura AR(1) e
independente so apresentadas na Tabela 5.4. Nota-se que as estimativas
no diferem muito e os resultados inferencias so os mesmos. Isso pode
ser explicado pela baixa correlao entre as respostas do mesmo indivduo,
= 0, 275.
2
1
0
Resduo de Pearson
1
2
3
(18,4) (28,4)
0 10 20 30 40 50
Figura 5.13: Grfico do resduo de Pearson referente ao modelo binomial com

estrutura de correlao AR(1) ajustado aos dados sobre condio respiratria.
388
5.5 Exemplos
2
0
Resduo de Pearson
2
4
6
3 2 1 0 1 2 3
Percentil da N(0,1)
Figura 5.14: Grfico normal de probabilidades referente ao modelo binomial

com estrutura de correlao AR(1) ajustado aos dados sobre condio respi-
ratria.
Tabela 5.4
Estimativas dos parmetros do modelo logstico aplicado
aos dados sobre condio respiratria.
Correlao AR(1) Independncia
Parmetro Estimativa z-robusto Estimativa z-robusto
-0,377 -0,386 -0,404 -0,474
1 0,043 3,380 0,048 3,443
2 1,001 3,066 1,070 3,425
3 -2,003 -2,988 -2,178 -3,162
4 0,492 0,586 0,498 0,977
0,275 0,00
389
5.5 Exemplos
0.5
(18,4)
(28,4)
0.4
(53,4)
Distncia de Cook
0.3
0.2
0.1
0.0
0 10 20 30 40 50
Figura 5.15: Distncia de Cook referente ao modelo binomial com estrutura

de correlao AR(1) ajustado aos dados sobre condio respiratria.
Pelas estimativas da Tabela 5.4 pode-se concluir que o resultado da

condio respiratria independe do nvel base, no entanto depende da idade,
do tratamento e do sexo. Por exemplo, h um aumento na chance de condio
respiratria ruim com o aumento da idade, conforme esperado. A razo de
chances entre sexo feminino e masculino estimada por = e2,003 = 7, 41,
ou seja, as mulheres tm aproximadamente 7,41 vezes a chance dos homens
terem o problema. Pacientes que foram tratados com placebo tm =
e1,001 = 2, 72 vezes a chance dos pacientes que foram tratados com a droga de
terem condio respiratria ruim. Em todos os clculos acima supe-se que
as demais variveis esto fixadas. Na Figura 5.13 apresentado o grfico do
resduo de Pearson contra a ordem das observaes e como podemos observar,
com exceo de 2 resduos referentes a medidas dos pacientes #18 e #28,
390
5.5 Exemplos
todos os demais caem no intervalo [-2,2], indicando um bom ajuste do modelo

com estrutura de correlao AR(1). O grfico normal de probabilidades com
o resduo de Pearson (Figura 5.14) no indica afastamentos da suposio de
distribuio marginal Bernoulli com estrutura de correlao AR(1). J o
grfico da distncia de Cook descrito na Figura 5.15 destaca trs medidas de
pacientes diferentes sendo duas dessas medidas destacadas tambm no grfico
com o resduo de Pearson. Contudo, o ajuste sem considerarmos esses trs
pacientes no causa mudanas inferenciais.
5.5.3 Placas dentrias

Hadgu e Koch(1999) discutem os resultados de um ensaio clnico com 109
adultos voluntrios com pr-existncia de placa dentria. Nesse estudo os
indivduos foram distribudos de forma aleatria para receberem um lquido
tipo A (34 indivduos), um lquido tipo B (36 indivduos) e um lquido con-
trole (39 indivduos). As placas dentrias de cada indivduo foram avaliadas
e classificadas segundo um escore no incio do tratamento, aps 3 meses e
aps 6 meses. Os dados encontram-se no arquivo rinse.dat.
Tabela 5.5
Medidas resumo para os escores das placas
dentrias segundo os tratamentos e
perodos de escovao.
Incio 3 Meses 6 Meses
2,562 1,786 1,738
Controle (0,343) (0,700) (0,595)
n=39 n=39 n=36
2,568 1,315 1,259
Lquido A (0,354) (0,715) (0,744)
n=34 n=34 n=34
2,479 1,255 1,032
Lquido B (0,296) (0,550) (0,451)
n=36 n=36 n=36
391
5.5 Exemplos
Placebo
3.5
3.0
2.5
2.0
1.5
1.0
0.5
A
3.5
3.0
2.5
Escore
2.0
1.5
1.0
0.5
B
3.5
3.0
2.5
2.0
1.5
1.0
0.5
Incio 3 Meses 6 Meses

Perodo
Figura 5.16: Grfico de perfis para o escore dos voluntrios que receberam
placebo, lquido tipo A e lquido tipo B referente aos dados sobre placas
dentrias.
O objetivo do estudo verificar se pelo menos um dos novos lquidos
reduz o nmero mdio de placas dentrias. Seja Yijk o escore do k-simo
indivduo do i-simo grupo (=1 controle, =2 lquido A, =3 lquido B) e j-
simo perodo (=1 incio do tratamento, =2 aps 3 meses, =3 aps 6 meses),
k = 1, . . . , nij com n1j = 39, n2j = 34 e n3j = 36. Foram omitidas das nossas
anlises quatro observaes para as quais no foi possvel obter o valor do
escore. Na Tabela 5.5 descrevemos os valores mdios com os respectivos
erros padro para os grupos formados. Nota-se um decrscimo no valor
mdio aps 3 meses de escovao para os trs tratamentos, sendo a reduo
mais acentuada para os lquidos A e B. Nota-se tambm um aumento da
variabilidade. De 3 meses para 6 meses de escovao o decrscimo continua
para o escore mdio dos grupos que receberam os lquidos A e B, havendo
392
5.5 Exemplos
uma reduo mais evidente para o grupo tratado com o lquido B. Esse
grupo tambm apresenta as menores variabilidades. Essas tendncias podem
ser observadas quando so considerados os perfis individuais dos voluntrios
para os trs tipos de lquido ao longo do tempo conforme descrito na Figura
5.16.
Tabela 5.6
Estimativas dos parmetros do modelo log-linear gama aplicado aos
dados sobre placas dentrias.
Parmetro Estimativa z-robusto Parmetro Estimativa z-robusto
0,941 44,407 ()22 -0,308 -3,124
2 0,002 0,080 ()32 -0,319 -3,835
3 -0,033 -1,138 ()23 -0,333 -3,266
2 -0,278 -7,335 ()33 -0,492 -5,792
3 -0,004 -8,321
0,38
1
5,68
Os pesquisadores verificaram aps uma anlise descritiva dos dados

que a distribuio gama mais apropriada para descrever a resposta do que
a distribuio normal. Assim, vamos assumir que Yijk G(ij , ). Seguindo
ainda os pesquisadores vamos supor um modelo log-linear com interao entre
tratamento e perodo, porm com uma parametrizao um pouco diferente,
logij = + i + j + ()ij ,
em que ()ij representa a interao entre tratamento e perodo, sendo i

e j os efeitos principais. Teremos as restries 1 = 0, 1 = 0 e ()1j =
()i1 = 0, para i = 1, 2, 3 e j = 1, 2, 3. As estimativas dos parmetros so
descritas na Tabela 5.6 supondo correlao simtrica entre as medidas de um
mesmo indivduo. Nota-se que a estimativa da correlao no muito alta.
Claramente confirma-se a existncia de interao entre perodo e tratamento.
Os lquidos A e B reduzem em mdia a quantidade de placas dentrias,
393
5.5 Exemplos
havendo indcios de uma reduo mais acentuada com o lquido B de 3 meses

para 6 meses de escovao.
3
2
1
Resduo de Pearson
0
1
2
0 20 40 60 80 100
Figura 5.17: Grfico do resduo de Pearson referente ao modelo binomial com

estrutura de correlao simtrica ajustado aos dados sobre placas dentrias.
Para ajustar esse modelo no R deve-se usar os comandos

tratm = factor(tratm)
mes = factor(mes)
fit1.placas = gee(score + tratm + mes + tratm*mes,
id=voluntar, family=Gamma(link=log), corstr="exchangeable").
394
5.5 Exemplos
6
4
Residuo de Pearson
2
0
2
3 2 1 0 1 2 3
Percentil da N(0,1)
Figura 5.18: Grfico normal de probabilidades referente ao modelo gama com

estrutura de correlao simtrica ajustado aos dados sobre placas dentrias.
A Figura 5.17 descreve o grfico de ndices do resduo de Pearson.

Nota-se uma distriuio simtrica dos resduos que ficam concentrados no
intervalo [-3,3]. Pelo grfico normal de probabilidades com o resduo de
Pearson (Figura 5.18) nota-se alguns afastamentos, em particular para os
resduos com valores negativos mais extremos, indicando uma falta de ajuste
nesses casos. Finalmente, tem-se na Figura 5.19 o grficos de ndices da
distncia de Cook. Destaque para a 3a medida dos voluntrios #22 (lquido
B) e #70 (lquido B). Espera-se para ambos os voluntrios um decrscimo no
escore ao longo do tempo. Todavia, para o voluntrio #22 tem-se a sequncia
2,56; 2,04 e 0,29, ou seja, uma queda muito acentuada da 2a medida para a
3a medida. J para o voluntrio #70 tem-se a sequncia 2,38; 0,33 e 1,75,
ou seja, um decrscimo muito acentuado da 1a para a 2a medida, porm
395
5.6 Exerccios
(22,3)
(70,3)
0.025
0.020
Distncia de Cook
0.015
0.010
0.005
0.000
0 20 40 60 80 100
Figura 5.19: Distncia de Cook referente ao modelo gama com estrutura de

correlao simtrica ajustado aos dados sobre placas dentrias.
um aumento aps a 2a medida. Essas tendncias que destoam do esperado

para o lquido tipo B podem ter elevado o valor da distncia de Cook para a
3a medida desses voluntrios. A retirada desses dois vonluntrios, contudo,
altera muito pouco as estimativas e no altera os resultados inferenciais.
Cardoso-Neto e Paula (2001) analisaram este exemplo supondo restries em
alguns dos parmetros e encontraram evidncias mais fortes com relao aos
resultados obtidos por Hadgu e Koch(1999).
5.6 Exerccios
1. Supor as funes de varincia V (t) = t3 e V (t) = t + t2 /k para t >

0, k > 0. Encontre para cada caso a funo Q(; y) e verifique sob
396
5.6 Exerccios
quais restries as funes encontradas so proporcionais a funes de

verossimilhana da famlia exponencial.
2. Considere a seguinte funo de quase-verossimilhana:

Z
1 yt
Q(; y) = 2 dt,
y V (t)
em que V (t) = t(1 + t) para t > 0. (i) Desenvolva essa funo de quase-
verossimilhana. (ii) Verifique se possvel recuperar alguma distribui-
o da famlia exponencial. Em caso afirmativo qual a distribuio?
(iii) Supor agora uma amostra aleatria de n variveis aleatrias inde-
pendentes com funo de quase-verossimilhana Q(i ; yi ) dada acima.
Como fica a funo quase-desvio? (iv) Como estimar 2 ?
3. Considere novamente o arquivo claims.dat descrito no Captulo 2

(exerccio #20), em que 9 variveis so observadas para uma amos-
tra aleatria de 996 aplices de seguros de veculos extrada do livro de
de Jong e Heller (2008). A varivel expos (exposio do veculo), que
varia no intervalo (0,1), ser considerada agora como varivel resposta.
Inicialmente, faa uma anlise descritiva dos dados e procure agrupar
as variveis categricas em um nmero menor de categorias. Apli-
que modelos de quase-verossimilhana com funes V () = (1 ) e
V () = 2 (1 )2 , em que denota o valor esperado para a exposio
do veculo, para explicar a varivel resposta dadas as demais variveis
explicativas. Para o modelo selecionado faa uma anlise de diagns-
tico e procure interpretar os coeficientes estimados atravs de razes de
chances.
4. Supor Y1 , . . . , Yn variveis aleatrias independentes com logaritmo da

funo de quase-verossimilhana Q(i ; yi ), i = 1, . . . , n. Mostre que as
397
5.6 Exerccios
funes escore e de informao para ficam, respectivamente, dadas

por:
1 T 1
U = D V (y )
2
e
U() 1 T 1
K = E = D V D.
2
5. Sejam Yij variveis aleatrias tais que Yij FE(i , ), i = 1, 2 e j =

1, . . . , m. A estatstica de Wald para testar H0 : 1 2 = 0 contra
H1 : 1 2 6= 0 dada por W = (Y1 Y2 )2 /Var(Y1 Y2 ). Sob H0
e para m segue que W 21 . Calcular Var(Y1 Y2 ) para as
seguintes situaes:
(a) supondo que Corr(Yij , Yij ) = para (j 6= j ; i fixo) e =0 em caso

contrrio;
(b) supondo que Corr(Yij , Yi j ) = para (i 6= i ; j fixo) e =0 em caso

contrrio;
Para 1 2 e fixos e 0 discutir o comportamento do poder de

W conforme cresce para as situaes (a) e (b). So esperados esses
comportamentos? Comente.
6. Supor o modelo de quase-verossimilhana em que Y1 , . . . , Yn so vari-

veis aleatrias independentes tais que E(Yi ) = i e Var(Yi ) = 2 2i com
parte sistemtica dada por logi = 0 + 1 (xi x). Responda aos itens
abaixo:
(a) como ficam as varincias assintticas de 0 e de 1 ?
(b) Como fica o teste de Wald para testar H0 : 0 = 0 contra H1 :

0 6= 0?
398
5.6 Exerccios
(c) Proponha um teste tipo escore para testar H0 : 1 = 0 contra

H1 : 1 6= 0.
7. Como fica a diferena entre desvios para testar H0 : 1 = 0 contra H1 :

1 6= 0 num modelo de quase-verossimilhana com V (i ) = 2i (1 i )2 ,
g(i ) = i = xTi e = ( T1 , T2 )T ?
8. (Park, Shin e Park, 1998). Vamos supor que o vetor de respostas seja
agora dado por Yij = (Yij1 , . . . , YijT )T , em que Yijt denota a resposta
para o j-simo elemento do i-simo grupo no instante t, i = 1, . . . , g e
j = 1, . . . , ri . Supor ainda que E(Yijt ) = i , Var(Yijt ) = Vi 1 e que
Yijt pertence famlia exponencial. Mostre que dado a equao de
estimao generalizada para i pode ser expressa na forma S(i ) = 0,
em que
ri
X
S(i ) = 1TT Rij ()(yij i 1T ),
j=1
Rij a matriz trabalho para o j-simo indivduo do i-simo grupo e

1T um vetor T 1 de uns. Expresse a estimativa de i em forma
fechada.
9. Supor que Yi = (Yi1 , . . . , Yiri )T , i = 1, . . . , n, so vetores aleatrios

independentes tais que Yij Be(i ). Assumir ainda que a matriz
trabalho para Yi permutvel e que

i
log = xTi .
1 i
Mostre que, dado , as EEGs para ficam dadas por
n
X
S ( G ) = {1 + (ri 1)}1 xi (yi ni i ) = 0,
i=1
399
5.6 Exerccios
em que yi = yi1 + + yiri . Sugesto: use a relao abaixo
R1 1 1
i () = (1 ) [Iri {1 + (ri 1)} J],
em que J uma matriz ri ri de uns. Como fica o processo iterativo

para estimar ?
10. Supor que Yij Be() para i = 1, . . . , n e j = 1, . . . , ri , em que

Corr(Yij , Yij ) = (fixado) para j 6= j com parte sistemtica dada
n o

por log 1 = . Responda s seguintes questes: (i) como fica a
equao de estimao generalizada para estimar ? (ii) expresse em
forma fechada a estimativa G (obtenha inicialmente G ) e (iii) como
fica a varincia assinttica (no robusta) de G ?
11. Supor que Yij QV(, 2 ) para i = 1, . . . , n e j = 1, 2, em que

Var(Yij ) = 2 2 , Corr(Yij , Yij ) = para j 6= j com parte sistem-
tica dada por log = . Responda s seguintes questes: (i) como fica
a equao de estimao generalizada para estimar ? (ii) expresse em
forma fechada a estimativa G (obtenha inicialmente G ) e (iii) como
fica a varincia assinttica (no robusta) de G ? Supor que e 2 so
estimados consistentemente.
12. Considere uma amostra aleatria de n indivduos que so observados

em 2 ocasies cada um, sendo Yij a resposta do i-simo indivduo na
ind
j-sima ocasio para i = 1, . . . , n e j = 1, 2, com a suposio Yi1
ind
FE(1 , ) e Yi2 FE(2 , ) e = Corr(Yi1 , Yi2 ) ou seja Cov(Yi1 , Yi2 ) =
p p
Var(Yi1 ) Var(Yi1 ). A diferena entre as mdias amostrais nas duas
P
ocasies Y2 Y1 , em que Yj = n1 ni=1 Yij para j = 1, 2, utilizada
para detectar eventuais diferenas entre as mdias 2 e 1 . Responda
s seguintes questes:
400
5.6 Exerccios
(i) calcule Var(Y2 Y1 ),
(ii) chame = 2 1 e calcule P( < Y2 Y1 < + ) = 1 ,

0 < < 1 e > 0, em que 1 = P(z < Z < z), Z N(0, 1),
(iii) expresse n em funo das quantidades z, , e e
(iv) discuta o comportamento de n em funo de mantendo-se as

demais quantidades fixas.
Supor para n grande Y2 Y1 N(, Var(Y1 Y2 )).
13. (Myers, Montgomery e Vining, 2002, p. 231). Um experimento con-

duzido para avaliar a disperso de um pigmento particular numa pin-
tura. Quatro diferentes misturas do pigmento so estudadas. O pro-
cedimento consiste em preparar cada mistura e aplic-la num painel
usando trs mtodos diferentes: pincel, rolo e spray. O experimento
repetido trs dias diferentes e a resposta a porcentagem de reflectn-
cia do pigmento. Os dados so descritos na tabela abaixo e no arquivo
mistura.dat.
Mistura
Dia Mtodo 1 2 3 4
1 64,5 66,3 74,1 66,5
1 2 68,3 69,5 73,8 70,0
3 70,3 73,1 78,0 72,3
1 65,2 65,0 73,8 64,8

2 2 69,2 70,3 74,5 68,3
3 71,2 72,8 79,1 71,5
1 66,2 66,5 72,3 67,7

3 2 69,0 69,0 75,4 68,6
3 70,8 74,2 80,1 72,4
401
5.6 Exerccios
Analise os dados atravs de equaes de estimao generalizadas com

estrutura de correlao simtrica. Faa anlise de diagnstico.
14. (Myers, Montgomery e Vining, 2002, Seo 6.5). No arquivo ratos-

gee.dat esto os dados de um experimento em que 30 ratos tiveram
uma condio de leucemia induzida. Trs drogas quimio-terpicas fo-
ram utilizadas no tratamento dos animais. Foram coletadas de cada
animal a quantidade de clulas brancas (WBC), a quantidade de clulas
vermelhas (RBV) e o nmero de colnias de clulas cancerosas (RESP)
em quatro perodos diferentes. Assuma distribuio de Poisson para
RESP em cada perodo e verifique atravs de um modelo log-linear se
existe diferenas significativas entre os trs tratamentos considerando
WBC e RBC como variveis explicativas. Compare os resultados su-
pondo estruturas de correlao independente e AR(1). Faa uma an-
lise de diagnstico.
15. (Myers, Montgomery e Vining, 2002, Seo 6.5). No arquivo artrite.dat

esto os dados de um ensaio clnico em que 20 pacientes com ar-
trite foram aleatorizados de modo que 10 receberam o medicamento
auronofin e os outros 10 receberam placebo. Foram observadas as
variveis explicativas gnero (1: masculino, 0: feminino) e a idade
do paciente em anos alm do tratamento (0: placebo, 1: auronofin).
Os pacientes foram consultados em 4 ocasies (1: incio, 2: 1 ms, 3:
2 meses e 4: 3 meses) a respeito do seu estado avaliado pelo prprio
paciente (1: ruim, 2: regular, 3: bom). Faa inicialmente uma anlise
descritiva com os dados.
Seja Yij o estado do i-simo paciente na j-sima ocasio (=1 bom,

=0 regular ou ruim) para i = 1, . . . , 20 e j = 1, 2, 3, 4. Assuma que
402
5.6 Exerccios
Yij Be(ij ), em que ij a probabilidade do estado ser conside-

rado bom pelo i-simo paciente na j-sima ocasio. Proponha uma
EEG para explicar ij atravs de uma regresso logstica e conside-
rando as estruturas de correlao simtrica e AR(1) entre as ocasies
de um mesmo paciente. Considere no modelo apenas os efeitos prin-
cipais tratamento, idade, gnero e ocasio. Compare os modelos
atravs de mtodos de diagnstico e para o modelo escolhido faa uma
interpretao atravs de razes de chances.
403
Apndice A
Neste apndice descrevemos os conjuntos de dados usados nos exemplos e nos

exerccios propostos. As variveis so descritas na ordem em que aparecem
em cada arquivo.
Captulo 1
canc3.dat: tipo de tumor (0:benigno, 1:maligno), idade (em anos), sexo

(1:masculino, 2:feminino), HL e FF (1:ausente, 2:discreta, 3:moderada,
4:intensa).
canc4.dat: grupo de passagem (0 a 28), presena de massa tumoral (1:sim,

0:no), caquexia (1:sim, 0:no) e tempo de sobrevivncia (em dias).
capm.dat: taxa de retorno Tbill, retorno Microsoft, retorno SP500, retorno

GE e retorno Ford.
censo.dat: unidade da federao, escolaridade mdia (anos de estudo) e

renda mdia (em reais).
imoveis.dat: imposto do domiclio (em 100 USD), rea do terreno (em 1000
ps quadrados), rea construda (em 1000 ps quadrados), idade da
residncia (em anos) e preo de venda do imvel (em 1000 USD).
404
Apndice A
reg1.dat: rea (em mil ps quadrados) e preo (em mil USD).
reg2.dat: sigla do estado, taxa do combustvel (em USD), porcentagem de

motoristas licenciados, renda per capita (em USD), ajuda federal s
estradas do estado (em mil USD) e consumo per capita de combustvel
(em gales por ano).
reg3.dat: nome do estado, populao estimada em julho de 75, renda per

capita em 74 (em USD), proporo de analfabetos em 70, expectativa
de vida 69-70, taxa de criminalidade em 76 (por 100000 habitantes),
proporo de estudantes que concluram o segundo grau em 70, nmero
de dias do ano com temperatura abaixo de zero graus Celsus e rea do
estado (em milhas quadradas).
reg4.dat: x1, x2, x3, x4, e octanas. A resposta o nmero de octanas.
salary.dat: salrio anual (em mil USD), sexo, posio na empresa (escore
de 1 a 9) e experincia (em anos).
trees.dat: dimetro (em polegadas), altura (em ps) e volume da rvore

(em ps cbicos).
vendas.dat: total de telhados vendidos (em mil metros quadrados), gastos

pela loja com publicidade (em mil USD), nmero de clientes cadastra-
dos na loja (em milhares), nmero de marcas concorrentes do produto
e potencial da loja.
Captulo 2
claims.dat: valor do veculo (em 10000 dolares australianos), exposio do

veculo, nmero de sinistros no perodo, custo total dos sinistros (em
405
Apndice A
dolares australianos), tipo do veculo (em 11 categorias), idade do ve-

culo (em 4 categorias), sexo do condutor principal, rea de residncia
do condutor principal (em 6 categorias) e idade do condutor principal
(em 6 categorias).
dfilme.dat: tempo de durao do filme (em horas) e densidade mxima do

filme.
energy.dat: total de energia consumida num ms (em kilowatts-hora) e de-

manda de energia na hora de pico.
insurance.dat: valor pago do seguro (dolares australianos), representao

legal (0:no, 1:sim), ms em que ocorreu o acidente e tempo operacional.
milho.dat: quantidade de nitrognio, quantidade de fosfato e produtividade

de milho (libras/acre).
pesca.dat: frota (Santos e Ubatuba), ano (95 a 99), trimestre (1 a 4), lati-
tude (de 23,25 a 28,25 ), longitude (de 41,25 a 50,75 ), dias de pesca,
captura (quantidade em kg de peixes capturados) e cpue (captura por
unidade de esforo).
restaurante.dat: faturamento anual (em mil USD) e gastos com publici-

dade (em mil USD).
snack.dat: fora necessria para o cisalhamento, tipo de snack (1:A, 2:B,

3:C, 4:D, 5:E), nmero de semanas.
sobrev.dat: nmero de clulas brancas, tempo de sobrevivncia (em sema-

nas) e caracterstica morfolgica (AG=1 positivo, AG=0 negativo).
turbina.dat: tipo de turbina (1 a 5) e tempo de durao do motor (em

milhes de ciclos).
406
Apndice A
vidros.dat: tempo de resistncia (em horas), voltagem (1:200, 2:250, 3:300,

4:350) e temperatura (1:170 graus Celsus, 2:180 graus Celsus).
Captulo 3
besouros.dat: besouros mortos, besouros expostos e dose.
caduquice.dat: escore no exame psicolgico, ocorrncia de caduquice (1:sim,

0:no).
camundongos: sexo (1:macho, 0:fmea), tratamento (1:sim, 0:controle), ca-

sos e expostos.
dengue.dat: idade (em anos) do entrevistado, nvel scio-econmico (1:alto,

2:mdio, 3:baixo), setor da cidade onde mora o entrevistado (1:setor 1,
2:setor 2) e diagnstico da doena (1:sim, 0:no).
diabetes.dat: massa corporal, histrico familiar (1:presena, 0:ausncia) e

atividades fsicas (1:presena, 0:ausncia) para os casos e para os con-
troles, respectivamente.
dose1.dat: dose, caramujos expostos e caramujos mortos.
equipamentos.dat: tempo, nmero de equipamentos expostos, nmero de

equipamentos que falaharam.
gestantes.dat: idade (0:< 30, 1:30 ou +), nmero de cigarros consumidos

por dia (0:< 5, 1:5 ou +), tempo de gestao (0:<=260 dias, 1:> 260
dias), crianas no sobreviventes e crianas sobreviventes.
407
Apndice A
grahani.dat: nmero de lagartos da espcie grahani, total de lagartos, pe-

rodo do dia (1:manh, 2:meio-dia, 3:tarde), comprimento da madeira
(1:curta, 2:cumprida), largura da madeira (1:estreita, 2:larga) e local
de ocupao (1:claro, 2:escuro).
insetic.dat: nmero de insetos mortos, nmero de insetos expostos, dose

do inseticida, inseticida DDT, inseticida -DDT e inseticida DDT +
-DDT (1:presena, 0:ausncia).
leuce.dat: idade do paciente (em anos), mancha diferencial da doena, infil-

trao na medula, clulas com leucemia, malignidade da doena, tempe-
ratura mxima antes do tratamento, tratamento (1:satisfatrio, 0:no),
tempo de sobrevivncia (em meses) e situao (1:sobrevivente, 0:no
sobrevivente).
matched.dat: estrato, observao (1:caso, 2:controle), idade da paciente

no momento da entrevista (em anos), diagnstico (1:caso, 0:controle),
tempo de escolaridade (em anos), grau de escolaridade (0:nenhum, 1:se-
gundo grau, 2:tcnico, 3:universitrio, 4:mestrado, 5:doutorado), chec-
kup regular (1:sim, 2:no), idade da primeira gravidez, idade do incio
da menstruao, nmero de abortos, nmero de filhos, peso (em li-
bras), idade do ltimo perodo menstrual e estado civil (1:casada, 2:
divorciada, 3:separada, 4:viva, 5:solteira). Observaes perdidas so
denotadas por NA.
meninas.dat: garotas menstruando, garotas entrevistadas e idade mdia.
morgan.dat: concentrao (R, D, M), dose, insetos expostos, insetos mor-

tos.
408
Apndice A
olhos.dat: cor dos olhos dos pais, cor dos olhos dos avs, nmero total de
filhos e nmero de filhos com olhos claros.
prefauto.dat: preferncia comprador tipo de automvel (1:americano, 0:ja-

pons), idade do comprador (em anos), sexo do comprador (0:mascu-
lino, 1:feminino) e estado civil do comprador (0:casado, 1:solteiro).
pregibon.dat: resposta (1:ocorrncia, 0:ausncia), volume e razo.
pulso.dat: pulsao em repouso (1:normal, 0:alta), hbito de fumar (1:sim,

2:no) e peso (em kg).
rotifers.dat: densidade, rotifers suspensos, rotifers expostos e espcie (1:

Polyarthra, 0:Keratella).
sementes.dat: temperatura da germinao, nvel da umidade, nvel da tem-

peratura, nmero de sementes que germinaram.
Captulo 4
breslow.dat: nmero de casos de cncer, total de pessoas-anos, nmero de

cigarros por dia (1:no fumante, 2:1-9 cigarros, 3:10-30 cigarros, 4:+
30 cigarros) e faixa-etria (1:40-49 anos, 2:50-59 anos, 3:60-69 anos,
4:70-80 anos).
canc1.dat: idade no primeiro emprego com 4 nveis (1:<20, 2:20-27, 3:27.5-

34.9, 4:35+ anos), ano do primeiro emprego com 4 nveis (1:<1910,
2:1910-1914, 3:1915-1919, 4:1920-1924), tempo decorrido desde o pri-
meiro emprego com 5 nveis (1:0-19, 2:20-29, 3:30-39, 4:40-49, 5:50+
anos), nmero de casos de cncer e o total de pessoas-anos de observa-
o.
409
Apndice A
detergente.dat: temperatura da gua, uso de M, preferncia (X,M), maciez

da gua, nmero de pessoas.
emprego.dat: nvel de renda (1: < USD 6000, 2: USD 6000-15000, 3: USD
15000-25000, 4: > USD 25000), grau de satisfao (1:alto, 2: bom, 3:
mdio, 4: baixo) e nmero de indivduos.
geriatra.dat: nmero de quedas no perodo, interveno (0:educao so-

mente, 1:educao e exerccios fsicos), sexo (0:feminino, 1:masculino),
balano e fora.
heart.dat: doena das coronrias (1:sim, 2:no), nvel de colesterol (1:me-

nor do que 200 mg/100 cc, 2:200-219, 3:220-259, 4:260 ou +),presso
arterial (1:menor do que 127 mm Hg, 2:127-146, 3:147-166, 4:167 ou +)
e nmero de indivduos.
navios.dat: tipo do navio (1:A, 2:B, 3:C, 4:D, 5:E), ano da fabricao (1:60-
64, 2:65-69, 3:70-74, 4:75-79), perodo de operao (1:60-74, 2:75-79),
tempo de operao (em meses) e nmero de avarias.
nitrofen: dosagem de nitrofen, total de ovos eclodidos.
quine.dat: etnia (A:aborgine, N:no aborgine), sexo (M:masculino, F: fe-

minino), ano (F0:8a srie, F1:1o ano ensino mdio, F2:2o ano ensino
mdio, F3:3o ano ensino mdio), desempenho (SL:baixo, AL:normal) e
dias ausentes no ano letivo.
recrutas.dat: hbito de nadar (ocasional, frequente), local onde costuma

nadar (piscina, praia), faixa-etria (15-19, 20-25, 25-29), sexo (mascu-
lino, feminino) e nmero de infeces de ouvido.
rolos.dat: comprimento do tecido (em metros) e nmero de falhas.
410
Apndice A
store.dat: nmero de clientes, nmero de domiclios, renda mdia anual (em

USD), idade mdia dos domiclios (em anos), distncia entre a rea e o
competidor mais prximo (em milhas) e distncia entre a rea e a loja
(em milhas).
tvcabo.dat: nmero de domiclios na rea (em milhares), porcentagem de

domiclios com TV a cabo, renda per capita (em USD) por domiclio
com TV a cabo, taxa de instalao de TV a cabo (em USD), custo
mdio mensal de manuteno de TV a cabo (em USD), nmero de
canais a cabo disponveis na rea e nmero de canais no pagos com
sinal de boa qualidade disponveis na rea.
Captulo 5
artrite.dat: paciente, ocasio (1:incio, 2:1 ms, 3:2 meses, 4:3 meses), g-
nero (1:masculino, 0:feminino), idade (em anos), tratamento (0:pla-
cebo, 1:auronofin), resultado (1:ruim, 2:regular, 3:bom).
ataques.dat: indivduo, perodo (1:antes do tratamento, 2:1o perodo aps

o tratamento, 3:2o perodo aps o tratamento, 4:3o perodo aps o
tratamento), nmero de semanas em cada perodo, nmero de ataques
em cada perodo e tratamento (0:placebo, 1:progabide).
cevada.dat: incidncia da mancha (proporo), local (1 a 9) e variedade (1

a 10).
mosca.dat: nmero de caros coletados espcie2, espcie3, espcie6, esp-

cie14, nmero de partes da placa, posio (1:lateral, 0:central), regio
(1:So Roque, 2:Pindamonhangaba, 3:Nova Odessa, 4:Ribeiro Preto)
e temperatura (em graus Celsus).
411
Apndice A
mistura.dat: painel, dia, mtodo, mistura, porcentagem de reflectncia do

pigmento.
ratosgee.dat: animal, perodo, quantidade de clulas brancas, quantidade

de clulas vermelhas e nmero de colnias de clulas cancerosas.
respiratorio.dat: paciente, tratamento (0:droga ativa, 1:placebo), sexo (0:fe-

minino, 1:masculino), idade (em anos), nvel base (0:ausncia, 1:pre-
sena) e condio do paciente nas visitas (0:boa, 1:ruim).
rinse.dat: voluntrio, perodo (1:incio, 2:aps 3 meses, 3:aps 6 meses),

tratamento (1:placebo, 2:rinse A, 3:rinse B) e escore.
412
Bibliografia
Agresti A. (1990). Categorical Data Analysis. John Wiley, New York.
Aitkin, M.; Anderson, D. A.; Francis, B e Hinde, J. P. (1989). Statistical

Modelling in Glim. Clarendom Press, Oxford.
Akaike, H. (1974). A new look at statistical model identification. IEEE

Transactions on Automatic Control AU-19 716-722.
Aranda-Ordaz, F. J. (1981). On two families of transformations to additi-

vity for binary response data. Biometrika 68, 357-364.
Armitage, P. (1955). Test for linear trend in proportions and frequencies.

Biometrics 11, 375-386.
Armitage, P. (1971). Statistical Methods in Medical Research. Blackwell

Scientific Publications, Oxford.
Atkinson, A. C. (1981). Two graphical display for outlying and influential

observations in regression. Biometrika 68, 13-20.
Atkinson, A. C. (1985). Plots, Transformations and Regressions. Oxford

Statistical Science Series, Oxford.
413
Bibliografia
Beckman R. J.; Nachtsheim, C. J. e Cook, R. D. (1987). Diagnostics for

mixed-model analysis of variance. Technometrics 29, 413-426.
Belsley, D. A.; Kuh, E. e Welsch, R. E. (1980). Regression Diagnostics.

John Wiley, New York.
Bliss, C. I. (1935). The calculation of the dosage-mortality curve. Annals

of Applied Biology 22, 134-167.
Bishop, Y. M. M.; Fienberg, S. E. e Holland, P. W. (1975). Discrete Mul-

tivariate Analysis: Theory and Practice. MIT Press, Cambridge.
Boice, J. D. e Monson, R. R. (1977). Breast cancer in women after repeated

fluoroscopic examinations of the chest. Journal of the National Cancer
Institute 59, 823-832.
Box, G. E. P. e Cox, D. R. (1964). An analysis of transformations (with

discussion). Journal of the Royal Statistical Society B 26, 211-252.
Breslow, N. E. e Clayton, D. G. (1993). Approximate inference in generali-

zed linear mixed models. Journal of the American Statistical Associa-
tion 88, 9-25.
Breslow N. E. e Day, N. E. (1980). Statistical Methods in Cancer Rese-

arch, Vol. I, The Analysis of Case-Control Studies. IARC Scientific
Publications, International Agency for Research on Cancer, Lyon.
Breslow, N. E. e Day, N. E. (1987). Statistical Methods in Cancer Research,

Vol. II, The Design and Analysis of Cohort Studies. IARC Scientific
Publications, International Agency for Research on Cancer, Lyon.
Buse, A. (1982). The likelihood ratio, Wald and Lagrange multiplier tests:
an expository note. The American Statistician 36, 153-157.
414
Bibliografia
Cardoso-Neto, J. e Paula, G. A. (2001). Wald one-sided test using generali-

zed estimating equations approach. Computational Statistics and Data
Analysis 36, 475-495.
Casella, G. e Straederman, W. E. (1980). Confidence bands for linear re-

gression with restricted preditor variables. Journal of the American
Statistical Association 75, 862-868.
Chatterjee, S. e Hadi, A. S. (1988). Sensitivity Analysis in Linear Regres-

sion. New York: Wiley.
Collett, D. (1991). Modelling Binary Data. Chapman and Hall, London.
Cook, R. D. (1977). Detection of influential observations in linear regressi-

ons. Technometrics 19, 15-18.
Cook, R. D. (1987). Influence assessment. Journal of Applied Statistics 14,

117-131.
Cook, R. D. (1986). Assessment of local influence (with discussion). Journal

of the Royal Statistical Society B 48, 133-169.
Cook, R. D.; Pea, D. e Weisberg, S. (1988). The likelihood displacement:

A unifying principle for influence measures. Communications in Sta-
tistics, Theory and Methods 17, 623-640
Cook, R. D. e Weisberg, S. (1982). Residuals and Influence in Regression.

Chapman and Hall, London.
Cordeiro, G. M. (1986). Modelos Lineares Generalizados. Livro texto de

minicurso, VII Simpsio Nacional de Probabilidade e Estatstica, UNI-
CAMP, Campinas, SP.
415
Bibliografia
Cordeiro, G. M. e McCullagh, P. (1991). Bias correction in generalized

linear models. Journal of the Royal Statistical Society B 53, 629-643.
Cordeiro, G. M.; de P. Ferrari, S. L. e Paula, G. A. (1993). Improved score

tests for generalized linear models. Journal of the Royal Statistical
Society B 55, 661-674.
Cordeiro, G. M.; Paula, G. A. e Botter, D. A. (1994). Improved likelihood

ratio tests for dispersion models. International Statistical Review 62,
257-274.
Cordeiro, G. M. e Paula, G. A. (1989a). Improved likelihood ratio statistics

for exponential family nonlinear models. Biometrika 76, 93-100.
Cordeiro, G. M. e Paula, G. A. (1989b). Modelos de Regresso para a

Anlise de Dados Univariados. Livro texto de minicurso, 17o Colquio
Brasileiro de Matemtica, IMPA, Rio de Janeiro.
Cordeiro, G. M. e Paula, G. A. (1992). Estimation, large-sample para-

metric tests and diagnostics for non-exponential family nonlinear mo-
dels. Communications in Statististics - Simulation and Computation
21, 149-172.
Cornfield, J. (1951). A method of estimating comparative rates from clinical

data. Applications to cancer of the lung, breast and crevix. Journal of
the National Cancer Institute 11, 1269-1275.
Cornfield, J. (1956). A statistical problem arising from retrospective studies.

In: Proceedings of the Third Berkeley Symposium, Berkeley, University
of California Press, pgs. 133-148.
Cox, D. R. (1970). The Analysis of Binary Data. Methuen, London.
416
Bibliografia
Cox, D. R. (1972). Regression models and life tables (with discussion).

Journal of the Royal Statistical Society B 74, 187-220.
Cox, D. R. e Hinkley, D. V. (1974). Theorical Statistics. Chapman and

Hall, London.
Cox, D. R. e Oakes, D. (1984). Analysis of Survival Data. Chapman and

Hall, London.
Cox, D. R. e Snell, E. J. (1968). A general definition of residuals (with

discussion). Journal of the Royal Statistical Society B 30, 248-275.
Cox, D. R. e Snell, E. J. (1989). The Analysis of Binary Data, 2nd Edition.

Davison, A. C. e Gigli, A. (1989). Deviance residuals and normal scores

plots. Biometrika 76, 211-221.
Davison, A.C. e Tsai, C-L. (1992). Regression model diagnostics. Interna-

tional Statistical Review 60, 337-353.
Day, N. E. e Byar, D. P. (1979). Testing hypothesis in case-control studies-

equivalence of Mantel-Haenszel statistics and logit score tests. Biome-
trics 35, 623-630.
de Souza, F. A. M. e Paula, G. A. (2002). Deviance residuals for an angular

response. Australian and New Zealand Journal of Statistics 44, 345-
356.
Diggle, P. J.; Liang, K. Y. e Zeger, S. L. (1994). Analysis of Longitudinal

Data. Oxford University Press.
417
Bibliografia
Dixon, W. J. (1987). BMDP Statistical Software. University of California

Press, Berkeley.
Efron, B. (1988). Logistic regression, survival analysis and the Kaplan-

Meier curve. Journal of the American Statistical Association 83, 414-
425..
Emerson, J. D.; Hoaglin, D. C. and Kempthorne, P. J. (1984). Leverage in

least squares additive-plus-multiplicative fits for two-way tables. Jour-
nal of the American Statistical Association 79, 329-335.
Escobar, L. A. e Meeker, W. Q. (1992). Assessing influence in regression

analysis with censored data. Biometrics 48, 507-528.
Everitt, B. S. (1977). The Analysis of Contingency Tables. Chapman and

Hall, London.
Everitt, B. S. (1994). A Handbook of Statistical Analysis using S-Plus.

Fahrmeir, L. e Kaufmann, H. (1985). Consistency and asymptotic norma-

lity of the maximum likelihood estimator in generalized linear models.
Annals of Statistics 13, 342-368.
Fahrmeir, L. e Klinger, J. (1994). Estimating and testing generalized linear

models under inequality constraints. Statistical Papers 35, 211-229.
Farhrmeir, L. e Tutz, G. (1994). Multivariate Statistical Modelling based on

Generalized Linear Models. Springer, New York.
Feigl, P. e Zelen, M. (1965). Estimation of exponential survival probabilities

with concomitant information. Biometrics 21, 826-838.
418
Bibliografia
Finney, D. J. (1971). Probit Analysis, 3rd. Edition. Cambridge University

Press, Cambridge.
Finney, D. J. (1978). Statistical Methods in Biological Assay, 3rd. Edition.

Cambridge University Press, Cambridge.
Fieller, E. C. (1954). Some problems in interval estimation. Journal of the

Royal Statistical Society B 16, 175-185.
Fung, W. K. (1993). Unmasking outliers and leverage points: A Confirma-

tion. Journal of the American Statistical Association 88, 515-519.
Fung, W. K. e Kwan, C. W. (1997). A note on local influence based on

normal curvature.Journal of the Royal Statistical Society B 59, 839-
843.
Galea, M.; Paula, G. A. e Bolfarine, H. (1997). Local influence in elliptical

linear regression models. The Statistician 46, 71-79.
Galea, M.; Paula, G. A. e Uribe-Opazo, M. (2003). On influence diagnostic

in univariate elliptical linear regression models. Statistical Papers 44,
23-45.
Galea, M.; Riquelme, M. e Paula, G. A. (2000). Diagnostic methods in

elliptical linear regression models. Brazilian Journal of Probability and
Statistics 14, 167-184.
Galves, J. A.; Paula, G. A. e Goebbels, M. (1998). Relatrio de An-

lise Estatstica sobre o Projeto: Evoluo Temporal da Variao Pr-
clise/nclise no Portugus Clssico. RAECEA-9810, IME-USP.
Gray, J. B. (1989). On the use of regression diagnostics. The Statistician

38, 97-105.
419
Bibliografia
Gu, H. e Fung, W. K. (1998). Assessing local influence in canonical corre-

lation analysis. Annals of the Institute of Statistical Mathematics 50,
755-772.
Hadgu, A. e Koch, G. (1999). Application of generalized estimating equati-

ons to a dental randomized clinical trial. Journal of Biopharmaceutical
Statistics 9, 161-178.
Hand, D. J.; Daly, F.; Lunn, A. D.; McConway, K. J. e Ostrowski, E. (1994).

A Handbook of Small Data Sets. Chapman and Hall, London.
Hannan, J. e Harkness, W. (1963). Normal approximation to the distribu-

tion of two independent binomials, conditional to the sum. Annals of
Mathematical Statistics 34, 1593-1595.
Hastie, T. e Tibshirani, R. (1990). Generalized Additive Models. Chapman

and Hall, London.
Hinde, J. (1982). Compoud poisson regression models. In R. Gilchrist Ed.,

GLIM82, pgs. 109-121. Springer, New York.
Hinde, J. e Demtrio, C. G. B (1998). Overdispersion: model and estima-

tion. Computational Statistics and Data Analysis 27, 151-170.
Hoaglin, D. C. e Welsch, R. E. (1978). The hat matrix in regression and

ANOVA. The American Statistician 32, 17-22.
Hosmer, D. W. e Lemeshow, S. (1989). Applied Logistic Regression. John

Wiley, New York.
Innes, J. R. M.; Ulland, B. M.; Valerio, M. G.; Petrucelli, L.; Fishbein, L.;
Hart, E. R.; Pallota, A. J.; Bates, R. R.; Falk, H. L.; Gart, J. J.; Klein,
420
Bibliografia
M.; Mitchell, I. e Peters, J. (1969). Biossay of pesticides and industrial

chemicals for tumorigenicity in mice: A preliminary note. Journal of
the National Cancer Institute 42, 1101-1114.
Jrgensen, B. (1983). Maximum likelihood estimation and large-sample in-

ference for generalized linear and nonlinear regression models.Biometrika
70, 19-28.
Jrgensen, B. (1987). Exponential dispersion models (with discussion).

Journal of the Royal Statistical Society B 49, 127-162.
Jrgensen, B. (1996). The Theory of Dispersion Models. Chapman and

Hall, London.
Kim, M. G. (1995). Local influence in multivariate regression. Communi-

cations in Statistics, Theory Methods 20, 1271-1278.
Kwan, C. W. e Fung, W. K. (1998). Assessing local influence for specific

restricted likelihood: Applications to factor analysis. Psychometrika
63, 35-46.
Lawless, J. F. (1982). Statistical Models and Methods for Lifetime Data.

John Wiley, New York.
Lawless, J. F. (1987). Negative binomial and mixed Poisson regression. The

Canadian Journal of Statistics 15, 209-225.
Lawrence, A. J. (1988). Regression transformation diagnostics using local

influence. Journal of the American Statistical Association 84, 125-141.
Lee, E. T. (1991). Statistical Methods for Survival Data Analysis, Second

Edition. John Wiley, New York.
421
Bibliografia
Lee, Y. e Nelder, J. A. (1996). Hierarchical generalized linear models. Jour-

nal of the Royal Statistical Society B 58, 619-678.
Lee, Y. e Nelder, J. A. (2001). Hierarchical generalised linear models: a

synthesis of generalised linear models, random-effect models and struc-
tured dispersions. Biomerika 88, 987-1006.
Leemis, L. M. e Trivedi, K. S. (1996). A comparison of aproximate interval

estimators for the Bernoulli parameter. The American Statistician 50,
63-68.
Liang, K. Y. e Zeger, S. L. (1986). Longitudinal data analysis using gene-

ralized linear models. Biometrika 73, 13-22.
Liu, S. Z. (2000). On local influence for elliptical linear models. Statistical

Papers 41, 211-224.
Mantel, N. (1963). Chi-square tests with one degree of freedom: extensions

of the Mantel-Haenszel procedure. Journal of the American Statistical
Association 58, 690-700.
Mantel, N. e Haenszel, B. F. (1959). Statistical aspects of the analysis of

the data from retrospective studies of disease. Journal of the National
Cancer Institute 22, 719-748.
McCullagh, P. (1983). Quasi-likelihood functions. Annals of Statistics 11,

59-67.
McCullagh, P. (1987). Tensor Methods in Statistics. Chapman and Hall,

London.
McCullagh, P. e Nelder, J. A. (1989). Generalized Linear Models, 2nd.

Edition. Chapman and Hall, London.
422
Bibliografia
McCulloch, C. E. e Searle, S. R. (2001). Linear and Generalized Linear

Mixed Models. Wiley, New York.
Milicer, H. e Szczotka, F. (1966). Age at menarche in Warsaw girls in 1965.

Human Biology 38, 199-203.
Montgomery, D. C.; Peck, E. A. e Vining, G. G. (2001). Introduction to

Linear Regression Analysis, Third Edition. John Wiley, New York.
Myers, R.H.; Montgomery, D. C. e Vining, G. G. (2002). Generalized Li-

near Models: With Applications in Engineering and the Sciences. John
Wiley, New York.
Moolgavkar, S. H.; Lustbader, E. D. e Venzon, D. J. (1984). A geome-

tric approach to non-linear regression diagnostics with application to
matched case-control studies. Annals of Statistics 12, 816-826.
Morgan, B. J. T. (1992). Analysis of Quantal Response Data. Chapman

and Hall, London.
Narula, S. C. e Stangenhaus, G. (1988). Anlise de Regresso L1 . Notas de

minicurso do VIII Simpsio Nacional de Probabilidade e Estatstica,
IMPA, Rio de Janeiro, RJ.
Nelder, J. A. e Pregibon, D. (1987). An extended quasi-likelihood function.

Biometrika 74, 221-232.
Nelder, J. A. e Wedderburn, R. W. M. (1972). Generalized linear models.

Journal of the Royal Statistical Society A 135, 370-384.
Neter, J.; Kutner, M. H.; Nachtsheim, C. J. e Wasserman, W.(1996). Ap-

plied Linear Regression Models, 3rd Edition. Irwin, Illinois,
423
Bibliografia
Nyquist, H. (1991). Restricted estimation of restricted generalized linear

models. Applied Statistics 40, 133-141.
OHara Hines, R. J.; Lawless, J. F. e Carter, E. M. (1992). Diagnostics

for a cumulative multinomial generalized linear model with applica-
tion to grouped toxicological mortality data. Journal of the American
Ortega, E. M. M.; Bolfarine, H. e Paula, G. A. (2003). Influence diagnostic

in generalized log-gamma regression models. Computational Statistics
and Data Analysis 42, 165-186.
Palmgren, J. (1981). The Fisher information matrix for log linear models
against conditionally on observed explanatory variables. Biometrika
68, 563-566.
Pan, J. X.; Fang, K. T. e von Rosen (1997). Local influence assessment

in the growth curve model with unstructured covariance. Journal of
Statistical Planning and Inference 62, 263-278.
Park, T. P.; Shin, D. W. e Park, C. G. (1998). A generalized estimating

equations approach for testing ordered group effects with repeated me-
asurements. Biometrics 54, 1645-1653.
Paula, G. A. (1993). Assessing local influence in restricted regression mol-

dels. Computational Statistics and Data Analysis 16, 63-79.
Paula, G. A. (1995). Influence and residuals in restricted generalized linear

models. Journal of Statistical Computation and Simulation 51, 315-
352.
424
Bibliografia
Paula, G. A. (1996). Influence diagnostic in proper dispersion models. Aus-

tralian Journal of Statistics 38, 307-316.
Paula, G. A. (1997). Estimao e Testes em Modelos de Regresso com Pa-

rametros Restritos. Livro texto de minicurso da 5a Escola de Modelos
de Regresso, realizada de 26 a 28-02-97 em Campos do Jordo, SP.
Paula, G. A. (1999). Leverage in inequality constrained regression models.

The Statistician 48, 529-538.
Paula, G. A. e Artes, R. (2000). One-sided test to assess correlation in

logistic linear models using estimating equations. Biometrical Journal
42, 701-714.
Paula, G. A.; Barbosa, L. S. e Ferreira, R. F. G. (1989). Relatrio de Anlise

Estatstica sobre o Projeto: Comportamento Biolgico Evolutivo do
Tumor KB no Decorrer de suas Passagens Seriadas em Ratos Nude
Adultos. RAE-CEA8904, IME-USP.
Paula, G. A. e Cordeiro, G. M. (1986). Alguns modelos no-lineares via o

Glim. Atas do VII Simpsio Nacional de Probabilidade e Estatstica,
UNICAMP, So Paulo, pp. 204-217.
Paula, G. A.; Denaro-Machado, L.; Ogata, T. T.; Machado, J. C.; Matta,

M. S. e Petrella, S. M. C. N. (1992). Caquexia cancerosa em modelo
experimento rato nude atmico/tumor humano KB. Revista Laes Haes
76, 28-30.
Paula, G. A. e Oshiro, C. H. (2001). Relatrio de Anlise Estatstica sobre

o Projeto: Anlise de Captura por Unidade de Esforo do Peixe-Batata
na Frota Paulista. RAE-CEA0102, IME-USP.
425
Bibliografia
Paula, G. A. e Peres, C. A. (1988). Diagnostics for GLMs with linear ine-

quality parameter constraints. Communications in Statistics, Theory
and Methods 17, 4205-4219.
Paula, G. A. e Tuder, R. M. (1986). Utilizao da regresso logstica para

aperfeioar o diagnstico de processo infeccioso pulmonar. Revista Ci-
ncia e Cultura 40, 1046-1050.
Paula, G. A.; Sevanes, M. e Ogando, M. A. (1988). Relatrio de Anlise

Estatstica sobre o Projeto: Estudo de Plantas Brasileiras com Efeito
Moluscicida em Biomphalaria Glabrata. RAE-CEA8824, IME-USP.
Paula, G. A. e Sen, P. K. (1995). One-sided tests in generalized linear

models with parallel regression lines. Biometrics 51, 1494-1501.
Paula, G. A. e Tavares, H. R. (1992). Relatrio de Anlise Estatstica

sobre o Projeto: caros Associados ao Esterco Bovino. Subsdios para
Controle Biolgico da Mosca do Chifre. RAECEA 9206, IME-USP
Peduzzi, P. N.; Hardy, R. J. e Holford, T. T. (1980). A stepwise variable

selection procedure for nonlinear regression models. Biometrics 36,
511-516.
Pea, D. e Yohai, V. (1999). A fast procedure for outlier diagnostics in large

regression problems. Journal of the American Statistical Association
94, 434-445.
Pettitt, A. N. e Bin Daud, I. (1989). Case-weight measures of influence for

proportional hazards regression. Applied Statistics 38, 51-67.
Piegorsch, W. W. e Casella, G. (1988). Confidence bands for logistic re-

gression with restricted predictor variables. Biometrics 44, 739-750.
426
Bibliografia
Pregibon, D. (1981). Logistic regression diagnostics. Annals of Statistics 9,

705-724.
Pregibon, D. (1982). Score tests in GLIM with applications. Lecture Notes

in Statistics 14, 87-97. Springer-Verlag, New York.
Pregibon, D. (1984). Data analytic methods for matched case-control stu-

dies. Biometrics 40, 639-651.
Ramanathan, R. (1993). Statistical Methods in Econometrics. Wiley, New

York.
Rao, C. R. (1973). Linear Statistical Inference and Its Applications, Second

Edition. Wiley, New York.
Ratkowsky, D. A. (1983). Nonlinear Regression Modelling. Marcel Dekker,

New York.
Ross, W. H.(1987). The geometry of case deletion and the assessment of

influence in nonlinear regression. Canadian Journal of Statistics 15,
91-103.
Ryan, B. F. e Joiner, B. L. (1994). Minitab Handbook, Third Edition. Dux-

bury Press, Belmont.
Seber, G. A. F. e Wild, C. J. (1989). Nonlinear Regression. John Wiley,

New York.
Sen, P. K. e Singer, J. M. (1993). Large Sample Methods in Statistics: An

Introduciton with Applications. Chapman and Hall, London.
Silva, G. L. (1992). Modelos Logsticos para Dados Binrios. Dissertao

de Mestrado, IME-USP.
427
Bibliografia
Spector, P. (1994). An Introduction to S and S-Plus. Duxbury Press, Bel-

mont.
St. Laurent, R. T. e Cook, R. D. (1992). Leverage and superleverage in

nonlinear regression. Journal of the American Statistical Association,
87, 985-990.
Stukel, T. A. (1988). Generalized logistic models. Journal of the American

Svetliza, C. F. (2002). Modelos No-Lineares com Resposta Binomial Ne-

gativa. Tese de Doutorado, IME-USP.
Svetliza, C. F. e Paula, G. A. (2001). On diagnostics in log-linear negative

binomial models. Journal of Statistical Computation and Simulation
71, 231-244.
Svetliza, C. F. e Paula, G. A. (2003). Diagnostics in nonlinear negative

binomial models. Communications in Statistics, Theory Methods 32,
1227-1250.
Thomas, W. e Cook, R. D. (1990). Assessing influence on predictions from

generalized linear models. Technometrics 32, 59-65.
Tsai,C. H. e Wu, X. (1992). Assessing local influence in linear regression mo-

dels with first-order autoregressive or heteroscedastic error structure.
Statistics and Probability Letters 14, 247-252.
Venables, W. N. e Ripley, B. D. (1999). Modern Applied Statistics with

S-Plus, Third Edition. Springer, New York.
Wang, P. C. (1985). Adding a variable in generalized linear models. Tech-

nometrics 27, 273-276.
428
Bibliografia
Wedderburn, R. W. M. (1974). Quasi-likelihood functions, generalized li-

near models and the Gauss-Newton method. Biometrika 61, 439-447.
Wedderburn, R. W. M. (1976). On the existence and uniqueness of the

maximum likelihood estimates for certain generalized linear models.
Biometrika 68, 27-32.
Wei, B. C. (1998). Exponential Family Nonlinear Models. Lecture Notes in

Statistics Vol. 130. Springer, New York.
Wei, B.C.; Hu, Y.Q. e Fung, W.K. (1998). Generalized leverage and its
applications. Scandinavian Journal of Statistics 25, 25-37.
Williams, D. A. (1984). Residuals in generalized linear models. In: Pro-

ceedings of the 12th. International Biometrics Conference, Tokyo, pp.
59-68.
Williams, D. A. (1987). Generalized linear model diagnostic using the de-

viance and single case deletion. Applied Statistics 36, 181-191.
Wolf, (1955). On estimating the relationship between blood group and

disease. Annals of Human Genetic 19, 251-253.
Wood, F. S. (1973). The use of individual effects and residuals in fitting

equations to data. Technometrics 15, 677-687.
429

Texto 2013

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Texto 2013

Uploaded by

Copyright:

Available Formats

MODELOS DE REGRESSO

com apoio computacional

A rea de modelagem estatstica de regresso recebeu um grande impulso

tatstica e que tenham conhecimentos de regresso linear. Portanto, trata-se

procedimentos tradicionais para a anlise de tabelas de contigncia 2 2

equaes de estimao generalizadas para a anlise de dados correlacionados

1 Modelos Lineares Generalizados 1

1.6.3 Distribuio assinttica . . . . . . . . . . . . . . . . . . 27

1.11.2 Extenso para os MLGs . . . . . . . . . . . . . . . . . 79

2 Modelos para Dados Positivos Assimtricos 114

2.8.2 Projeo de vendas . . . . . . . . . . . . . . . . . . . . 158

3 Modelos para Dados Binrios 183

3.6.8 Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 218

4 Modelos para Dados de Contagem 281

4.4 Relao entre a multinomial e a Poisson . . . . . . . . . . . . 325

5 Modelos de Quase-Verossimilhana 351

5.5.2 Condio Respiratria . . . . . . . . . . . . . . . . . . 386

Modelos Lineares Generalizados

Durante muitos anos os modelos normais lineares foram utilizados na ten-

sendo uma constante desconhecida. O objetivo da transformao de Box

raramente ocorre para um nico valor de (Box e Draper, 1987).

com), R (http://www.r-project.org), SAS(http://www.sas.com), STATA

Sejam Y1 , . . . , Yn variveis aleatrias independentes, cada uma com funo

f (yi ; i , ) = exp[{yi i b(i )} + c(yi , )]. (1.1)

Podemos mostrar sob as condies usuais de regularidade

i, que E(Yi ) = i = b (i ) e Var(Yi ) = 1 V (i ), em que Vi = V (i ) =

Ou seja, para grande Y segue distribuio aproximadamente normal de

em que i = xTi o preditor linear, = (1 , . . . , p )T , p < n, um

1.2.1 Casos particulares

em que < , y < e 2 > 0. Logo, para = , b() = 2 /2, = 2 e

e y /y! = exp{ylog logy!},

em que > 0 e y = 0, 1, . . .. Fazendo log = , b() = e , = 1 e

probabilidades de Y fica ento expressa na forma

em que 0 < , y < 1. Obtemos (1.1) fazendo = n, = log{/(1 )},

em que y > 0, > 0. Fazendo = 21 2 , b() = (2)1/2 e c(y, ) =

1.3 Ligaes cannicas

Supondo conhecido, o logaritmo da funo de verossimilhana de um MLG

Um caso particular importante ocorre quando o parmetro cannico () coin-

L() fica dado por

Logo, pelo teorema da fatorizao a estatstica S = (S1 , . . . , Sp )T suficiente

Distribuio Normal Binomial

1.3.1 Outras ligaes

em que () a funo de distribuio acumulada da normal padro.

Ligao complemento log-log

em que < y < . Logo, a funo de distribuio acumulada fica dada

Figura 1.1: Funo de distribuio acumulada das curvas logstica e do valor

O modelo binomial com ligao complemento log-log definido tal que

A ligao logito definida de forma similar. A funo densidade da

para 6= 0 e = log para 0. A ideia agora aplicarmos a transfor-

Figura 1.2: Ligao de Box-Cox para alguns valores de .

invs de transformarmos a prpria varivel resposta. Temos na Figura 1.2 o

Figura 1.3: Ligao de Aranda-Ordaz para alguns valores de .

complemento log-log. Na Figura 1.3 temos o comportamento de para alguns

1.4 Funo desvio

Sem perda de generalidade, vamos supor que o logaritmo da funo de ve-

em que i = g 1 (i ) e i = xTi . Para o modelo saturado (p = n) a funo

Ou seja, a estimativa de mxima verossimilhana de i fica nesse caso dada

D (y; ) = D(y; ) = 2{L(y; y) L(; y)},

que uma distncia entre o logaritmo da funo de verossimilhana do mo-

Apresentamos a seguir a funo desvio para alguns casos particulares.

que coincide com a soma de quadrados de resduos.

Se yi = 0 o i-simo termo de D(y; ) vale 2i . Resumindo, temos o seguinte

Todavia, quando yi = 0 ou yi = ni , o i-simo termo de D(y; ) vale 2ni log(1