Modelos de Regressão Com Apoio Computacional

MODELOS DE REGRESSO
com apoio computacional

Gilberto A. Paula
Instituto de Matemtica e Estatstica
Universidade de So Paulo
e-mail:giapaula@ime.usp.br
Prefcio
A rea de modelagem estatstica de regresso recebeu um grande impulso
desde a criao dos modelos lineares generalizados (MLGs) no incio da d-
cada de 70. O crescente interesse pela rea motivou a realizao de vrios
encontros informais no incio dos anos 80, a maioria deles na Inglaterra, at
que em 1986 foi realizado na cidade de Innsbruck na ustria o 1st Internati-
onal Workshop on Statistical Modelling(1st IWSM). Esse encontro tem sido
realizado anualmente sendo que o ltimo (25th IWSM) aconteceu em julho
de 2010 na Universidade de Glasgow, Esccia. O 26th IWSM ser realizado
em julho de 2011 em Valncia, Espanha. No Brasil a rea comeou efetiva-
mente a se desenvolver a partir de meados da dcada de 80 e em particular
aps a 1
a
Escola de Modelos de Regresso (1EMR) realizada na Universi-
dade de So Paulo em 1989. As demais escolas ocorreram desde ento a cada
dois anos sendo que a ltima (11EMR) foi realizada em maro de 2009 na
cidade de Recife, PE. A 12EMR ser realizada em maro de 2011 na cidade
de Fortaleza, CE.
Este texto comeou a ser desenvolvido a partir de 1994 quando a dis-
ciplina Modelos Lineares Generalizados passou a ser ministrada regular-
mente no programa de ps-graduao em Estatstica do IME-USP. Uma ver-
so preliminar deste texto foi publicada em 2004 no IME-USP. O texto
i
direcionado para alunos que tenham cursado um semestre de inferncia es-
tatstica e que tenham conhecimentos de regresso linear. Portanto, trata-se
de um segundo curso de modelagem estatstica de regresso com um enfoque
inferencial bsico e vrias aplicaes. O texto tem sido tambm utilizado na
disciplina Tpicos de Regresso ministrada aos alunos do ltimo ano do
Bacharelado em Estatstica do IME-USP.
No Captulo 1 introduzimos a classe dos modelos lineares generalizados
juntamente com alguns conceitos bsicos. Em seguida discutimos a estimao
dos parmetros, propriedades assintticas dos estimadores de mxima veros-
similhana e a aplicao de alguns testes estatsticos mais conhecidos. Uma
reviso abrangente de mtodos de diagnstico apresentada na sequncia, em
que denimos pontos de alavanca e discutimos anlise de resduos, mtodos
de deleo de pontos e inuncia local, dentre outros procedimentos. Discu-
timos tambm a seleo de modelos. Sempre que possvel as metodologias
so apresentadas em separado para os modelos normais lineares e posterior-
mente estendidas para toda a classe dos MLGs. O captulo concludo com
a anlise de 6 conjuntos de dados atravs de MLGs apropriados.
O Captulo 2 dedicado aos modelos com resposta gama e resposta
normal inversa para a anlise de dados assimtricos positivos. Inicialmente
abordamos os modelos com resposta gama e apresentamos alguns resultados
inferenciais e tcnicas de diagnstico. Trs conjuntos de dados so analisados.
Em seguida, alguns modelos usualmente aplicados em Econometria so dis-
cutidos e um exemplo apresentado. Em seguida so discutidos modelos com
resposta normal inversa, alguns resultados tericos so apresentados e 2 con-
juntos de dados so analisados. No nal do captulo discutimos MLGs duplos,
em que a mdia e a disperso so ajustados simultneamente. Apresentamos
o processo de estimao conjunto, alguns procedimentos de diagnstico e um
exemplo ilustrativo.
No Captulo 3 discutimos modelos para a anlise de dados binrios,
ii
com nfase para os modelos logsticos lineares. Inicialmente uma reviso de
procedimentos tradicionais para a anlise de tabelas de contigncia 2 2
apresentada. Duas aplicaes so descritas nesta primeira parte do captulo.
Em seguida abordamos o modelo logstico linear. Alguns procedimentos so
revisados, tais como seleo de modelos, anlise de dados retrospectivos, qua-
lidade do ajuste e tcnicas de diagnstico. Quatro conjuntos de dados so
analisados. Discutimos no nal do captulo modelos de dose-resposta, sobre-
disperso e modelos logsticos aplicados na anlise de dados emparelhados e
mais quatro aplicaes so apresentadas.
No Captulo 4 abordamos alguns modelos para a anlise de dados de
contagem, com destaque para modelos com resposta de Poisson e modelos
com resposta binomial negativa. Inicialmente apresentamos uma reviso de
metodologias tradicionais para a anlise da tabelas de contingncia do tipo
22 com dados de contagem. Uma aplicao apresentada. Em seguida dis-
cutimos modelos de Poisson para a anlise de dados de seguimento e modelos
log-lineares de Poisson. Dois exemplos so apresentados. Na sequncia so
derivados modelos com resposta binomial negativa para a anlise de dados
de contagem com sobredisperso. Um processo iterativo para a estimao
dos parmetros, resultados assintticos e metodologias de diagnstico so
apresentados, bem como 3 aplicaes. Finalmente, modelos log-lineares com
resposta de Poisson so comparados com modelos log-lineares com resposta
multinomial, sendo 2 conjuntos de dados analisados.
O Captulo 5 dedicado aos modelos de quase-verossimilhana e s
equaes de estimao generalizadas. Iniciamos o captulo com a introdu-
o do conceito de quase-verossimilhana. Em seguida so apresentados os
modelos de quase-verossimilhana para respostas independentes juntamente
com o processo de estimao, alguns resultados assintticos e tcnicas de
diagnstico. Duas aplicaes so apresentadas. Na sequncia derivamos as
equaes de estimao generalizadas para a anlise de dados correlacionados
iii
no gaussianos. Apresentamos o processo de estimao, alguns resultados
assintticos e metodologias de diagnstico. Esse subtpico ilustrado com 3
aplicaes. No Apndice A so descritos os conjuntos de dados usados nas
aplicaes e nos exerccios propostos. Subrotinas para a gerao de envelopes
em so apresentadas no Apndice B para os principais MLGs.
No nal de cada captulo so propostos exerccios tericos e aplica-
dos e ao longo do texto so apresentados programas especiais e subrotinas
em R, particularmente na anlise dos exemplos. Procuramos diversicar as
aplicaes com conjuntos de dados das diversas reas do conhecimento, tais
como Agricultura, Biologia, Cincias Atuariais, Cincias Sociais, Economia,
Engenharia, Geograa, Medicina, Nutrio, Pesca e Odontologia. Parte dos
conjuntos de dados so oriundos de trabalhos desenvolvidos no Centro de
Estatstica Aplicada (CEA) do IME-USP.
A pgina na Web onde esto disponveis informaes sobre este texto,
os conjuntos de dados utilizados nos exemplos e exerccios, alguns programas
especcos e uma apostila sobre R, est no seguinte endereo:
http://www.ime.usp.br/giapaula/mlgs.html.
Finalizando, gostaramos de agradecer aos alunos que cursaram as
disciplinas Modelos Lineares Generalizados e Tpicos de Regresso e
muito contribuiram com suas sugestes para o aprimoramento dos primeiros
manuscritos.
So Paulo, dezembro de 2010
Gilberto A. Paula
e-mail:giapaula@ime.usp.br
iv
Sumrio
1 Modelos Lineares Generalizados 1
1.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Denio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Casos particulares . . . . . . . . . . . . . . . . . . . . . 5
1.3 Ligaes cannicas . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Outras ligaes . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Funo desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Resultados assintticos . . . . . . . . . . . . . . . . . . 15
1.4.2 Anlise do desvio . . . . . . . . . . . . . . . . . . . . . 16
1.5 Funo escore e informao de Fisher . . . . . . . . . . . . . . 20
1.5.1 Escore e Fisher para . . . . . . . . . . . . . . . . . . 20
1.5.2 Escore e Fisher para . . . . . . . . . . . . . . . . . . 22
1.5.3 Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . 22
1.5.4 Casos particulares . . . . . . . . . . . . . . . . . . . . . 23
1.6 Estimao dos parmetros . . . . . . . . . . . . . . . . . . . 25
1.6.1 Estimao de . . . . . . . . . . . . . . . . . . . . . 25
1.6.2 Estimao de . . . . . . . . . . . . . . . . . . . . . . 26
1.6.3 Distribuio assinttica . . . . . . . . . . . . . . . . . . 27
1.7 Teste de hipteses . . . . . . . . . . . . . . . . . . . . . . . . 28
v
SUMRIO
1.7.1 Hipteses simples . . . . . . . . . . . . . . . . . . . . . 28
1.7.2 Modelos encaixados . . . . . . . . . . . . . . . . . . . . 32
1.7.3 Modelo de anlise de varincia . . . . . . . . . . . . . . 37
1.7.4 Regresso linear simples . . . . . . . . . . . . . . . . . 38
1.7.5 Hipteses restritas . . . . . . . . . . . . . . . . . . . . 39
1.8 Bandas de conana . . . . . . . . . . . . . . . . . . . . . . . 40
1.8.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 40
1.8.2 Extenso para os MLGs . . . . . . . . . . . . . . . . . 41
1.9 Tcnicas de diagnstico: Modelo normal linear . . . . . . . . . 41
1.9.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.9.2 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 45
1.9.3 Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.9.4 Outra interpretao para t
i
. . . . . . . . . . . . . . . 51
1.9.5 Inuncia . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.9.6 Ilustrao . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.9.7 Inuncia local . . . . . . . . . . . . . . . . . . . . . . 56
1.9.8 Grco da varivel adicionada . . . . . . . . . . . . . . 63
1.9.9 Tcnicas grcas . . . . . . . . . . . . . . . . . . . . . 64
1.10 Tcnicas de diagnstico: Extenso para os MLGs . . . . . . . 66
1.10.1 Pontos de alavanca . . . . . . . . . . . . . . . . . . . . 66
1.10.2 Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . 68
1.10.3 Inuncia . . . . . . . . . . . . . . . . . . . . . . . . . 72
1.10.4 Inuncia local . . . . . . . . . . . . . . . . . . . . . . 73
1.10.5 Grco da varivel adicionada . . . . . . . . . . . . . . 75
1.10.6 Tcnicas grcas . . . . . . . . . . . . . . . . . . . . . 76
1.11 Seleo de modelos . . . . . . . . . . . . . . . . . . . . . . . . 77
1.11.1 Modelo normal linear . . . . . . . . . . . . . . . . . . . 77
1.11.2 Extenso para os MLGs . . . . . . . . . . . . . . . . . 79
1.12 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
vi
SUMRIO
1.12.1 Estudo entre renda e escolaridade . . . . . . . . . . . . 80
1.12.2 Processo infeccioso pulmonar . . . . . . . . . . . . . . 85
1.12.3 Sobrevivncia de bactrias . . . . . . . . . . . . . . . . 88
1.12.4 Estudo seriado com ratos . . . . . . . . . . . . . . . . . 90
1.12.5 Consumo de combustvel . . . . . . . . . . . . . . . . . 94
1.12.6 Salrio de executivos . . . . . . . . . . . . . . . . . . . 97
1.13 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
2 Modelos para Dados Positivos Assimtricos 114
2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2 Distribuio gama . . . . . . . . . . . . . . . . . . . . . . . . . 115
2.3 Modelos com resposta gama . . . . . . . . . . . . . . . . . . . 118
2.3.1 Qualidade do ajuste . . . . . . . . . . . . . . . . . . . 119
2.3.2 Tcnicas de diagnstico . . . . . . . . . . . . . . . . . . 120
2.4 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
2.4.1 Comparao de cinco tipos de turbina de avio . . . . 121
2.4.2 Espinhel de fundo . . . . . . . . . . . . . . . . . . . . . 127
2.4.3 Aplicao em seguros . . . . . . . . . . . . . . . . . . . 136
2.5 Elasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
2.5.1 Modelo de Cobb-Douglas . . . . . . . . . . . . . . . . . 143
2.5.2 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 144
2.6 Distribuio normal inversa . . . . . . . . . . . . . . . . . . . 146
2.7 Modelos com resposta normal inversa . . . . . . . . . . . . . . 149
2.8 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
2.8.1 Comparao de cinco tipos de snack . . . . . . . . . . 150
2.8.2 Projeo de vendas . . . . . . . . . . . . . . . . . . . . 158
2.9 Modelagem simultnea da mdia e da disperso . . . . . . . . 160
vii
SUMRIO
2.9.1 Estimao . . . . . . . . . . . . . . . . . . . . . . . . . 163
2.9.2 Mtodos de diagnstico . . . . . . . . . . . . . . . . . . 165
2.9.3 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 168
2.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
3 Modelos para Dados Binrios 178
3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
3.2 Mtodos clssicos: uma nica tabela 2 2 . . . . . . . . . . . 179
3.2.1 Risco relativo . . . . . . . . . . . . . . . . . . . . . . . 180
3.2.2 Modelo probabilstico no condicional . . . . . . . . . . 182
3.2.3 Modelo probabilstico condicional . . . . . . . . . . . . 183
3.2.4 Teste de hipteses . . . . . . . . . . . . . . . . . . . . . 187
3.3 Mtodos clssicos: k tabelas 2 2 . . . . . . . . . . . . . . . . 190
3.3.1 Estimao da razo de chances comum . . . . . . . . . 191
3.3.2 Testes de homogeneidade . . . . . . . . . . . . . . . . . 192
3.4 Mtodos clssicos: tabelas 2 k . . . . . . . . . . . . . . . . . 194
3.5 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
3.5.1 Associao entre fungicida e desenvolvimento de tumor 196
3.5.2 Efeito de extrato vegetal . . . . . . . . . . . . . . . . . 198
3.6 Regresso logstica linear . . . . . . . . . . . . . . . . . . . . . 199
3.6.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . 199
3.6.2 Regresso logstica simples . . . . . . . . . . . . . . . . 200
3.6.3 Regresso logstica mltipla . . . . . . . . . . . . . . . 204
3.6.4 Bandas de conana . . . . . . . . . . . . . . . . . . . 205
3.6.5 Seleo de modelos . . . . . . . . . . . . . . . . . . . . 206
3.6.6 Amostragem retrospectiva . . . . . . . . . . . . . . . . 210
3.6.9 Aplicaces . . . . . . . . . . . . . . . . . . . . . . . . . 215
viii
SUMRIO
3.6.10 Modelos de dose-resposta . . . . . . . . . . . . . . . . . 229
3.6.11 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 231
3.6.12 Estimao da dose letal . . . . . . . . . . . . . . . . . 238
3.6.13 Modelos de retas paralelas . . . . . . . . . . . . . . . . 239
3.6.14 Sobredisperso . . . . . . . . . . . . . . . . . . . . . . 242
3.6.15 Modelo logstico condicional . . . . . . . . . . . . . . . 254
3.7 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
4 Modelos para Dados de Contagem 275
4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
4.1.1 Mtodos clssicos: uma nica tabela 2 2 . . . . . . . 276
4.1.2 Estraticao: k tabelas 2 2 . . . . . . . . . . . . . . 282
4.2 Modelos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 284
4.2.1 Propriedades da Poisson . . . . . . . . . . . . . . . . . 284
4.2.2 Modelos log-lineares: k tabelas 2 2 . . . . . . . . . . 285
4.2.3 Modelos gerais de Poisson . . . . . . . . . . . . . . . . 289
4.2.6 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . 293
4.3 Modelos com resposta binomial negativa . . . . . . . . . . . . 297
4.3.1 Distribuio binomial negativa . . . . . . . . . . . . . . 297
4.3.2 Modelos de regresso com resposta binomial negativa . 299
4.3.5 Seleo de modelos . . . . . . . . . . . . . . . . . . . . 305
4.3.6 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 306
4.3.7 Sobredisperso e quase-verossimilhana . . . . . . . . . 315
4.4 Relao entre a multinomial e a Poisson . . . . . . . . . . . . 319
4.4.1 Modelos log-lineares hierrquicos . . . . . . . . . . . . 322
ix
SUMRIO
4.4.2 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 324
4.5 Modelos com excesso de zeros . . . . . . . . . . . . . . . . . . 330
4.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
5 Modelos de Quase-Verossimilhana 339
5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
5.2 Respostas independentes . . . . . . . . . . . . . . . . . . . . . 342
5.2.1 Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . 346
5.3 Classe estendida . . . . . . . . . . . . . . . . . . . . . . . . . . 353
5.4 Respostas correlacionadas . . . . . . . . . . . . . . . . . . . . 355
5.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
5.5.1 Ataques epilpticos . . . . . . . . . . . . . . . . . . . . 359
5.5.2 Condio Respiratria . . . . . . . . . . . . . . . . . . 365
5.5.3 Placas dentrias . . . . . . . . . . . . . . . . . . . . . . 368
5.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
x
Captulo 1
Modelos Lineares Generalizados
1.1 Introduo
Durante muitos anos os modelos normais lineares foram utilizados na ten-
tativa de descrever a maioria dos fenmenos aleatrios. Mesmo quando o
fenmeno sob estudo no apresentava uma resposta para a qual fosse razo-
vel a suposio de normalidade, algum tipo de transformao era sugerida
a m de alcanar a normalidade procurada. Provavelmente a transformao
mais conhecida foi proposta por Box e Cox (1964), a qual transforma o valor
observado y (positivo) em
z =
_
y
se = 0
logy se = 0,
sendo uma constante desconhecida. O objetivo da transformao de Box
e Cox, quando aplicada a um conjunto de valores observados, produzir
aproximadamente a normalidade, a constncia de varincia e tambm a li-
nearidade E(Z) = , em que =
1
+
2
x
2
+ +
p
x
p
. No entanto, isso
1
1.1 Introduo
raramente ocorre para um nico valor de (Box e Draper, 1987).
Com o desenvolvimento computacional ocorrido na dcada de 70, al-
guns modelos que exigiam a utilizao de processos iterativos para a esti-
mao dos parmetros comearam a ser mais aplicados, como por exemplo
o modelo normal no linear. Todavia, a proposta mais interessante e po-
demos dizer inovadora no assunto foi apresentada por Nelder e Wedderburn
(1972), que propuseram os modelos lineares generalizados (MLGs). A ideia
bsica consiste em abrir o leque de opes para a distribuio da varivel
resposta, permitindo que a mesma pertena famlia exponencial de distri-
buies, bem como dar maior exibilidade para a relao funcional entre a
mdia da varivel resposta e o preditor linear . Assim, por exemplo, para
dados de contagem, em vez de aplicarmos a transformao

y no sentido
de buscarmos a normalidade dos dados e constncia de varincia, podemos
supor que a distribuio de Y Poisson e que a relao funcional entre a
mdia de Y e o preditor linear dada por log = . Essa relao funcional
conveniente, uma vez que garante para quaisquer valores dos parmetros
do preditor linear um valor positivo para . Similarmente, para propores,
podemos pensar na distribuio binomial para a resposta e numa relao
funcional do tipo log{/(1 )}, em que a proporo esperada de suces-
sos. Nelder e Wedderburn propuseram tambm um processo iterativo para a
estimao dos parmetros e introduziram o conceito de desvio que tem sido
largamente utilizado na avaliao da qualidade do ajuste dos MLGs, bem
como no desenvolvimento de resduos e medidas de diagnstico.
Inmeros trabalhos relacionados com modelos lineares generalizados fo-
ram publicados desde 1972. Um aplicativo, GLIM (Generalized Linear Interac-
tive Models) (ver Aitkin et al., 1989), foi desenvolvido para o ajuste dos MLGs
e hoje outros aplicativos, tais como o S-Plus (http://www.insightful.
2
1.1 Introduo
com), R (http://www.r-project.org), SAS(http://www.sas.com), STATA
(http://www.stata.com), MATLAB (http://www.mathworks.com) e SUDAAN
(http://www.rti.org/sudaan) apresentam rotinas para o ajuste dos MLGs.
Os modelos de quase-verossimilhana, que estendem a ideia dos MLGs
para situaes mais gerais incluindo dados correlacionados, foram propos-
tos por Wedderburn (1974). Os modelos de disperso (Jrgensen, 1983)
ampliam o leque de opes para a distribuio da varivel resposta. Liang
e Zeger (1986) estendem os modelos de quase-verossimilhana propondo as
equaes de estimao generalizadas (EEGs) que permitem o estudo de va-
riveis aleatrias correlacionadas no gaussianas. Os modelos no lineares de
famlia exponencial (Cordeiro e Paula, 1989 e Wei, 1998) admitem preditor
no linear nos parmetros. Temos ainda os modelos aditivos generalizados
(Hastie e Tibshirani, 1990) que supem preditor linear formado tambm por
funes semiparamtricas e os modelos lineares generalizados mistos (Bres-
low e Clayton, 1993 e McCulloch e Searle, 2001) que admitem a incluso de
efeitos aleatrios gaussianos no preditor linear. Recentemente, Lee e Nelder
(1996, 2001) estenderam o trabalho de Breslow e Clayton propondo modelos
lineares generalizados hierrquicos em que o preditor linear pode ser formado
por efeitos xos e efeitos aleatrios no gaussianos. Muitos desses resulta-
dos so discutidos no livro de Lee, Nelder e Pawitan (2006). Extenses de
MLGs para sries temporais, anlise de dados de sobrevivncia, modelos de
espao de estado e outros modelos multivariados so descritas, por exemplo,
em Fahrmeir e Tutz (2001). Referncias de texto no assunto so os livros de
McCullagh e Nelder (1989) e Cordeiro (1986).
Neste captulo introduzimos os modelos lineares genralizados e apre-
sentamos vrios resultados relacionados com estimao, teste de hipteses,
mtodos de diagnstico e seleo de modelos na classe dos MLGs.
3
1.2 Denio
1.2 Denio
Sejam Y
1
, . . . , Y
n
variveis aleatrias independentes, cada uma com funo
densidade ou funo de probabilidades na forma dada abaixo
f(y
i
;
i
, ) = exp[{y
i
i
b(
i
)} + c(y
i
, )]. (1.1)
Podemos mostrar sob as condies usuais de regularidade
E
_
logf(Y
i
;
i
, )
i
_
= 0 e
E
_
2
logf(Y
i
;
i
, )
2
i
_
= E
_
_
logf(Y
i
;
i
, )
i
_
2
_
,
i, que E(Y
i
) =
i
= b
(
i
) e Var(Y
i
) =
1
V (
i
), em que V
i
= V (
i
) =
d
i
/d
i
a funo de varincia e
1
> 0 o parmetro de disperso. A fun-
o de varincia desempenha um papel importante na famlia exponencial,
uma vez que a mesma caracteriza a distribuio. Isto , dada a funo de vari-
ncia, tem-se uma classe de distribuies correspondentes, e vice-versa. Essa
propriedade permite a comparao de distribuies atravs de testes simples
para a funo de varincia. Para ilustrar, a funo de varincia denida por
V () = (1 ), 0 < < 1, caracteriza a classe de distribuies binomiais
com probabilidades de sucesso ou 1 . Uma propriedade interessante
envolvendo a distribuio de Y e a funo de varincia a seguinte:
_
(Y )
d
N(0, V ()), quando .
Ou seja, para grande Y segue distribuio aproximadamente normal de
mdia e varincia
1
V (). Esse tipo de abordagem assinttica, diferente
da usual em que n grande, foi introduzida por Jrgensen (1987).
Os modelos lineares generalizados so denidos por (1.1) e pela parte
sistemtica
g(
i
) =
i
, (1.2)
4
1.2 Denio
em que
i
= x
T
i
o preditor linear, = (
1
, . . . ,
p
)
T
, p < n, um
vetor de parmetros desconhecidos a serem estimados, x
i
= (x
i1
, . . . , x
ip
)
T
representa os valores de variveis explicativas e g() uma funo montona
e diferencivel, denominada funo de ligao. Apresentamos a seguir as
distribuies mais conhecidas pertencentes famlia exponencial.
1.2.1 Casos particulares
Normal
Seja Y uma varivel aleatria com distribuio normal de mdia e varincia
2
, Y N(,
2
). A funo densidade de Y expressa na forma
1
2
exp{
1
2
2
(y )
2
} = exp[{
1
2
(y

2
2
)
1
2
{log2
2
+
y
2
2
}],
em que < , y < e
2
> 0. Logo, para = , b() =
2
/2, =
2
e
c(y, ) =
1
2
log/2
y
2
2
obtemos (1.1). Vericamos facilmente que a funo
de varincia dada por V () = 1.
Poisson
No caso de Y P(), a funo de probabilidades ca dada por
e
y
/y! = exp{ylog logy!},
em que > 0 e y = 0, 1, . . .. Fazendo log = , b() = e
, = 1 e
c(y, ) = logy! obtemos (1.1). Segue portanto que V () = .
Binomial
Seja Y
a proporo de sucessos em n ensaios independentes, cada um com

probabilidade de ocorrncia . Assumimos que nY
B(n, ). A funo de
5
1.2 Denio
probabilidades de Y
ca ento expressa na forma

_
n
ny
ny
(1)
nny
= exp
_
log
_
n
ny
_
+ ny
log
_

1
_
+ nlog(1 )
_
,
em que 0 < , y
< 1. Obtemos (1.1) fazendo = n, = log{/(1 )},

b() = log(1 +e
) e c(y
, ) = log
_

y
_
. A funo de varincia aqui ca dada
por V () = (1 ).
Gama
Seja Y uma varivel aleatria com distribuio gama de mdia e coeciente
de variao
1/2
, denotamos Y G(, ). A funo densidade de Y dada
por
1
()
_
y
exp
_
_
d(logy) = exp[{(y/) log} log() +
log(y) logy],
em que y > 0, > 0, > 0 e () =
_
0
t
1
e
t
dt a funo gama. Logo,
fazendo = 1/, b() = log() e c(y, ) = (1)logy +loglog()
obtemos (1.1).
Para 0 < < 1 a densidade da gama tem uma pole na origem e decresce
monotonicamente quando y . A exponencial um caso especial quando
= 1. Para > 1 a funo densidade assume zero na origem, tem um
mximo em y = / e depois decresce para y . A
2
k
um outro
caso especial quando = k/2 e = k. A distribuio normal obtida
fazendo . Isto , quando grande Y N(,
1
V ()). Temos que
= E
2
(Y )/Var(Y ) o inverso do coeciente de variao de Y ao quadrado,
ou seja, = 1/(CV )
2
, em que CV =
_
Var(Y)/E(Y ). A funo de varincia
da gama dada por V () =
2
.
6
1.3 Ligaes cannicas
Normal inversa
Seja Y uma varivel aleatria com distribuio normal inversa de mdia e
parmetro de forma , denotada por Y NI(, ) e cuja funo densidade
dada por
1/2
_
2y
3
exp
_
(y )
2
2
2
y
_
= exp
_
y
2
2
+
1
1
2
_
log(2y
3
/) +

y
__
,
em que y > 0, > 0. Fazendo =
1
2
2
, b() = (2)
1/2
e c(y, ) =
1
2
log{/(2y
3
)}

2y
obtemos (1.1). A normal inversa se aproxima da normal
quando . Ou seja, para grande temos que Y N(,
1
V ()). A
funo de varincia ca aqui dada por V () =
3
.
Na Tabela 1.1 apresentamos um resumo dessas distribuies.
Tabela 1.1
Principais distribuies pertencentes famlia exponencial.
Distribuio b() V ()
Normal
2
/2
2
1
Poisson e
log 1
Binomial log(1 + e
) log{/(1 )} n (1 )
Gama log() 1/ 1/(CV )
2
2
N.Inversa
2 1/2
2

3
1.3 Ligaes cannicas
Supondo conhecido, o logaritmo da funo de verossimilhana de um MLG
com respostas independentes pode ser expresso na forma
L() =
n
i=1
{y
i
i
b(
i
)} +
n
i=1
c(y
i
, ).
Um caso particular importante ocorre quando o parmetro cannico () coin-
cide com o preditor linear, isto , quando
i
=
i
=
p
j=1
x
ij
j
. Nesse caso,
7
1.3 Ligaes cannicas
L() ca dado por
L() =
n
i=1
{y
i
p
j=1
x
ij
j
b(
p
j=1
x
ij
j
)} +
n
i=1
c(y
i
, ).
Denindo a estatstica S
j
=
n
i=1
Y
i
x
ij
, L() ca ento reexpresso na forma
L() =
p
j=1
s
j
i=1
b(
p
j=1
x
ij
j
) +
n
i=1
c(y
i
, ).
Logo, pelo teorema da fatorizao a estatstica S = (S
1
, . . . , S
p
)
T
suciente
minimal para o vetor = (
1
, . . . ,
p
)
T
. As ligaes que correspondem a tais
estatsticas so chamadas de ligaes cannicas e desempenham um papel
importante na teoria dos MLGs. As ligaes cannicas mais comuns so
dadas abaixo.
Distribuio Normal Binomial Poisson Gama N. Inversa
Ligao = log
_

1
_
= log =
1
=
2
=
Uma das vantagens de usarmos ligaes cannicas que as mesmas
garantem a concavidade de L() e consequentemente muitos resultados as-
sintticos so obtidos mais facilmente. Por exemplo, a concavidade de L()
garante a unicidade da estimativa de mxima verossimilhana de , quando
essa existe. Para ligaes no cannicas Wedderburn (1976) discute condi-
es para a existncia da concavidade de L().
1.3.1 Outras ligaes
Ligao probito
Seja a proporo de sucessos de uma distribuio binomial. A ligao
probito denida por
1
() = ,
em que () a funo de distribuio acumulada da normal padro.
8
1.3 Ligaes cannicas
Ligao complemento log-log
A distribuio do valor extremo (logaritmo da exponencial) tem funo den-
sidade dada por
f(y) = exp{y exp(y)},
em que < y < . Logo, a funo de distribuio acumulada ca dada
por
F(y) = 1 exp{exp(y)}.
y
F
(
y
)
-3 -2 -1 0 1 2 3
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Logistica
V.Extremo
Figura 1.1: Funo de distribuio acumulada das curvas logstica e do valor
extremo.
O modelo binomial com ligao complemento log-log denido tal que
= 1 exp{exp()},
9
1.3 Ligaes cannicas
ou, equivalentemente,
log{log(1 )} = .
A ligao logito denida de forma similar. A funo densidade da
distribuio logstica dada por
f(y) =
exp(y)
{1 + exp(y)}
2
,
em que < y < . Da segue que a funo de distribuio acumulada
ca expressa na forma
F(y) =
e
y
(1 + e
y
)
.
O modelo logstico binomial obtido substituindo F(y) por e y por na
expresso acima. Como no caso binomial o parmetro de interesse sempre
uma probabilidade, ca muito razovel que funes de distribuies acu-
muladas sejam utilizadas para gerarem novas ligaes e consequentemente
novos modelos. Na Figura 1.1 apresentamos a F(y) da distribuio logstica
e da distribuio do valor extremo para valores de y variando no intervalo
[3 , 3]. Temos que a curva logstica simtrica em torno de F(y) = 1/2,
enquanto que a curva do valor extremo apresenta comportamentos distintos
para F(y) 1/2 e F(y) > 1/2.
Ligao de Box-Cox
Uma classe importante de ligaes, pelo menos para observaes positivas,
a classe de ligaes de Box-Cox denida por
= (
1)/,
para = 0 e = log para 0. A ideia agora aplicarmos a transfor-
mao de Box-Cox, denida na Seo 1.1, na mdia da varivel resposta ao
10
1.3 Ligaes cannicas
0 2 4 6 8 10
0
1
0
2
0
3
0
= 0, 5
= 0, 6
= 0, 8
Figura 1.2: Ligao de Box-Cox para alguns valores de .

invs de transformarmos a prpria varivel resposta. Temos na Figura 1.2 o
comportamento de para alguns valores de e para variando no intervalo
[0 , 10].
Ligao de Aranda-Ordaz
Uma outra transformao importante foi proposta por Aranda-Ordaz (1981)
para dados binrios. A transformao dada por
= log
_
(1 )
_
,
em que 0 < < 1 e uma constante desconhecida. Quando = 1 temos a
ligao logito = log{/(1)}. Quando 0 temos {(1)
1}/
log(1)
1
de modo que = log{log(1)} e obtemos portanto a ligao
11
1.3 Ligaes cannicas
-3 -2 -1 0 1 2 3
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
= 0, 5
= 1, 0
= 2, 0
Figura 1.3: Ligao de Aranda-Ordaz para alguns valores de .

complemento log-log. Na Figura 1.3 temos o comportamento de para alguns
valores de . Em muitas situaes prticas o interesse pode ser testarmos
se o modelo logstico apropriado, H
0
: = 1, contra a necessidade de uma
transformao na ligao, H
1
: = 1.
Os MLGs so ajustados no aplicativo R atravs do comando glm. Para
ilustrarmos uma aplicao, vamos supor que temos interesse em ajustar um
modelo de Poisson com ligao cannica e que a varivel resposta deno-
tada por resp com variveis explicativas cov1 e cov2. Podemos mandar os
resultados do ajuste para um arquivo (objeto no R), por exemplo com nome
fit.poisson, atravs do comando
fit.poisson = glm( resp cov1 + cov2, family=poisson).
Com o comando
summary(fit.poisson)
podemos obter um resumo dos resultados do ajuste.
12
1.4 Funo desvio
1.4 Funo desvio
Sem perda de generalidade, vamos supor que o logaritmo da funo de ve-
rossimilhana seja agora denido por
L(; y) =
n
i=1
L(
i
; y
i
),
em que
i
= g
1
(
i
) e
i
= x
T
i
. Para o modelo saturado (p = n) a funo
L(; y) estimada por
L(y; y) =
n
i=1
L(y
i
; y
i
).
Ou seja, a estimativa de mxima verossimilhana de
i
ca nesse caso dada
por
i
= y
i
. Quando p < n, denotamos a estimativa de L(; y) por L( ; y).
Aqui, a estimativa de mxima verossimilhana de
i
ser dada por
i
=
g
1
(
i
), em que
i
= x
T
i
.
A qualidade do ajuste de um MLG avaliada atravs da funo desvio
D
(y; ) = D(y; ) = 2{L(y; y) L( ; y)},

que uma distncia entre o logaritmo da funo de verossimilhana do mo-
delo saturado (com n parmetros) e do modelo sob investigao (com p pa-
rmetros) avaliado na estimativa de mxima verossimilhana

. Um valor
pequeno para a funo desvio indica que, para um nmero menor de par-
metros, obtemos um ajuste to bom quanto o ajuste com o modelo saturado.
Denotando por

i
=
i
(
i
) e

i
=
i
(
i
) as estimativas de mxima verossimi-
lhana de para os modelos com p parmetros (p < n) e saturado (p = n),
respectivamente, temos que a funo D(y; ) ca, alternativamente, dada
por
D(y; ) = 2
n
i=1
{y
i
(
i
) + (b(
i
) b(
i
))}.
13
1.4 Funo desvio
Apresentamos a seguir a funo desvio para alguns casos particulares.
O desvio no R sai com o nome deviance aps o ajuste do modelo e o nmero
de graus de liberdade correspondente dado por np. Denotamos D(y; ) =
n
i=1
d
2
(y
i
;
i
) em que d
2
(y
i
;
i
) ser denominado componente do desvio no
escalonado.
Normal
Aqui
i
=
i
, logo

i
= y
i
e

i
=
i
. O desvio ca portanto dado por
D(y; ) = 2
n
i=1
{y
i
(y
i

i
) +
2
i
/2 y
2
i
/2} =
n
i=1
(y
i

i
)
2
,
que coincide com a soma de quadrados de resduos.
Poisson
Nesse caso temos
i
= log
i
, o que implica em

i
= logy
i
para y
i
> 0 e
i
= log
i
. Assim,
D(y; ) = 2
n
i=1
{y
i
log(y
i
/
i
) (y
i

i
)}.
Se y
i
= 0 o i-simo termo de D(y; ) vale 2
i
. Resumindo, temos o seguinte
resultado para o modelo de Poisson:
d
2
(y
i
;
i
) =
_
2{y
i
log(y
i
/
i
) (y
i

i
)} se y
i
> 0;
2
i
se y
i
= 0.
Binomial
No caso binomial em que assumimos Y
i
B(n
i
,
i
), i = 1, . . . , k, obtemos
i
= log{y
i
/(n
i
y
i
)} e

i
= log{
i
/(1
i
)} para 0 < y
i
< n
i
. Logo, o
desvio assume a seguinte forma:
D(y; ) = 2
k
i=1
[y
i
log(y
i
/n
i

i
) + (n
i
y
i
)log{(1 y
i
/n
i
)/(1
i
)}].
14
1.4 Funo desvio
Todavia, quando y
i
= 0 ou y
i
= n
i
, o i-simo termo de D(y; ) vale 2n
i
log(1

i
) ou 2n
i
log
i
, respectivamente. Portanto, os componentes do desvio no
caso binomial assumem as seguintes formas:
d
2
(y
i
;
i
) =
_
_
_
y
i
log(y
i
/n
i

i
) + (n
i
y
i
)log{(1 y
i
/n
i
)/(1
i
)} se 0 < y
i
< n
i
;
2n
i
log(1
i
) se y
i
= 0;
2n
i
log
i
se y
i
= n
i
.
Gama
No caso gama,

i
= 1/y
i
e

i
= 1/
i
. Assim, segue que o desvio (quando
todos os valores so positivos) pode ser expresso na forma
D(y; ) = 2
n
i=1
{log(y
i
/
i
) + (y
i

i
)/
i
}.
Se algum componente de y
i
igual a zero o desvio ca indeterminado. Mc-
Cullagh e Nelder (1989) sugerem substituir D(y; ) nesse caso por
D
(y; ) = 2C(y) + 2
n
i=1
log
i
+ 2
n
i=1
y
i
/
i
,
em que C(y) uma funo arbitrria, porm limitada. Podemos, por exem-
plo, usar C(y) =
n
i=1
y
i
/(1 + y
i
).
Normal inversa
Para esse caso

i
= 1/2y
2
i
e

i
= 1/2
2
i
. A funo desvio ca ento dada
por
D(y; ) =
n
i=1
(y
i

i
)
2
/(y
i

2
i
).
1.4.1 Resultados assintticos
Embora seja usual compararmos os valores observados da funo desvio com
os percentis da distribuio qui-quadrado com n p graus de liberdade,
15
1.4 Funo desvio
em geral D(y; ) no segue assintoticamente uma
2
np
. No caso binomial
quando k xo e n
i
para cada i, D(y; ) segue sob a hiptese de que o
modelo verdadeiro uma
2
kp
. Isso no vale quando n e n
i
i
(1
i
)
permanece limitado. Para o modelo de Poisson, quando
i
para todo
i, temos que D(y; )
2
np
. No caso normal, como conhecido para
2
xo, D(y; )
2
2
np
. Lembre que E{
2
r
} = r, assim um valor do desvio
prximo de np pode ser uma indicao de que o modelo est bem ajustado.
Em geral, para os casos em que D
(y; ) depende do parmetro de disperso
1
, o seguinte resultado (Jrgensen, 1987) para a distribuio nula da funo
desvio pode ser utilizado:
D
(y; )
2
np
, quando .
Isto , quando a disperso pequena, ca razovel compararmos os valores
observados de D
(y; ) com os percentis da

2
np
. Em particular, para o caso
normal linear, o resultado acima diz que

n
i=1
(y
i

i
)
2
/
2

2
np
quando
2
0. No caso do modelo gama, o desvio estar bem aproximado por uma
qui-quadrado com n p graus de liberdade medida que o coeciente de
variao car prximo de zero.
1.4.2 Anlise do desvio
Vamos supor para o vetor de parmetros a partio = (
T
1
,
T
2
)
T
, em que
1
um vetor q-dimensional enquanto
2
tem dimenso pq e conhecido
(ou xo). Portanto, podemos estar interessados em testar as hipteses H
0
:
1
= 0 contra H
1
:
1
= 0. As funes desvio correspondentes aos modelos
sob H
0
e H
1
sero denotadas por D(y;
0
) e D(y; ), respectivamente, em
que
0
a estimativa de mxima verossimilhana sob H
0
. A estatstica da
16
1.4 Funo desvio
razo de verossimilhanas ca nesse caso dada por
RV
= {D(y;
0
) D(y; )}, (1.3)
isto , a diferena entre dois desvios. Como conhecido, sob a hiptese nula,
RV

2
q
quando n . De forma similar, podemos denir a estatstica
F =
{D(y;
0
) D(y; )}/q
D(y; )/(n p)
, (1.4)
cuja distribuio nula assinttica uma F
q,(np)
quando o denominador de
(1.4) uma estimativa consistente de
1
(ver, por exemplo, Jrgensen,
1987). A vantagem de utilizarmos (1.4) em relao a (1.3) que a esta-
tstica F no depende do parmetro de disperso. O resultado (1.4) tambm
vericado quando e n arbitrrio. Quando desconhecido a
estatstica da razo de verossimilhanas assume uma expresso diferente de
(1.3). A estatstica F acima ca, no caso normal linear, reduzida forma
conhecida dada abaixo
F = (qs
2
)
1
{
n
i=1
(y
i

0
i
)
2
i=1
(y
i

i
)
2
},
em que s
2
=
n
i=1
(y
i

i
)
2
/(n p) o erro quadrtico mdio do modelo
com p parmetros. A forma da estatstica F dada em (1.4) pode ser obtida,
em particular, quando testamos uma hiptese de igualdades lineares num
modelo de regresso normal linear.Como ilustrao, vamos supor o modelo
y = X +W +,
em que N(0,
2
I
n
), X uma matriz n p, I
n
a matriz identidade
de ordem n, W aqui uma matriz n q, ambas de posto completo, =
(
1
, . . . ,
p
)
T
e = (
1
, . . . ,
q
)
T
. Vamos supor as hipteses
H
0
: C = 0 contra H
1
: C = 0,
17
1.4 Funo desvio
em que = (
T
,
T
)
T
e C uma matriz k (p + q) de posto completo. O
acrscimo na soma de quadrados de resduos devido s restries em H
0

dado por
ASQ(C = 0) = (C
)
T
{C(Z
T
Z)
1
C
T
}
1
(C
),
em que

= (Z
T
Z)
1
Z
T
y e Z = (X, W). A estatstica F para testarmos H
0
ca ento dada por
F =
ASQ(C = 0)/k
D(y; )/(n p q)
,
em que D(y; ) o desvio do modelo completo com p + q parmetros e
ASQ(C = 0) = D(y;
0
)D(y; ), com D(y;
0
) sendo o desvio do modelo
sob H
0
. Portanto, F assume a forma
F =
{D(y;
0
) D(y; )}/k
D(y; )/(n p q)
,
e segue, sob H
0
, uma distribuio F
k,(npq)
. No caso de testarmos H
0
: = 0
contra H
1
: = 0, a matriz C tem dimenso q (p +q) com a i-sima linha
tendo o valor 1 na posio p+i e zeros nas demais posies. Essa formulao
pode tambm ser aplicada quando testamos a incluso de novas covariveis
num modelo de regresso normal linear.
Para ilustrarmos o uso das diferenas de desvios para hipteses em mo-
delos encaixados, vamos supor um MLG com dois fatores, A e B. O fator A
com n(A) nveis e o fator B com n(B) nveis. Descrevemos na Tabela 1.2 os
possveis testes envolvendo os dois fatores. Em particular, se o interesse tes-
tarmos a incluso do fator B dado que o fator A j est no modelo, devemos
comparar a diferena {D(y;
A
) D(y;
A+B
)} com os nveis crticos da
distribuio qui-quadrado com {n(B) 1} graus de liberdade. Alternativa-
mente, podemos comparar o valor observado da estatstica F correspondente
com os nveis da distribuio F com {n(B) 1} e {n n(A) n(B) + 1}
18
1.4 Funo desvio
graus de liberdade. No caso normal linear construmos a tabela ANOVA utili-
zando a estatstica F no lugar da diferena entre desvios. A vantagem disso
o fato do parmetro de disperso
1
no precisar ser estimado. Atravs
do comando anova() o R fornece uma tabela ANODEV para os ajustes colo-
cados como objetos. Por exemplo, vamos supor que os objetos fit1.reg,
fit2.reg e fit3.reg correspondam aos ajustes de um MLG com um, dois
e trs fatores, respectivamente. Ento, o comando
anova(fit1.reg,fit2.reg,fit3.reg)
fornece uma tabela ANODEV comparando os trs fatores.
Tabela 1.2
Anlise do desvio (ANODEV) supondo dois fatores na parte sistemtica.
Modelo Desvio Diferena G.L. Testando
Constante D
0
D
0
D
A
n(A) 1 A ignorando B
D
0
D
B
n(B) 1 B ignorando A
+A D
A
D
A
D
A+B
n(B) 1 B|A ignorando AB
+B D
B
D
B
D
A+B
n(A) 1 A|B ignorando AB
+A+B D
A+B
D
A+B
D
AB
{n(A) 1} AB|A + B
{n(B) 1}
+A+B+AB D
AB
Como aplicao do ANODEV, vamos considerar o exemplo descrito na
Seo 1.12.2 em que um modelo logstico linear ajustado para explicar a
ocorrncia de cncer de pulmo em pacientes com processo infeccioso pulmo-
nar. A parte sistemtica do modelo representada abaixo
1 + SEXO + IDADE + HL + FF,
em que 1 denota a presena de intercepto no modelo, SEXO (1:feminino,
0:masculino), IDADE (em anos) e HL e FF so dois fatores com 4 nveis
19
1.5 Funo escore e informao de Fisher
cada um representando a intensidade de dois tipos de clula. Na Tabela 1.3
resumimos alguns resultados.
Tabela 1.3
Anlise do desvio referente ao exemplo sobre processo
infeccioso pulmonar.
Modelo Desvio Diferena G.L. Testando
Constante 236,34 - - -
+ SEXO 235,20 1,14 1 SEXO
+ IDADE 188,22 46,98 1 IDADE | SEXO
+ HL 162,55 25,67 3 HL | SEXO +
IDADE
+ FF 157,40 5,15 3 FF | SEXO +
IDADE + HL
Para calcularmos os nveis descritivos das diferenas apresentadas na
Tabela 1.3, usamos o comando pchisq(dv,q) do R. Por exemplo, para cal-
cularmos o nvel descritivo referente ao efeito do fator SEXO, fazemos
1 - pchisq(1.14,1)
e obtemos P = 0, 285. Similarmente, para testarmos a incluso de FF dado
que j temos no modelo 1+SEXO+IDADE+HL, fazemos
1 - pchisq(5.15,3)
e obtemos P = 0, 1611, indicando que o fator FF no signicativo a 10%.
1.5.1 Escore e Fisher para
Vamos considerar a partio = (
T
, )
T
e denotarmos o logaritmo da
funo de verossimilhana por L(). Para obtermos a funo escore para o
20
parmetro calculamos inicialmente as derivadas
L()/
j
=
n
i=1
_
y
i
d
i
d
i
d
i
d
i
db(
i
)
d
i
d
i
d
i
d
i
d
i
j
_
=
n
i=1
{y
i
V
1
i
(d
i
/d
i
)x
ij
i
V
1
i
(d
i
/d
i
)x
ij
}
=
n
i=1
__
i
V
i
(y
i
i
)x
ij
_
,
em que
i
= (d
i
/d
i
)
2
/V
i
. Logo, podemos escrever a funo escore na forma
matricial
U
() =
L()
= X
T
W
1/2
V
1/2
(y ),
em que X uma matriz n p de posto completo cujas linhas sero de-
notadas por x
T
i
, i = 1, . . . , n, W = diag{
1
, . . . ,
n
} a matriz de pesos,
V = diag{V
1
, . . . , V
n
}, y = (y
1
, . . . , y
n
)
T
e = (
1
, . . . ,
n
)
T
.
Para obtermos a matriz de informao de Fisher precisamos das deri-
vadas
2
L()/
j
=
n
i=1
(y
i
i
)
d
2
i
d
2
i
_
d
i
d
i
_
2
x
ij
x
i
+
n
i=1
(y
i
i
)
d
i
d
i
d
2
i
d
2
i
x
ij
x
i
i=1
d
i
d
i
_
d
i
d
i
_
2
x
ij
x
i
,
cujos valores esperados cam dados por
E
_
2
L()/
j
_
=
n
i=1
d
i
d
i
_
d
i
d
i
_
2
x
ij
x
i
=
n
i=1
(d
i
/d
i
)
2
V
i
x
ij
x
i
=
n
i=1
i
x
ij
x
i
.
21
Logo, podemos escrever a informao de Fisher para na forma matricial
K
() = E
_
2
L()
T
_
= X
T
WX.
Em particular, para ligao cannica (
i
=
i
), essas quantidades to-
mam formas simplicadas
U
= X
T
(y ) e K
= X
T
VX,
respectivamente. Se particionarmos o vetor de parmetros tal que =
(
T
1
,
T
2
)
T
, a funo escore e a matriz de informao de Fisher cam para
o parmetro
1
, respectivamente, dadas por U
1
= X
T
1
W
1/2
V
1/2
(y )
e K
1
= X
T
1
WX
1
.
1.5.2 Escore e Fisher para
A funo escore para o parmetro ca dada por
U
() =
L()
=
n
i=1
{y
i
i
b(
i
)} +
n
i=1
c
(y
i
, ),
em que c
(y
i
, ) = dc(y
i
, )/d. Para obtermos a informao de Fisher
para temos que calcular
2
L()/
2
=
n
i=1
c
(y
i
, ), em que c
(y
i
, ) =
d
2
c(y
i
, )/d
2
. Assim, a informao de Fisher para ca dada por
K
() =
n
i=1
E{c
(Y
i
, )}.
1.5.3 Ortogonalidade
Temos que
2
L()/ =
n
i=1
_
i
V
1
i
(y
i
i
)x
i
. Portanto, vericamos
facilmente que e so ortogonais, isto , K
() = E[
2
L()/] = 0.
22
Logo, segue que a matriz de informao de Fisher para bloco diagonal
sendo dada por K
= diag{K
, K
}. A funo escore para ca dada

por U
= (U
T
, U
)
T
. Discutimos a seguir alguns casos particulares.
1.5.4 Casos particulares
Normal
A funo de varincia no caso normal dada por V () = 1 (d/d = 1).
Logo, = (d/d)
2
. Em particular para ligao cannica ( = ), obtemos
= 1. Assim,
U
=
2
X
T
(y ) e K
=
2
X
T
X,
como conhecido. Temos ainda o resultado
U
=
n
i=1
(y
i

2
i
2
) +
n
i=1
c
(y
i
, ),
em que c
(y
i
, ) = 1/2 y
2
i
/2. Da segue que c
(y
i
, ) = 1/2
2
e portanto
K
n
i=1
E{c
(Y
i
, )} = n/2
2
.
Poisson
Aqui a funo de varincia dada por V () = . Logo, = (d/d)
2
. Para
ligao cannica (log = ) os pesos so as prprias mdias, isto = .
Em particular, para ligao raiz quadrada (
= ), obtemos = 1. Assim,
U
= X
T
V
1/2
(y ) e K
= X
T
X.
Binomial
No caso binomial, a funo de varincia denida por V () = (1 ),
em que 0 < < 1. Portanto, temos = (1 )(d/d)
2
. Por conveno
23
assumimos que = n(1 )(d/d)
2
e = 1. No caso de ligao cannica
(log{/(1 )} = ) os pesos so as varincias das binomiais, isto =
n(1 ). As matrizes U
e K
cam nesse caso dadas por

U
= X
T
(y ) e K
= X
T
VX,
em que X uma matriz k p, y = (y
1
, . . . , y
n
)
T
, = (n
1
1
, . . . , n
k
k
)
T
e
V = diag{n
1
1
(1
1
), . . . , n
k
k
(1
k
)}.
Gama
Para o caso gama V () =
2
. Logo, =
2
(d/d)
2
. Em particular, para
um modelo log-linear (log = ), obtemos d/d = , o que implica em
= 1. Assim, U
= X
T
V
1/2
(y ) e K
= X
T
X, similarmente ao
caso normal. Para ligao cannica, =
2
. A funo escore para ca
dada por
U
=
n
i=1
(
y
i
i
+ log
i
) +
n
i=1
c
(y
i
, ),
em que c
(y
i
, ) = logy
i
+ log + 1 () e () =
()/() a fun-
o digama. Da segue que c
(y
i
, ) = 1/
() e portanto K
n
i=1
E{c
(Y
i
, )} = n{
()1}/, em que
() = d()/d a funo
trigama.
Normal inversa
Nesse caso a funo de varincia dada por V () =
3
. Assim, =
3
(d/d)
2
. Pode ser muito razovel aplicarmos aqui um modelo log-linear,
uma vez que as respostas so sempre positivas. No entanto, diferente dos mo-
delos log-lineares com resposta de Poisson, os pesos aqui so inversamente
proporcionais s mdias, isto =
1
. Em particular para ligao can-
nica, =
3
, e portanto U
= X
T
(y ) e K
= X
T
VX. Temos ainda
24
1.6 Estimao dos parmetros
o resultado
U
=
n
i=1
(
y
i
2
2
i
i
) +
n
i=1
c
(y
i
, ),
em que c
(y
i
, ) = 1/21/2y
i
. Da segue que c
(y
i
, ) = 1/2
2
e portanto
K
n
i=1
E{c
(Y
i
, )} = n/2
2
.
1.6.1 Estimao de
O processo iterativo de Newton-Raphson para a obteno da estimativa de
mxima verossimilhana de denido expandindo a funo escore U
em
torno de um valor inicial
(0)
, tal que
U

= U
(0)
+U
(0)
(
(0)
),
em que U
denota a primeira derivada de U
com respeito a
T
, sendo
U
(0) e U
(0)
, respectivamente, essas quantidades avaliadas em

(0)
. Assim,
repetindo o procedimento acima, chegamos ao processo iterativo
(m+1)
=
(m)
+{(U
)
1
}
(m)
U
(m)
,
m = 0, 1, . . .. Como a matriz U
pode no ser positiva denida, a aplicao

do mtodo escore de Fisher substituindo a matriz U
pelo correspondente
valor esperado K
pode ser mais conveniente. Isso resulta no seguinte pro-

cesso iterativo:
(m+1)
=
(m)
+{K
1
}
(m)
U
(m)
,
m = 0, . . .. Se trabalharmos um pouco o lado direito da expresso acima,
chegaremos a um processo iterativo de mnimos quadrados reponderados
(m+1)
= (X
T
W
(m)
X)
1
X
T
W
(m)
z
(m)
, (1.5)
25
m = 0, 1, . . ., em que z = + W
1/2
V
1/2
(y ). A quantidade z desem-
penha o papel de uma varivel dependente modicada, enquanto W uma
matriz de pesos que muda a cada passo do processo iterativo. A convergn-
cia de (1.5) ocorre em geral num nmero nito de passos, independente dos
valores iniciais utilizados. usual iniciarmos (1.5) com
(0)
= g(y).
Apenas como ilustrao, para o caso logstico binomial, obtemos =
n(1) e varivel dependente modicada dada por z = +(yn)/n(1 ).
Lembrando, para o modelo normal linear no preciso recorrermos ao pro-
cesso iterativo (1.5) para a obteno da estimativa de mxima verossimi-
lhana. Nesse caso,

assume a forma fechada
= (X
T
X)
1
X
T
y.
Observamos que o lado direito de (1.5) no depende de . Portanto, para
obtermos

no preciso conhecermos .
1.6.2 Estimao de
Igualando a funo escore U
a zero chegamos seguinte soluo:

n
i=1
c
(y
i
,

) =
1
2
D(y; )
n
i=1
{y
i
i
b(
i
)},
em que D(y; ) denota o desvio do modelo sob investigao. Vericamos que
a estimativa de mxima verossimilhana para nos casos normal e normal
inversa, igualando U
a zero, dada por
=
n
D(y; )
.
Para o caso gama, a estimativa de mxima verossimilhana de sai da equa-
o
2n{log
)} = D(y; ).
26
A equao acima pode ser resolvida diretamente pelo R atravs do comando
require(MASS) (Venables e Ripley, 1999). Como ilustrao, vamos supor
que os resultados do ajuste sejam guardados em fit.model. Ento, para
encontrarmos a estimativa de mxima verossimilhana de com o respectivo
erro padro aproximado devemos usar os comandos
require(MASS)
gamma.shape(fit.model).
Um outro estimador consistente para (de momentos) que no envolve
processo iterativo baseado na estatstica de Pearson, sendo dado por
=
(n p)
n
i=1
{
(y
i

i
)
2
V (
i
)
}
.
A suposio aqui que

tem sido consistentemente estimado. O R solta a
estimativa

= (n p)/D(y; ) que no consistente para .
1.6.3 Distribuio assinttica
Para mostrarmos que

e

so assintoticamente normais e independentes
vamos usar os resultados abaixo
E(U
) = 0 e Var(U
) = K
,
com as funes escore de e sendo, respectivamente, expressas nas formas
U
n
i=1
U
i
, em que
U
i
=
_
i
V
1
i
(y
i
i
)x
i
e U
=
n
i=1
U
i
,
com U
i
= {y
i
i
b(
i
)} + c
(y
i
, ). Portanto, para n grande, temos que
U
N
p+1
(0, K
). Em particular, assintoticamente U
N
p
(0, K
) e
U
N(0, K
) e U
e U
so independentes.
27
1.7 Teste de hipteses
Expandindo U
em srie de Taylor em torno de obtemos

U
= U
+U
),
em que U
= U
/
T
. Assim, como

o estimador de mxima verossimi-
lhana de temos que U
= 0 e da segue a relao
= + (U
)
1
U
.
Supondo que para n grande U
= K
(para ligao cannica K
= U
),
ento obtemos
= +K
1
,
ou seja, para n grande

N
p+1
(, K
1
). Como K
= diag{K
, K
}
ento assintoticamente segue que

N
p
(, K
1
) e

N(0, K
1
) e

e

so independentes. Demonstraes mais rigorosas desses resultados podem

ser encontradas, por exemplo, em Fahrmeir e Kaufmann (1985) e Sen e Singer
(1993, Cap. 7).
1.7.1 Hipteses simples
Buse (1982) apresenta de uma forma bastante didtica a interpretao geo-
mtrica dos testes da razo de verossimilhanas, escore e Wald para o caso de
hipteses simples. Apresentamos a seguir as generalizaes para os MLGs.
Vamos supor, inicialmente, a seguinte situao de hipteses simples:
H
0
: =
0
contra H
1
: =
0
,
em que
0
um vetor p-dimensional conhecido e tambm assumido
conhecido.
28
Teste da razo de verossimilhanas
O teste da razo de verossimilhanas, no caso de hipteses simples, usual-
mente denido por
RV
= 2{L(
) L(
0
)}.
Essa estatstica pode tambm ser expressa, para os MLGs, como a diferena
entre duas funes desvio
RV
= {D(y;
0
) D(y; )},
em que
0
= g
1
(
0
),
0
= X
0
. Em particular, para o caso normal linear,
obtemos
RV
= {
n
i=1
(y
i

0
i
)
2
n
i=1
(y
i

i
)
2
}/
2
.
Teste de Wald
O teste de Wald denido, nesse caso, por
W
= [

0
]
T

Var
1
(
)[

0
],
em que

Var(
) denota a matriz de varincia-covarincia assinttica de

estimada em

. Para os MLGs,

Var(
) = K
1
(
). Assim, a estatstica de
Wald ca reexpressa na forma
W
= [

0
]
T
(X
T

WX)[

0
].
Em particular, para o caso de p = 1, o teste de Wald equivalente ao teste
t
2
usual
W
=
(

0
)
2
Var(
)
.
Um problema com a estatstica de Wald, especialmente quando () no
linear em , a dependncia de
W
com a parametrizao utilizada. Isto
, duas formas diferentes e equivalentes para (), podem levar a diferentes
valores de
W
.
29
Teste de escore
O teste de escore, tambm conhecido como teste de Rao, denido quando
U
) = 0 por
SR
= U
(
0
)
T

Var
0
(
)U
(
0
),
em que

Var
0
(
) denota que a varincia assinttica de

est sendo estimada
sob H
0
. Para os MLGs temos que
SR
=
1
U
(
0
)
T
(X
T

W
0
X)
1
U
(
0
),
em que

W
0
estimado sob H
0
, embora tenha a forma do modelo em H
1
. A
estatstica de escore pode ser muito conveniente em situaes em que a hip-
tese alternativa bem mais complicada do que a hiptese nula. Nesses casos,
somente seria necessrio estimarmos os parmetros sob H
1
quando o modelo
em H
0
fosse rejeitado. Novamente, ilustrando o caso normal linear, temos que
a estatstica de escore ca expressa na forma
SR
= (y X
0
)
T
X(X
T
X)
1
X
T
(y X
0
)/
2
. Observamos que, nesse caso, as estatsticas
RV
e
W
coincidem com
SR
.
Teste F
A estatstica F, que foi denida em (1.4), assume a seguinte forma para o
caso de hipteses simples:
F =
{D(y;
0
) D(y; )}/p
D(y; )/(n p)
,
que para e sob H
0
segue uma F
p,(np)
. Esse resultado vale tambm
para n quando colocamos no denominador da estatstica F uma esti-
mativa consistente para
1
. Uma propriedade interessante das estatsticas
RV
,
SR
e F o fato de serem invariantes com reparametrizaes. Isso pode
30
ser muito til na construo de regies de conana para os parmetros. A
estatstica F tem a vantagem adicional de no depender do parmetro de
disperso
1
. Como essa estatstica pode ser obtida diretamente de funes
desvio, talvez seja a mais conveniente para uso prtico. Assintoticamente e
sob a hiptese nula, temos que
RV
,
W
e
SR

2
p
.
Uma regio assinttica de conana para baseada no teste de Wald
e com coeciente de conana (1 ), dada por
[; (
)
T
(X
T

WX)(
)
1
2
p
(1 )],
em que
2
p
(1) denota o percentil (1) de uma distribuio qui-quadrado
com p graus de liberdade. Como essa regio pode depender da parametri-
zao utilizada quando no linear (ver, por exemplo, Ratkowsky, 1983),
pode ser mais conveniente, nesses casos, construirmos a regio utilizando
uma das estatsticas invariantes. Em particular, se a estatstica da razo de
verossimilhanas for escolhida, a regio assinttica ca dada por
[; 2{L(
) L()}
2
p
(1 )].
Se estamos interessados num subconjunto
1
q-dimensional, a regio assin-
ttica de conana utilizando as estatsticas de Wald e da razo de verossi-
milhanas cam, respectivamente, dadas por
[; (
1
)
T

Var(
1
)(
1
)
1
2
q
(1 )]
e
[; 2{L(
) L(,

2
())}
2
q
(1 )],
em que aqui q-dimensional e

2
() a estimativa de mxima verossimi-
lhana de
2
dado (ver, por exemplo, Seber e Wild, 1989).
31
1.7.2 Modelos encaixados
conhecido
Vamos supor novamente a partio = (
T
1
,
T
2
)
T
denida na Seo 1.4.2 e
as seguintes hipteses: H
0
:
1
=
0
1
contra H
1
:
1
=
0
1
. Para esse caso
temos
RV
= {D(y;
0
) D(y; )},
em que
0
a estimativa de mxima verossimilhana do MLG com parte
sistemtica =
0
1
+
2
, em que
0
1
=
q
j=1
x
j
0
j
e
2
=
p
j=q+1
x
j
j
. A
quantidade
0
1
desempenha o papel de um oset (parte conhecida no pre-
ditor linear), conforme a nomenclatura de modelos lineares generalizados.
Para ilustrarmos a utilizao do oset, vamos supor um modelo de Poisson
com ligao log-linear, resposta resp, covariveis cov1 e cov2 e oset dado
por logt0. Para ajustarmos o modelo e armazenarmos os resultados em
fit1.poisson devemos fazer
fit1.poisson = glm(resp cov1 + cov2 + offset(logt0),
family= poisson).
Esse tipo de recurso muito utilizado em estudos de seguimento em que cada
indivduo observado durante um tempo diferente (vide Exemplo 1.12.4).
Como ilustrao, vamos supor um MLG com distribuio normal inversa,
ligao cannica e preditor linear dado por =
1
+
2
cov
2
+
3
cov
3
e que
o interesse testarmos H
0
:
2
= b, em que b uma constante diferente
de zero, contra H
1
:
2
= b. Os ajustes correspondentes a H
0
e H
1
so,
respectivamente, dados por
fit1.ni = glm( resp cov3 + offset(b*cov2),
family=inverse.gaussian)
fit2.ni = glm( resp cov2+cov3, family=inverse.gaussian).
32
Logo, de (1.4), a estatstica F para testarmos H
0
:
2
= b contra H
1
:
2
= b
ca dada por
d1 = deviance(fit1.ni)
d2 = deviance(fit2.ni)
F = (d1 - d2)/(d2/(n-3)).
Em particular, o oset desaparece para b = 0. O ajuste, nesse caso, ca
simplesmente dado por
fit1.ni = glm( resp cov3, family=inverse.gaussian).
Teste de Wald
Para testarmos H
0
, a estatstica de Wald ca expressa na forma
W
= [
0
1
]
T

Var
1
(
1
)[
0
1
],
em que

1
sai do vetor

= (
T
1
,

T
2
)
T
. Usando resultados conhecidos de
lgebra linear, mostramos que a varincia assinttica de

1
dada por
Var(
1
) =
1
[X
T
1
W
1/2
M
2
W
1/2
X
1
]
1
,
em que X
1
sai da partio X = (X
1
, X
2
), sendo portanto nq, X
2
n(pq),
M
2
= I
n
H
2
e H
2
= W
1/2
X
2
(X
T
2
WX
2
)
1
X
T
2
W
1/2
a matriz de projeo
ortogonal de vetores do R
n
no subespao gerado pelas colunas da matriz
W
1/2
X
2
. Em particular, no caso normal linear, temos as simplicaes H
2
=
X
2
(X
T
2
X
2
)
1
X
T
2
e Var(
1
) =
2
[X
T
1
(I
n
H
2
)X
1
]
1
.
Teste de escore
A funo escore pode ser expressa na forma U
=
1/2
X
T
W
1/2
r
P
, em que
r
P
=
1/2
V
1/2
(y ) conhecido como resduo de Pearson. Observamos
33
que r
P
tem a mesma distribuio de Y, no entanto, E(r
P
) = 0 e Var(r
P
) =
I
n
. O teste de escore denido por
SR
= U
1
(
0
)
T

Var
0
(
1
)U
1
(
0
),
em que U
1
() = L()/
1
= X
T
1
W
1/2
V
1/2
(y),

0
= (
0T
1
,

0T
2
)
T
e
0
2
a estimativa de mxima verossimilhana de
2
sob o modelo com parte
sistemtica =
0
1
+
2
, isto , sob H
0
, em que
0
1
= X
1
0
1
e
2
= X
2
2
.
Se trabalharmos um pouco mais a expresso para Var(
1
), chegaremos ao
seguinte resultado:
Var(
1
) =
1
(R
T
WR)
1
,
em que R = X
1
X
2
C e C = (X
T
2
WX
2
)
1
X
T
2
WX
1
. Aqui C uma matriz
n q cuja j-sima coluna o vetor de coecientes da regresso linear (com
pesos W) da j-sima coluna de X
1
sobre X
2
. Assim, R pode ser interpretado
como sendo uma matriz nq de resduos. A j-sima coluna de Rcorresponde
aos resduos ordinrios da regresso linear (com pesos W) da j-sima coluna
de X
1
sobre X
2
. Assim, o teste de escore ca reexpresso na forma (vide
Cordeiro, Ferrari e Paula, 1993)
SR
= r
T
P
0
W
1/2
0
X
1
(
R
T
0
W
0

R
0
)
1
X
T
1
W
1/2
0
r
P
0
,
com as quantidades r
P
0
,

W
0
e

R
0
sendo avaliadas em

0
.
Para ilustrarmos o clculo da estatstica de escore, vamos supor um
MLG com preditor linear dado por =
1
+
2
cov
2
+
3
cov
3
+
4
cov
4
e
que o interesse testarmos H
0
:
3
=
4
= 0. As matrizes X
1
e X
2
sero
ento dadas por X
1
= [cov
3
, cov
4
] e X
2
= [1 , cov
2
]. Se temos um modelo
de Poisson, por exemplo com ligao cannica, ento como j vimos = .
Logo,

W
0
= diag{
0
1
, . . . ,
0
n
}, em que
0
1
, . . . ,
0
n
so os pesos sob H
0
, ou seja,
os pesos do modelo ajustado de Poisson com preditor linear =
1
+
2
cov
2
.
34
Portanto, precisamos apenas fazer esse ajuste e da computamos

W
0
,

R
0
,
r
P
0
e nalmente
SR
. Chamando no R os pesos por w,

W
0
por W, r
P
0
por rp
e

R
0
por R, os passos para o clculo de
SR
so dados abaixo
X1 = cbind(cov3 , cov4)
X2 = cbind(1 , cov2)
fit.poisson = glm( resp cov2, family=poisson)
rp = resid(fit.poisson, type=pearson)
w = fit.poisson$weights
W = diag(w)
A = solve(t(X2)%*%W%*%X2)
C1 = A%*%t(X2)%*%W%*%cov3
C2 = A%*%t(X2)%*%W%*%cov4
C = cbind(C1 , C2)
R = X1 - X2%*%C
SR = solve(t(R)%*%W%*%R)
SR = t(rp)%*%sqrt(W)%*%X1%*%SR%*%t(X1)%*%sqrt(W)%*%rp.
Em particular, para o caso normal linear, C = (X
T
2
X
2
)
1
X
T
2
X
1
e r
P
=
(y )/. Logo,
SR
=
2
(y
0
)
T
X
1
(R
T
R)
1
X
T
1
(y
0
), em que
R = X
1
X
2
(X
T
2
X
2
)
1
X
T
2
X
1
= (I
n
H
2
)X
1
. Aqui, tambm as estatsticas
da razo de verossimilhanas e de Wald coincidem com a estatstica de escore.
Isso em geral vale para o modelo normal linear.
A estatstica de Wald ca, analogamente ao caso anterior, dada por
W
= [
0
1
]
T
[
R
T

W
R][
0
1
].
O clculo de

R segue os mesmos passos descritos para o clculo do teste de
escore, com a nica diferena de que os pesos sairo do ajuste do modelo com
todos os parmetros. As mudanas nos comandos so as seguintes:
35
fit1.poissom = glm( resp cov2 + cov3 + cov4,
family=poisson)
w = fit1.poisson$weights
W = diag(w).
Sob H
0
e para grandes amostras, temos que
RV
,
W
e
SR

2
q
.
desconhecido
No caso de ser desconhecido e o interesse for testarmos H
0
:
1
=
0
1
con-
tra H
1
:
1
=
0
1
, as estatsticas
RV
,
SR
e
W
assumem formas diferentes
daquelas apresentadas para o caso de ser conhecido. Em particular, deno-
tamos por

0
e

as estimativas de mxima verossimilhana de sob H
0
e
H
1
, respectivamente. Para facilitarmos a notao da estatstica
RV
usamos
o resultado c(y, ) = d()+a(y)+u(y) vlido para algumas distribuies da
famlia exponencial dada em (1.1) (por exemplo normal, gama e normal in-
versa), em que a(), d() e u() so funes diferenciveis. Assim, a estatstica
da razo de verossimilhanas ca expressa na forma
RV
= 2{
t( )

0
t(
0
)} + 2n{d(
) d(
0
)},
em que t() =
n
i=1
{y
i
i
b(
i
) + a(y
i
)} e
i
= (
i
). Para o modelo
gama, por exemplo, temos que t() =
n
i=1
{log(y
i
/
i
) y
i
/
i
} e d() =
log log(). A estatstica de Wald ca, por sua vez, dada por
W
= [
0
1
]
T

Var
1
(
1
)[
0
1
]
=

[
0
1
]
T
(
R
T

W
R)[
0
1
].
J a estatstica de escore assume a forma
SR
= U
1
(
0
)
T

Var
0
(
1
)U
1
(
0
)
= r
T
P
0
W
1/2
0
X
1
(
R
T
0
W
0

R
0
)
1
X
T
1
W
1/2
0
r
P
0
,
36
em que r
P
0
=
_
0
V
1
0
(y
0
) e

0
= (
0T
,

0
)
T
a estimativa de mxima
verossimilhana de sob H
0
. As trs estatsticas seguem assintoticamente e
sob H
0
uma distribuio
2
q
.
1.7.3 Modelo de anlise de varincia
Vamos supor o modelo de anlise de varincia balanceado com um fator e
dois grupos
g(
ij
) = +
i
,
em que i = 1, 2, j = 1, . . . , m,
1
= 0,
2
= e conhecido. Vamos
considerar as hipteses H
0
: = 0 contra H
1
: = 0. Aqui X
2
um vetor
2m 1 de 1
s enquanto X
1
um vetor 2m 1 com 0
s nas m primeiras
posies e 1
s nas m restantes. Da segue que X

T
2
WX
2
= m(
1
+
2
),
X
T
2
WX
1
= m
2
, C =
2
/(
1
+
2
) e consequentemente
R
T
WR =
m
1
2
(
1
+
2
)
,
em que
1
e
2
so os pesos correspondentes aos dois grupos. A estatstica
de escore ca ento dada por
SR
=
2
m
_
m
j=1
r
0
P
2j
_
2
,
em que r
0
P
2j
, j = 1, . . . , m, so os resduos estimados de Pearson, sob H
0
, cor-
respondentes ao segundo grupo, sendo dados por r
0
P
2j
=
1/2
(y
2j

0
)/
V
1/2
0
.
Em particular, sob a hiptese nula,
0
= y. Assim, obtemos a simplicao
SR
=
m
2
V
0
( y
1
y
2
)
2
, (1.6)
em que y
1
e y
2
so as mdias amostrais correspondentes aos dois grupos e
V
0
= V ( y) a funo de varincia sob a hiptese nula
1
.
1
no caso binomial tomar y
i
= y
i
/m e V ( y) = y(1 y)
37
Similarmente, podemos mostrar que a estatstica de Wald ca dada
por
W
=
m
1

2
(
1
+
2
)
2
, (1.7)
em que

denota a estimativa de mxima verossimilhana de . Mostramos
na Tabela 1.4 como cam as expresses das estatsticas
SR
e
W
para alguns
casos da famlia exponencial.
Tabela 1.4
Expresses para as estatsticas de escore e de Wald.
Distribuio
SR

W
Normal
m
2
2
( y
1
y
2
)
2 m
2
2
2
Poisson
m
2 y
( y
1
y
2
)
2 m y
1
y
2
( y
1
+ y
2
)
2
Binomial
2m
y(2my)
(y
1
y
2
)
2

2
m
y
1
(my
1
)y
2
(my
2
)
y
1
(my
1
)+y
2
(my
2
)
Gama
m
2 y
2
( y
1
y
2
)
2
m( y
1
y
2
)
2
( y
2
1
+ y
2
2
)
2
Normal inversa
m
2 y
3
( y
1
y
2
)
2
m( y
1
y
2
)
3
( y
3
1
+ y
3
2
)
2
1.7.4 Regresso linear simples
Vamos supor agora um MLG com parte sistemtica na forma linear simples
g(
i
) = + x
i
, i = 1, . . . , n,
e as hipteses H
0
: = 0 contra H
1
: = 0 com conhecido. Nesse caso
obtemos R
j
= (x
j
n
i=1
n
i=1
i
x
i
)/
n
i=1
i
e R
T
WR =
n
i=1
i
R
2
i
.
Consequentemente,

R
0j
= x
j
x e

R
T
0
W
0

R
0
=
0
n
i=1
(x
i
x)
2
. Aqui,
tambm obtemos
0
= y.
38
A estatstica de escore ca portanto dada por
SR
=

V
0
{
n
i=1
x
i
(y
i
y)}
2
n
i=1
(x
i
x)
2
, (1.8)
em que

V
0
= V ( y).
Similarmente, obtemos para a estatstica de Wald
W
=
2
n
i=1

i

R
2
i
, (1.9)
em que

a estimativa de sob H
1
.
1.7.5 Hipteses restritas
Podemos ter interesse, em algumas situaes prticas, em testarmos hipte-
ses na forma de igualdades lineares, isto , H
0
: C = 0 contra H
1
: C = 0,
em que C uma matriz k p de posto completo. A estimativa de m-
xima verossimilhana sob a hiptese alternativa coincide com a estimativa
de mxima verossimilhana irrestrita

, no entanto, obtermos a estimativa
de mxima verossimilhana sob H
0
pode ser mais complexo, requerendo o uso
de algum procedimento iterativo. Nyquist (1991) prope um processo ite-
rativo para a obteno da estimativa de mxima verossimilhana em MLGs
com parmetros restritos na forma C = 0. O processo iterativo dado
abaixo
(m+1)
c
=

(m+1)
(X
T
W
(m)
X)
1
C
T
{C(X
T
W
(m)
X)
1
C
T
}
1
C
(m+1)
,
m = 0, 1, . . ., em que

(m+1)
(1.5) avaliado na estimativa restrita
(m)
c
. A
matriz de varincia-covarincia assinttica de

c
dada por
Var(
c
) =
1
(X
T
WX)
1
[I
n
C
T
{C(X
T
WX)
1
C
T
}
1
C(X
T
WX)
1
].
39
1.8 Bandas de conana
Os testes estatsticos assumem formas similares aos testes do caso irrestrito.
Em particular, quando conhecido, o teste da razo de verossimilhanas
ca dado por
RV
= {D(y;
0
) D(y; )},
em que
0
denota aqui a estimativa de mxima verossimilhana de sob
H
0
: C = 0. J, o teste de escore, assume a forma
SR
=
1
U
c
)
T
(X
T

W
0
X)
1
U
c
),
em que

W
0
aqui avaliado em

c
. Finalmente, o teste de Wald ca dado
por
W
= [C
0]
T
[
Var(C
)]
1
[C
0]
=
T
C
T
[C(X
T

WX)
1
C
T
]
1
C
.
Sob H
0
e para grandes amostras, as estatsticas
RV
,
W
e
SR
seguem uma
distribuio
2
k
. A distribuio nula assinttica dos testes acima para o caso
H
0
: C = 0 contra H
1
H
0
, em que H
1
: C 0, uma mistura de
distribuies do tipo qui-quadrado. Fahrmeir e Klinger (1994) discutem esse
tipo de teste em MLGs (ver tambm Paula, 1997).
1.8 Bandas de conana
1.8.1 Modelo normal linear
Uma banda de conana de coeciente 1 pode ser construda para (z) =
z
T
, z IR
p
(ver, por exemplo, Casella e Straederman, 1980). Temos que
N
p
(0,
2
(X
T
X)
1
). Logo, uma banda de conana de coeciente
1 para a mdia (z), z IR
p
, ca dada por
z
T

{z
T
(X
T
X)
1
z}
1/2
, z IR
p
,
40
1.9 Tcnicas de diagnstico: Modelo normal linear
em que c
tal que Pr{

2
p
c
} = 1 . importante observarmos que z

um vetor p 1 que varia livremente no IR
p
enquanto X uma matriz xa
com os valores das variveis explicativas.
1.8.2 Extenso para os MLGs
Uma banda assinttica de conana de coeciente 1 pode ser tambm
construda para (z) = g
1
(z
T
), z IR
p
(Piegorsch e Casella, 1988) ge-
neralizando os resultados da seo anterior. Assintoticamente temos que
N
p
(0,
1
(X
T
WX)
1
). Logo, uma banda assinttica de conana
de coeciente 1 para o preditor linear z
T
, z IR
p
, ca dada por
z
T

_
1
c
{z
T
(X
T
WX)
1
z}
1/2
, z IR
p
,
em que c
tal que Pr{

2
p
c
} = 1 . Aplicando a transformao g
1
()
podemos, equivalentemente, encontrar uma banda assinttica de conana
de coeciente 1 para (z), dada por
g
1
[z
T

_
1
c
{z
T
(X
T
WX)
1
z}
1/2
] z IR
p
.
Lembramos que z um vetor p 1 que varia livremente no IR
p
, enquanto X
uma matriz xa com os valores das variveis explicativas. As quantidades
W e devem ser estimadas consistentemente.
1.9.1 Introduo
Uma etapa importante na anlise de um ajuste de regresso a vericao
de possveis afastamentos das suposies feitas para o modelo, especialmente
para o componente aleatrio e para a parte sistemtica do modelo, bem
41
como a existncia de observaes discrepantes com alguma interferncia des-
proporcional ou inferencial nos resultados do ajuste. Tal etapa, conhecida
como anlise de diagnstico, tem longa data, e comeou com a anlise de
resduos para detectar a presena de pontos aberrantes e avaliar a adequao
da distribuio proposta para a varivel resposta. Uma referncia importante
nesse tpico o artigo de Cox e Snell (1968) em que apresentada uma forma
bastante geral de denir resduos.
Belsley, Kuh e Welsch (1980) e Cook e Weisberg (1982) discutem a
padronizao de resduos para o caso normal linear. Pregibon (1981) prope
o componente do desvio como resduo na classe dos modelos lineares generali-
zados e sugere uma padronizao que comprovada por Cordeiro (1982)(ver
tambm McCullagh, 1987) que usa as aproximaes propostas por Cox e Snell
(1968). McCullagh (1987) apresenta uma outra forma de padronizao para
o componente do desvio em que procura corrigir os efeitos de assimetria e
curtose. Atkinson (1981) prope a construo por simulao de Monte Carlo
de uma banda de conana para os resduos da regresso normal linear, a qual
denominou envelope, e que permite uma melhor comparao entre os resduos
e os percentis da distribuio normal padro. Williams (1984,1987) discute,
com base em estudos de simulao, a aproximao da forma padronizada
proposta por Pregibon (1981) encontrando fortes evidncias de concordn-
cia entre a distribuio emprica do componente do desvio padronizado e a
distribuio normal padro para vrios MLGs. Williams (1987) tambm dis-
cute a construo de envelopes em MLGs. Davison e Gigli (1989) estendem
a proposta de Cox e Snell (1968) e denem uma forma geral de padronizao
para o componente do desvio, mesmo quando a funo de distribuio acu-
mulada no expressa em forma fechada. Fahrmeir e Tutz (1994) estendem
o trabalho de McCullagh (1987) para modelos mais gerais, no pertencentes
42
famlia exponencial de distribuies. Paula (1995) apresenta uma forma
padronizada para o componente do desvio em MLGs com parmetros restri-
tos e verica, atravs de estudos de simulao, forte concordncia na maioria
dos modelos estudados entre a distribuio emprica do resduo padronizado
e a distribuio normal padro, generalizando para parmetros restritos os
resultados de Williams. De Souza e Paula (2002) usam o mtodo proposto
por Davison e Gigli (1989) a m de obterem uma forma padronizada para o
componente do desvio em modelos de regresso von Mises, os quais tm sido
aplicados na anlise de dados circulares. A construo de envelopes com o
resduo proposto tambm discutida no trabalho. Svetliza e Paula (2003),
Ortega, Paula e Bolfarine (2007), Leiva et al. (2007) e Barros, Paula e Leiva
(2008) estudam a distribuio emprica do resduo componente do desvio,
respectivamente, em modelos no lineares com resposta binomial negativa
e modelos para anlise de dados de sobrevivncia log-gama generalizados e
Birnbaum-Saunders com dados censurados.
Um outro tpico importante na anlise de diagnstico a deteco de
observaes inuentes, isto , pontos que exercem um peso desproporcional
nas estimativas dos parmetros do modelo. Durante a dcada de 70 surgiram
vrias propostas relacionadas com a inuncia das observaes nas estimati-
vas dos coecientes do modelo normal linear. O estudo da diagonal principal
da matriz de projeo H = X(X
T
X)
1
X apresentada por Hoaglin e Welsch
(1978), em que X denota a matriz modelo, motivou a denio de pontos
de alavanca que receberam esse nome por terem um peso desproporcional no
prprio valor ajustado. Esses pontos em geral so remotos no subespao ge-
rado pelas colunas da matriz X, ou seja, tm um perl diferente dos demais
pontos no que diz respeito aos valores das variveis explicativas. Dependendo
da localizao, tais pontos podem exercer forte inuncia nas estimativas dos
43
coecientes da regresso. Extenses da denio de pontos de alavanca para
modelos normais no lineares so dadas em St. Laurent e Cook (1992). Wei,
Hu e Fung (1998) estendem a denio de pontos de alavanca para modelos
bastante gerais cuja varivel resposta seja contnua. Nessa generalizao so
includos outros mtodos de estimao, alm de mxima verossimilhana,
e outros enfoques tais como enfoque bayesiano. Paula (1999) discute pon-
tos de alavanca em modelos normais lineares com parmetros restritos, com
extenses para os MLGs.
A deleo de pontos talvez seja a tcnica mais conhecida para ava-
liar o impacto da retirada de uma observao particular nas estimativas da
regresso. A distncia de Cook(1977), originalmente desenvolvida para mo-
delos normais lineares, foi rapidamente assimilada e estendida para diversas
classes de modelos. Por exemplo, Moolgavkar, Lustbader e Venzon (1984)
estendem a metodologia para regresso no linear com aplicaes em estudos
emparelhados, Ross (1987) discute a geometria da deleo de casos em regres-
so no linear, Cook, Pea e Weisberg (1988) comparam o afastamento pela
verossimilhana com medidas tradicionais de deleo de pontos tais como
a distncia de Cook e o DFFITS
i
, esse ltimo proposto por Belsley, Kuh
e Welsch (1980) e Paula e Peres (1988) discutem a deleo de pontos em
MLGs com parmetros restritos. Davison e Tsai (1992) e Cordeiro e Paula
(1992) estendem a metodologia para modelos cuja distribuio no pertence
famlia exponencial de distribuies. Galea, Riquelme e Paula (2000) investi-
gam a metodologia em modelos elpticos multivariados. Algumas referncias
nesse tpico so, dentre outras, os textos de Carvalho e Dachs (1982), Cook e
Weisberg (1982), Atkinson (1985) e Chattergee e Hadi (1988). Um problema
que pode ocorrer com a deleo individual de pontos o que se denomina
masking eect ou seja, deixar de detectar pontos conjuntamente discrepan-
44
tes. Embora esse procedimento de deleo mltipla de pontos no seja muito
popular, provavelmente em virtude do custo computacional envolvido, exis-
tem vrios procedimentos robustos para a deteco de pontos discrepantes,
muitos dos quais com um custo computacional relativamente baixo (ver, por
exemplo, Fung, 1993; Pea e Yohai, 1999). Como em geral esses procedimen-
tos tm sido desenvolvidos para modelos lineares, abre-se uma perspectiva
de pesquisas em classes mais abrangentes, tais como os MLGs.
Contudo, uma das propostas mais inovadoras na rea de diagnstico
em regresso foi apresentada por Cook (1986) que prope avaliar a inuncia
conjunta das observaes sob pequenas mudanas (perturbaes) no modelo
ou nos dados, ao invs da avaliao pela retirada individual ou conjunta de
pontos. Essa metodologia, denominada inuncia local, teve uma grande
receptividade entre os usurios e pesquisadores de regresso, havendo in-
meras publicaes no assunto em que a metodologia aplicada em classes
particulares de modelos ou estendida para situaes mais gerais.
As metodologias descritas acima sero inicialmente derivadas para o
modelo normal linear clssico sendo estendidas em seguida para os MLGs.
Vamos considerar, portanto, o modelo de regresso normal linear
y
i
=
1
+
2
x
2i
+ . . . +
p
x
pi
+
i
,
i = 1, . . . , n, em que os erros
i
s so variveis aleatrias independentes nor-
malmente ditribudas de mdia zero e varincia constante
2
.
1.9.2 Pontos de alavanca
O resduo para a i-sima observao pode ser denido como uma funo do
tipo r
i
= r(y
i
,
i
) que procura medir a discrepncia entre o valor observado e
o valor ajustado da i-sima observao. O sinal de r
i
indica a direo dessa
45
discrepncia. A denio mais usual de resduo dada por r
i
= y
i

i
(resduo ordinrio), todavia h outras formas de denir resduo que veremos
mais adiante. O vetor de resduos ordinrios denido por r = (r
1
, . . . , r
n
)
T
.
Logo, da regresso normal linear segue que r = y = yHy = (I
n
H)y,
em que H = X(X
T
X)
1
X
T
a matriz de projeo ortogonal de vetores do
R
n
no subespao gerado pelas colunas da matriz X.
A matriz H simtrica e idempotente e conhecida como matriz hat,
uma vez que faz = Hy. Por ser idempotente, temos que posto(H) =
tr(H) =
n
i=1
h
ii
= p. O elemento h
ii
= x
T
i
(X
T
X)
1
x
i
desempenha um
papel importante na construo de tcnicas de diagnstico. Adicionalmente,
temos que
1
n
h
ii

1
c
(ver, por exemplo, Cook e Weisberg, 1982), em que
c o nmero de linhas de X idnticas a x
T
i
. O i-simo valor ajustado ca
ento dado por
y
i
= h
ii
y
i
+
i=j
h
ji
y
j
, (1.10)
e pelo fato da matriz H ser idempotente
j=i
h
2
ij
= h
ii
(1 h
ii
).
Em particular, h
ii
= 1 implica em y
i
= y
i
, todavia a recproca no necessa-
riamente verdadeira. Logo, para valores altos de h
ii
predomina na expresso
(1.10) a inuncia de y
i
sobre o correspondente valor ajustado. Assim,
muito razovel utilizar h
ii
como uma medida da inuncia da i-sima obser-
vao sobre o prprio valor ajustado. Temos tambm que h
ii
= y
i
/y
i
, ou
seja, h
ii
corresponde variao em y
i
quando y
i
acrescido de um innit-
simo.
Supondo que todos os pontos exeram a mesma inuncia sobre os
valores ajustados, podemos esperar que h
ii
esteja prximo de
tr(H)
n
=
p
n
.
Convm ento examinar, por exemplo, aqueles pontos tais que h
ii

2p
n
, que
46
so conhecidos como pontos de alavanca ou de alto leverage e geralmente
esto localizados em regies remotas no subespao gerado pelas colunas da
matriz X. Esses pontos podem ser tambm informativos com relao a

.
Uma outra maneira de entendermos h
ii
construindo a matriz Jacobi-
ana de alavancas (ver, por exemplo, St. Laurent e Cook, 1993; Paula, 1999)
quando a i-sima observao perturbada de modo que o novo valor obser-
vado seja dado por y
i
(b) = y
i
+ b, em que b uma constante real. O novo
vetor de valores ajustados ca dado por
y(b) = X(X
T
X)
1
X
T
y(b),
em que y(b) = (y
1
, . . . , y
i1
, y
i
+ b, y
i+1
, . . . , y
n
)
T
. A matriz Jacobiana de
alavancas denida por
J(b) = lim
b0
1
b
{ y(b) y},
e representa a variao no vetor de valores ajustados sob uma variao in-
nitesimal no i-simo valor observado. Podemos vericar que
J(b) = X(X
T
X)
1
X
T
f = Hf ,
em que f um vetor n1 de zeros com o valor 1 na i-sima posio. Portanto,
temos que h
ii
representa a variao no valor predito da i-sima observao
quando o valor observado acrescido de um innitsimo.
Para ilustrarmos como so obtidos os valores h
ii
no R, vamos supor um
modelo normal linear de varivel resposta resp, fatores A e B e covariveis
cov1 e cov2 e que os resultados do ajuste so armazenadas em fit.model.
Esse modelo pode ser ajustado de duas formas
fit.model = lm( resp A + B + cov1 + cov2)
ou, alternativamente, como um MLG
47
fit.model = glm( resp A + B + cov1 + cov2,
family=gaussian).
claro que a primeira maneira mais simples. Para gerarmos a matriz
modelo (incluindo a constante) fazemos
X = model.matrix( A + B + cov1 + cov2).
Assim, temos em X a matriz modelo correspondente. O clculo da matriz
de projeo H pode ser feito seguindo os passos descritos abaixo
H = X% %solve(t(X)% %X)% %t(X).
Logo, podemos obter h
ii
extraindo os elementos da diagonal principal de H
h = diag(H).
Outras maneiras mais geis de extrairmos os elementos h
ii
s de uma regresso
linear so atravs dos comandos
h = lm.influence(fit.model)$hat
h = hat(X,T).
Para construirmos um grco de ndices para h
ii
, a m de detectarmos pontos
de alavanca, fazemos
plot(h, xlab=Indice, ylab= Alavanca).
1.9.3 Resduos
Dos resultados descritos na seo anterior segue que E(r) = (I
n
H)E(Y) = 0
e Var(r) =
2
(I
n
H). Isto , r
i
tem distribuio normal de mdia zero e
varincia Var(r
i
) =
2
(1 h
ii
). Alm disso, a covarincia entre r
i
e r
j
, i = j,
ca dada por Cov(r
i
, r
j
) =
2
h
ij
.
Como os r
i
s tm varincias diferentes, devemos express-los em forma
padronizada a m de conseguirmos uma comparabilidade entre os mesmos.
Uma denio natural seria dividirmos r
i
pelo respectivo desvio padro. Ob-
48
temos assim o resduo studentizado
t
i
=
r
i
s(1 h
ii
)
1/2
, i = 1, . . . , n,
em que s
2
=
n
i=1
r
2
i
/(n p).
No entanto, como r
i
no independente de s
2
, t
i
no segue uma dis-
tribuio t de Student como se poderamos esperar. Cook e Weisberg (1982)
mostram que t
2
i
/(n p) segue uma distribuio beta com parmetros
1
2
e
(n p 1)/2. Logo, temos que E(t
i
) = 0, Var(t
i
) = 1 e Cov(t
i
, t
j
) =
h
ij
/{(1 h
ii
)(1 h
jj
)}
1/2
, i < j. O problema da dependncia entre r
i
e s
2
pode ser contornado substituindo s
2
por s
2
(i)
, o erro quadrtico mdio cor-
respondente ao modelo sem a i-sima observao. O ndice (i) indica que a
i-sima observao foi excluda. Podemos mostrar que
(n p)s
2
2
=
(n p 1)s
2
(i)
2
+
r
2
i
2
(1 h
ii
)
,
e da segue pelo teorema de Fisher-Cochran (ver, por exemplo, Rao, 1973,
p.185) a independncia entre s
2
(i)
e r
2
i
. Alm disso, obtemos
(n p 1)s
2
(i)
=
n
j=1
r
2
j

r
2
i
(1 h
ii
)
e da segue, aps alguma lgebra, que
s
2
(i)
= s
2
_
n p t
2
i
n p 1
_
. (1.11)
Assim, ca fcil mostrarmos que o novo resduo studentizado
t
i
=
r
i
s
(i)
{1 h
ii
}
1/2
segue uma distribuio t
np1
. Se ainda substituimos (1.11) na expresso
acima mostramos que t
i
uma transformao montona de t
i
,
t
i
= t
i
_
n p 1
n p t
2
i
_
1/2
.
49
O resduo t
i
pode ser calculado pela sequncia de comandos
lms = summary(fit.model)
s = lms$sigma
r = resid(lms)
ti = r/(s*(1-h) .5).
Logo, o resduo t
i
ca dado por
tsi = ti*((n-p-1)/(n-p-ti 2)) .5.
Devemos substituir n e p pelos respectivos valores numricos.
Vrias quantidades do modelo linear ajustado podem ser obtidas dire-
tamente no R atravs do uso de algumas funes apropriadas (ver Spector,
1994), as quais so teis na aplicao das tcnicas de diagnstico. Resumimos
na Tabela 1.5 alguns casos.
Tabela 1.5
Quantidades teis para diagnstico obtidas no R.
Smbolo Descrio Funo Elemento
h Alavanca lm.inuence() hat
Coecientes coef()
r Resduos resid()
s Desvio padro summary() sigma
amostral
s
(i)
Desvio padro lm.inuence() sigma
sem observao i
(i)
Coeciente sem lm.inuence() coef
observao i
(X
T
X)
1
Covarincia de

summary() cov.unscaled
sem s
2
Como ilustrao, vamos supor um ajuste com resultados no objeto
fit.model e que o interesse obtermos a estimativa do desvio padro da
varivel resposta Y
i
sem considerarmos a i-sima observao. Aplicamos
50
em R a funo lm.influence(fit.model)$sigma e obtemos um vetor de
dimenso n com todas as estimativas do desvio padro de Y
i
excluindo cada
observao correspondente. Como veremos a seguir o resduo t
i
pode ser
interpretado como uma estatstica para avaliarmos se a i-sima observao
aberrante.
1.9.4 Outra interpretao para t
i
Vamos supor que o i-simo ponto suspeito de ser aberrante. Essa hiptese
pode ser testada atravs do modelo
y
j
=
1
+
2
x
2j
+ . . . +
p
x
pj
+
j
+
j
, (1.12)
j = 1, . . . , n, em que
j
= 1 para j = i e
j
= 0 em caso contrrio.
Usando resultados da Seo 1.4.2 podemos mostrar que, sob a hiptese
H
0
: = 0, o acrscimo na soma de quadrados de resduos dado por
D(y;
0
) D(y; ) =
2
(1 h
ii
),
em que = r
i
(1 h
ii
)
1
e r
i
= y
i
x
T
i
. Assim, uma vez que D(y;

0
) =
(n p)s
2
, a estatstica F para testarmos H
0
: = 0 contra H
1
: = 0 ca
dada por
F =

2
(1 h
ii
)
_
(n p)s
2
r
2
i
(1h
ii
)
_
/(n p 1)
.
Assintoticamente a estatstica F segue, sob H
0
, distribuio qui-quadrado
com 1 grau de liberdade. Trabalhando um pouco a expresso acima chegamos
ao seguinte resultado:
F =
r
2
i
(n p 1)
s
2
(1 h
ii
)(n p t
2
i
)
= t
2
i
.
Portanto, valores altos para |t
i
| indicam, signicativamente, que o i-simo
ponto aberrante.
51
1.9.5 Inuncia
Vamos supor conhecido. Ento, o logaritmo da funo de verossimilhana
ca agora expresso na forma
L
() =
n
j=1
j
L
j
(), (1.13)
em que L
j
() denota o logaritmo da funo de verossimilhana correspon-
dente j-sima observao e
j
um tipo de perturbao, denida tal que
0
j
1. Quando
j
= 1, j, signica que no h perturbao no modelo
e quando
j
= 0 signica que a j sima observao foi excluda.
A estimativa de mnimos quadrados para ca, supondo a estrutura
(1.13), dada por
= (X
T
X)
1
X
T
y,
em que = diag{
1
, . . . ,
n
}. Em particular, quando apenas a i-sima ob-
servao perturbada, isto , quando
i
= e
j
= 1 para j = i, obtemos
=

(1 )r
i
{1 (1 )h
ii
}
(X
T
X)
1
x
i
. (1.14)
Para = 0, signicando que o i-simo ponto foi excludo, (1.14) ca
expressa na forma simplicada
(i)
=

r
i
(1 h
ii
)
(X
T
X)
1
x
i
, (1.15)
que bastante conhecida da regresso normal linear (ver, por exemplo, Cook
e Weisberg, 1982).
A medida de inuncia mais conhecida baseada na regio de conana
para o parmetro ,
(
)
T
(X
T
X)(
) ps
2
F
p,(np)
(),
52
que para o caso de p = 2 um elipside no R
2
centrado em

. Tal medida,
conhecida como distncia de Cook, denida por
D
=
(
)
T
(X
T
X)(
)
ps
2
, (1.16)
e mede quanto a perturbao = (
1
, . . . ,
n
)
T
afasta

de

, segundo a
mtrica M = X
T
X. Por exemplo, se D
> F
p,(np)
(1 ), signica que
a perturbao est deslocando o contorno do elipside para um contorno
correspondente a um nvel de signicncia menor do que .
Em particular, quando o i-simo ponto excludo, a distncia de Cook
ca expressa na forma
D
i
=
(
(i)
)
T
(X
T
X)(
(i)
)
ps
2
=
_
r
i
s(1 h
ii
)
1/2
_
2
h
ii
(1 h
ii
)
1
p
= t
2
i
h
ii
(1 h
ii
)
1
p
.
Portanto, D
i
ser grande quando o i-simo ponto for aberrante (t
i
grande)
e/ou quando h
ii
for prximo de um. A distncia de Cook pode ser calculada
da seguinte maneira:
di = (ti 2)*h / (p*(1-h)).
A distncia D
i
poder no ser adequada quando r
i
for grande e h
ii
for pe-
queno. Nesse caso, s
2
pode car inacionado e no ocorrendo nenhuma
compensao por parte de h
ii
, D
i
pode car pequeno. Uma medida suposta-
mente mais apropriada foi proposta por Belsley, Kuh e Welsch (1980), sendo
denida por
DFFITS
i
=
|r
i
|
s
(i)
(1 h
ii
)
1/2
_
h
ii
(1 h
ii
)
_
1/2
53
= |t
i
|
_
h
ii
(1 h
ii
)
_
1/2
.
O DFFITS
i
calculado conforme abaixo
dfit = abs(tsi)*(h/(1-h)) .5.
Como o valor esperado de h
ii

p
n
, razovel darmos mais ateno queles
pontos tais que
DFFITS
i
2
_
p
(n p)
_
1/2
.
Aparentemente D
i
e DFFITS
i
seriam medidas de inuncia competitivas,
uma vez que DFFITS
i
parece ser mais adequada para avaliar a inuncia
nas estimativas dos coecientes de um ponto aberrante com h
ii
pequeno. No
entanto, como mostram Cook, Pea e Weisberg (1988) D
i
e DFFITS
i
me-
dem coisas diferentes. Ambas podem ser expressas a partir da medida mais
geral de inuncia denominada afastamento pela verossimilhana (likelihood
displacement) proposta por Cook e Weisberg (1982). A medida D
i
mede
essencialmente a inuncia das observaes nos parmetros de posio, en-
quanto DFFITS
i
tem o propsito de medir a inuncia das observaes nos
parmetros de posio e escala. Como pouco provvel que um ponto com
r
i
alto e h
ii
pequeno seja inuente nas estimativas dos coecientes, o uso
de D
i
no compromete a deteco de observaes inuentes. Cook, Pea e
Weisberg observam tambm que DFFITS
i
no um medida completa de in-
uncia nos parmetros de posio e escala simultaneamente, podendo falhar
em algumas situaes. Uma medida mais geral nesse caso proposta pelos
autores.
Atkinson (1985) props uma outra medida de inuncia que um
aperfeioamento do DFFITS
i
,
A
i
=
_
(n p)
p
h
ii
(1 h
ii
)
_
1/2
|t
i
|.
54
Aqui, quando o experimento for balanceado, isto , todos os h
ii
s forem iguais,
obtemos A
i
= |t
i
|. A vantagem de A
i
que a mesma pode ser utilizada em
grcos normais de probabilidades.
x
y
1 2 3 4 5
1
2
3
4
5
(a)
x
y
1 2 3 4 5
1
2
3
4
5
(b)
3
x
y
1 2 3 4 5 6 7
1
2
3
4
5
6
7
(c)
5
x
y
1 2 3 4 5 6 7
2
4
6
8
(d)
5
Figura 1.4: Ilustrao de pontos aberrantes, inuentes e de alavanca.
1.9.6 Ilustrao
As Figuras 1.4a-1.4d ilustram as diferenas entre pontos aberrantes, de ala-
vanca e inuentes. Na Figura 1.4a temos os pontos alinhados sem nenhum
tipo de perturbao. Na Figura 1.4b perturbamos o ponto #3 fazendo-o
aberrante. Note que a excluso do mesmo (reta pontilhada) altera apenas
55
o intercepto, isto , os valores ajustados. um ponto que no est muito
afastado dos demais, logo tem um valor para h
ii
relativamente pequeno. J
na Figura 1.4c, perturbamos o ponto #5 de modo que o mesmo que mais
afastado no subespao gerado pelas colunas da matriz X. um ponto de
alavanca, todavia a eliminao do mesmo no muda praticamente nada nas
estimativas dos parmetros. Como um ponto com h
ii
relativamente alto, as
varincias dos valores ajustados dos pontos prximos ao mesmo sero mai-
ores do que as varincias dos valores ajustados correspondentes aos demais
pontos. Finalmente, na Figura 1.4d, perturbamos novamente o ponto #5
fazendo-o agora inuente e tambm alavanca. O mesmo, alm de mudar a
estimativa da inclinao da reta ajustada, continua mais afastado do que os
demais.
As possveis situaes discutidas acima, quando detectadas num ajuste
de regresso, devem ser examinadas cuidadosamente antes de qualquer deci-
so. Encontrarmos razes que expliquem o fato dos pontos terem um com-
portamento atpico com relao aos demais pontos podem ajudar-nos a en-
tendermos melhor a relao entre as variveis explicativas e o fenmeno sob
investigao como tambm a traarmos uma estratgia de utilizao do mo-
delo ajustado, que no necessariamente implica na eliminao de tais pontos
que deve ser o ltimo recurso a ser utilizado. Mudanas na distribuio pos-
tulada para a varivel resposta, incluso, eliminao ou mesmo transforma-
o de variveis explicativas ou uso de mtodos robustos (vide, por exemplo,
Venables e Ripley, 1999, Cap.8) podem atenuar a inuncia de observaes.
1.9.7 Inuncia local
Um dos mtodos mais modernos de diagnstico foi proposto por Cook (1986).
A ideia bsica consiste em estudar o comportamento de alguma medida parti-
56
cular de inuncia segundo pequenas perturbaes (influncia local) nos
dados ou no modelo. Isto , vericar a existncia de pontos que sob modica-
es modestas no modelo causam variaes desproporcionais nos resultados.
Podemos, por exemplo, querer avaliar a inuncia que pequenas mu-
danas nas varincias das observaes causam nas estimativas dos parme-
tros. Nesse caso, podemos utilizar a distncia de Cook como medida de
referncia. Por outro lado, se o interesse estudarmos a inuncia local das
observaes no ajuste, a sugesto de Cook perturbarmos as covariveis ou a
varivel resposta e utilizarmos alguma medida adequada para quanticarmos
a inuncia das observaes. Como ilustrao, vamos supor que uma varivel
explicativa que representa uma distncia particular perturbada localmente
e detectamos atravs de uma medida de inuncia que pontos com distn-
cias altas produzem variaes acentuadas na medida adotada. Isso sugere
que a varivel explicativa sob estudo bastante sensvel para valores altos,
podendo no ser uma boa preditora nesses casos.
Mais de 400 artigos foram publicados no assunto nos ltimos 20 anos.
Por exemplo, na classe de erros normais, Lawrence (1988) investiga a aplica-
o de inuncia local em modelos lineares com parmetros na transformao
da resposta, Beckman, Nachtsheim e Cook (1987) apresentam estudos de in-
uncia em modelos de anlise de varincia com efeito misto, Tsai e Wu
(1992) investigam inuncia local em modelos autoregressivos de 1a. ordem
e modelos heteroscedsticos e Paula (1993) aplica inuncia local em modelos
lineares com restries nos parmetros na forma de desigualdades lineares.
Saindo da classe de erros normais temos, por exemplo, o trabalho de Pettitt
e Bin Daud (1989) que investigam inuncia local em modelos de Cox com
riscos proporcionais, Escobar e Meeker (1992) adaptam inuncia local numa
classe paramtrica de modelos para anlise de sobrevivncia, OHara Hines,
57
Lawless e Carter (1992), Kim (1995) e Pan, Fang e von Rosen (1997) aplicam
mtodos de inuncia local em regresso multivariada. Mais recentemente,
Galea, Paula e Bolfarine (1997), Liu (2000), Galea, Paula e Uribe-Opazo
(2003), Osorio, Paula e Galea (2007) e Russo, Paula e Aoki (2009) apresen-
tam estudos de inuncia local em modelos de contornos elpticos, enquanto
Kwan e Fung (1998) aplicam a metodologia em anlise fatorial, Gu e Fung
(1998) em anlise de correlao cannica, Paula (1996) em modelos prprios
de disperso e Ortega, Bolfarine e Paula (2003) em modelos log-gama ge-
neralizados com dados censurados. Svetliza e Paula (2001, 2003) discutem
inuncia local em modelos com resposta binomial negativa. Esses ltimos
modelos tm sido muito usados para corrigir problemas de sobredisperso,
frequentemente encontrados em modelos com resposta de Poisson. Galea,
Leiva e Paula (2004), Leiva et al. (2007) e Barros, Paula e Leiva (2008)
aplicam a metodologia de inuncia local em modelos Birnbaum-Saunders
comumente utilizados em conabilidade e anlise de dados de sobrevivncia.
Uma discusso interessante a respeito do uso de inuncia local apresentada
por Fung e Kwan (1997). Os autores mostram que o afastamento pela veros-
similhana uma medida de inuncia invariante com mudanas de escala
nos dados, fato que no ocorre com outras medidas de inuncia propostas.
Curvatura normal
Para formalizar o mtodo de inuncia local vamos denotar por L() o lo-
garitmo da funo de verossimilhana do modelo postulado e um vetor
r-dimensional. No caso de MLGs podemos ter = (
T
, )
T
e r = p + 1
ou simplesmente = quando for conhecido. Seja um vetor q 1
de perturbaes, restritas a um conjunto aberto IR
q
. Em geral temos
q = n. As perturbaes so feitas no logaritmo da verossimilhana de modo
58
que o mesmo assume a forma L(|). Denotando o vetor de no perturbao
por
0
, assumimos que L(|
0
) = L(). A m de vericarmos a inuncia
das perturbaes na estimativa de mxima verossimilhana

, consideramos
o afastamento pela verossimilhana
LD() = 2{L(
) L(
)},
em que

denota a estimativa de mxima verossimilhana sob o modelo

L(|). Com a denio acima temos que LD() 0.
A ideia de inuncia local consiste basicamente em estudarmos o com-
portamento da funo LD() em torno de
0
. O procedimento procura seleci-
onar uma direo unitria , = 1, e ento estudar o grco de LD(
0
+a)
contra a, em que a IR. Esse grco conhecido como linha projetada. Em
particular, temos que LD(
0
) = 0, assim LD(
0
+ a) tem um mnimo local
em a = 0. Cada linha projetada pode ser caracterizada por uma curvatura
normal C
() em torno de a = 0. Essa curvatura interpretada como sendo

o inverso do raio do melhor crculo ajustado em a = 0. Uma sugesto
considerarmos a direo
max
que corresponde maior curvatura denotada
por C
max
. Por exemplo, o grco de
max
contra a ordem das observaes
pode revelar quais observaes que sob pequenas perturbaes exercem uma
inuncia desproporcional em LD(). Cook(1986) usa conceitos de geome-
tria diferencial para mostrar que a curvatura normal na direo assume a
forma
C
() = 2|
T
L
1
|,
em que
a matriz de informao observada de Fisher enquanto

uma matriz r q com elementos
ij
=
2
L(|)/
i
j
, avaliados em =

e =
0
, i = 1, . . . , r e j = 1, . . . , q.
Temos que o mximo de
T
B, em que B =
T
(
)
1
, corres-
ponde ao maior autovalor (em valor absoluto) de B. Portanto, C
max
corres-
59
ponde ao maior autovalor da matriz B e
max
denota o autovetor correspon-
dente.
Assim, o grco de |
max
| contra a ordem das observaes pode revelar
aqueles pontos com maior inuncia na vizinhana de LD(
0
). Tais pontos
podem ser responsveis por mudanas substanciais nas estimativas dos par-
metros sob pequenas perturbaes no modelo ou nos dados. Seria, portanto,
prudente olharmos com mais cuidado esses pontos a m de entendermos
melhor a inuncia dos mesmos e consequentemente tentarmos propor uma
forma segura de usarmos o modelo ajustado. Quando C
max
no for muito
maior do que o segundo autovalor, pode ser informativo olharmos tambm
os componentes do segundo autovetor. provvel, nesse caso, que o segundo
autovetor destaque algum tipo de inuncia particular das observaes nas
estimativas. O maior autovalor da matriz B pode ser obtido pelo comando
abaixo
Cmax = eigen(B)$val[1].
De forma similar, o autovetor correspondente padronizado e em valor abso-
luto obtido com os comandos
lmax = eigen(B)$vec[,1]
lmax = lmax/sqrt(Cmax)
lmax = abs(lmax).
Grcos alternativos, tais como de C
i
contra a ordem das observaes, em
que
i
denota um vetor n 1 de zeros com um na i-sima posio tm sido
sugeridos (ver, por exemplo, Lesare e Verbeke, 1998; Zhou e Zhang, 2004).
Nesse caso devemos padronizar C
i
= C
i
/
n
j=1
C
j
. Uma sugesto olharmos
com mais ateno aqueles pontos tais que C
i
> 2
C, em que

C =
n
j=1
C
j
/n.
Por outro lado, se o interesse est num subvetor
1
de = (
T
1
,
T
2
)
T
, ento a
curvatura normal na direo ca dada por C
(
1
) = 2|
T
T
(
L
1
B
1
)|,
60
sendo
B
1
=
_
0 0
0

L
1
2
_
,
com
2
denotando a informao de Fisher observada para
2
. O grco
do maior autovetor de
T
(
L
1
B
1
) contra a ordem das observaes
pode revelar os pontos com maior inuncia local em

1
. Outras formas de
extrao de grcos so propostas por Poon e Poon (1999).
Ponderao de casos
Para ilustrar uma aplicao particular consideramos o modelo normal linear
com
2
conhecido e esquema de perturbao ponderao de casos, em que
L(|) =
1
2
2
n
i=1
i
(y
i
x
T
i
)
2
com 0
i
1. A matriz nesse caso ca dada por X
T
D(r)/
2
em que
D(r) = diag{r
1
, . . . , r
n
} com r
i
= y
i
y
i
. Logo, desde que

L
=
2
(X
T
X)
a curvatura normal na direo unitria ca dada por
C
() =
2
2
|
T
D(r)HD(r)|,
com H = X(X
T
X)
1
X
T
. Portanto,
max
o autovetor correspondente ao
maior autovalor (em valor absoluto) da matriz B = D(r)HD(r). Se tomar-
mos a direo
i
correspondente i-sima observao, a curvatura normal
assume a forma simplicada C
i
=
2
2
h
ii
r
2
i
. Os grcos de ndices de
max
e
C
i
podem revelar aquelas observaes mais sensveis ao esquema de pertur-
bao adotado.
Clculos similares para
2
desconhecido levam ao seguinte = (
T
1
,
T
2
)
T
em que
1
= X
T
D(r)/
2
e
2
= r
(2)T
/2
4
com r
(2)T
= (r
2
1
, . . . , r
2
n
) e
61
= diag{X
T
X/
2
, n/2
4
}. Logo, a curvatura normal na direo uni-
tria ca dada por
C
() =
2

2
|
T
{D(r)HD(r) +r
(2)
r
(2)T
/2n
2
}|.
Quando o interesse vericarmos a inuncia local das observaes na
estimativa de um coeciente particular
1
devemos considerar a curvatura
normal C
(
1
) = 2|
T
B|, em que
B = D(r)X{(X
T
X)
1
B
1
}X
T
D(r)
sendo B
1
= diag{0, (X
T
2
X
2
)
1
} com X
2
saindo da partio X = (X
1
, X
2
).
Aqui X
1
um vetor n 1 correspondente varivel explicativa sob estudo e
X
2
uma matriz n(p 1) correspondente s demais variveis explicativas.
Cook (1986) mostra que
max
, nesse caso, assume a forma
T
max
=
_
v
1
r
1
_
C
max
, . . . ,
v
n
r
n
_
C
max
_
,
em que v
1
, . . . , v
n
so os resduos ordinrios da regresso linear de X
1
sobre as
colunas de X
2
, ou seja, o vetor v = (v
1
, . . . , v
n
)
T
dado por v = (I
n
H
2
)X
1
,
H
2
= X
2
(X
T
2
X
2
)
1
X
T
2
. Aqui, a matriz B tem posto m = 1. Logo, h
apenas um autovalor diferente de zero. Nesse caso, podemos tanto utilizar o
procedimento descrito acima para calcularmos
max
como obt-lo diretamente
sem precisar calcularmos a matriz H
2
. Como ilustrao, vamos supor que os
resultados do ajuste esto armazenados em fit.model. Para extrairmos o
vetor r precisamos fazer
r = resid(fit.model).
Se o modelo tem as covariveis cov1 e cov2 alm dos fatores A e B, o vetor
max
correspondente, por exemplo covarivel cov1, sai de
fit = lm( cov1 A + B + cov2 - 1)
62
v = resid(fit)
lmax = v*r
tot = t(lmax)%*%lmax
lmax = lmax/sqrt(tot)
lmax = abs(lmax).
1.9.8 Grco da varivel adicionada
Vamos supor novamente o modelo de regresso dado em (1.12), em que
agora uma varivel adicional qualquer. Denindo Z = (X, ), podemos
mostrar facilmente que a estimativa de mnimos quadrados de = (
T
, )
T
dada por

= (Z
T
Z)
1
Z
T
y. Em particular obtemos, aps alguma lgebra,
que
=

T
(I
n
H)y
T
(I
n
H)
=

T
r
T
(I
n
H)
.
Isto , o coeciente da regresso linear passando pela origem do vetor de
resduos r = (I
n
H)y sobre o novo resduo = (I
n
H), dado por
= (
T
v)
1
T
r
= {
T
(I
n
H)(I
n
H)}
1
T
(I
n
H)(I
n
H)y
=

T
(I
n
H)y
T
(I
n
H)
.
Portanto, um grco de r contra pode fornecer informaes sobre a evidn-
cia dessa regresso, indicando quais observaes que esto contribuindo para
a relao e quais observaes que esto se desviando da mesma. Esse grco,
conhecido como grco da varivel adicionada, pode revelar quais pontos que
esto inuenciando (e de que maneira) a incluso da nova varivel no modelo.
Para ilustrarmos a construo do grco da varivel adicionada, vamos
supor novamente o modelo com duas covariveis e dois fatores. O grco da
63
varivel adicionada para avaliarmos a inuncia das observaes no coeci-
ente de cov1, pode ser construdo com os comandos
fit = lm( resp cov2 + A + B)
r = resid(fit)
fit1 = lm( cov1 cov2 + A + B)
v = resid(fit1)
plot(v,r, xlab= residuo v, ylab= residuo r).
1.9.9 Tcnicas grcas
Geralmente para detectarmos pontos suspeitos de serem aberrantes e/ou in-
uentes recorremos aos seguintes grcos: (i) pontos aberrantes, o grco
de t
i
contra a ordem das observaes; (ii) heteroscedasticidade, o grco de
t
i
contra y
i
(valores ajustados); (iii) pontos inuentes, grcos de D
i
, C
i
,
DFFITS
i
, h
ii
ou |
max
| contra a ordem das observaes; (iv) falta de algum
termo extra, grco de t
i
contra y
i
ou contra as covariveis que esto ou no
foram includas no modelo, (v) correlao entre as observaes, grco de t
i
contra o tempo ou contra a ordem em que h suspeita de correlao, e (vi)
afastamentos da normalidade, grco normal de probabilidades. Esse ltimo
o grco de t
(i)
contra os valores esperados das estatsticas de ordem da
normal padro, Z
(i)
s. Temos que
E(Z
(i)
)
=
1
_
i 3/8
n + 1/4
_
,
em que () a funo de distribuio acumulada da N(0, 1). H tambm o
grco meio-normal de probabilidades, denido como sendo o grco de |t
(i)
|
contra os valores esperados de |Z
(i)
|. Temos a aproximao
E(|Z
(i)
|)
=
1
_
n + i + 1/2
2n + 9/8
_
.
64
Em particular, o grco de A
i
contra E(|Z
(i)
|) pode ser indicado para detec-
tarmos simultaneamente pontos aberrantes e/ou inuentes. O grco normal
de probabilidades com a reta ajustada pode ser construdo com os comandos
dados abaixo
qqnorm(tsi , ylab= Residuo Studentizado)
qqline(tsi).
O comando qqline() traa uma reta unindo os pontos formados pelo pri-
meiro e terceiro quartis dos resduos e da distribuio normal padro. Devido
diculdade de avaliarmos se o grco normal de probabilidades se afasta
efetivamente da reta ajustada, a construo de um tipo de banda de con-
ana para os resduos pode ser muito til para detectarmos afastamentos
srios da normalidade. Esse grco pode tambm ser informativo sobre a
existncia de pontos discrepantes ou mesmo sobre a falta de homogeneidade
de varincias. Todavia, como a distribuio conjunta dos resduos t
(i)
s bas-
tante complicada e o uso simples das varincias dos t
s para a construo
de tais bandas pode introduzir algum vis no clculo do coeciente de con-
ana, Atkinson (1985) sugere a construo de um tipo de banda de conana
atravs de simulaes, a qual denominou envelope. O procedimento con-
siste basicamente em gerarmos resduos que tenham mdia zero e matriz de
varincia-covarincia (I
n
H). Descrevemos o mtodo nos passos seguintes:
1. Geramos n observaes N(0, 1) as quais so armazenadas emy = (y
1
, . . . , y
n
)
T
;
2. Ajustamos y contra X e obtemos r
i
= y
i
y
i
, i = 1, . . . , n. Temos que
E(r
i
) = 0, Var(r
i
) = 1 h
ii
e Cov(r
i
, r
j
) = h
ij
;
3. Obtemos t
i
= r
i
/{1 h
ii
}
1/2
, i = 1, . . . , n;
4. Repetimos os passos (1)-(3) m vezes. Logo, teremos os resduos gerados
t
ij
, i = 1, . . . , n e j = 1, . . . , m.
65
1.10 Tcnicas de diagnstico: Extenso para os MLGs
5. Colocamos cada grupo de n resduos em ordem crescente, obtendo t
(i)j
,
i = 1, . . . , n e j = 1, . . . , m;
6. Obtemos os limites t
(i)I
= min
j
t
(i)j
e t
(i)S
= max
j
t
(i)j
. Assim, os limites
correspondentes ao i-simo resduo sero dados por t
(i)I
e t
(i)S
.
A sugesto de Atkinson (1985) gerar m = 19 vezes. Desse modo, a
probabilidade do maior resduo de um envelope particular exceder o limite
superior ca sendo

= 1/20. Adaptamos um programa descrito em Everitt
(1994) para gerao dos envelopes de um modelo de regresso normal linear
considerando m = 100. Para rodarmos o programa preciso apenas colocar-
mos o modelo ajustado em fit.model. Da, devemos fazer
source(envel_norm)
em que envel_norm o nome do arquivo externo onde deve estar o programa
para gerao dos envelopes (ver Apndice B).
1.10.1 Pontos de alavanca
Como j foi mencionado na Seo 1.9.2 a ideia principal que est por trs
do conceito de ponto de alavanca (ver, por exemplo, Hoaglin e Welsch, 1978;
Cook e Weisberg, 1982; Emerson, Hoaglin e Kempthorne, 1984; St. Laurent
e Cook, 1992 e Wei, Hu e Fung, 1998) de avaliarmos a inuncia de y
i
sobre o prprio valor ajustado y
i
. Essa inuncia pode ser bem representada
pela derivada y
i
/y
i
que coincide, como foi visto na Seo 1.9.2, com h
ii
no
caso normal linear. Wei, Hu e Fung (1998) propuseram uma forma bastante
geral para obteno da matrix ( y/y
T
)
nn
quando a resposta contnua e
que pode ser aplicada em diversas situaes de estimao. No caso de MLGs
66
para conhecido a matriz y/y
T
pode ser obtida da forma geral
GL =
y
y
T
= {D
)
1
L
y
}|
,
em que D
= /,

L
=
2
L()/
T
e

L
y
=
2
L()/y
T
. Te-
mos que
D
= NX e

L
y
= X
T
V
1
N,
em que N = diag{d
1
/d
1
, . . . , d
n
/d
n
}. Se substituirmos
pelo seu
valor esperado (X
T
WX), obtemos aproximadamente
GL =

NX(X
T

WX)
1
X
T

V
1

N.
Assim, o elemento

GL
ii
pode ser expresso na forma
GL
ii
=
i
x
T
i
(X
T

WX)
1
x
i
,
em que
i
= (d
i
/d
i
)
2
/V
i
. Em particular, para ligao cannica em que
= (X
T
VX) obtemos exatamente

GL =

VX(X
T

VX)
1
X
T
.
Outra denio de pontos de alavanca que tem sido muito utilizada na
classe dos MLGs, embora no coincida exatamente com a expresso acima,
exceto no caso de resposta contnua e ligao cannica, construda fazendo
uma analogia entre a soluo de mxima verossimilhana para

num MLG
e a soluo de mnimos quadrados de uma regresso normal linear ponde-
rada. Considerando a expresso para

obtida na convergncia do processo
iterativo dado em (1.5), temos que
= (X
T

WX)
1
X
T

W z,
com z = +

W
1/2

V
1/2
(y ). Portanto,

pode ser interpretado como
sendo a soluo de mnimos quadrados da regresso linear de

W
1/2
z contra as
67
colunas de

W
1/2
X. A matriz de projeo da soluo de mnimos quadrados
da regresso linear de z contra X com pesos

W ca dada por
H =

W
1/2
X(X
T

WX)
1
X
T

W
1/2
,
que sugere a utilizao dos elementos

h
ii
da diagonal principal de

H para
detectarmos a presena de pontos de alavanca nesse modelo de regresso
normal linear ponderada. Essa extenso para MLGs foi proposta por Pre-
gibon (1981). Podemos vericar facilmente que

h
ii
=

GL
ii
, ou seja, para
grandes amostras

GL e

H coincidem. No caso de ligao cannica essa igual-
dade vale para qualquer tamanho amostral. Como em geral

h
ii
depende de

ii
sugerimos para detectar pontos de alavanca o grco de

h
ii
contra os
valores ajustados.
Moolgavkar, Lustbader e Venzon (1984) estendem a proposta de Pre-
gibon para modelos no lineares e sugerem o uso dos elementos da diagonal
principal da matriz de projeo no plano tangente soluo de mxima ve-
rossimilhana (
) para detectar pontos de alavanca. Hosmer e Lemeshow

(1989) mostram, contudo, que o uso da diagonal principal da matriz de pro-
jeo

H deve ser feito com algum cuidado em regresso logstica e que as
interpretaes so diferentes daquelas do caso normal linear.
1.10.2 Resduos
A denio de um resduo studentizado para os MLGs pode ser feita analoga-
mente regresso normal linear como veremos a seguir. Todavia, no neces-
sariamente as propriedades continuam valendo. Assim, torna-se importante
a denio de outros tipos de resduo cujas propriedades sejam conhecidas
ou pelo menos estejam mais prximas das propriedades de t
i
.
Uma primeira proposta seria considerarmos o resduo ordinrio da so-
luo de mnimos quadrados da regresso linear ponderada de z contra X,
68
que denido por
r
=

W
1/2
[z ] =

V
1/2
(y ).
Se assumirmos que Var(z)

=

W
1
1
, temos aproximadamente Var[r
]

=
1
(I
n

H). Logo, podemos denir o resduo padronizado
t
S
i
=

1/2
(y
i

i
)
_
V
i
(1
h
ii
)
,
em que h
ii
o i-simo elemento da diagonal principal da matriz H. Fica
fcil mostrarmos que r
= (I
n

H)

W
1/2
z, isto ,

H desempenha o papel de
matriz de projeo ortogonal local, como na regresso normal linear em que
W identidade.
No entanto, na prtica, no xo nem conhecido, bem como z no
segue distribuio normal. Uma implicao desse fato que as propriedades
de t
i
no so mais vericadas para t
S
i
. Williams (1984) mostra atravs de
estudos de Monte Carlo que a distribuio de t
S
i
em geral assimtrica,
mesmo para grandes amostras.
Outros resduos cujas distribuies poderiam estar mais prximas da
normalidade tm sido sugeridos para os MLGs. Por exemplo, o resduo de
Anscombe
t
A
i
=

1/2
{(y
i
) (
i
)}
V
1/2
(
i
)
(
i
)
,
em que () uma transformao utilizada para normalizar a distribuio de
Y . Para os MLGs essa transformao denida por
() =
_

0
V
1/3
(t)dt.
Em particular, para os principais MLGs o resduo de Ascombe descrito na
tabela dada abaixo.
69
Distribuio
Normal Binomial Poisson Gama N. Inversa
()
_
0
t
1/3
(1 t)
1/3
dt
3
2
2/3
3
1/3
log
Contudo, os resduos mais utilizados em modelos lineares generalizados
so denidos a partir dos componentes da funo desvio. A verso padroni-
zada (ver McCullagh, 1987; Davison e Gigli, 1989) a seguinte:
t
D
i
=
d
(y
i
;
i
)
_
(1
h
ii
)
=

1/2
d(y
i
;
i
)
_
(1
h
ii
)
,
em que d(y
i
;
i
) =
2{y
i
(
i
) + (b(
i
) b(
i
))}
1/2
. O sinal de d(y
i
;
i
)
o mesmo de y
i

i
. Williams (1984) vericou atravs de simulaes que
a distribuio de t
D
i
tende a estar mais prxima da normalidade do que as
distribuies dos demais resduos. McCullagh (1987, p. 214) mostra para os
MLGs que a distribuio de probabilidades de
d
(Y
i
;
i
) +
3i
/6
_
1 + (14
2
3i
9
4i
)/36
aproximadamente N(0, 1), em que
3i
e
4i
so os coecientes de assime-
tria e curtose de L(
i
)/
i
, respectivamente, e d
(Y
i
;
i
) o i-simo com-
ponente do desvio D
(y; ) avaliado no parmetro verdadeiro. Podemos

mostrar usando resultados de Cox e Snell (1968) que E{d
(Y
i
;
i
)} = 0 e
Var{d
(Y
i
;
i
)} = 1 h
ii
, em que os termos negligenciados so de O(n
1
).
Esses resultados reforam o uso da padronizao
_
1
h
ii
para d
(y
i
;
i
).
Um quarto resduo foi denido por Williams (1987) e pode ser inter-
pretado como uma mdia ponderada entre t
S
i
e t
D
i
,
t
G
i
= sinal(y
i

i
){(1
h
ii
)t
2
D
i
+

h
ii
t
2
S
i
}
1/2
.
Williams (1987) vericou tambm atravs de simulaes e para alguns MLGs
que t
G
i
tem esperana ligeiramente diferente de zero, varincia excedendo um,
assimetria desprezvel e alguma curtose.
70
O R solta os resduos d
i
= d(y
i
;
i
) e r
P
i
sem o termo
1/2
. Precisamos,
portanto, para padroniz-los, calcular os correspondentes

h
ii
s bem como ex-
trair

nos casos em que = 1. Inicialmente, ilustramos como calcular

h
ii
.
Vamos supor um modelo com duas covariveis e dois fatores e que os resul-
tados do ajuste so armazenados em fit.model. A matriz X obtida com
um dos comandos abaixo
X = model.matrix( cov1 + cov2 + A + B)
X = model.matrix(fit.model).
Em V podemos armazenar a matriz

V. Os elementos da diagonal principal
de V devem ser obtidos dos valores ajustados do modelo, os quais por sua
vez so extrados atravs do comando fitted(fit.model). Como exemplo,
a matriz com as funes de varincia estimadas seria obtida para um modelo
de Poisson da forma seguinte:
V = fitted(fit.model)
V = diag(V).
Em particular, a matriz

W tambm depende dos valores ajustados, no en-
tanto, como a matriz de pesos, podemos obt-la diretamente fazendo
w = fit.model$weights
W = diag(w).
Assim, uma vez obtida a matriz

W podemos obter os elementos

h
ii
com os comandos
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
h = diag(H).
Armazenando em fit a estimativa

(o R solta

1
), os componentes do
desvio e os resduos studentizados so obtidos da seguinte maneira:
rd = resid(fit.model, type= deviance)
71
td = rd*sqrt(fi/(1-h))
rp = resid(fit.model, type= pearson)
rp = sqrt(fi)*rp
ts = rp/sqrt(1 - h).
Lembrando que para ligaes cannicas W e V coincidem.
1.10.3 Inuncia
Supondo conhecido, o afastamento pela verossimilhana quando elimina-
mos a i-sima observao denotado por
LD
i
= 2{L(
) L(
(i)
)},
sendo portanto uma medida que verica a inuncia da retirada da i-sima
observao em

. No sendo possvel obtermos uma forma analtica para
LD
i
, usual utilizarmos a segunda aproximao por srie de Taylor em torno
de

. Essa expanso leva ao seguinte resultado:
LD
i

= (

)
T
{
)}(

).
Substituindo
) pelo correspondente valor esperado e por

(i)
, ob-
temos
LD
i

= (
(i)
)
T
(X
T

WX)(
(i)
). (1.17)
Assim, teremos uma boa aproximao para LD
i
quando L() for aproxima-
damente quadrtica em torno de

.
Como em geral no possvel obtermos uma forma fechada para

(i)
,
a aproximao de um passo tem sido utilizada (ver, por exemplo, Cook e
Weisberg, 1982), que consiste em tomarmos a primeira iterao do processo
iterativo pelo mtodo escore de Fisher quando o mesmo iniciado em

.
72
Essa aproximao, introduzida por Pregibon (1981), dada por
1
(i)
=

+{
)}
1
L
(i)
(
),
em que L
(i)
() o logaritmo da funo de verossimilhana sem a i-sima
observao. Substituindo novamente
) por K(
) obtemos
1
(i)
=

r
P
i
_

i
1
(1
h
ii
)
(X
T

WX)
1
x
i
(1.18)
e, nalmente, substituindo a expresso acima em (1.17) temos que
LD
i

=
_

h
ii
(1
h
ii
)
_
t
2
S
i
.
A distncia de Cook aproximada ca facilmente obtida com o comando
LD = h*(ts 2)/(1 - h).
A validade da aproximao de um passo tem sido investigada por al-
guns pesquisadores. A constatao que a mesma em geral subestima o
verdadeiro valor de LD
i
, no entanto suciente para chamar a ateno dos
pontos inuentes.
1.10.4 Inuncia local
A metodologia de inuncia local pode ser facilmente estendida para a classe
de MLGs. Em particular, se considerarmos conhecido e perturbao de
casos em que L(|) =
n
i=1
i
L
i
() com 0
i
1, ento a matriz
assume a forma
=
_
X
T

W
1/2
D(r
P
),
em que D(r
P
) = diag{ r
P
1
, . . . , r
P
n
} e r
P
i
=
(y
i

i
)/
_
V
i
o i-simo
resduo de Pearson estimado. Assim, se substituirmos
por (X
T
WX)
temos que a curvatura normal na direo unitria assume a forma
C
() = 2|
T
D(r
P
)
HD(r
P
)|.
73
Se o interesse calcularmos a curvatura normal na direo
i
da i-sima
observao, ento podemos avaliar o grco de ndices de C
i
= 2
h
ii
r
2
P
i
.
Em particular, o vetor
max
para avaliarmos a inuncia local das ob-
servaes nas estimativas dos parmetros o autovetor correspondente ao
maior autovalor da seguinte matriz n n:
B = D(r
P
)
HD(r
P
).
Para obtermos
max
, a maneira mais simples construirmos a matriz B e
extrairmos o seu autovetor correspondente ao maior autovalor. Os comandos
so os seguintes:
B = diag(rp)%*% H %*% diag(rp)
Cmax = eigen(B)$val[1]
lmax = eigen(B)$vec[,1]
lmax = dmax/sqrt(Cmax)
lmax = abs(lmax).
Por outro lado, se temos interesse em detectar observaes inuentes na
estimativa de um coeciente particular, associado por exemplo varivel
explicativa X
1
, o vetor
max
ca dado por
T
max
=
_
v
1
r
P
1
_
C
max
, . . . ,
v
n
r
P
n
_
C
max
_
,
em que v
1
, . . . , v
n
so agora obtidos da regresso linear de X
1
contra as
colunas de X
2
com matriz de pesos

V, isto v =

V
1/2
X
1

V
1/2
X
2
(X
T
2
VX
2
)
1
X
T
2
VX
1
.
Para ligao no cannica os resultados continuam valendo desde que
a matriz observada de Fisher seja substituda pela matriz de informao de
Fisher.
74
1.10.5 Grco da varivel adicionada
Apresentamos a seguir a verso do grco da varivel adicionada para os
MLGs. Vamos supor um MLG com p parmetros,
1
, . . . ,
p
, conhecido, e
que um parmetro adicional est sendo includo no modelo. O interesse
testarmos H
0
: = 0 contra H
1
: = 0.
Seja (, ) o preditor linear com p + 1 parmetros, isto
(, ) = X
T
+ Z.
A funo escore para dada por
U
=
L(, )
=
1/2
Z
T
W
1/2
r
P
,
em que Z = (z
1
, . . . , z
n
)
T
. De resultados anteriores temos que
Var( ) =
1
[Z
T
W
1/2
MW
1/2
Z]
1
,
em que M = I
n
H. Logo, Var( ) =
1
(R
T
WR)
1
com R = Z XC e
C = (X
T
WX)
1
X
T
WZ.
Portanto, a estatstica de escore para testarmos H
0
: = 0 contra
H
1
: = 0 ca dada por
SR
= (r
T
P
W
1/2
Z)
2
/(Z
T

W
1/2

M

W
1/2
Z),
em que

W, r
P
e

M so avaliados em

(sob H
0
). Sob H
0
,
SR

2
1
quando
n .
Wang (1985) mostra que a estatstica de escore acima coincide com
a estatstica F de uma regresso linear ponderada para testar a incluso da
varivel Z no modelo. Nessa regresso linear, o grco da varivel adicionada
formado pelos resduos r
P
e =
1/2
(I
n

H)

W
1/2
Z. O resduo pode
75
ser obtido facilmente aps a regresso linear ponderada (com pesos

W) de
Z contra X. Temos que = (
T
)
1
T
r.
Logo, o grco de r
P
contra pode revelar quais observaes esto
contribuindo mais na signicncia de . A principal diculdade para cons-
truirmos o grco da varivel adicionada em MLGs a obteno do resduo
, uma vez que o resduo r
P
obtido facilmente como j vimos anterior-
mente. Para ilustrarmos o clculo de num modelo particular, vamos supor
que temos duas covariveis e dois fatores e que o interesse construirmos o
grco da varivel adicionada correspondente covarivel cov1. Precisamos
inicialmente ajustar o modelo com os dois fatores e a outra covarivel e calcu-
lar a matriz

W cujos valores sero armazenados em W. Lembrando que

W
a matriz estimada de pesos. Supondo, por exemplo, que temos um modelo
de Poisson com ligao cannica, os passos para construirmos o grco so
os seguintes:
fit.poisson = glm( resp cov2 + A + B, family=poisson)
w = fit.poisson$weights
W = diag(w)
rp = resid(fit.poisson, type =pearson)
X = model.matrix(fit.poisson)
H = solve(t(X)%*%W%*%X)
H = sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W)
v = sqrt(W)%*%cov1 - H%*%sqrt(W)%*%cov1
plot(v, rp, xlab=Residuo v, ylab=Residuo rp).
1.10.6 Tcnicas grcas
As tcnicas grcas mais recomendadas para os MLGs so as seguintes: (i)
grcos de t
D
i
contra a ordem das observaes, contra os valores ajustados e
76
1.11 Seleo de modelos
contra as variveis explicativas, ou contra o tempo ou alguma ordem em que
h suspeita de correlao entre as observaes; (ii) grco normal de proba-
bilidades para t
D
i
com envelope, (iii) grco de z
i
contra
i
para vericarmos
a adequao da funo de ligao (uma tendncia linear indica adequao da
ligao) e (iv) grcos de LD
i
, C
i
ou |
max
| contra a ordem das observaes.
Os envelopes, no caso de MLGs com distribuies diferentes da normal, so
construdos com os resduos sendo gerados a partir do modelo ajustado (ver,
por exemplo, Williams, 1987). No Apndice B so relacionados programas
para gerar envelopes em alguns MLGs.
1.11.1 Modelo normal linear
Existem vrios procedimentos para a seleo de modelos de regresso, em-
bora nenhum deles seja consistente, ou seja, mesmo para amostras grandes
selecione com probabilidade um as variveis explicativas com coeciente de
regresso no nulo. Os procedimentos mais conhecidos so maior R
2
p
, me-
nor s
2
p
, C
p
, forward, backward, stepwise e AIC (ver, por exemplo, Neter et
al., 1996, Cap. 8), alm de outros mtodos que usam computao intensiva.
Alguns desses mtodos sero descritos brevemente a seguir.
Mtodo forward
Iniciamos o mtodo pelo modelo = . Ajustamos ento para cada varivel
explicativa o modelo
= +
j
x
j
, (j = 1, . . . , q).
Testamos H
0
:
j
= 0 contra H
1
:
j
= 0. Seja P o menor nvel descritivo
dentre os q testes. Se P P
E
, a varivel correspondente entra no modelo.
77
Vamos supor que X
1
tenho sido escolhida. Ento, no passo seguinte ajusta-
mos os modelos
= +
1
x
1
+
j
x
j
, (j = 2, . . . , q).
Testamos H
0
:
j
= 0 contra H
1
:
j
= 0. Seja P o menor nvel descritivo
dentre os (q 1) testes. Se P P
E
, a varivel correspondente entra no
modelo. Repetimos o procedimento at que ocorra P > P
E
.
Mtodo backward
Iniciamos o procedimento pelo modelo
= +
1
x
1
+ +
q
x
q
.
Testamos H
0
:
j
= 0 contra H
1
:
j
= 0 para j = 1, . . . , q. Seja P o maior
nvel descritivo dentre os q testes. Se P > P
S
, a varivel correspondente sai
do modelo. Vamos supor que X
1
tenho sado do modelo. Ento, ajustamos
o modelo
= +
2
x
2
+ +
q
x
q
.
Testamos H
0
:
j
= 0 contra H
1
:
j
= 0 para j = 2, . . . , q. Seja P o
maior nvel descritivo dentre os (q 1) testes. Se P > P
S
, ento a varivel
correspondente sai do modelo. Repetimos o procedimento at que ocorra
P P
S
.
Mtodo stepwise
uma mistura dos dois procedimentos anteriores. Iniciamos o processo com
o modelo = . Aps duas variveis terem sido includas no modelo, ve-
ricamos se a primeira no sai do modelo. O processo continua at que
nenhuma varivel seja includa ou seja retirada do modelo. Geralmente ado-
tamos 0, 15 P
E
, P
S
0, 25. Uma sugesto seria usar P
E
= P
S
= 0, 20.
78
Mtodo de Akaike
O mtodo proposto por Akaike (1974) basicamente se diferencia dos procedi-
mentos anteriores por ser um processo de minimizao que no envolve testes
estatsticos. A ideia bsica selecionarmos um modelo que seja parcimonioso,
ou em outras palavras, que esteja bem ajustado e tenha um nmero reduzido
de parmetros. Como o logaritmo da funo de verossimilhana L() cresce
com o aumento do nmero de parmetros do modelo, uma proposta razovel
seria encontrarmos o modelo com menor valor para a funo
AIC = L(
) + p,
em que p denota o nmero de parmetros. No caso do modelo normal linear
podemos mostrar que AIC ca expresso, quando
2
desconhecido, na forma
AIC = nlog{D(y; )/n} + 2p,
em que D(y; ) =
n
i=1
(y
i

i
)
2
.
1.11.2 Extenso para os MLGs
Os mtodos de seleo de modelos descritos na seo anterior podem ser
estendidos diretamente para os MLGs. Algumas observaes, contudo, so
necessrias. Nos casos de regresso logstica e de Poisson o teste da razo
de verossimilhanas, pelo fato de ser obtido pela diferena de duas funes
desvio, aparece como o mais indicado. Para os casos de regresso normal,
normal inversa e gama o teste F, por no exigir a estimativa de mxima
verossimilana do parmetro de disperso, o mais indicado. Isso no impede
que outros testes sejam utilizados. J o mtodo de Akaike pode ser expresso
numa forma mais simples em funo do desvio do modelo. Nesse caso, o
critrio consiste em encontrarmos o modelo tal que a quantidade abaixo seja
79
1.12 Aplicaes
minimizada
AIC = D
(y; ) + 2p,
em que D
(y; ) denota o desvio do modelo e p o nmero de parme-

tros. Os mtodos stepwise e de Akaike esto disponveis no R. O mtodo
stepwise est disponvel apenas para modelos normais lineares. O comando
stepwise denido por stepwise(Xvar, resposta), em que Xvar denota
a matriz com os valores das variveis explicativas e resposta denota o ve-
tor com as respostas. Para rodarmos o critrio de Akaike precisamos usar
antes o comando require(MASS). Uma maneira de aplicarmos o critrio de
Akaike partindo do maior modelo cujos resultados so guardados no objeto
fit.model. Da, ento, devemos usar o comando stepAIC(fit.model).
1.12 Aplicaes
1.12.1 Estudo entre renda e escolaridade
O conjunto de dados descrito na Tabela 1.6, extrado do censo do IBGE de
2000, apresenta para cada unidade da federao o nmero mdio de anos de
estudo e a renda mdia mensal (em reais) do chefe ou chefes do domiclio.
Esses dados esto tambm armazenados no arquivo censo.dat. Para lermos
os dados no R e coloc-los num arquivo com o mesmo nome externo, devemos
fazer
censo.dat = scan(censo.dat, what=list(uf= ,
escolar=0, renda=0)).
Propomos inicialmente um modelo normal linear simples em que Y
denote a renda e X a escolaridade. O modelo ca portanto dado por
y
i
= + x
i
+
i
, i = 1, . . . , 27,
80
1.12 Aplicaes
com a suposio de que
i
N(0,
2
), sendo os erros mutuamente indepen-
dentes. Estamos supondo que a amostra da Tabela 1.6 um corte transversal,
isto , as informaes sobre renda e escolaridade das unidades da federao
so referentes a um determinado instante do tempo. Nesse caso, os erros so
devidos variabilidade da renda (dada a escolaridade) nos diversos instantes
do tempo. Assumimos que a relao funcional entre y
i
e x
i
a mesma num
determinado intervalo do tempo.
Tabela 1.6
Escolaridade e renda mdia
domiciliar no Brasil em 2000.
RR 5,7 685 AP 6,0 683
AC 4,5 526 RO 4,9 662
PA 4,7 536 AM 5,5 627
TO 4,5 520 PB 3,9 423
MA 3,6 343 RN 4,5 513
SE 4,3 462 PI 3,5 383
BA 4,1 460 PE 4,6 517
AL 3,7 454 CE 4,0 448
SP 6,8 1076 RJ 7,1 970
ES 5,7 722 MG 5,4 681
SC 6,3 814 RS 6,4 800
PR 6,0 782 MT 5,4 775
GO 5,5 689 MS 5,7 731
DF 8,2 1499
As estimativas dos parmetros (erro padro) so dadas por = 381, 28
(69, 40) e

= 199, 82 (13, 03), indicando que o coeciente angular da reta
altamente signicativo. Essa estimativa pode ser interpretada como o incre-
mento esperado na renda mdia domiciliar de uma unidade da federao se
o tempo de escolaridade mdio domiciliar naquela unidade for acrescido de
81
1.12 Aplicaes
Escolaridade
R
e
n
d
a
3 4 5 6 7 8
2
0
0
6
0
0
1
0
0
0
1
4
0
0
(a)
Indice
M
e
d
i
d
a

h
0 5 10 15 20 25
0
.
0
0
.
1
0
0
.
2
0
0
.
3
0
(b)
DF
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 5 10 15 20 25
0
1
2
3
4
5
(c)
DF
Valores Ajustados
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
400 600 800 1000 1200
-
2
0
2
4
6
(d)
DF
Figura 1.5: Reta ajustada do modelo aditivo-normal e grcos de diagnstico
para o exemplo sobre renda e escolaridade.
um ano.
A estimativa de dada por s = 77, 22, enquanto que o coeciente
de determinao foi de R
2
= 0, 904. O ajuste do modelo e a exibio dos
resultados podem ser obtidos com os comandos abaixo
attach(censo.dat)
fit1.censo = lm(renda escolar)
summary(fit1.censo).
Ou, alternativamente, transformando o arquivo censo.dat num arquivo do
tipo data.frame, atravs dos comandos
censo.dat = data.frame(censo.dat)
82
1.12 Aplicaes
fit1.censo = lm(renda escolar, data=censo.dat)
Escolaridade
R
e
n
d
a
3 4 5 6 7 8
2
0
0
6
0
0
1
0
0
0
1
4
0
0
(a)
Valores Ajustados
M
e
d
i
d
a

h
400 600 800 1000 1400
0
.
0
0
.
1
0
0
.
2
0
0
.
3
0
(b)
DF
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 5 10 15 20 25
0
.
0
0
.
2
0
.
4
(c)
MA
Valores Ajustados
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
400 600 800 1000 1400
-
3
-
2
-
1
0
1
2
3
(d)
Figura 1.6: Curva ajustada do modelo multiplicativo-gama e grcos de
diagnstico para o exemplo sobre renda e escolaridade.
Pela Figura 1.5 onde so apresentados alguns grcos de diagnstico,
alm da reta ajustada aos dados, notamos uma forte discrepncia do Distrito
Federal que aparece como ponto de alavanca, inuente e aberrante. Alm
disso, notamos pela Figura 1.5d indcios de heteroscedasticidade, ou seja, um
aumento da variabilidade com o aumento da escolaridade. Isso pode tambm
ser notado na Figura 1.5a. Assim, podemos propor um modelo alternativo,
83
1.12 Aplicaes
por exemplo, com efeitos multiplicativos conforme dado abaixo
i
= e
+x
i
e
i
, i = 1, . . . , 27,
com a suposio de que
i
G(1, ), sendo os erros mutuamente indepen-
dentes. Podemos ajustar esse modelo no R atravs dos comandos
fit2.censo = glm(renda escolar, family=Gamma(link=log))
Tabela 1.7
Estimativas de algumas quantidades com todos os pontos e quando
as observaes mais discrepantes so excludas do modelo gama.
Estimativa Com todos Excludo Excludo Excludos
os pontos DF MA DF e MA
4,98 (0,068) 5,00 (0,078) 5,03 (0,067) 5,06 (0,077)
0,28 (0,013) 0,27 (0,015) 0,27 (0,012) 0,26 (0,015)
192(52) 188(52) 223(62) 223(63)

Na Figura 1.6 temos o ajuste do modelo gama aos dados bem como
alguns grcos de diagnstico que destacam DF como ponto de alavanca e
MA como ponto inuente.
Na Tabela 1.7 temos uma anlise conrmatria e vericamos poucas
variaes nas estimativas dos parmetros com a eliminao dessas unidades
da federao. Finalmente, na Figura 1.7 temos os grcos normais de pro-
babilidades para os modelos com efeitos aditivos (Figura 1.7a) e com efeitos
multiplicativos (Figura 1.7b) e notamos uma melhor acomodao e distri-
buio dos pontos dentro do envelope gerado no segundo caso. Pelo valor
84
1.12 Aplicaes
Percentis da N(0,1)
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
-2 -1 0 1 2
-
2
0
2
4
(a)
Percentis da N(0,1)
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
3
(b)
Figura 1.7: Grcos normais de probabilidades para os modelos ajustados
aditivo-normal (a) e multiplicativo-gama (b) aos dados sobre renda e escola-
ridade.
da estimativa do parmetro de disperso conclumos que o modelo gama
aproxima-se bem de um modelo normal heteroscedstico.
Portanto, o modelo nal ajustado ca dado por
y = e
4,98+0,28x
.
Desse modelo podemos extrair a seguinte intrepretao: e
= e
0,28
= 1, 32(32%)
o aumento relativo esperado para a renda se aumentarmos em 1 ano a es-
colaridade mdia.
1.12.2 Processo infeccioso pulmonar
Utilizaremos agora os dados referentes a um estudo de caso-controle realizado
no Setor de Anatomia e Patologia do Hospital Helipolis em So Paulo, no
perodo de 1970 a 1982 (Paula e Tuder, 1986) (ver arquivo canc3.dat).
Um total de 175 pacientes com processo infecioso pulmonar atendido no
hospital no perodo acima foi classicado segundo as seguintes variveis: Y,
85
1.12 Aplicaes
tipo de tumor (1: maligno, 0: benigno); IDADE, idade em anos; SEXO (0:
masculino, 1: feminino); HL, intensidade da clula histicitos-linfcitos (1:
ausente, 2: discreta, 3: moderada, 4: intensa) e FF, intensidade da clula
brose-frouxa (1: ausente, 2: discreta, 3: moderada, 4: intensa). Para ler os
dados do arquivo canc3.dat e armazen-los num arquivo do R com o mesmo
nome, fazemos
canc3.dat = scan(canc3.dat, what=list(tipo=0, idade=0, sexo=0,
hl=0, ff=0)).
Devemos informar o sistema que as variveis SEXO, HL e FF so qualitativas,
isto , devemos transform-las em fatores. Os comandos so os seguintes:
attach(canc3.dat)
sexo = factor(sexo)
sexo = C(sexo,treatment)
hl = factor(hl)
hl = C(hl,treatment)
ff = factor(ff)
ff = C(ff,treatment).
O comando C(sexo,treatment), que optativo, cria uma varivel binria
que assume valor zero para o sexo masculino e valor um para o sexo feminino.
Analogamente, o comando C(hl,treatment) cria variveis binrias para os
nveis discreto, moderado e intenso do fator HL. O mesmo faz o comando
C(ff,treatment) para o fator FF. Essa maneira de transformarmos todo
fator de k nveis em k1 variveis binrias, denominado casela de referncia,
padro em MLGs, porm pode no ser a modelagem mais conveniente em
outras situaes de interesse prtico. A casela de referncia seria, nesses dois
casos, o nvel ausente.
Vamos considerar, como exemplo, a aplicao do modelo logstico ape-
86
1.12 Aplicaes
nas com os efeitos principais
Pr{Y = 1 | } = {1 + exp()}
1
,
em que =
1
+
2
IDADE +
3
SEXO +
4
i=1
4i
HL
i
+
4
i=1
5i
FF
i
, com
SEXO, HL
i
e FF
i
sendo variveis binrias correspondentes aos nveis de
SEXO, HL e FF, respectivamente. Assumimos que
41
=
51
= 0. Uma
observao importante que devido ao fato da amostragem ter sido retros-
pectiva, o uso do modelo acima para fazermos previses somente vlido se
corrigirmos a estimativa da constante,
1
(ver, por exemplo, McCullagh e
Nelder, 1989, p. 113). Discutimos isso na Seo 3.6.6. Para ajustarmos o
modelo acima, os passos so dados abaixo
fit1.canc3 = glm( tipo sexo + idade + hl + ff,
family=binomial)
summary(fit1.canc3).
Tabela 1.8
Estimativas dos parmetros referentes ao modelo logstico ajustado aos dados
sobre processo infeccioso pulmonar.
Efeito Estimativa Efeito Estimativa Efeito Estimativa
Constante -1,850(1,060) HL(2) -0,869(0,945) FF(2) -0,687(0,502)
Sexo 0,784(0,469) HL(3) -2,249(0,968) FF(3) -1,025(0,525)
Idade 0,065(0,013) HL(4) -3,295(1,466) FF(4) 0,431(1,123)
As estimativas dos parmetros (erro padro aproximado) so apresen-
tadas na Tabela 1.8. O desvio do modelo foi de D(y; ) = 157, 40 (166 graus
de liberdade), indicando um ajuste adequado. Como podemos observar, h
indcios de que a chance de processso infecioso maligno seja maior para o
sexo feminino do que para o sexo masculino. Notamos tambm que a chance
de processo maligno aumenta signicativamente com a idade e h indicaes
87
1.12 Aplicaes
de que tanto para a clula FF quanto para HL a chance de processo maligno
diminui medida que aumenta a intensidade da clula. Esse exemplo ser
reanalizado no Captulo 3.
1.12.3 Sobrevivncia de bactrias
Descrevemos na Tabela 1.9 (Montgomery, Peck e Vining, 2001, pgs. 201-202)
o nmero de bactrias sobreviventes em amostras de um produto alimentcio
segundo o tempo (em minutos) de exposio do produto a uma temperatura
de 300
o
F.
Tabela 1.9
Nmero de bactrias sobreviventes e tempo de exposio.
Nmero 175 108 95 82 71 50 49 31 28 17 16 11
Tempo 1 2 3 4 5 6 7 8 9 10 11 12
Na Figura 1.8a apresentamos o grco do nmero de bactrias sobre-
viventes contra o tempo de exposio. Notamos uma tendncia decrescente
e quadrtica. Supondo que as amostras do produto enlatado submetidos
temperatura de 300
o
F tm o mesmo tamanho, podemos pensar, em princpio,
que Y
i
P(
i
), com Y
i
denotando o nmero de bactrias sobreviventes na
i-sima amostra i = 1, . . . , n. Como para
i
grande razovel assumirmos
que Y
i
segue uma distribuio aproximadamente normal (ver Seo 4.2.1),
propomos inicialmente os seguintes modelos:
y
i
= + tempo
i
+
i
e
y
i
= + tempo
i
+ tempo
2
i
+
i
,
em que
i
N(0,
2
). As estimativas dos parmetros so apresentadas na
Tabela 1.10. Pelos grcos de envelope (Figuras 1.8b e 1.8c) notamos indcios
de que a distribuio dos erros pode estar incorrretamente especicada. A
88
1.12 Aplicaes
maioria dos resduos assume valor negativo. Notamos a presena de um
ponto aberrante, observao #1. Uma outra tentativa seria aplicar resposta
a transformao raiz quadrada que conhecida no caso da Poisson como
estabilizadora da varincia alm de manter a aproximao normal (ver Seo
4.2.1). Logo, podemos pensar em adotar os seguintes modelos alternativos:
y
i
= + tempo
i
+
i
e
y
i
= + tempo
i
+ tempo
2
i
+
i
,
em que
i
N(0,
2
). As estimativas dos parmetros so apresentadas na
Tabela 1.10.
Tabela 1.10
Estimativas de algumas quantidades para os modelos com resposta
transformada ajustados aos dados sobre sobrevivncia de bactrias.
Parmetro Linear-Y Quadrtico-Y Linear-
Y Quadrtico-
Y
142,20(11,26) 181,20(11,64) 12,57(0,38) 13,64(0,51)
-12,48(1,53) -29,20(4,11) -0,82(0,05) -1,27(0,18)
1,29(0,31) 0,04(0,01)
R
2
86,9% 95,5% 96,1% 97,8%
Notamos uma melhora na qualidade do ajuste, particularmente no se-
gundo caso. Porm, ainda h indcios pelos grcos de envelope (Figuras
1.8d e 1.8e) de violao nas suposies para os modelos, alm da presena da
observao #1 como ponto aberrante. Decidimos, ento, propor um modelo
log-linear de Poisson em que assumimos
Y
i
P(
i
) e log
i
= + tempo
i
.
As estimativas dos parmetros so apresentadas na Tabela 1.11.
89
1.12 Aplicaes
Tabela 1.11
Estimativas dos parmetros do modelo
de Poisson ajustado aos dados sobre
sobrevivncia de bactrias.
Parmetro Estimativa E/E.Padro
5,30 88,34
-0,23 -23,00
Desvio 8,42 (10 g.l.)
Pelo grco de envelope (Figura 1.8f) no h evidncias de que o mo-
delo esteja mal ajustado. Notamos tambm que a observao #1 foi acomo-
dada dentro do envelope gerado. Parece, portanto, que esse ltimo modelo
o que melhor se ajusta aos dados dentre os modelos propostos. O modelo
ajustado ca ento dado por
(x) = e
5,300,23x
,
em que x denota o tempo de exposio. Logo, se diminuirmos de uma unidade
o tempo de exposio a variao no valor esperado ca dada por
(x 1)
(x)
= e
0,23
= 1, 259.
Ou seja, o nmero esperado de sobreviventes aumenta aproximadamente
25,9%.
1.12.4 Estudo seriado com ratos
O exemplo a seguir provm de um estudo seriado com um tipo de tumor
maligno para avaliar a inuncia da srie (passagem do tumor) na morte
(caquexia) de um certo tipo de rato (ver Paula, Barbosa e Ferreira, 1989;
90
1.12 Aplicaes
Tempo
S
o
b
r
e
v
i
v
e
n
t
e
s
2 4 6 8 10 12
5
0
1
0
0
1
5
0
(a)
1
Percentis da N(0,1)
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
-1 0 1
-
2
0
2
4
6
8
(b)
Percentis da N(0,1)
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
-1 0 1
-
2
0
2
4
6
8
(c)
Percentis da N(0,1)
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
-1 0 1
-
2
0
2
4
6
(d)
Percentis da N(0,1)
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
-1 0 1
-
2
0
2
4
(e)
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-1 0 1
-
3
-
2
-
1
0
1
2
(f)
Figura 1.8: Diagrama de disperso e grcos normais de probabilidades re-
ferentes aos modelos ajustados aos dados sobre sobrevivncia de bactrias.
Paula et al., 1992). Os dados esto descritos no arquivo canc4.dat. Um
total de 204 animais teve o tumor inoculado num determinado momento da
srie. Para cada animal, alm do grupo de passagem, foram observadas as
variveis presena de MASSa tumoral, caquexia e o tempo de observao (em
dias). Esses dados so resumidos na Tabela 1.12. Para inserirmos os dados
diretamente no R e armazen-los no arquivo canc4a.dat, devemos fazer
canc4a.dat = scan(what=list(obs=0,rd=0))
1: 6 2597 13 3105 8 2786
2: 12 1613 3 411 1 232.
Agora, precisamos introduzir os fatores grupo de passagem e massa tumoral
91
1.12 Aplicaes
fnames = list(gp=c(P0-P6, P7-P18, P19-P28),
mt=c(sim, nao)).
Para informarmos o sistema a ordem em que os dados foram lidos, podemos
usar o comando fac.design. Em seguida, fazemos o emparelhamento
rato.design = fac.design(c(3,2), fnames, rep=1)
attach(canc4a.dat)
rato.df = data.frame(obs,rd,rato.design).
As informaes completas sobre os dados esto armazenadas no arquivo
rato.df. Para uma vericao basta bater
rato.df.
Podemos agora (opcionalmente) criar uma matriz modelo no padro dos
MLGs
attach(rato.df)
gp = C(gp,treatment)
mt = C(mt,treatment).
Vamos supor que O
ij
, o nmero de ratos caquticos no nvel i de massa
tumoral e grupo de passagem j, segue uma distribuio de Poisson de mdia
ij
t
ij
, i = 1, 2 e j = 1, 2, 3. Temos que
ij
denota a taxa de caquexia (nmero
mdio de mortes por unidade de tempo) e t
ij
o total de ratos-dias no nvel
(i, j). Consideramos inicialmente o modelo de Poisson com parte sistemtica
log
ij
= +
i
+
j
,
em que
1
= 0 e
1
= 0, que equivale suposio de tempos exponenciais
como ser visto na Seo 4.2.2. Com essa notao, ser o efeito correspon-
dente classe P0 P6 com desenvolvimento de massa,
2
a diferena entre
os efeitos dos grupos sem e com o desenvolvimento de massa tumoral,
2
a
diferena entre os efeitos das classes P7 P18 e P0 P6 e
3
a diferena
entre os efeitos das classes P19 P28 e P0 P6. Em particular, quando
92
1.12 Aplicaes
expressamos os valores esperados de mortes para t
ij
na forma de um modelo
log-linear, teremos um oset dado por logt
ij
. Ou seja, o modelo que iremos
ajustar no R tem parte sistemtica dada por log
ij
= logt
ij
+ +
i
+
j
.
Logo, precisamos denir o oset no ajuste.
Tabela 1.12
Nmero de ratos caquticos (O) e ratos dias de
observao (R-D) segundo o grupo de passagem
e o desenvolvimento de massa tumoral.
Massa Grupo de passagem
tumoral P0-P6 P7-P18 P19-P28
Sim O 6 13 8
R-D 2597 3105 2786
No O 12 3 1
R-D 1613 411 232
Os passos so os seguintes:
logt0 = log(rd)
canc4a.fit = glm( obs gp + mt + offset(logt0),
family=poisson)
summary(canc4a.fit).
As estimativas dos parmetros (erro padro aproximado) so dadas
por = 5, 875 (0, 312),
2
= 0, 334 (0, 365),
3
= 0, 040 (0, 434) e
2
= 0, 860 (0, 343). O desvio do modelo dado por D(y; ) = 0, 84 com
2 graus de liberdade. Pelas estimativas acima notamos que o fator grupo
de passagem no signicativo. O ajuste do modelo sem esse efeito levou
s estimativas = 5, 750 (0, 192) e

2
= 0, 802 (0, 315) com um desvio de
D(y; ) = 1, 99 (4 graus de liberdade). Logo, o teste da razo de verossimi-
lhanas para testar H
0
:
2
=
3
= 0 vale 1, 99 0, 84 = 1, 15 com 2 graus de
liberdade, o que implica em no rejeitarmos a hiptese H
0
. Assim, o modelo
93
1.12 Aplicaes
adotado inclui somente o efeito massa tumoral. Temos que
2
signicati-
vamente diferente de zero. A estimativa

2
= 0, 802 indica que os ratos que
desenvolvem massa tumoral (tumor maligno) sobrevivem mais do que os ra-
tos que no desenvolvem o tumor! Esse resultado pode parecer em princpio
contraditrio, todavia devemos lembrar que todos os ratos tiveram tumor
inoculado mas nem todos desenvolveram massa tumoral. Assim, pode ser
razovel pensarmos que aqueles ratos que no desenvolveram massa tumoral
na verdade teriam resistido muito para que a mesma no se desenvolvesse,
levando os mesmos a algum tipo de esgotamento e consequentemente a um
tempo mdio de vida menor do que o tempo mdio dos ratos em que o tumor
se desenvolveu.
Uma maneira alternativa de avaliarmos a suposio de distribuio de
Poisson para O
ij
com mdia
ij
t
ij
atravs da incluso do termo logt
ij
como
covarivel, em vez de oset. Isto , supormos a parte sistemtica
log
ij
= + logt
ij
+
i
+
j
. Assim, podemos testar H
0
: = 1 contra H
1
: = 1. A no rejeio
de H
0
indica que a suposio de distribuio de Poisson para O
ij
parece ser
razovel. No exemplo acima obtemos

= 1, 390(0, 439), o que nos leva a no
rejeitarmos H
0
.
1.12.5 Consumo de combustvel
No arquivo reg2.dat(Gray, 1989) so apresentadas as siglas dos 48 esta-
dos norte-americanos contguos juntamente com as seguintes variveis: taxa
(taxa do combustvel no estado em USD), licena (proporo de motoristas
licenciados), renda (renda percapita em USD), estradas (ajuda federal para
as estradas em mil USD) e consumo (consumo de combustvel por habitante).
94
1.12 Aplicaes
O interesse nesse estudo tentar explicar o consumo de combustvel pelas
variveis taxa, licena, renda e estradas. O modelo proposto o seguinte:
y
i
= +
1
taxa
i
+
2
licenca
i
+
3
renda
i
+
4
estradas
i
+
i
,
em que y
i
denota o consumo anual de combustvel (por habitante) no i-
simo estado, enquanto
i
so variveis aleatrias independentes normalmente
distribudas de mdia zero e varincia
2
. Ajustamos o modelo acima no R
e mandamos os resultados para o objeto fit1.reg2. Da ento aplicamos
o mtodo de Akaike para selecionarmos o submodelo com menor AIC. Para
tal, aplicamos os comandos
require(MASS)
stepAIC(fit1.reg1).
A varivel estradas foi eliminada. Os resultados do modelo selecionado so
apresentados na Tabela 1.13.
Tabela 1.13
Estimativas dos parmetros referentes
ao modelo normal linear ajustado aos
dados sobre consumo de combustvel.
Efeito Estimativa E/E.Padro
Constante 307,33 1,96
Taxa -29,48 -2,78
Licena 1374,77 7,48
Renda -0,07 -4,00
s
2
65,94
R
2
0,675
Portanto, podemos dizer que para cada aumento de uma unidade na
renda, o consumo mdio de combustvel diminui 0,07 unidades. Para cada
95
1.12 Aplicaes
Indice
A
l
a
v
a
n
c
a
0 10 20 30 40
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
CT
NY
SD
TX
NV
(a)
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 10 20 30 40
0
.
0
0
.
1
0
.
2
0
.
3
WY
(b)
Indice
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
0 10 20 30 40
-
4
-
2
0
2
4
WY
(c)
Valores Ajustados
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
400 500 600 700
-
4
-
2
0
2
4
WY
(d)
Figura 1.9: Grcos de diagnstico referentes ao modelo normal linear ajus-
tado aos dados sobre consumo de combustvel.
aumento de 1% na porcentagem de motoristas licenciados o consumo mdio
de combustvel aumenta 13,75 unidades, e para cada aumento de 1% no
imposto do combustvel o consumo mdio diminui 29,48 unidades.
Na Figura 1.9 temos alguns grcos de diagnstico e como podemos
notar h um forte destaque para o estado de WY, que aparece como inuente
(Figura 1.9b) e aberrante (Figura 1.9c). Outros estados, tais como CT, NY,
SD, TX e NV (Figura 1.9a) aparecem como remotos no subespao gerado pelas
colunas da matrix X, embora no sejam conrmados como inuentes. No
96
1.12 Aplicaes
h indcios pela Figura 1.9d de heteroscedasticidade.
Pelo grco de envelope (Figura 1.10a) no h indcios fortes de afas-
tamentos da suposio de normalidade para os erros, apesar da inuncia no
grco do estado de WY. O grco de envelope sem esse estado (Figura 1.10b)
conrma esse suposio.
Analisando os dados referentes ao estado de WY notamos que o mesmo
tem uma taxa de 7% (abaixo da mdia de 7,67%), uma renda percapita anual
de USD 4345 (ligeiramente acima da mdia de USD 4241,83), uma proporo
de motoristas licenciados de 0,672 (acima da mdia de 0,570), porm um
consumo mdio de combustvel muito alto 968 (quando a mdia nacional
era de 576,77). Talvez as longas distncias do estado tenham obrigado os
motoristas a um consumo alto de combustvel. A eliminao desse estado
muda substacialmente algumas estimativas, embora no mude a inferncia. A
estimativa da varivel licena cai 13,2%, a estimativa do intercepto aumenta
27,8%, o s
2
cai 17,1% e o R
2
aumenta 4,1%. As demais estimativas no
sofrem grandes variaes. A incluso de alguma varivel que leve em conta a
densidade demogrca de cada estado, conforme sugerido por Gray (1989),
poderia explicar melhor o estado de WY pelo modelo proposto.
1.12.6 Salrio de executivos
Vamos considerar agora os dados descritos no arquivo salary.dat sobre o
salrio anual (em mil USD) de uma amostra aleatria de 220 executivos
(145 homens e 75 mulheres)(Foster, Stine e Waterman, 1998, pgs. 180-188).
O salrio ser relacionado com as seguintes variveis explicativas: sexo (1:
masculino; 0: feminino), anos de experincia no cargo e posio na empresa
97
1.12 Aplicaes
Percentis da N(0,1)
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
-2 -1 0 1 2
-
2
0
2
4
(a)
Percentis da N(0,1)
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
3
(b)
Figura 1.10: Grcos normais de probabilidades com todos os pontos (a) e
sem o estado de WY (b), referentes ao modelo normal linear ajustado aos
dados sobre consumo de combustvel.
(varia de 1 a 9), quanto maior o valor mais alta a posio. Apresentamos a
seguir a comparao dos salrios mdios segundo o sexo.
Sexo Amostra Mdia E.Padro
Masculino 145 144,11 1,03
Feminino 75 140,47 1,43
Diferena Teste-t valor-P
Estimativa 3,64 2,06 0,04
E.Padro 1,77
O valor-P indica diferena ao nvel de 5%. Ignorando as demais variveis
notamos que os executivos ganham em mdia mais do que as executivas.
Pela Figura 1.11 notamos indcios de aumento do salrio com o au-
mento da posio e com o aumento da experincia para ambos os sexos,
sugerindo inicialmente um modelo linear do tipo
y
i
= +
1
sexo
i
+
2
exper
i
+
3
posic
i
+
i
,
98
1.12 Aplicaes
Experiencia Homens
S
a
l
a
r
i
o

H
o
m
e
n
s
5 10 15 20 25
1
1
0
1
3
0
1
5
0
1
7
0
Experiencia Mulheres
S
a
l
a
r
i
o

M
u
l
h
e
r
e
s
5 10 15 20
1
2
0
1
4
0
1
6
0
Posicao Homens
S
a
l
a
r
i
o

H
o
m
e
n
s
2 4 6 8
1
1
0
1
3
0
1
5
0
1
7
0
Posicao Mulheres
S
a
l
a
r
i
o

M
u
l
h
e
r
e
s
2 4 6 8
1
2
0
1
4
0
1
6
0
Figura 1.11: Grcos de disperso entre salrio e as variveis explicativas
experincia e posio.
em que y
i
denota o salrio do i-simo executivo da amostra. Vamos supor
ainda que
i
so erros independentes e normalmente distribudos de mdia
zero e varincia
2
.
Aplicando o mtodo AIC nenhuma varivel retirada do modelo. As
estimativas so apresentadas na Tabela 1.14. Notamos portanto que na pre-
sena de experincia e posio as mulheres ganham em mdia mais do que
os homens. Quando essas variveis so ignoradas, ocorre o contrrio, como
foi visto na anlise descritiva. Experincia e posio so variveis importan-
tes e devem tambm permanecer no modelo. Vamos vericar a seguir se
possvel incluirmos alguma interao de 1a. ordem. Essas interaes so de
99
1.12 Aplicaes
interesse e tambm interpretveis. Por exemplo, presena de interao entre
os fatores sexo e experincia signica que a diferena entre os salrios mdios
de executivos e executivas no a mesma medida que varia o tempo de
experincia.
Tabela 1.14
ao modelo normal linear ajustado aos
dados sobre salrio de executivos.
Constante 115,262 82,25
Experincia -0,472 -4,17
Sexo -2,201 -2,04
Posio 6,710 21,46
R
2
0,71
s 6,77
Tabela 1.15
Testes F para avaliar a incluso
de cada interao de 1a. ordem no
modelo normal linear ajustado aos
dados sobre salrio de executivos.
Interao F-valor valor-P
Sexo*Exper 1,615 0,20
Sexo*Posico 0,001 0,97
Exper*Posio 7,594 0,00
Na Tabela 1.15 so apresentados os valores da estatstica F bem como o
valor-P correspondente para testar a ausncia das interaes sexo*experincia,
sexo*posio e experincia*posio, respectivamente, dado que esto no mo-
delo constante + sexo + experincia + posio. Portanto, ser includa no
modelo apenas a interao experincia*posio. As estimativas do modelo
nal com a interao experincia*posio so apresentadas na Tabela 1.16.
100
1.12 Aplicaes
Indice
M
e
d
i
d
a

h
0 50 100 150 200
0
.
0
2
0
.
0
6
0
.
1
0
30
139 178
191
213
(a)
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 50 100 150 200
0
.
0
0
.
0
2
0
.
0
4
4
30
144
(b)
Indice
R
e
s
i
d
u
o

P
a
d
r
o
n
i
z
a
d
o
0 50 100 150 200
-
2
0
2
4
(c)
Valores Ajustados
R
e
s
i
d
u
o

P
a
d
r
o
n
i
z
a
d
o
120 130 140 150 160
-
2
0
2
4
(d)
Figura 1.12: Grcos de diagnstico referentes ao modelo normal linear ajus-
tado aos dados sobre salrio de executivos.
Na Figura 1.12 so apresentados grcos de diagnstico. Algumas
observaes aparecem como pontos de alavanca (Figura 1.12a), trs observa-
es so destacadas como possivelmente inuentes (Figura 1.12b) e no h
indcios de pontos aberrantes e heteroscedasticidade (Figuras 1.12c e 1.12d).
Retirando as observaes mais inuentes, #4 e #30, notamos variaes des-
proporcionais em algumas estimativas, embora no ocorram mudanas infe-
rencias. Esses pontos causam variaes, respectivamente, de -14% e 11% na
estimativa do coeciente de sexo. A observao #4 uma executiva com
salrio anual de USD 139 mil, posio 7 e 13,9 anos de experincia (salrio
relativamente baixo para essa posio e experincia) e a observao #30
101
1.12 Aplicaes
de um executivo com salrio anual de USD 110 mil, posio 2 e 2,4 anos de
experincia (menor salrio entre os executivos).
Tabela 1.16
ao modelo normal linear nal ajustado
aos dados sobre salrio de executivos.
Constante 108,042 36,48
Experincia 0,336 1,07
Sexo -2,811 -2,58
Posio 8,096 13,73
Exper*Posio -0,135 -2,75
R
2
0,72
s 6,67
Percentis da N(0,1)
R
e
s
i
d
u
o

S
t
u
d
e
n
t
i
z
a
d
o
-3 -2 -1 0 1 2 3
-
4
-
2
0
2
Figura 1.13: Grco normal de probabilidades referente ao modelo normal
linear nal ajustado aos dados sobre salrio de executivos.
102
1.12 Aplicaes
O modelo nal ajustado portanto dado por
y = 108, 042 + 0, 336 exper 2, 811 sexo
+8, 096 posic 0, 135 posic exper.
Por exemplo, desse modelo, qual o salrio previsto para executivos com
5 anos de experincia e posio 4?
Executiva: USD 139,406 mil
Executivo: USD 136,595 mil.
O modelo ajustado para o grupo de mulheres dado por
y = 108, 042 + 8, 096 posic + (0, 336 0, 135 posic) exper.
Examinando a equao acima notamos que as executivas com posio alta
e muita experincia tendem a ganhar menos do que executivas com posio
alta e menos experincia. Isso quer dizer que aquelas executivas que perma-
neceram menos tempo no cargo tendem a ganhar mais do que aquelas que
carem mais tempo no cargo. Mesmo resultado para os homens.
Notamos neste exemplo a importncia da interao na interpretao
dos resultados. Ignorando as variveis posio e experincia temos que o
salrio mdio dos executivos signicativamente maior do que o salrio mdio
das executivas. Porm, quando essas variveis entram no modelo ocorre
o contrrio, para uma mesma posio e mesma experincia as executivas
ganham em mdia mais. Pela Figura 1.13 notamos que no h indcios de
afastamentos da suposio de normalidade para os erros.
103
1.13 Exerccios
1.13 Exerccios
1. Se Y pertence famlia exponencial de distribuies, ento a funo
densidade ou funo de probabilidades de Y pode ser expressa na forma
f(y; , ) = exp[{y b()} + c(y; )],
em que b() e c(; ) so funes diferenciveis. Supondo conhecido
seja L() = logf(y; , ) o logaritmo da funo de verossimilhana. Se
L() pelo menos duas vezes diferencivel em mostre que
E
_
L()
_
= 0 e E
_
2
L()
2
_
= E
_
_
L()
_
2
_
.
2. Supondo agora desconhecido mostre que E(U
) = 0 para as distri-
buies normal, normal inversa e gama.
3. Considere a distribuio estvel cuja densidade dada por
f(y; , ) = a(y, )exp[{(y + 1) log}],
em que > 0, < y < ,
1
> 0 o parmetro de disper-
so e a(, ) uma funo normalizadora. Mostre que essa distribuio
pertence famlia exponencial. Encontre a funo de varincia. Ob-
tenha a funo desvio supondo uma amostra de n variveis aleatrias
independentes de mdias
i
e parmetro de disperso
1
.
4. Considere a seguinte funo densidade de probabilidade:
f(y; , ) =
a(y, )
(1 + y
2
)
1/2
exp[{y + (1
2
)
1/2
}],
em que 0 < < 1, < y < ,
1
> 0 o parmetro de disper-
so e a(, ) uma funo normalizadora. Mostre que essa distribuio
104
1.13 Exerccios
pertence famlia exponencial. Encontre a funo de varincia. Ob-
tenha a funo desvio supondo uma amostra de n variveis aleatrias
independentes de mdias
i
1
.
5. Mostre que a distribuio logartmica, com funo de probabilidades
f(y; ) =
y
/{ylog(1 )},
em que y = 1, 2, . . . e 0 < < 1, pertence famlia exponencial.
Calcule e V (). Obtenha a funo desvio supondo uma amostra de
n variveis aleatrias independentes de parmetros
i
.
6. (Paula e Cordeiro, 1986). Suponha o MLG em que Y
i
FE(
i
, ) e
parte sistemtica dada por g(
i
; ) =
i
= x
T
i
, com escalar des-
conhecido. Encontre as funes escore U
e U
, as funes de in-
formao de Fisher K
, K
e K
e descreva o processo iterativo

escore de Fisher para obter a estimativa de mxima verossimilhana de
= (
T
, )
T
. Como iniciar o processo iterativo? Sugesto de notao:
= /, em que = (
1
, . . . ,
n
)
T
.
7. Supor o modelo normal linear com parte sistemtica dada por
i
=
1
(x
1i
x
1
) +
2
(x
2i
x
2
). Sabe-se que a correlao amostral entre x
1
e x
2
dada por corr(x
1
, x
2
) =

n
i=1
(x
1i
x
1
)(x
2i
x
2
)/(n 1)s
1
s
2
,
em que s
1
e s
2
so os respectivos desvios padro amostrais de x
1
e x
2
.
Calcule a correlao corr(
1
,

2
). Discuta e tente explicar a relao
entre as duas correlaes. Use o fato de que det(X
T
X)
1
> 0.
8. Suponha o modelo de anlise de varincia com erros normais
y
ij
= +
i
+
ij
,
em que
ij
N(0,
2
), i = 1, . . . , p e j = 1, . . . , n
i
. Supor
1
= 0.
Mostre que Var(r
ij
) =
2
(1 1/n
i
).
105
1.13 Exerccios
9. Considere o modelo normal linear
y
i
= x
T
i
+
i
, i = 1, . . . , n,
em que
i
so erros mutuamente independentes tais que
i
N(0,
2
).
Considere uma nova observao y(z) (que no est na amostra) e que
satisfaz y(z) = z
T
+, em que N(0,
2
). Mostre que um intervalo
de conana de coeciente 1 para y(z) pode ser dado por
[ y(z) t
np
(1

2
)s{1 +z
T
(X
T
X)
1
z}
1/2
],
em que y(z) = z
T

, t
n1
(1

2
) o percentil (1

2
) da distribuio t
de Student com np graus de liberdade e s
2
o erro quadrtico mdio
do modelo ajustado.
10. Suponha agora o modelo de regresso normal linear simples
y
i
= + x
i
+
i
, i = 1, . . . , n.
Mostre a equivalncia entre as estatsticas
RV
,
W
e
SR
para testar
H
0
: = 0 contra H
1
: = 0. Supor
2
conhecido.
11. Um critrio tradicional para a validao de modelos de regresso normal
linear atravs da estatstica PRESS, denida por

=
n
i=1
(y
i
y
(i)
)
2
,
em que y
(i)
= x
T
i
(i)
denota o valor predito para a i-sima observao
quando esta no considerada no ajuste. O critrio selecionar o
ajuste com menor valor para

. Mostre que
=
n
i=1
_
r
i
1 h
ii
_
2
,
em que r
i
= y
i
y
i
e h
ii
= x
T
i
(X
T
X)
1
x
i
.
106
1.13 Exerccios
12. Suponha duas populaes normais com mdias
1
e
2
, mesma vari-
ncia, e que amostras independentes de tamanhos n
1
e n
2
foram, res-
pectivamente, obtidas das duas populaes. Para o modelo com parte
sistemtica
1
= + e
2
= , mostre que a estatstica F para
testar H
0
: = 0 contra H
1
: = 0 pode ser expressa na forma
simplicada
F =
(n 2)
n
1
n
2
n
( y
1
y
2
)
2
(y
i
y)
2
n
1
n
2
n
( y
1
y
2
)
2
,
em que y, y
1
, y
2
so as respectivas mdias amostrais.
13. (Paula e Sen, 1995). Suponha um MLG com ligao cannica e parte
sistemtica dada por g(
1j
) =
1
+x
j
e g(
2j
) =
2
+x
j
, j = 1, . . . , r.
Interprete esse tipo de modelo. Obtenha a matriz X correspondente.
Como ca o teste de escore para testar H
0
: = 0? O que signica
testar H
0
?
14. Sejam Y
ij
, i = 1, 2, 3 e j = 1, . . . , m, variveis aleatrias mutuamente
independentes tais que E(Y
ij
) =
ij
, Var(Y
ij
) = V
ij
1
e parte sistem-
tica dada por g(
1j
) = , g(
2j
) = + e g(
3j
) = . Responda
s seguintes questes:
(i) como ca a matriz modelo X?
(ii) O que signica testar H
0
: = 0? Qual a distribuio nula
assinttica das estatsticas
RV
,
W
e
SR
?
(iii) Calcular a varincia assinttica de

, Var(
).
(iv) Mostre que a estatstica do teste de escore para testar H
0
: = 0
contra H
1
: = 0 ca dada por
SR
=
m( y
2
y
3
)
2
2
V
0
.
107
1.13 Exerccios
15. Mostre (1.14) e (1.15). Use o seguinte resultado de lgebra linear:
(A+UV
T
)
1
= A
1
(A
1
U)(V
T
A
1
)
1 +V
T
A
1
U
,
em que A uma matriz no singular e Ue Vso vetores coluna. Mostre
primeiro que X
T
X = X
T
X(1)x
i
x
T
i
e X
T
y = X
T
y(1)x
i
y
i
,
em que uma matriz de 1
s com na i-sima posio.

16. (Cook e Weisberg, 1982). Suponha o modelo de regresso dado em
(1.12). Mostre que N(,
2
/(1 h
ii
)). Mostre tambm que, sob a
hiptese H
1
: = 0, a estatstica F tem uma distribuio F
1,(np1)
(),
em que =
1
2
2
(1h
ii
)
2
o parmetro de no centralidade. Comente
sobre o poder desse teste para 0 h
ii
< 1. Use o resultado: Se
Y N
n
(,
2
I) ento y
T
y/
2

2
n
(), em que =
1
2
T
/
2
.
17. (Pregibon, 1982). Mostre que a estatstica de escore para testar que o i-
simo ponto aberrante num MLG com conhecido e parte sistemtica
g(
i
) = x
T
i
dada por t
2
S
i
, em que
t
S
i
=
(y
i

i
)
_
V
i
(1
h
ii
)
,
sendo
i
,

V
i
e

h
ii
=
i
x
T
i
(X
T

WX)
1
x
i
avaliados em

. Qual a dis-
tribuio nula assinttica de t
2
S
i
? Como seria interpretado o grco de
t
2
S
i
contra a ordem das observaes? Sugesto : chame = X + z,
em que z um vetor n 1 de zeros com 1 na i-sima posio, calcule
Var( ) e U
e teste H
0
: = 0 contra H
1
: = 0.
18. Mostrar que a expresso para AIC no modelo normal linear com
2
desconhecido pode ser escrita na forma equivalente
AIC = nlog{D(y; )/n} + 2p,
108
1.13 Exerccios
em que D(y; ) =
n
i=1
(y
i

i
)
2
.
19. No arquivo reg3.dat so descritas as seguintes variveis referentes a
50 estados norte-americanos: (i) estado (nome do estado), (ii) pop
(populao estimada em julho de 1975), (iii) percap (renda percapita
em 1974 em USD), (iv) analf (porporo de analfabetos em 1970), (v)
expvida (expectativa de vida em anos 1969-70), (vi) crime (taxa de
criminalidade por 100000 habitantes 1976), (vii) estud (porcentagem
de estudantes que concluem o segundo grau 1970), (viii) ndias (nmero
de dias do ano com temperatura abaixo de zero grau Celsus na cidade
mais importante do estado) e (ix) area (rea do estado em milhas
quadradas).
O objetivo do estudo tentar explicar e varivel expvida usando um
modelo de regresso normal linear dadas as variveis explicativas percap,
analf, crime, estud, ndias e dens, em que dens=pop/area.
Inicialmente faa uma anlise descritiva dos dados, por exemplo com
boxplots de cada uma das variveis que sero consideradas no estudo
e com diagramas de disperso com as respectivas tendncias entre as
variveis explicativas e a varivel resposta. Comente essa parte descri-
tiva. Posteriormente, ajuste o modelo de regresso normal linear com
todas as variveis explicativas e atravs do mtodo AIC faa uma sele-
o de variveis. Uma vez selecionado o modelo faa uma anlise de
diagnstico e apresente as interpretaes dos coecientes estimados do
modelo nal.
20. (Neter et el., 1996, p. 449). No arquivo vendas.dat so descritas in-
formaes a respeito das vendas no ano anterior de um tipo de telhado
de madeira em 26 liais de uma rede de lojas de construo. As vari-
109
1.13 Exerccios
veis esto colocadas na seguinte ordem: (i) telhados, total de telhados
vendidos (em mil metros quadrados), (ii) gastos, gastos pela loja com
promoes do produto (em mil USD), (iii) clientes, nmero de clien-
tes cadastrados na loja (em milhares), (iv) marcas, nmero de marcas
concorrentes do produto e (v) potencial, potencial da loja (quanto
maior o valor maior o potencial). Um dos objetivos do estudo com
esse conjunto de dados tentar prever o nmero esperado de telhados
vendidos dadas as variveis explicativas. Faa inicialmente uma an-
lise descritiva construindo, por exemplo, os diagramas de disperso de
cada varivel explicativa contra a varivel resposta telhados. Calcule
tambm as correlaes entre as variveis. Use os mtodos stepwise e
AIC para selecionar um modelo de regresso normal linear. Se o mo-
delo selecionado for diferente pelos dois mtodos, adote algum critrio
para escolher um dos modelos. Interprete os coecientes estimados do
modelo selecionado. Faa uma anlise de diagnstico para vericar se
existem afastamentos srios das suposies feitas para o modelo e se
existem observaes discrepantes.
21. (Wood, 1973). No arquivo reg4.dat esto os dados referentes pro-
duo de gasolina numa determinada renaria segundo trs variveis
observadas durante o processo e uma quarta varivel que uma combi-
nao das trs primeiras. A resposta o nmero de octanas do produto
produzido. A octanagem a propriedade que determina o limite m-
ximo que a gasolina, junto com o ar, pode ser comprimida na cmara
de combusto do veculo sem queimar antes de receber a centilha vinda
das velas. As melhores gasolinas tm uma octanagem alta. Em gran-
des renarias, o aumento de um octana na produo de gasolina pode
representar um aumento de alguns milhes de dolares no custo nal da
110
1.13 Exerccios
produo. Assim, torna-se importante o controle dessa varivel durante
o processo de produo. Use o mtodo AIC para selecionar as vari-
veis explicativas signicativas. Faa uma anlise de diagstico com o
modelo selecionado. Comente.
22. (Narula e Stangenhaus, 1988, pgs. 31-33). No arquivo imoveis.dat
so apresentados dados relativos a uma amostra de 27 imveis. Na
ordem so apresentados os valores das seguintes variveis: (i) imposto
do imvel (em 100 USD), (ii) rea do terreno (em 1000 ps quadrados),
(iii) rea construda (em 1000 ps quadrados), (iv) idade da residncia
(em anos) e (v) preo de venda do imvel (em 1000 USD). Ajuste um
modelo normal linear do preo de venda contra as demais variveis. Use
o mtodo AIC para selecionar as variveis explicativas. Faa uma an-
lise de diagnstico com o modelo selecionado. Interprete os coecientes
estimados.
23. (Ryan e Joiner, 1994, p. 299). No arquivo trees.dat apresentado
um conjunto de dados que tem sido analisado sob diversos pontos de
vista por vrios pesquisadores (ver, por exemplo, Jrgensen, 1989). As
variveis observadas so o dimetro (d), a altura (h) e o volume (v) de
uma amostra de 31 cerejeiras numa oresta do estado da Pensilvnia,
EUA. A relao entre dimetro, altura e volume de uma rvore depende
da forma da mesma e pode-se considerar duas possibilidades
v =
1
4
d
2
h
para forma cilndrica e
v =
1
12
d
2
h
para forma cnica. Em ambos os casos a relao entre logv, logd e logh
111
1.13 Exerccios
dada por
logv = a + blogd + clogh.
Supor inicialmente um modelo linear em que N(0,
2
). Faa uma
anlise de diagnstico e verique se possvel melhorar o modelo, por
exemplo incluindo algum termo quadrtico.
24. No arquivo capm.dat esto os seguintes dados: Tbill (taxa de retorno
livre de risco), retorno Microsoft, SP500 (retorno do mercado), retorno
GE e retorno FORD de janeiro de 2002 a abril de 2003. Todos os
retornos so dirios e esto em porcentagem. Faa inicialmente os
diagramas de disperso entre os excessos de retorno (y
rt
r
ft
) de cada
uma das empresas Microsoft, GE e FORD e os excessos de retorno do
mercado (r
mt
r
ft
), em que y
rt
denota o retorno da ao da empresa,
r
mt
o retorno do mercado e r
ft
indica a taxa livre de risco durante o
t-simo perodo. Posteriormente, ajuste o seguinte modelo de regresso:
y
rt
r
ft
= + (r
mt
r
ft
) +
t
,
em que
t
N(0,
2
). Verique a signicncia do parmetro e com-
pare e interprete as estimativas intervalares para . Faa uma anlise
de diagnstico para cada modelo ajustado.
25. O conjunto de dados descrito na tabela abaixo refere-se a um estudo
cujo objetivo foi tentar prever o preo de venda de um imvel (em mil
USD) dada a rea total (em ps quadrados) numa regio de Eugene,
EUA (Gray, 1989). Esses dados esto armazenados no arquivo externo
reg1.dat.
Tente inicialmente ajustar uma regresso normal linear para explicar
o preo dada a renda. Faa uma anlise de diagnstico e proponha
112
1.13 Exerccios
algum modelo alternativo (se for o caso) a m de reduzir as eventuais
inuncias de observaes discrepantes bem como afastamentos de su-
posies feitas para o modelo. Interprete as estimativas obtidas para
os coecientes do modelo proposto.
rea 800 950 910 950 1200 1000 1180 1000
Preo 30,6 31,5 33,3 45,9 47,4 48,9 51,6 53,1
rea 1380 1250 1500 1200 1600 1650 1600 1680
Preo 54,0 54,3 55,2 55,2 56,7 57,9 58,5 59,7
rea 1500 1780 1790 1900 1760 1850 1800 1700
Preo 60,9 60,9 62,4 63,0 64,5 66,0 66,3 67,5
rea 1370 2000 2000 2100 2050 1990 2150 2050
Preo 68,4 68,4 68,7 69,6 70,5 74,7 75,0 75,3
rea 2200 2200 2180 2250 2400 2350 2500 2500
Preo 79,8 80,7 80,7 83,4 84,0 86,1 87,0 90,3
rea 2500 2500 2680 2210 2750 2500 2400 3100
Preo 96,0 101,4 105,9 111,3 112,5 114,0 115,2 117,0
rea 2100 4000
Preo 129,0 165,0
113
Captulo 2
Modelos para Dados Positivos
Assimtricos
2.1 Introduo
A classe de modelos para a anlise de dados positivos assimtricos bas-
tante ampla incluindo distribuies conhecidas para os erros, tais como gama,
normal inversa, Weibull, Pareto, log-normal e Birnbaum-Saunders (ver, por
exemplo, Leiva, Barros e Paula, 2009). Essas distribuies tm sido particu-
larmente aplicadas na anlise de tempos de sobrevivncia (ou durao) com
forte nfase nas reas mdica e de engenharia (ver, por exemplo, Lawless,
2003). Todavia, dados positivos assimtricos tm sido tambm comuns em
outras reas do conhecimento, como por exemplo pesca, meteorologia, nan-
as, seguros e aturia (ver, por exemplo, Boland, 2007; Jong e Heller, 2008).
Um componente importante no estudo de dados de sobrevivncia a possi-
bilidade de incorporao nas anlises de observaes para as quais no foi
possvel observar a falha (dados censurados). Com os recentes avanos tecno-
114
2.2 Distribuio gama
lgicos ocorridos principalmente na fabricao de equipamentos, os tempos
at a ocorrncia de falhas esto cando cada vez mais longos, aumentando
assim a porcentagem de dados censurados. Isso tambm pode ser notado na
rea mdica com os avanos nos tratamentos e medicamentos. Todavia, a
incluso de dados censurados nos modelos envolve um tipo de anlise mais es-
pecca que est alm das metodologias discutidas neste texto. Sugerimos ao
leitor mais interessado consultar textos de anlise de dados de sobrevivncia,
como por exemplo os livros de Cox e Oakes (1978), Lawless (2003), Collett
(2003), Colosimo e Giolo (2006) e Barros, Paula e Leiva (2009). Portanto,
neste captulo trataremos apenas dados positivos assimtricos no censura-
dos sob modelos com resposta gama e normal inversa, os quais j foram
introduzidos no Captulo 1.
2.2 Distribuio gama
Conforme assumido na Seo 1.2.1 vamos supor que Y uma varivel ale-
atria com distribuio gama de mdia e coeciente de variao
1/2
,
denotamos Y G(, ), e cuja funo densidade expressa na forma
f(y
i
; , ) =
1
()
_
y
exp
_
_
d(logy)
= exp[{(y/) log} log() + log(y) logy],
em que y > 0, > 0, > 0 e () =
_
0
t
1
e
t
dt a funo gama. Na
Figura 2.1 temos a densidade da distribuio gama variando o parmetro
de disperso para xado. Podemos notar que medida que aumenta a
distribuio gama ca mais simtrica em torno da mdia. Pode ser mostrado
que medida que aumenta Y se aproxima de uma distribuio normal de
mdia e varincia
2
1
. Portanto, a distribuio gama torna-se atrativa
para o estudo de variveis aleatrias assimtricas e tambm simtricas em que
115
2.2 Distribuio gama
a varincia depende de forma quadrtica da mdia. Os momentos centrais
de Y so expressos na seguinte forma:
E(Y )
r
=
(r 1)!
r
(r1)
,
para r = 1, 2, . . .. Assim, expandindo logY em srie de Taylor em torno de
at 2
a
ordem obtemos
logY

= log +
1
(Y )
1
2
2
(Y )
2
.
Portanto, para grande temos que
E(logY )

= log
1
2
2
E(Y )
2
= log
1
2
2
= log (2)
1
e
Var(logY )

=
1
.
Ou seja, a transformao logY estabiliza a varincia medida que o coe-
ciente de variao de Y ca pequeno. Uma outra transformao dada por
3{(Y/)
1/3
1} se aproxima da distribuio normal padro no caso gama
(vide McCullagh e Nelder, 1989, p. 289).
A funo de sobrevivncia e a funo de risco so quantidades usuais
na anlise de dados de sobrevivncia sendo denidas, respectivamente, por
S(t) = Pr{Y t} e
h(t) = lim
0
Pr{t Y < t + |Y t}
.
116
2.2 Distribuio gama
x
f
(
x
)
0 1 2 3 4 5
0
1
2
3
4
x
f
(
x
)
0 1 2 3 4 5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
f
(
x
)
0 1 2 3 4 5
0
.
0
0
.
2
0
.
4
0
.
6
x
f
(
x
)
0 1 2 3 4 5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
x
f
(
x
)
0 1 2 3 4 5
0
.
0
0
.
4
0
.
8
x
f
(
x
)
0 1 2 3 4 5
0
.
0
0
.
4
0
.
8
1
.
2
=
1
2
= 1
= 2
= 4 = 6
= 8
Figura 2.1: Densidades da distribuio gama para alguns valores do parme-
tro de disperso e supondo = 1.
Em particular, temos que a funo de risco pode ser expressa na forma
h(t) = f(t)/S(t) com f(y) denotando a funo densidade de Y . No caso
da distribuio gama de mdia e parmetro de disperso
1
a funo de
sobrevivncia expressa (ver, por exemplo, Collett, 2003, pgs. 197-198) na
forma
S(t) 1 I
t
(),
em que I
t
() a funo gama incompleta, dada por
I
t
() =
1
()
_
t
0
u
1
e
u
du,
com = /. A funo de risco h(t) para a distribuio gama crescente
para > 1 e decrescente para < 1. Em particular, quando t temos
que h(t) .
117
2.3 Modelos com resposta gama
Vamos supor que Y
1
, . . . , Y
n
so variveis aleatrias independentes tais que
Y
i
G(
i
, ). Ou seja, estamos assumindo que essas variveis possuem
mdias diferentes e mesmo coeciente de variao
1/2
. Ademais, vamos
supor que g(
i
) =
i
com
i
= x
T
i
, x
i
= (x
i1
, . . . , x
ip
)
T
contendo valores
de variveis explicativas e = (
1
, . . . ,
p
)
T
sendo o vetor de parmetros de
interesse. As ligaes mais usadas no caso gama so identidade (
i
=
i
),
logartmica (log
i
=
i
) e recproca (
i
=
1
i
), esta ltima sendo a ligao
cannica. O processo iterativo para estimao de , como foi visto na Seo
1.6.1, dado por
(m+1)
= (X
T
W
(m)
X)
1
X
T
W
(m)
z
(m)
,
m = 0, 1, . . ., varivel dependente modicada z = + W
1/2
V
1/2
(y ),
= (
1
, . . . ,
n
)
T
, y = (y
1
, . . . , y
n
)
T
, = (
1
, . . . ,
n
)
T
, V = diag{
1
, . . . ,
n
}
e W= diag{
1
, . . . ,
n
} com
i
= (d
i
/d
i
)
2
/
i
.
interessante notarmos que sob ligao logartmica os pesos do pro-
cesso iterativo para obteno de

cam dados por
i
=

2
i
2
i
= 1, de modo
que o processo iterativo assume a forma simplicada
(m+1)
= (X
T
X)
1
X
T
z
(m)
,
em que z = (z
1
, . . . , z
n
)
T
com z
i
=
i
= (y
i

i
)/
i
e
i
= exp(
i
). A vari-
ncia assinttica de

ca dada por Var(
) =
1
(X
T
X)
1
. Em particular,
se as colunas da matriz X so ortogonais, isto X
T
X = I
p
, em que I
p
a
matriz identidade de ordem p, ento Var(
j
) =
1
e Cov(
j
,

) = 0, para
j = , ou seja,
j
e

so assintoticamente independentes.
Portanto, a ligao logartmica tem um atrativo especial de possibilitar
o desenvolvimento de experimentos ortogonais como so bem conhecidos em
118
modelos de regresso normal linear. Podemos escolher formas apropriadas
para a matriz X, de modo que X
T
X = I
p
, e assim obtermos estimativas
mutuamente independentes e de varincia constante para os coecientes do
preditor linear. Myers, Montgomery e Vining (2002, Cap.6) discutem expe-
rimentos ortogonais em MLGs e apresentam alguns exemplos. As ligaes
identidade ( = ), raiz quadrada (
= ) e arcoseno (sen
1
= ) pro-
duzem o mesmo efeito em MLGs com resposta normal, Poisson e binomial,
respectivamente.
Se aplicarmos para sucientemente grande a transformao logart-
mica na resposta e ajustarmos E(logY
i
) = x
T
i
, estaremos fazendo log
i
=
x
T
i
+2
1
, ou seja, a menos da constante 2
1
estaremos obtendo as mesmas
estimativas para de um modelo com resposta gama e ligao logartmica.
2.3.1 Qualidade do ajuste
Como foi visto na Seo 1.4 o desvio de um modelo gama dado por
D
(y; ) = D(y; ) em que

D(y; ) = 2
n
i=1
{log(
i
/y
i
) + (y
i

i
)/
i
}, (2.1)
com
i
= g
1
(
i
) e
i
= x
T
i
. Pode ser mostrado facilmente para ligao

logartmica que o termo

n
i=1
(y
i

i
)/
i
= 0 se a parte sistemtica
i
contm um intercepto. Nesse caso, a funo desvio ca dada por D
(y; ) =
2
n
i=1
log(
i
/y
i
). Como desconhecido devemos estim-lo, por exemplo,
atravs de mxima verossimilhana que equivale a resolvermos a seguinte
equao:
2n{log
)} = D(y; ),
em que () =
()/() a funo digama (vide Seo 1.6.2), ou ento

utilizarmos a estimativa consistente

1
= (n p)
1
n
i=1
(y
i

i
)
2
/
2
i
que
119
ser discutida no Captulo 5. Supondo que o modelo postulado est correto
temos, para grande, que o desvio D
(y; ) segue distribuio qui-quadrado

com (n p) graus de liberdade. Assim, valores altos para o desvio podem
indicar inadequao do modelo ou falta de ajuste.
Quando todas as observaes so positivas o desvio D
(y; ) deve ser

utilizado para avaliar a qualidade do ajuste e estimao de . Contudo, se
pelo menos uma observao for igual a zero D
(y; ) torna-se inapropriado.

A estimativa para nesse caso ca indeterminada. Como foi mencionado na
Seo 1.4, McCullagh e Nelder (1989) sugerem substituir D
(y; ) por
D
(y; ) = 2{C(y) +
n
i=1
log
i
+
n
i=1
y
i
/
i
},
em que C(y) uma funo arbitrria, porm limitada. Se a parte sistemtica
do modelo contm um intercepto o desvio acima ca dado por D
(y; ) =
2{n + C(y) +
n
i=1
log
i
}.
2.3.2 Tcnicas de diagnstico
O resduo componente do desvio padronizado assume para os modelos gama
a forma
t
D
i
=
2
_
1
h
ii
{log(
i
/y
i
) (y
i

i
)/
i
}
1/2
,
em que y
i
> 0 e h
ii
o i-simo elemento da diagonal principal da matriz
H = W
1/2
X(X
T
WX)
1
X
T
W
1/2
com
i
= (d
i
/d
i
)
2
/
2
i
. Em particular
quando h um intercepto em
i
o resduo componente do desvio t
D
i
assume
a forma reduzida
t
D
i
=
2
_
1
h
ii
{log(
i
/y
i
)}
1/2
.
Estudos de simulao indicam que o resduo t
D
i
se aproxima da normalidade,
particularmente para grande.
120
2.4 Aplicaes
Quando a i-sima observao excluda a distncia de Cook aproxi-
mada ca dada por
LD
i
=

h
ii
(1
h
ii
)
2
(y
i

i
)
2

2
i
.
Grcos de t
D
i
e

h
ii
contra os valores ajustados
i
como tambm grcos de
ndices de LD
i
so recomendados para a anlise de diagnstico.
2.4 Aplicaes
2.4.1 Comparao de cinco tipos de turbina de avio
Apresentamos na Tabela 2.1 (ver Lawless 1982, p. 201) os resultados de um
experimento conduzido para avaliar o desempenho de cinco tipos de turbina
de alta velocidade para motores de avio. Foram considerados dez motores
de cada tipo nas anlises e foi observado para cada um o tempo (em unidades
de milhes de ciclos) at a perda da velocidade. Esses dados esto disponveis
no arquivo turbina.dat.
Tabela 2.1
Tempo at a perda da velocidade de cinco
tipos de turbina de avio.
Tipo de turbina
Tipo I Tipo II Tipo III Tipo IV Tipo V
3,03 3,19 3,46 5,88 6,43
5,53 4,26 5,22 6,74 9,97
5,60 4,47 5,69 6,90 10,39
9,30 4,53 6,54 6,98 13,55
9,92 4,67 9,16 7,21 14,45
12,51 4,69 9,40 8,14 14,72
12,95 5,78 10,19 8,59 16,81
15,21 6,79 10,71 9,80 18,39
16,04 9,37 12,58 12,28 20,84
16,84 12,75 13,41 25,46 21,51
121
2.4 Aplicaes
Denotaremos por T
ij
o tempo at a perda da velocidade para o j-
simo motor de tipo i, i = 1, . . . , 5 e j = 1, . . . , 10. Na tabela abaixo so
apresentadas as mdias, desvios padro e coecientes de variao amostrais
para os cinco tipos de turbina.
Tempo
D
e
n
s
i
d
a
d
e
0 5 10 15 20 25 30
0
.
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
Figura 2.2: Densidade aproximada para o tempo at a perda da velocidade
para todos os tipos de turbina de avio.
Estatstica Tipo I Tipo II Tipo III Tipo IV Tipo V
Mdia 10,69 6,05 8,64 9,80 14,71
D.Padro 4,82 2,91 3,29 5,81 4,86
C. Variao 45,09% 48,10% 38,08% 59,29% 33,04%
Ignorando o tipo de turbina temos na Figura 2.2 a densidade aproxi-
mada para o tempo at a perda da velocidade. Se assumirmos que T
ij

G(, ) obtemos as estimativas de mxima verossimilhana = 9, 98 (0, 73)
122
2.4 Aplicaes
5
1
0
1
5
2
0
2
5
1 2 3 4 5
Tipo
T
e
m
p
o
Figura 2.3: Boxplots sobre desempenho dos quatro tipos de turbina de avio.
e

= 4, 01 (0, 77), conrmando pela estimativa de a assimetria direita
para a distribuio do tempo at a perda da velocidade. Contudo, pelos
boxplots correspondentes aos tempos dos cinco grupos (ver Figura 2.3) no-
tamos que as mdias parecem diferir com o tipo de turbina, enquanto os
coecientes de variao parecem variar menos do que os desvios padro. Isso
sugere que uma distribuio gama de mdias diferentes e coeciente de vari-
ao constante pode ser apropriada para explicar o tempo mdio at a perda
da velocidade.
Vamos assumir ento que T
ij
segue uma distribuio gama de mdia
i
1
. A m de facilitarmos as interpretaes
dos resultados ou mesmo fazermos comparaes com o modelo normal li-
near, vamos propor um modelo gama com ligao identidade, sendo a parte
sistemtica dada por
i
= +
i
,
123
2.4 Aplicaes
em que
1
= 0. Para ajustarmos o modelo no R devemos fazer o seguinte:
turbina = scan("turbina.dat", list(tipo=0, tempo=0))
attach(turbina)
tipo = factor(tipo)
fit1.turbina = glm(tempo tipo, family=Gamma(link=identity))
summary(fit1.turbina).
As estimativas de mxima verossimilhana cam dadas por = 10, 693 (1, 543),
2
= 4, 643 (1, 773),

3
= 2, 057 (1, 983),

4
= 0, 895 (2, 093) e

5
=
4, 013 (2, 623) indicando para o tipo II um tempo mdio de sobrevivncia
signicativamente menor do que o tipo I ao nvel de 5%. Para o tipo V no-
tamos um tempo mdio maior do que o tipo I enquanto que os outros trs
tipos apresentam tempos mdios pouco diferentes do tipo I. Esses resultados
conrmam a anlise descritiva apresentada na Figura 2.3. O desvio do mo-
delo foi de D
(y; ) = 8, 861 5, 804 = 51, 43, com 45 graus de liberdade,

que leva a P = 0, 236 e indica um ajuste adequado.
A estimativa de mxima verossimilhana (erro padro aproximado) do
parmetro de disperso dada por

= 5, 804 (1, 129), indicando que as
distribuies dos tempos at a perda da velocidade no devem ser muito
assimtricas. Podemos tentar avaliar atravs de um teste apropriado se os
indcios observados pelas estimativas individuais das mdias so vericados
conjuntamente. Vamos, ento, tentar agrupar os tipos I, III e IV. As hipte-
ses apropriadas so dadas por H
0
:
4
=
3
= 0 contra H
1
:
4
= 0 ou
3
= 0
do grupo IV. Como

relativamente alto podemos aplicar a estatstica F
dada na Seo 1.7. Sob H
0
obtemos D(y; ) = 9, 091 para 47 graus de liber-
dade e sob a hiptese alternativa D(y; ) = 8, 861 para 45 graus de liberdade.
124
2.4 Aplicaes
A estatstica F ca dada por
F =
(9, 091 8, 861)/2
8, 861/45
= 0, 584,
que leva a P = 0, 562, ou seja, pela no rejeio de H
0
. As novas estimativas
so dadas por = 9, 71 (0, 81),

2
= 3, 66 (1, 19) e

5
= 5, 00 (2, 27).
Obtemos

= 5, 66 (1, 10) e D
(y; ) = 51, 47 para 47 graus de liberdade

com P = 0, 30.
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 10 20 30 40 50
0
.
0
0
.
5
1
.
0
1
.
5
47
49
Figura 2.4: Grco da distncia de Cook aproximada referente ao modelo
gama ajustado ao dados sobre desempenho de turbinas de avio.
Na Figura 2.4 temos o grco de ndices da distncia de Cook apro-
ximada. Notamos um forte destaque para a observao #49 seguida da ob-
servao # 47 que correspondem, respectivamente, aos valores 25,46 e 12,75
para o tempo at a perda da velocidade de um dos motores de tipo IV e
tipo II. O valor 25,46, como mostra o boxplot correspondente na Figura 2.3
125
2.4 Aplicaes
destoa dos demais tempos. A eliminao dessa observao aumenta a signi-
cncia marginal de
4
, embora esse efeito continue no signicativo a 10%.
No h mudanas inferenciais nos demais resultados.
O grco normal de probabilidades com envelope para os componentes
padronizados do desvio apresentado na Figura 2.5. Notamos, pelo grco,
que no h indcios de afastamentos srios da suposio de distribuio gama
para os tempos at a perda da velocidade dos motores, bem como para a
suposio de homogeneidade do coeciente de variao para os cinco grupos.
A sequncia de comandos para construirmos os grcos de diagnstico e
normal de probabilidades descrita no Apndice B.
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
3
Figura 2.5: Grco normal de probabilidades referente ao modelo gama ajus-
tado aos dados sobre desempenho de turbinas de avio.
Portanto, podemos concluir neste exemplo que no existe diferena
signicativa entre os tipos I, III e IV, enquanto os tipos II e V aparecem
126
2.4 Aplicaes
de forma signicativa com o menor e maior tempo mdio at a perda da
velocidade, respectivamente.
cpue
D
e
n
s
i
d
a
d
e
0 200 400 600
0
.
0
0
.
0
0
1
0
.
0
0
2
0
.
0
0
3
0
.
0
0
4
Figura 2.6: Densidade aproximada da cpue para todas as embarcaes.
2.4.2 Espinhel de fundo
O espinhel de fundo denido como um mtodo de pesca passivo, sendo
utilizado em todo o mundo em operaes de pesca de diferentes magnitu-
des, da pesca artesanal a modernas pescarias mecanizadas. adequado para
capturar peixes com distribuio dispersa ou com baixa densidade, alm de
ser possvel utiliz-lo em reas irregulares ou em grandes profundidades.
um dos mtodos que mais satisfazem s premissas da pesca responsvel, com
alta seletividade de espcies e comprimentos, alta qualidade do pescado, con-
sumo de energia baixo e pouco impacto sobre o fundo ocenico. No arquivo
pesca.dat esto parte dos dados de um estudo sobre a atividade das frotas
pesqueiras de espinhel de fundo baseadas em Santos e Ubatuba no litoral
127
2.4 Aplicaes
paulista (vide Paula e Oshiro, 2001). A espcie de peixe considerada o
peixe-batata pela sua importncia comercial e ampla distribuio espacial.
Uma amostra de n = 156 embarcaes foi analisada no perodo de 1995 a
1999 sendo 39 da frota de Ubatuba e 117 da frota de Santos. As vari-
veis consideradas para cada embarcao so as seguintes: frota (Santos ou
Ubatuba), ano (95 a 99), trimestre (1 ao 4), latitude
1
(de 23,25
o
a 28,25
o
),
longitude
2
(de 41,25
o
a 50,75
o
), dias de pesca, captura (quantidade de peixes
batata capturados, em kg) e cpue (captura por unidade de esforo, kg/dias
de pesca). Um dos objetivos desse estudo tentar explicar a cpue pelas vari-
veis frota, ano, trimestre, latitude e longitude. Estudos similares realizados
em outros pases vericaram que bastante razovel supor que a cpue tem
distribuio assimtrica direita, como o caso da distribuio gama (vide,
por exemplo, Goni, Alvarez e Adlerstein, 1999).
1
0
0
2
0
0
3
0
0
4
0
0
5
0
0
6
0
0
c
p
u
e
Santos Ubatuba
frota
Figura 2.7: Boxplots da cpue segundo a frota.
1
distncia ao Equador medida ao longo do meridiano de Greenwich
2
distncia ao meridiano de Greenwich medida ao longo do Equador
128
2.4 Aplicaes
1
0
0
2
0
0
3
0
0
4
0
0
5
0
0
6
0
0
c
p
u
e
1995 1996 1997 1998 1999
ano
Figura 2.8: Boxplots da cpue segundo o ano.
Para lermos o arquivo pesca.dat no R devemos fazer o seguinte:
pesca = source("pesca.dat", list(frota=0, ano=0, trimestre=0,
latitude=0, longitude=0, diaspesca=0, captura=0, cpue=0))
frota = factor(frota)
ano = factor(ano)
trimestre = factor(trimestre).
Antes de propormos um modelo para tentar explicar a cpue mdia pelas va-
riveis explicativas, vamos apresentar uma anlise descritiva dos dados. Na
Figura 2.6, em que temos a distribuio da cpue para todas as embarcaes,
podemos notar uma assimetria acentuada direita conrmando constata-
es de estudos anteriores. J nas Figuras 2.7, 2.8 e 2.9 so apresentados
os boxplots da cpue segundo os fatores frota, ano e trimestre. Notamos
uma superioridade da frota de Santos em relao frota de Ubatuba, porm
poucas diferenas entre os nveis dos fatores ano e trimestre, embora o ano
129
2.4 Aplicaes
1
0
0
2
0
0
3
0
0
4
0
0
5
0
0
6
0
0
c
p
u
e
1 2 3 4
trimestre
Figura 2.9: Boxplots da cpue segundo o trimestre.
de 97 tenha uma mediana um pouco superior aos demais anos.
Frota Estatstica 95 96 97 98 99
Mdia 229,37 193,19 262,67 210,29 197,22
Santos D.Padro 148,07 132,55 153,60 122,95 103,45
C. Variao 64,55% 68,61% 58,48% 58,44% 52,45 %
n 19 8 17 27 46
Mdia 47,08 96,09 210,56 174,43 140,85
Ubatuba D. Padro 4,73 59,19 77,51 99,16 71,59
C. Variao 10,05% 61,60 % 36,81% 56,85% 50,83%
n 3 12 6 5 13
Pela Figura 2.10 notamos que a frota de Santos prefere latitudes e
longitudes maiores do que a frota de Ubatuba. Pelos diagramas de disperso
entre cpue e latitude e cpue e longitude apresentados na Figura 2.11 h
indcios de um ligeiro crescimento da cpue com a latitude, porm no est
bem denida a tendncia da cpue com a longitude.
130
2.4 Aplicaes
Na tabela dada a seguir so apresentadas as mdias, desvios padro e
coecientes de variao amostrais para as frotas de Santos e Ubatuba refe-
rentes ao perodo 95-99.
2
4
2
5
2
6
2
7
2
8
l
a
t
i
t
u
d
e
Santos Ubatuba
frota
4
2
4
4
4
6
4
8
l
o
n
g
i
t
u
d
e
Santos Ubatuba
frota
Figura 2.10: Boxplots da latitude e longitude segunda a frota.
Latitude
c
p
u
e
24 25 26 27 28
1
0
0
3
0
0
5
0
0
(a)
Longitude
c
p
u
e
42 44 46 48
1
0
0
3
0
0
5
0
0
(b)
Figura 2.11: Diagramas de disperso da cpue contra latitude (a) e contra
longitude (b).
Portanto, a suposio de coeciente de variao constante parece ser
131
2.4 Aplicaes
bastante razovel para a frota de Santos. Para a frota de Ubatuba as esti-
mativas de 95 e 97 destoam das demais, porm devemos levar em conta para
essa frota que as amostras so pequenas.
Como todas essas anlises so marginais, no levando em conta a pre-
sena das outras variveis, somente atravs de um modelo apropriado que
poderemos conhecer o efeito de cada varivel explicativa na presena das
demais. Denimos ento Y
ijk
como sendo a cpue observada para a i-sima
embarcao da j-sima frota, (Santos, j = 1; Ubatuba j = 2), no k-simo
ano e -simo trimestre (k, = 1, 2, 3, 4). Vamos supor que Y
ijk
G(
ijk
, )
com parte sistemtica dada por
log
ijk
= +
j
+
k
+
+
1
Latitude
ijk
+
2
Longitude
ijk
, (2.2)
em que
j
,
k
e
denotam, respectivamente, os efeitos da j-sima frota, k-

simo ano e -simo trimestre. Como estaremos assumindo parametrizao
casela de referncia teremos as restries
1
= 0,
1
= 0 e
1
= 0. Temos
ainda que latitude
ijk
e longitude
ijk
denotam, respectivamente, a latitude e
longitude da i-sima embarcao da frota j no k-simo ano e trimestre .
Ajustamos aos dados o modelo gama com parte sistemtica dada por
(2.2) e aplicando o mtodo de Akaike (vide Seo 1.11.2) retiramos o fator
trimestre, permanecendo no modelo os fatores frota e ano alm das variveis
quantitativas latitude e longitude. Para ajustarmos o modelo e aplicarmos o
mtodo AIC devemos aplicar os seguintes comandos:
attach(pesca)
fit1.pesca = glm(cpue frota + ano + trimestre + latitude
+ longitude, family=Gamma)
summary(fit1.pesca)
require(MASS)
stepAIC(fit1.pesca).
132
2.4 Aplicaes
O procedimento stepAIC assume que o parmetro constante, ou seja,
no muda de um modelo para o outro. Como isso em geral no satisfeito
devemos aplicar algum procedimento alternativo a m de conrmarmos o
modelo escolhido pelo mtodo AIC. Fizemos isso atravs da estatstica da
razo de versossimilhanas, conrmando a retirada do fator trimestre.
Tabela 2.2
Estimativas dos parmetros referentes ao modelo
gama ajustado aos dados sobre espinhel de fundo.
Latitude 0,204 2,81
Longitude -0,150 -1,97
Frota-Ubatuba -1,359 -3,68
Ano96 -0,064 -0,26
Ano97 0,141 0,74
Ano98 -0,043 -0,25
Ano99 -0,009 -0,06
FrotaUb*Ano96 0,806 1,77
3,67 9,17
O teste da razo de verossimilhanas para incluirmos a interao entre
os dois fatores que permaneceram no modelo, frota e ano, foi de
RV
= 14, 26
para 4 graus de liberdade e obtemos P = 0, 0065. Portanto, a interao
ser includa no modelo. As estimativas do modelo nal que inclui os efeitos
principais latitude, longitude, frota e ano alm da interao entre ano e frota
so apresentadas na Tabela 2.2 e o desvio do modelo foi de D
(y; ) =
162, 66 com 144 graus de liberdade e P = 0, 14, indicando um modelo bem
ajustado. Notamos que medida que aumenta a latitude aumenta a cpue,
ocorrendo tendncia contrria medida que aumenta a longitude. Logo, para
133
2.4 Aplicaes
latitudes altas e longitudes baixas (dentro dos limites amostrais), esperamos
valores maiores para a captura por unidade de esforo. Com relao a frota
e ano, como foi includa interao entre esses fatores, a interpretao das
estimativas deve ser feita com um pouco mais de cuidado. Para isso, exibimos
na Figura 2.12 os valores esperados da cpue xando latitude e longitude
nos valores, respectivamente, 26
o
e 46
o
. Notamos pela gura que at 96 os
valores preditos para a frota de Ubatuba nessas latitude e longitude so bem
menores do que os valores preditos para a frota de Santos. Contudo, a partir
de 97 as diferenas entre os valores preditos para as duas frotas diminuem.
Os valores preditos para a frota de Santos variam pouco no perodo 95-99,
diferentemente dos valores preditos para a frota de Ubatuba.
ano
c
p
u
e

e
s
t
i
m
a
d
a
95 96 97 98 99
5
0
1
0
0
1
5
0
2
0
0
2
5
0
Santos
Ubatuba
Figura 2.12: Estimativas da cpue mdia para as frotas de Santos e Ubatuba
segundo o ano de operao xando-se a latitude em 26
o
e a longitude em 46
o
atravs do modelo gama.
134
2.4 Aplicaes
Valores Ajustados
M
e
d
i
d
a

h
50 100 150 200 250 300
0
.
0
0
.
4
0
.
8
(a)
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 50 100 150
0
.
0
0
.
4
0
.
8
1
.
2
(b)
8
17
Valores Ajustados
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
50 100 150 200 250 300
-
2
0
2
(c)
Preditor Linear
V
a
r
i
a
v
e
l

z
4.0 4.5 5.0 5.5
4
5
6
7
(d)
Figura 2.13: Grcos de diagnstico referentes ao modelo gama ajustado aos
dados sobre espinhel de fundo.
Os grcos de diagnstico (Figura 2.13) no apresentam pontos de ala-
vanca ou aberrantes, nem indicaes de que a ligao utilizada inadequada.
Contudo, duas observaes aparecem com destaque no grco de inuncia,
as embarcaes #17 e #8. A embarcao #8 da frota de Ubatuba e ob-
teve uma cpue de 350 numa latitude de 24,25
o
(abaixo da latitude mdia
de 26,22
o
) e longitude de 45,25
o
(prxima da longitude mdia de 46,28
o
) no
ano de 98. J a embarcao #17 da frota de Santos, obteve uma cpue
de 450 numa latitude de 24,75
o
e longitude de 46,25
o
no ano de 99. Ambas
embarcaes alcanaram cpues bastante altas em latitudes relativamente bai-
xas, contrastando com a tendncia apresentada pelo modelo. A eliminao
135
2.4 Aplicaes
das embarcaes individualmente e em conjunto altera algumas estimati-
vas porm no muda as concluses inferenciais. Todos os efeitos continuam
marginalmente signicativos ao nvel de 10%. O grco normal de probabi-
lidades com envelope gerado (Figura 2.14) no apresenta indcios de que a
distribuio gama seja inadequada para explicar a cpue.
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
4
-
2
0
2
Figura 2.14: Grco normal de probabilidades referente ao modelo gama
ajustado aos dados sobre espinhel de fundo.
2.4.3 Aplicao em seguros
A m de ilustrarmos uma aplicao na rea de seguros, vamos considerar
parte dos dados descritos em de Jong e Heller (2008, pgs. 14-15) referentes aos
valores pagos de seguros individuais (em dlares australianos) por danos com
acidentes pessoais no perodo de julho de 1989 a junho de 1999. As anlises
136
2.4 Aplicaes
sero restritas ao perodo de janeiro de 1998 a junho de 1999, um total de
769 seguros pagos. Alm do valor pago ao segurado sero consideradas as
seguintes variveis explicativas: legrep, representao legal (0: no, 1: sim)
e optime, tempo operacional para pagamento do seguro. Essa ltima varivel
assume valores no intervalo (0, 100) e por exemplo um valor 23 signica que
23% dos seguros foram pagos antes do seguro em anlise. Como estamos
considerando apenas parte dos dados (referentes aos ltimos 18 meses), os
valores de optime iro variar de 0,1 a 31,9. O subconjunto de dados analisado
est descrito no arquivo insurance.dat.
Tempo Operacional
l
o
g
(
V
a
l
o
r

d
o

S
e
g
u
r
o
)
0 5 10 15 20 25 30
4
6
8
1
0
(a)
Tempo Operacional
l
o
g
(
V
a
l
o
r

d
o

S
e
g
u
r
o
)
0 5 10 15 20 25 30
6
8
1
0
(b)
Figura 2.15: Diagrama de disperso entre o valor pago de seguro e o tempo
operacional para os grupos sem representao legal (a) e com representao
legal (b).
Na Figura 2.15 temos o diagrama de disperso entre o logaritmo do
valor pago e o tempo operacional para os grupos sem representao legal
137
2.4 Aplicaes
(Figura 2.15a) e com representao legal (Figura 2.15b) e as tendncias ajus-
tadas de forma no paramtrica. Notamos pela Figura 2.15a um crescimento
aproximadamente quadrtico do logaritmo do valor pago com o tempo opera-
cional, contudo a variablidade parece ser maior para valores baixos do tempo
operacional. J para os indivduos com representao legal (Figura 2.15b),
notamos que o logaritmo do valor pago cresce linearmente com o tempo ope-
racional enquanto a variabilidade se mantm aproximadamente constante.
Notamos tambm que os valores pagos de seguro so em geral maiores para
o grupo com representao legal.
0 20000 50000
0
.
0
0
0
0
0
0
.
0
0
0
0
4
0
.
0
0
0
0
8
0
.
0
0
0
1
2

Valor do Seguro
D
e
n
s
i
d
a
d
e
(a)
0 40000 100000
0
.
0
0
0
0
0
0
.
0
0
0
0
4
0
.
0
0
0
0
8
0
.
0
0
0
1
2

Valor do Seguro
D
e
n
s
i
d
a
d
e
(b)
Figura 2.16: Distribuio do valor do seguro para os grupos sem representa-
o legal (a) e com representao legal (b).
Na Figura 2.16 temos a distribuio aproximada do valor pago de se-
138
2.4 Aplicaes
guro para os dois grupos, sem representao legal (Figrua 2.16a) e com re-
presentao legal (Figura 2.16b). Em ambos os grcos podemos notar que a
distribuio fortemente assimtrica direita, sugerindo distribuies gama
ou normal inversa para explicar o valor pago de seguro.
Vamos denotar por Y
ij
o valor pago de seguro para o j-simo indivduo
do i-simo grupo (i = 0, sem representao legal e i = 1 com representao
legal) e j = 1, . . . , n
i
sendo n
0
= 227 e n
1
= 542. Conforme sugerido pelas
Figuras 2.16a e 2.16b assumiremos inicialmente Y
ij
G(
ij
,
i
) tais que
log
0j
=
0
+
10
optime
j
+
20
optime
2
j
e
log
1j
=
1
+
11
optime
j
.
Tabela 2.3
aos modelos com resposta gama ajustados
aos dados sobre seguro.
0
7,223 44,13
10
0,204 6,72
20
-0,005 -5,08
0
0,78 12,55
1
8,805 140,50
11
0,023 5,48
1
2,22 17,66
As estimativas dos modelos propostos, que foram ajustados separa-
damente, so descritas na Tabela 2.3. Notamos pelas estimativas que as
tendncias observadas nas Figuras 2.15a e 2.15b foram conrmadas de forma
signicativa. Contudo, pelos grcos normais de probabilidades (Figura 2.17)
notamos indcios de afastamentos da distribuio gama para o valor pago de
seguro, principalmente para o grupo com representao legal. Para o grupo
139
2.4 Aplicaes
sem representao legal notamos que os menores valores do seguro foram
superestimados pelo modelo. Os desvios dos dois modelos foram, respectiva-
mente, de D
(y; ) = 270, 43 com 224 graus de liberdade e D
(y; ) = 581, 72
com 540 graus de liberdade. Embora as estimativas de
0
e
1
sejam relati-
vamente pequenas, h indcios pelos valores dos desvios que os modelos no
esto bem ajustados.
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-3 -2 -1 0 1 2 3
-
4
-
2
0
2
(a)
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-3 -2 -1 0 1 2 3
-
4
-
2
0
2
4
(b)
Figura 2.17: Grco normal de probabilidades para os modelos com resposta
gama ajustados aos dados de seguro para os grupos sem representao legal
(a) e com representaa legal (b).
Analisando os grcos da distncia de Cook (Figura 2.18a) e resduo
componente do desvio contra os valores ajustados (Figrua 2.18b) apenas para
o grupo sem representao legal, notamos que no h indcios de observaes
aberrantes, contudo algumas observaes aparecem como possivelmente in-
uentes. Essas observaes em geral correspondem a valores altos para o
140
2.4 Aplicaes
valor pago de seguro. A eliminao das 10 observaes com mais detaque
na Figura 2.18a no muda a inferncia, todos os coecientes continuam alta-
mente signicativos, porm a estimativa de
10
aumenta quase 20%.
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 50 100 150 200
0
.
0
0
.
1
0
.
2
0
.
3
(a)
30
42
46
88
99
173
203
207
221
227
Valores Ajustados
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
2000 4000 6000 8000 10000
-
4
-
2
0
2
(b)
Figura 2.18: Grcos de diagnstico para o modelo com resposta gama ajus-
tado aos dados de seguro para o grupo sem representao legal.
Para o grupo com representao legal a utilizao de outras ligaes ou
mesmo outras distribuies so alternativas a m de tentarmos melhorar a
qualidade do ajuste. Paula et al. (2012) comparam ajustes de modelos com
resposta gama com modelos com resposta log-Birnbaum-Saunders (log-BS)
e log-Birnbaum-Saunders-t (log-BS-t) para explicar o valor pago de seguro
para o grupo com representao legal, obtendo um ajuste satisfatrio com
os modelos log-BS-t. Essa distribuio acomoda melhor as observaes aber-
rantes que correspondem a valores altos de seguro.
141
2.5 Elasticidade
2.5 Elasticidade
O modelo log-linear com resposta gama pode ser utilizado para a estima-
o da elasticidade entre a demanda de um produto e seu preo unitrio.
Como ilustrao, vamos supor que Y denota a demanda e X o preo unit-
rio. usual em Econometria (ver, por exemplo, Gujarati, 2006, Seo 6.4)
assumirmos que
Y =
1
x
2
e
u
, (2.3)
sendo u um erro aleatrio, em geral assumido N(0,
2
). Isso implica em e
u
seguir distribuio log-normal de mdia e
2
/2
e varincia e
2
(e
2
1). Em
vez de uma log-normal podemos assumir, alternativamente, e
u
G(1, ).
Assim, teremos que a mdia de Y dado x ca dada por
(x) =
1
x
2
,
ou seja log(x) = log
1
+
2
logx, um MLG com resposta gama e ligao
logartmica.
Para entendermos a elasticidade entre a demanda e o preo do produto,
vamos supor que o preo aumente r 100% de modo que o novo preo seja
dado por x
N
= (1 + r)x, para 0 < r < 1. O novo valor esperado para a
demanda ca dado por
(x
N
) =
1
x
2
N
e a razo entre as demandas mdias assume a forma
(x
N
)
(x)
= e
2
log(1+r)
= (1 + r)
2
.
Para r pequeno temos a aproximao
(x
N
)
(x)
= (1 + r
2
),
142
2.5 Elasticidade
de modo que se o preo aumentar 1% (r = 0, 01) a demanda aumenta
2
%,
ou seja,
(x
N
)
(x)
=
_
1 +

2
100
_
.
O parmetro
2
conhecido como elasticidade entre a demanda e o preo do
produto.
2.5.1 Modelo de Cobb-Douglas
O modelo (2.3) pode ser estendido para duas ou mais variveis explicativas
as quais podero representar outros tipos de preo ou mesmo algum tipo
de insumo. Em particular, o modelo de Cobb-Douglas (ver, por exemplo,
Gujarati, Exemplo 7.3) considera a seguinte equao para explicar a demanda
de um produto pelos insumos de mo de obra e capital:
Y =
1
x
2
2
x
3
3
e
u
, (2.4)
em que Y denota a demanda, x
2
o valor do insumo de mo de obra, x
3
o
valor do insumo de capital e u o erro aleatrio. Para x
3
xado (x
2
xado) o
parmetro
2
(
3
) mede a elasticidade parcial entre a demanda e o insumo
de mo de obra (capital). A soma
2
+
3
mede os retornos de escala, ou seja,
se
2
+
3
= 1 signica que os retornos so proporcionais, dobrando o uso
de insumos a demanda esperada aumenta duas vezes, triplicando os insumos
h aumento de trs vezes para a demanda esperada, e assim por diante.
Se
2
+
3
< 1 os retornos de escala sero menores, dobrando os insumos
esperamos demanda menor do que o dobro, e se
2
+
3
> 1 os retornos
de escala sero maiores, dobrando os insumos esperamos que a demanda
aumente mais que duas vezes.
Para mostrarmos esses resultados suponha que os novos insumos de
mo de obra e de capital sejam dados por x
1N
= rx
1
e x
2N
= rx
2
, ou seja,
143
2.5 Elasticidade
aumentam r vezes. Assim, a nova demanda esperada ser dada por
(x
1N
, x
2N
) =
1
(rx
2
)
2
(rx
3
)
3
= r
(
2
+
3
)
1
x
2
2
x
3
3
= r
2
+
3
(x
1
, x
2
),
em que (x
1
, x
2
) a demanda esperada inicial. Logo, se
2
+
3
= 1 ento
(x
1N
, x
2N
) = r(x
1
, x
2
), ou seja, a demanda esperada aumenta r vezes. Por
outro lado, se
2
+
3
< 1 teremos que (x
1N
, x
2N
) < r(x
1
, x
2
), ou seja, a
demanda esperada aumenta menos que r vezes e se
2
+
3
> 1 teremos que
a demanda esperada aumenta mais que r vezes, (x
1N
, x
2N
) > r(x
1
, x
2
).
Obviamente que existem vrias distribuies candidatas para explicar
e
u
, sendo as distribuies gama e normal inversa as candidatas naturais na
classe dos MLGs. Podemos tambm assumir que logu tenha distribuio nor-
mal. Contudo, somente atravs de uma anlise de diagnstico que podemos
avaliar a adequao de cada distribuio.
2.5.2 Aplicao
Como ilustrao vamos considerar um experimento aleatorizado descrito em
Griths, Hill e Judge (1993, Seo 11.8.1c) em que a produtividade de milho
(libras/acre) estudada segundo vrias combinaes de nitrognio e fosfato
(40, 80, 120, 160, 200, 240, 280 e 320 libras/acre). Os dados esto descritos
no arquivo milho.dat. Nas Figuras 2.19a e 2.19b temos os diagramas de
disperso entre a produtividade de milho e as quantidades de nitrognio e
fosfato, respectivamente, e conforme podemos notar nessas guras h indcios
de uma tendncia crescente da produtividade com o aumento dos insumos.
Notamos tambm um aumento da variabilidade com o aumento das quanti-
dades de nitrognio e fostato, sugerindo que a suposio de distribuio gama
144
2.5 Elasticidade
ou normal inversa para logu no modelo de Cobb-Douglas pode levar a um
ajuste adequado.
Denotaremos por Y
i
a produtividade de milho dada a combinao
(x
1i
, x
2i
) de nitrognio e fosfato correspondente i-sima condio experi-
mental (i = 1, . . . , 30). Vamos ento supor que Y
i
G(
i
, ) com parte
sistemtica dada por log
i
= +
1
logx
1i
+
2
logx
2i
.
Nitrogenio
P
r
o
d
u
t
i
v
i
d
a
d
e
50 100 150 200 250 300
4
0
6
0
8
0
1
0
0
1
2
0
(a)
Fosfato
P
r
o
d
u
t
i
v
i
d
a
d
e
50 100 150 200 250 300
4
0
6
0
8
0
1
0
0
1
2
0
(b)
Figura 2.19: Diagramas de disperso entre a quantidade de nitrognio e a
produtividade de milho (a) e a quantidade de fosfato e a produtividade de
milho (b).
As estimativas so descritas na Tabela 2.4, e como podemos notar os
coecientes so altamente signicativos, conrmando as tendncias observa-
das na Figura 2.19. Na Figura 2.20a temos o grco normal de probabilidades
que no apresenta observaes aberrantes nem indcios de afastamentos da
distribuio assumida para os erros. Pelo grco da distncia de Cook (Fi-
145
2.6 Distribuio normal inversa
gura 2.20b) a observao # 1 aparece com mais destaque. Reajustando o
modelo sem essa observao notamos variaes importantes nas estimativas
dos coecientes
1
e
2
, respectivamente. Porm a inferncia no muda, es-
ses coecientes continuam sendo altamente signicativos. A estimativa de
sugere que a suposio de distribuio log-normal para os erros tambm
pode levar a um ajuste adequado, embora o modelo gama contemple a pos-
sibilidade de heteroscedasticidade.
Tabela 2.4
Estimativas dos parmetros referentes ao
modelo de Cobb-Douglas ajustado ao dados
sobre produtividade de milho.
0,469 1,67
1
0,350 8,30
2
0,410 10,07
46,59 11,99
A m de vericarmos como ocorrem os retornos de produtividade de
milho com as aplicaes de fosfato e nitrognio vamos encontrar uma estima-
tiva intervalar para
1
+
2
. Temos que

Var(
1
+

2
) = 0, 003143, assim uma
estimativa intervalar de coeciente de conana de 95% ca dada por [0,35
+ 0,41 + 1,96*
0, 003143] = [0,52; 0,87] que no cobre o valor 1,0. Por-

tanto, dobrando as aplicaes de insumos de nitrognio e fosfato os retornos
esperados de produtividade devem aumentar menos do que duas vezes.
Vamos supor que Y uma varivel aleatria com distribuio normal inversa
de mdia e parmetro de disperso
1
, denotamos Y NI(, ), cuja
146
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
3
(a)
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 5 10 15 20 25 30
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
(b)
Figura 2.20: Grco normal de probabilidades (a) e distncia de Cook (b)
referentes ao modelo de Cobb-Douglas ajustado aos dados do experimento
sobre produtividade de milho.
funo densidade expressa na forma
f(y; , ) =

1/2
_
2y
3
exp
_
(y )
2
2
2
y
_
= exp
_
y
2
2
+
1
1
2
_
log(2y
3
/) +

y
__
,
em que y > 0, > 0. Na Figura 2.21 temos a densidade da distribuio
normal inversa variando o parmetro de disperso para xado. Notamos
que medida que aumenta a distribuio normal inversa ca mais sim-
trica em torno da mdia. Podemos mostrar que medida que aumenta
Y se aproxima de uma distribuio normal de mdia e varincia
3
1
.
Similarmente distribuio gama, a normal inversa torna-se atrativa para
o estudo de variveis aleatrias assimtricas e tambm simtricas em que a
varincia depende de forma cbica da mdia. Uma discusso sobre as su-
147
posies tericas para a construo da distribuio normal inversa pode ser
encontrada, por exemplo, em Leiva, Barros e Paula (2009, Cap. 2).
x
f
(
x
)
0 1 2 3 4 5 6
0
.
0
0
.
2
0
.
4
0
.
6
x
f
(
x
)
0 1 2 3 4 5 6
0
.
0
0
.
2
0
.
4
x
f
(
x
)
0 1 2 3 4 5 6
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
x
f
(
x
)
0 1 2 3 4 5 6
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
x
f
(
x
)
0 1 2 3 4 5 6
0
.
0
0
.
2
0
.
4
x
f
(
x
)
0 1 2 3 4 5 6
0
.
0
0
.
2
0
.
4
= 1
= 2
= 3
= 4
= 6
= 10
Figura 2.21: Densidades da distribuio normal inversa para alguns valores
do parmetro de disperso e supondo = 2.
A funo de sobrevivncia da distribuio normal inversa de mdia
1
(ver, por exemplo, Collett, 2003, pp. 198-199)
dada por
S(t) = {(1 t
1
)
_
t
1
exp(2/){(1 + t
1
)
_
t
1
}.
A funo de risco dada por h(t) = f(t)/S(t) em que f(y) denota a funo
densidade da NI(, ).
148
2.7 Modelos com resposta normal inversa
2.7 Modelos com resposta normal inversa
Sejam Y
1
, . . . , Y
n
variveis aleatrias independentes tais que Y
i
NI(
i
, ).
Estamos assumindo que essas variveis possuem mdias diferentes e mesma
disperso
1
. Ademais, vamos supor g(
i
) =
i
em que
i
= x
T
i
com x
i
=
(x
i1
, . . . , x
ip
)
T
contendo valores de variveis explicativas e = (
1
, . . . ,
p
)
T
sendo o vetor de parmetros de interesse. As ligaes mais usadas no caso
normal inversa so identidade (
i
=
i
), logartmica (log
i
=
i
) e recproca
quadrtica (
i
=
2
i
), esta ltima sendo a ligao cannica.
Como foi visto na Seo 1.4 o desvio de um modelo com resposta normal
inversa dado por D
(y; ) = D(y; ) em que

D(y; ) =
n
i=1
(y
i

i
)
2
/(y
i

2
i
), (2.5)
com
i
= g
1
(
i
),
i
= x
T
i
e y
i
> 0. Como desconhecido devemos
estim-lo, por exemplo atravs de mxima verossimilhana, cuja soluo
dada por

= n/D
(y; ). Supondo que o modelo postulado est correto

temos, para grande, que o desvio D
(y; ) segue distribuio qui-quadrado

com (n p) graus de liberdade. Assim, valores altos para o desvio podem
indicar inadequao do modelo ou falta de ajuste.
O resduo componente do desvio padronizado para os modelos com resposta
normal inversa assumem a forma
t
D
i
=
2
_
1
h
ii
(y
i

i
)

i
y
i
,
149
2.8 Aplicaes
em que y
i
> 0 e h
ii
H = W
1/2
X(X
T
WX)
1
X
T
W
1/2
com
i
= (d
i
/d
i
)
2
/
3
i
. Na expresso
para t
D
i
no caso da distribuio normal inversa o sinal do resduo o mesmo
de (y
i

i
). Estudos de simulao indicam que o resduo t
D
i
se aproxima da
distribuio normal, particularmente para grande.
Similarmente aos modelos com resposta gama podemos obter uma ex-
presso aproximada para a distncia de Cook quando a i-sima observao
excluda. Essa expresso ca dada por
LD
i
=

h
ii
(1
h
ii
)
2
(y
i

i
)
2

2
i
.
Aqui tambm so sugeridos grcos de t
D
i
e

h
ii

i
e grcos de ndices de LD
i
.
2.8 Aplicaes
2.8.1 Comparao de cinco tipos de snack
Vamos considerar nesta seo parte dos dados de um experimento desenvol-
vido no Departamento de Nutrio da Faculdade de Sade Pblica da USP
em que 5 formas diferentes de um novo tipo de snack, com baixo teor de
gordura saturada e de cidos graxos, foram comparados ao longo de 20 se-
manas. Neste novo produto a gordura vegetal hidrogenada, responsvel pela
xao do aroma do produto, foi substituda, totalmente ou parcialmente,
por leo de canola. As formas so as seguintes: A (22% de gordura, 0%
de leo de canola), B (0% de gordura, 22% de leo de canola), C (17% de
gordura, 5% de leo de canola), D (11% de gordura, 11% de leo de canola)
e E (5% de gordura, 17% de leo de canola). O experimento foi conduzido
de modo que nas semanas pares 15 embalagens de cada um dos produtos A,
150
2.8 Aplicaes
B, C, D e E fossem analisadas em laboratrio e observadas diversas variveis
(ver Paula, de Moura e Yamaguchi, 2004). Em particular, vamos estudar o
comportamento da textura dos produtos atravs da fora necessria para o
cisalhamento. Os dados referentes a esta varivel esto disponveis no arquivo
snack.dat.
Para lermos o arquivo snack.dat no R devemos fazer o seguinte:
snack = source("snack.dat", list(cisalhamento=0, grupo=0,
semana=0))
grupo = factor(grupo).
A B C D E
4
0
6
0
8
0
1
0
0
1
2
0
Grupo
C
i
s
a
l
h
a
m
e
n
t
o
Figura 2.22: Boxplots da fora de cisalhamento segundo o grupo e para
todas as semanas.
Notamos pela Figura 2.22, em que so apresentados os boxplots da
fora de cisalhamento segundo o grupo e para todas as semanas, que os
grupos A e C possuem os maiores valores, enquanto o grupo C tem valores
151
2.8 Aplicaes
intermedirios e os grupos D e E tm os menores valores. Nota-se uma
assimetria direita na distribuio da fora de cisalhamento para todos os
grupos. Esssas tendncias so conrmadas pela tabela dada a seguir em que
so apresentadas as mdias, desvio padro e coeciente de variao para a
fora de cisalhamento para cada grupo.
Estatstica Grupo A Grupo B Grupo C Grupo D Grupo E
Mdia 66,201 55,294 61,632 51,027 50,257
D.Padro 18,707 13,143 19,601 10,960 11,402
C. Variao 28,20% 23,80% 31,80% 21,50% 22,70%
2 4 6 8 10 12 14 16 18 20
4
0
6
0
8
0
1
0
0
1
2
0
Semanas
C
i
s
a
l
h
a
m
e
n
t
o
Figura 2.23: Boxplots da fora de cisalhamento segundo a semana e para
todos os grupos.
J na Figura 2.23, em que so apresentados os boxplots para todos os
grupos ao longo das 20 semanas, uma tendncia crescente observada at a
152
2.8 Aplicaes
14
a
semana seguida de um decrescimento at a ltima semana. Vericamos
tambm, para cada semana, que a distribuio da fora de cisalhamento
mostra-se assimtrica direita sugerindo uma distribuio gama ou normal
inversa. Esssas tendncias so conrmadas pela tabela dada a seguir em que
so apresentadas as mdias, desvio padro e coeciente de variao para a
fora de cisalhamento para cada semana.
Estatstica Semana 2 Semana 4 Semana 6 Semana 8 Semana 10
Mdia 50,95 44,66 50,08 55,57 60,15
D.Padro 13,12 9,76 15,97 16,28 14,72
C. Variao 25,80% 21,90% 31,90% 29,30% 24,50%
Estatstica Semana 12 Semana 14 Semana 16 Semana 18 Semana 20
Mdia 57,84 71,57 65,18 60,37 52,45
D.Padro 13,61 20,17 16,95 10,25 12,58
C. Variao 23,50% 28,20% 26,00% 17,00% 24,00%
Assim, denotaremos por Y
ijk
a fora de cisalhamento referente k-
sima rplica do i-simo grupo na j-sima semana, para k = 1, . . . , 15, j =
2, 4, 6, . . . , 20 e i =1(A),2(B),3(C),4(D) e E(5). A m de compararmos as
duas distribuies assimtricas vamos supor que Y
ijk
G(
ij
, ) e Y
ijk

NI(
ij
, ) com parte sistemtica dada por
ij
= +
i
+
1
semana
j
+
2
semana
2
j
, (2.6)
em que
1
= 0. Portanto o efeito da forma A, controlando pela semana,
e +
i
(i=2,3,4,5) so os efeitos das demais formas B, C, D e E, respecti-
vamente. Estamos supondo a mesma tendncia para os cinco tipos de snack.
Alternativamente poderamos incluir interao entre grupo e semana, possi-
bilitando o ajuste de tendncias separadas para cada grupo.
153
2.8 Aplicaes
Para ajustarmos o modelo (2.6) com resposta normal inversa sem in-
terao devemos fazer o seguinte:
s1 = semana
s2 = s1*s1
fit1.snack = glm(cisalhamento grupo + s1 + s2,
family=inverse.gaussian(link=identity))
summary(fit1.snack).
Abaixo seguem os comandos para o ajuste com interao
fit2.snack = glm(cisalhamento grupo + s1 + s2 + s1*grupo
+s2*grupo, family=inverse.gaussian(link=identity))
40 45 50 55 60 65 70
1
0
1
2
3
4
Valores Ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
(a)
40 45 50 55 60 65 70
1
0
1
2
3
4
Valores Ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
(b)
Figura 2.24: Grcos do resduo de Pearson contra os valores ajustados refe-
rentes aos modelos gama (a) e normal inversa (b) ajustados aos dados sobre
snacks .
Este um exemplo em que h uma ligeira superioridade da distribuio
normal inversa em relao distribuio gama. Embora a funo de varincia
154
2.8 Aplicaes
da normal inversa seja cbica enquanto para a gama temos funo de varin-
cia quadrtica, nem sempre possvel diferenciarmos de forma clara os dois
ajustes. Notamos pela Figura 2.24 que o grco de resduos de Pearson con-
tra os valores ajustados apresenta uma tendncia sistemtica crescente sob
o modelo gama, que amenizada sob o modelo com erros normal inversa.
Os dois modelos ajustam-se muito bem aos dados como podemos notar pelo
valor do desvio do modelo gama D
(y; ) = 756, 87 (753 g.l.) com P=0,35

e pelo grco normal de probabilidades para o modelo com resposta normal
inversa (Figura 2.25).
3 2 1 0 1 2 3
2
0
2
4
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
Figura 2.25: Grco normal de probabilidades referente ao modelo com res-
posta normal inversa ajustado aos dados sobre snacks.
Na Tabela 2.5 so apresentadas as estimativas sob o modelo com res-
posta normal inversa. Todos os efeitos so altamente signicativos, em par-
ticular o efeito de semana na forma quadrtica. Controlando esse efeito, a
155
2.8 Aplicaes
maior fora mdia de cisalhamento ocorre com o produto sob a forma A (au-
sncia de leo de canola) e a menor fora mdia de cisalhamento ocorre com
as formas D e E, conrmando-se as tendncias observadas na Figura 2.22.
Na Figura 2.26 temos os valores preditos para os 5 grupos ao longo
das 20 semanas. A estimativa do parmetro de disperso indica que a dis-
tribuio da fora de cisalhamento em cada grupo, xando o tempo, apro-
ximadamente normal. Contudo, a varincia depende da mdia. A forma
cbica para a varincia mostrou-se ligeiramente superior forma quadrtica.
Outras formas para ajustarmos a varincia podem ser testadas, como por
exemplo, atravs de modelos de quase-verossimilhana que sero discutidos
no Captulo 5. O paralelismo entre as curvas apresentadas na Figura 2.26
devido no incluso de interao entre semana e grupo. Alternativa-
mente, poderamos incluir uma funo para cada grupo, ou ento, o efeito
semana poderia ser controlado atravs de funes no paramtricas (ver, por
exemplo, Wood, 2006).
Tabela 2.5
Estimativas dos parmetros referentes ao
modelo com resposta normal inversa
ajustado aos dados sobre snacks.
Grupo B -10,916 -6,41
Grupo C -5,459 -3,03
Grupo D -15,357 -9,42
Grupo E -16,596 -10,30
Semana 2,727 8,18
Semana
2
-0,091 -5,90
1005 -
Algumas observaes foram detectadas como possivelmente inuentes
(vide Figura 2.27): #2 (2
a
semana, grupoB), #8 (2
a
semana, grupo B), #10
156
2.8 Aplicaes
(2
a
semana, grupo B), #311 (2
a
semana, grupo C), #465 (2
a
semana, grupo
D) e #744 (ltima semana, grupo E). Embora os valores preditos para a
fora de cisalhamento dessas amostras estejam abaixo da mdia, os valores
observados so em geral altos quando comparados com os valores dos grupos e
das semanas correspondentes. Tambm o fato de 5 dessas observaes terem
ocorrido logo na segunda semana pode ser um indcio de alguma diculdade
inicial com o experimento. A eliminao dessas 6 observaes do total de
744 observaes leva a algumas variaes desproporcioanis. Por exemplo, as
estimativas dos efeitos dos grupos B e C diminuem por volta de 8%. Todavia,
no ocorrem mudanas inferenciais importantes.
Semana
V
a
l
o
r

P
r
e
d
i
t
o
5 10 15 20
4
0
5
0
6
0
7
0
A
B
C
D
E
Figura 2.26: Valores preditos para a fora mdia de cisalhamento para as 5
formas de snacks atravs do modelo com resposta normal inversa.
157
2.8 Aplicaes
40 45 50 55 60 65 70
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
Valores Ajustados
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
2
8
10
311
465
744
Figura 2.27: Grco da distncia de Cook contra os valores ajustados re-
ferente ao modelo com resposta normal inversa ajustado aos dados sobre
snacks.
2.8.2 Projeo de vendas
Whitmore (1986) (ver tambm Faraway, 2006, Cap. 7) apresenta um con-
junto de dados em que o valor verdadeiro para as vendas relacionado com
o valor projetado para as vendas de 20 produtos. Os dados esto descritos
na Tabela 2.6. Como as vendas tendem a ter uma variablidade maior para
valores mais altos e os dados so positivos, a suposio de erros normais com
varincia constante no parece ser razovel. Whitmore (1986) sugere uma
distribuio normal inversa para a resposta Y
i
que denota o total de vendas
reais para o i-simo produto e que
i
= E(Y
i
) relacionada com x
i
, o i-simo
valor projetado, de forma linear
i
= x
i
, ou seja, uma regresso linear pas-
sando pela origem. O diagrama de disperso dos dados descrito na Figura
2.28, juntamente com as retas ajustadas sob erros gama e normal inversa.
Notamos que as retas ajustadas so similares.
158
2.8 Aplicaes
0 1000 2000 3000 4000 5000 6000
0
1
0
0
0
2
0
0
0
3
0
0
0
4
0
0
0
5
0
0
0
Vendas Projetadas
V
e
n
d
a
s

R
e
a
i
s
Gama
N.Inversa
Figura 2.28: Modelos ajustados aos dados sobre vendas projetadas sob erros
gama e normal inversa.
Tabela 2.6
Vendas projetadas e reais de
vrios produtos.
Projetada Real Projetada Real
5959 5673 527 487
3534 3659 353 463
2641 2565 331 225
1965 2182 290 257
1738 1839 253 311
1182 1236 193 212
667 918 156 166
613 902 133 123
610 756 122 198
549 500 114 99
Como podemos notar pelos grcos do resduo de Pearson contra os
valores ajustados (Figura 2.29) os dois ajustes no parecem adequados, em-
159
2.9 Modelagem simultnea da mdia e da disperso
0 1000 3000 5000
1
0
1
2
3
Valores Ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
(a)
0 1000 3000 5000
1
0
1
2
3
4
Valores Ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
(b)
Figura 2.29: Grcos do resduo de Pearson contra os valores ajustados re-
ferentes aos modelos com resposta gama (a) e normal inversa (b) ajustados
aos dados sobre vendas projetadas.
bora a suposio de erros gama seja mais razovel do que normal inversa. Por
exemplo, as estimativas para o modelo gama so dadas por

= 1, 089(0, 051)
e

= 24, 94(7, 83). Assim, notamos pela estimativa de que o total proje-
tado de vendas um bom preditor do total real vendido e a estimativa de
indica que a distribuio do total real de vendas (dado o total projetado)
pode ser aproximada por uma normal heteroscedstica.
Eventualmente o coeciente de variao pode no ser constante variando com
as observaes. Smyth (1989) introduziu os modelos lineares generalizados
duplos com modelagem conjunta da mdia e do parmetro de disperso e
desenvolveu um processo de estimao baseado no mtodo de mxima veros-
160
similhana que descreveremos a seguir. Contudo, outros mtodos alternativos
de estimao, tais como mxima verossimilhana restrita, foram propostos
mais recentemente com o intuito de reduzir o vis das estimativas de m-
xima verossimilhana, particularmente dos coecientes do componente de
disperso. Uma discusso a respeito desses mtodos pode ser encontrada em
Smyth, Huela e Verbyla (2001).
A m de formalizarmos os MLGs duplos vamos supor que Y
1
, . . . , Y
n
so variveis aleatrias independentes com funo densidade ou funo de
probabilidades expressa na forma
f(y;
i
,
i
) = exp[
i
{y
i
b(
i
)} + c(y,
i
)],
em que c(y,
i
) = d(
i
) +
i
a(y) + u(y). Essa decomposio, como vimos
na Seo 1.7.2, vale somente para as distribuies normal, normal inversa e
gama da famlia exponencial. Alm disso, vamos supor que
g(
i
) =
i
= x
T
i
e h(
i
) =
i
= z
T
i
,
em que x
i
= (x
i1
, . . . , x
ip
)
T
e z
i
= (z
i1
, . . . , z
iq
)
T
contm valores de variveis
explicativas e = (
1
, . . . ,
p
)
T
e = (
1
, . . . ,
q
)
T
so os parmetros a
serem estimados.
Seja = (
T
,
T
)
T
, ento o logaritmo da funo de verossimilhana
ca dado por
L() =
n
i=1
[
i
{y
i
i
b(
i
)} + d(
i
) +
i
a(y
i
) + u(y
i
)]
=
n
i=1
{
i
t
i
+ d(
i
) + u(y
i
)}, (2.7)
em que t
i
= y
i
i
b(
i
) + a(y
i
). Portanto, se
i
for xado a expresso (2.7)
coincide com o logaritmo da funo de verossimilhana de um modelo da
161
famlia exponencial com respostas independentes T
1
, . . . , T
n
(valores obser-
vados t
1
, . . . , t
n
), parmetros cannicos
1
, . . . ,
n
igual a 1. Pelas propriedades da famlia exponencial segue que
T
i
= E(T
i
) = d
(
i
) e Var(T
i
) = d
(
i
).
Essas quantidades so descritas na Tabela 2.7 para as distribuies normal,
normal inversa e gama. Os resultados acima podem ser obtidos, alterna-
tivamente, aplicando-se condies usuais de regularidade no logaritmo da
verossimilhana dado em (2.7).
Tabela 2.7
Derivao de algumas quantidades para distribuies da famlia exponencial.
Normal Normal inversa Gama
t
i
y
i
1
2
(
2
i
+ y
2
i
) {y
i
/2
2
i
+
1
i
+ (2y
i
)
1
} log(y
i
/
i
) y
i
/
i
d()
1
2
log
1
2
log log log()
d
() (2)
1
(2)
1
(1 + log) ()
d
() -(2
2
)
1
-(2
2
)
1
()
Conforme observado por Verbyla (1989) se chamarmos D
i
= 2T
i
(i = 1, . . . , n) segue que
E(D
i
) =
1
i
e Var(D
i
) =
E
2
(D
i
)
,
em que =
1
2
, e portanto a expresso (2.7) pode ser interpretada para os
modelos com resposta normal e normal inversa como um MLG de respostas
independentes D
1
, . . . , D
n
com distribuio gama de mdias
1
1
, . . . ,
1
n
,
respectivamente, e parmetro de disperso
1
= 2. Assim, para
i
xado,
os parmetros da disperso podem ser estimados alternativamente atravs
de um MLG com respostas independentes gama, funo de ligao h() e
parmetro de disperso igual a 2.
162
2.9.1 Estimao
A funo escore e a matriz de informao de Fisher para podem ser obtidas
facilmente seguindo os passos da Seo 1.5.1. Assim, obtemos
U
= X
T
W
1/2
V
1/2
(y ) e
K
= X
T
WX,
em que X uma matriz np de linhas x
T
i
(i = 1, . . . , n), W= diag{
1
, . . . ,
n
}
com pesos
i
= (d
i
/d
i
)
2
/V
i
, V = diag{V
1
, . . . , V
n
}, = diag{
1
, . . . ,
n
},
y = (y
1
, . . . , y
n
)
T
e = (
1
, . . . ,
n
)
T
.
Para obtermos a funo escore para o parmetro , calculamos inici-
almente a derivada
L()/
j
=
n
i=1
_
d
i
d
i
j
t
i
+ d
(
i
)
d
i
d
i
j
_
=
n
i=1
_
1
h
(
i
)
z
ij
t
i
+ d
(
i
)
1
h
(
i
)
z
ij
_
=
n
i=1
z
ij
h
(
i
)
{t
i
+ d
(
i
)},
em que h
(
i
) = d
i
/d
i
. Portanto, em forma matricial obtemos
U
= Z
T
H
1
(t
T
),
em que H
= diag{h
(
1
), . . . , h
(
n
)}, t = (t
1
, . . . , t
n
)
T
e
T
= (E(T
1
), . . . , E(T
n
))
T
= (d
(
1
), . . . , d
(
n
))
T
.
Para obtermos a matriz de informao de Fisher para o parmetro
precisamos das derivadas
2
L()/
j
=
n
i=1
z
ij
{h
(
i
)}
2
_
d
(
i
)h(
i
)
d
i
d
i
z
i
h
(
i
){t
i
+ d
(
i
)}
d
i
d
i
z
i
_
=
n
i=1
z
ij
z
i
{h
(
i
)}
2
_
d
(
i
)
h
(
i
)
h
(
i
)
{t
i
+ d
(
i
)}
_
163
e cujos valores esperados cam dados por
E
_
2
L()
_
=
n
i=1
d
(
i
)
{h
(
i
)}
2
z
ij
z
i
.
Logo, em forma matricial obtemos
K
= Z
T
PZ,
em que P = V
H
2
, V
= diag{d
(
1
), . . . , d
(
n
)}. Devido ortogona-
lidade entre os parmetros
i
e
i
, segue diretamente a ortogonalidade entre
e . Assim, a matriz de informao de Fisher para bloco diagonal
K
= diag{K
, K
}.
Similarmente aos MLGs podemos desenvolver um processo iterativo
escore de Fisher para encontrar as estimativas de mxima verossimilhana

e . Aps algumas manipulaes algbricas obtemos o proceso iterativo
(m+1)
= (X
T
(m)
W
(m)
X)
1
X
T
(m)
W
(m)
y
(m)
e (2.8)
(m+1)
= (Z
T
P
(m)
Z)
1
Z
T
P
(m)
z
(m)
, (2.9)
em que y
= X + W
1/2
V
1/2
(y ), z
= Z + V
1
(t
T
) e
m = 0, 1, 2, . . . .. Conforme mencionado por Smyth (1989) o processo ite-
rativo (2.8)-(2.9) pode ser resolvido alternando-se as duas equaes at a
convergncia. Pode-se iniciar o processo iterativo (2.8) com as estimativas
do MLG com
i
comum a todas as observaes.
Sob as condies de regularidade apresentadas na Seo 1.6.3 temos que
para n grande

N
p
(, K
1
) e N
q
(, K
1
), respectivamente. Alm
disso, devido ortogonalidade entre e segue a independncia assinttica
entre

e .
164
2.9.2 Mtodos de diagnstico
Faremos nesta subseo uma adaptao de alguns procedimentos de diagns-
tico para a classe dos MLGs duplos.
Resduos
A funo desvio na classe dos MLGs duplos assume a mesma expresso da
classe dos MLGs em que somente a mdia ajustada, com
i
no lugar de
. Denotaremos o desvio por D
(y; , ) =

n
i=1
d
2
(y
i
;
i
,
i
). Para
i
grande i o desvio D
(y; , ) pode ser comparado com os percentis da

distribuio qui-quadrado com (n p) graus de liberdade. Para o modelo
normal heteroscedstico o desvio ca dado por D
(y; , ) =

n
i=1
2
i
(y
i
y
i
)
2
. Na prtica deveremos substituir
i
por

i
= h
1
(
i
) = z
T
i
.
O resduo Studentizado, no modelo normal heteroscedstico, assume a
forma
t
i
=
y
i
y
i

i
_
1
h
ii
,
em que

h
ii
=
2
i
x
T
i
(X
T

X)
1
x
i
com = diag{
2
1
, . . . ,
2
n
}. Para os
demais MLGs duplos o resduo componente do desvio ca dado por
t
D
i
=
d
(y
i
;
i
,

i
)
_
1
h
ii
,
em que d
(y
i
;
i
,

i
) =
_
d
2
(y
i
;
i
,

i
), o sinal continua sendo o mesmo de
(y
i

i
) e

h
ii
H =

1/2
W
1/2
X(X
T

WX)
1
X
T

1/2
W
1/2
,
ou seja,
h
ii
=

i

i
x
T
i
(X
T

WX)
1
x
i
.
Sugerimos o grco normal de probabilidades para t
D
i
e o grco de t
D
i
contra os valores ajustados.
165
Inuncia
Para avaliar a sensibilidade das estimativas dos parmetros que modelam a
mdia podemos usar a medida de inuncia LD
i
denida na Seo 1.10.3 com
i
no lugar de

, que ser denida por
LD
i
=
_

h
ii
1
h
ii
_
t
2
S
i
,
em que
t
S
i
=
_
i
(y
i

i
)
_
V
i
(1
h
ii
)
.
Grcos de ndices de LD
i
e

h
ii
contra os valores ajustados so recomendados.
Para avaliar a sensibilidade da estimativa quando a i-sima obser-
vao deletada usaremos uma aproximao de um passo, que obtida de
forma similar aproximao de uma passo

(i)
descrita na Seo 1.10.3, dada
por

(i)
=
(Z
T

PZ)
1
z
i
{t
i
+ d
i
)}
h
i
)(1 r
ii
)
, (2.10)
em que r
ii
R =

P
1/2
Z(Z
T

PZ)
1
Z
T

P
1/2
,
ou seja,
r
ii
= p
ii
z
T
i
(Z
T

PZ)
1
z
i
.
Note que p
ii
= d
(
i
){h
(
i
)}
2
. Por exemplo, para ligao logartmica
temos que h(
i
) = log
i
ento h
(
i
) =
1
i
e portanto p
ii
=
2
i
d
(
i
).
Assim, para os modelos com resposta normal e normal inversa segue que p
ii
=
2
i
(2
2
i
)
1
=
1
2
e para os modelos com resposta gama p
ii
=
i
{
i
(
i
) 1}.
166
Uma medida para avaliar a inuncia nas estimativas dos parmetros
da disperso ca dada por
LD
i
= (
(i)
)
T
(Z
T

PZ)(
(i)
)
=
_
r
ii
1 r
ii
_
t
2
T
i
,
em que
t
T
i
=
t
i
+ d
i
)
h
i
)
_
p
ii
(1 r
ii
)
=
t
i
+ d
i
)
_
d
i
)(1 r
ii
)
.
Grcos de ndices de LD
i
e r
ii
contra os valores ajustados so recomendados.
Para os modelos com resposta normal e com resposta normal inversa
o resduo t
T
i
assume a forma
t
T
i
=
t
i
+ (2
i
)
1
(
i
)
1
1 r
ii
,
e para modelos com resposta gama obtemos
t
T
i
=
t
i
+{1 + log
i
(
i
)}
_
{
i
)

1
i
}(1 r
ii
)
.
Verbyla (1993) apresenta uma aproximao de uma passo para
(i)
para o caso normal usando um esquema de perturbao especco para mo-
delos normais heteroscedsticos. Para obtermos a aproximao apresentada
em (2.10) usamos a ponderao de casos usual para MLGs. Estudos sobre a
qualidade da aproximao apresentada em (2.10) ainda no foram desenvol-
vidos.
167
2.9.3 Aplicao
Pela anlise descritiva apresentada na Seo 2.8.1 sobre o comportamento
da fora de cisalhamento dos cinco tipos de snack ao longo das 20 semanas,
nota-se que o coeciente de variao no constante. Assim, a modelagem
dupla da mdia e da disperso pode levar a um ajuste mais satisfatrio para o
modelo com resposta gama. Dessa forma vamos supor que Y
ijk
G(
ij
,
ij
),
em que Y
ijk
denota a fora de cisalhamento referente k-sima rplica do
i-simo grupo na j-sima semana, para k = 1, . . . , 15, j = 2, 4, 6, . . . , 20 e
i =1(A),2(B),3(C),4(D) e E(5), com parte sistemtica dada por
ij
=
0
+
i
+
6
semana
j
+
7
semana
2
j
e
log
ij
=
0
+
i
+
6
semana
j
+
7
semana
2
j
,
em que
1
= 0 e
1
= 0. Portanto
0
e
0
so os efeitos da forma A,
controlando-se pela semana, na mdia e na disperso, respectivamente, en-
quanto
0
+
i
e
0
+
i
so os efeitos das demais formas B, C, D e E na
mdia e disperso, respectivamente.
O MLG duplo pode ser ajustado no R atravs dos seguintes comandos:
require(dglm)
fit3.snack = dglm(cisalhamento grupo + s1 + s2,
grupo + s1 + s2, family=Gamma(link=identity))
Observarmos que a library dglm faz o ajuste de log(
1
i
), ou seja da disperso,
sendo necessrio fazermos as adaptaes nos modelos com resposta gama e
normal inversa para obtermos log(
i
). Em particular no caso de modelos
normais heteroscedsticos tem-se diretamente o ajuste de log
2
i
, em que
2
i

a varincia. Na Tabela 2.7 so apresentadas as estimativas com os respectivos
erros padro dos parmetros da mdia e da disperso.
168
0 200 400 600
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
0
.
3
5
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
405
553
744
Figura 2.30: Grco da distncia de Cook referente ao MLG duplo com
resposta gama ajustado aos dados sobre snacks.
Tabela 2.7
Estimativas dos parmetros referentes ao MLG duplo com resposta
gama ajustado aos dados sobre snacks.
Mdia Disperso
Efeito Estimativa E/E.Padro Estimativa E/E.Padro
Constante 36,990 11,53 1,560 7,27
Grupo B -10,783 -6,40 0,468 2,95
Grupo C -3,487 -1,98 0,050 0,31
Grupo D -14,829 -9,18 0,815 5,05
Grupo E -15,198 -9,54 0,817 5,06
Semana 5,198 9,88 0,155 3,91
Semana
2
-0,189 -8,88 -0,005 -2,99
Podemos notar pelas estimativas dos parmetros da mdia as mesmas
tendncias observadas na Figura 2.22 para o modelo com resposta normal
inversa. O grupo A tem a maior mdia para a fora de cisalhamento enquanto
os grupos D e E tm as menores mdias. Com relao s estimativas dos
169
parmetros da disperso nota-se que a variabilidade (no sentido do coeciente
de variao) depende do tempo de forma quadrtica e que os grupos A e C
apresentam maior variabilidade enquanto os grupos D e E apresentam as
menores variabilidades. Essas tendncias esto de acordo com os grcos das
Figuras 2.22 e 2.23.
30 40 50 60 70
2
0
2
4
Valores Ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
Figura 2.31: Grcos do resduo de Pearson contra os valores ajustados re-
ferentes ao MLG duplo com resposta gama ajustado aos dados sobre snacks.
Nota-se ainda que os mesmos efeitos que so signicativos para os par-
metros da mdia so tambm signicativos para os parmetros da disperso.
Apenas trs observaes, #430, #595 e #744, aparecem como possivelmente
inuentes nos parmetros da mdia, como pode ser observado pela Figura
2.30. A eliminao desses pontos no muda a inferncia. Nota-se pelo grco
de resduos de Pearson contra os valores ajustados (Figura 2.31) que mesmo
com a modelagem dupla a disperso parece que no foi totalmente contro-
170
2.10 Exerccios
lada. Todavia, pelo grco normal de probabilidades apresentado na Figura
2.32 no h indcios de indadequao do modelo.
3 2 1 0 1 2 3
2
0
2
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
Figura 2.32: Grco normal de probabilidades referente ao MLG duplo com
resposta gama ajustado aos dados sobre snacks.
2.10 Exerccios
1. Seja Y G(, ) e considere a varivel aleatria logY . Use a condio
de regularidade E(U
) = 0 para mostrar que E(logY ) = log log +

(), em que U
= L(, )/.
2. Seja Y NI(, ) e considere a varivel aleatria Y
1
. Use a condio
de regularidade E(U
) = 0 para mostrar que E(Y

1
) =
1
+
1
, em
que U
= L(, )/.
171
2.10 Exerccios
3. Considere o logaritmo da funo de verossimilhana dado em (2.7).
Obtenha E(T
i
) e Var(T
I
) a partir das condies usuais de regularidade
E{L()/
i
} = 0 e E{
2
L()/
2
i
} = -E{(L()/
i
)
2
}.
4. Mostre que o desvio da distribuio gama para o caso i.i.d., ou seja
Y
i
G(, ), dado por D
(y; ) = 2nlog( y/ y), em que y a mdia

geomtrica das observaes, isto y = (
n
i=1
y
i
)
1/n
.
5. SejamY
1
, . . . , Y
n
i
NI(
i
, )
com parte sistemtica dada por g(
i
) =
i
= x
T
i
. (i) Calcule a es-
timativa de mxima verossimilhana de e Var(
). (ii) Mostre que o

critrio de Akaike equivale a minimizar
AIC = nlog
_
D(y; )
n
_
+ 2p,
em que D(y; ) =
n
i=1
(y
i

i
)
2
/(y
i

2
i
).
6. Sejam Y
i
FE(
1
,
1
), i = 1, . . . , m, e Y
i
FE(
2
,
2
), i = m +
1, . . . , n, variveis aleatrias mutuamente independentes. Encontre a
estimativa comum de mxima verossimilhana para
1
e
2
sob a hip-
tese H
0
:
1
=
2
. Particularize para os casos gama e normal inversa.
7. (Lawless, 1982, p. 338). Na tabela abaixo so apresentados os re-
sultados de um experimento em que a resistncia (em horas) de um
determinado tipo de vidro foi avaliada segundo quatro nveis de volta-
gem (em kilovolts) e duas temperaturas (em graus Celsus). Esses dados
esto tambm disponveis no arquivo vidros.dat. Na primeira coluna
do arquivo tem-se o tempo de resistncia, na segunda coluna a volta-
gem( 1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e na terceira coluna a
temperatura (1: 170
o
C e 2: 180
o
C). Seja Y
ijk
o tempo de resistncia da
172
2.10 Exerccios
k-sima amostra de vidro submetida i-sima temperatura e j-sima
voltagem.
Faa inicialmente uma anlise descritiva dos dados, por exemplo apre-
sentando os pers mdios da resistncia segundo a voltagem para os
dois nveis de temperatura. Cacule tambm para cada casela algumas
medidas descritivas tais como mdia, desvio padro e coeciente de
variao. Comente.
O interesse principal desse estudo comparar as resistncias mdias,
denotadas por
ij
, i = 1, 2 e j = 2, 3, 4. usual neste tipo de es-
tudo assumir respostas com alguma distribuio assimtrica. Assim,
vamos supor que Y
ijk
G(
ij
, ). Considere inicialmente uma repa-
rametrizao tipo casela de referncia sem interao, em que
11
= ,
1j
= +
j
,
21
= + e
2j
= + +
j
j = 2, 3, 4.
Voltagem(kV)
Temperatura (
o
C) 200 250 300 350
170 439 572 315 258
904 690 315 258
1092 904 439 347
1105 1090 628 588
180 959 216 241 241
1065 315 315 241
1065 455 332 435
1087 473 380 455
Verique se possvel incluir a interao entre voltagem e tempera-
tura. Procure responder com o modelo nal de que forma os nveis
de voltagem e temperatura afetam o tempo mdio de resistncia dos
vidros. Apresente, por exemplo, os pers mdios ajustados e interprete
a estimativa de disperso. Faa tambm uma anlise de diagnstico.
173
2.10 Exerccios
8. Sejam Y
i
, i = 1, . . . , n, variveis aleatrias i.i.d. com distribuio nor-
mal inversa de mdia e parmetro de escala .
(i) Como ca a estatstica da razo de verossimilhanas para testar
H
0
: = 1 contra H
1
: = 1?
(ii) Qual a distribuio nula assinttica do teste?
9. SejamY
1
, . . . , Y
n
i
G(
i
, )
com parte sistemtica dada por log
i
=
0
+
1
(x
i
x). Responda aos
itens abaixo:
(a) como ca a matriz de informao de Fisher para = (
0
,
1
, )
T
e a varincia assinttica de

0
,

1
e

?
(b) Como ca o teste de escore para testar H
0
: = 1 contra H
1
: =
1?
(c) Mostre que a estatstica do teste de escore para testar as hipteses
H
0
:
0
= 1,
1
= 0 contra H
1
:
0
= 1 ou
1
= 0 pode ser expressa
na forma
SR
=
0
e
2
_
n( y e)
2
+
{
n
i=1
(x
i
x)(y
i
e)}
2
n
i=1
(x
i
x)
2
_
.
Qual a distribuio nula assinttica de
SR
?
10. (Cordeiro, Paula e Botter, 1994). Sejam Y
i
, i = 1, . . . , n, variveis ale-
atrias independentes com distribuio gama de mdia
i
e parmetro
de escala . Mostre que a estatstica da razo de verossimilhanas para
testar H
0
: = 1 contra H
1
: = 1 vale
RV
= 2n[log
log(
) (
1){1 (
)}],
174
2.10 Exerccios
em que () a funo gama e () a funo digama. Use o resultado
log(
) (
) =

D/2, em que

D =
n
i=1
D(y
i
;
i
)/n denota o desvio
mdio do modelo correspondente.
11. Supor Y
ij
variveis aleatrias mutuamente independentes tais que Y
ij

G(
i
, ) para i = 1, 2 e j = 1, . . . , m, sendo log
1
= e log
2
= +
. (i) Obtenha a matrix modelo X. (ii) Expresse em forma fechada as
estimativas de mxima verossimilhana e

. (iii) Calcule as varincias
assintticas Var( ) e Var(
) e mostre que Cov( ,

) = 0. (iv) Como
ca o teste de escore para testar H
0
: = 0 contra H
1
: = 0? Qual a
distribuio nula assinttica da estatstica do teste?
12. No arquivo restaurante.dat esto descritos os faturamentos anuais
bem como os gastos com publicidade (em mil USD) de uma amostra
aleatria de 30 restaurantes (Montgomery, Peck e Vining, 2001, pgs.
197-200). O objetivo principal tentar relacionar o faturamento mdio
com o gasto com publicidade. Inicialmente faa uma anlise descritiva
dos dados, em particular o diagrama de disperso entre as variveis.
Tente ajustar inicialmente um modelo de regresso normal linear entre
faturamento e gastos e verique atravs das tcnicas de diagnstico
se existem afastamentos srios das suposies feitas para o modelo.
Ajustar modelos com erros gama e normal inversa e um modelo normal
heteroscedstico. Compare os resultados.
13. (Feigl e Zelen, 1965). Apresentamos a seguir um conjunto de dados
em que pacientes com leucemia foram classicados segundo a ausncia
ou presena de uma caracterstica morfolgica nas clulas brancas. Pa-
cientes classicados de AG positivo foram aqueles com a presena da
caracterstica e pacientes classicados de AG negativo no apresenta-
175
2.10 Exerccios
ram a caracterstica. apresentado tambm o tempo de sobrevivncia
do paciente (em semanas) aps o diagnstico da doena e o nmero de
clulas brancas (WBC) no momento do diagnstico.
Supondo que o tempo de sobrevivncia aps o diagnstico segue uma
distribuio gama, proponha um modelo para explicar o tempo mdio
de sobrevivncia dados log(WBC) e AG(=1 positivo, =0 negativo).
Faa uma anlise de diagnstico com o modelo ajustado e interprete as
estimativas.
AG Positivo AG Negativo
WBC Tempo WBC Tempo
2300 65 4400 56
750 156 3000 65
4300 100 4000 17
2600 134 1500 7
6000 16 9000 16
10500 108 5300 22
10000 121 10000 3
17000 4 19000 4
5400 39 27000 2
7000 143 28000 3
9400 56 31000 8
32000 26 26000 4
35000 22 21000 3
100000 1 79000 30
100000 1 100000 4
52000 5 100000 43
100000 65
14. (Myers, Montgomery e Vining, 2002, p. 192). A m de avaliarmos a
qualidade de um determinado lme utilizado em mquinas fotogrcas,
o tempo de durao do lme (em horas) relacionado com a densidade
176
2.10 Exerccios
mxima do lme sob trs condies experimentais conforme descrito
na tabela abaixo e tambm no arquivo dlme.dat.
Tempo D
max
Tempo D
max
Tempo D
max
(72
o
C) (82
o
C) (92
o
C)
72 3,55 48 3,52 24 3,46
144 3,27 96 3,35 48 2,91
216 2,89 144 2,50 72 2,27
288 2,55 192 2,10 96 1,49
360 2,34 240 1,90 120 1,20
432 2,14 288 1,47 144 1,04
504 1,77 336 1,19 168 0,65
Faa um diagrama de disperso entre o tempo de durao e a densidade
mxima para cada condio experimental e proponha um modelo com
resposta gama para ajustar esses dados. Aplique mtodos de diagns-
tico e interprete as estimativas do modelo selecionado.
15. Considere novamente os dados descritos na Tabela 2.6 sobre a rela-
o entre o valor real e o valor projetado das vendas de 20 produtos.
Considere agora um modelo normal heteroscedtico tal que
y
i
= x
i
+
i
e log
2
i
=
1
+
2
x
i
,
com
i
N(0,
2
i
). Verique a adequao desse modelo atravs de m-
todos de diagnstico.
177
Captulo 3
Modelos para Dados Binrios
3.1 Introduo
Neste captulo apresentamos modelos para a anlise de dados com resposta
binria, isto , que admite apenas dois resultados. Comumente chamado de
sucesso o resultado mais importante da resposta ou aquele que pretendemos
relacionar com as demais variveis de interesse. comum encontrarmos situ-
aes prticas em que esse tipo de resposta aparece. Como ilustrao, seguem
alguns exemplos: (i) o resultado do diagnstico de um exame de laboratrio,
positivo ou negativo; (ii) o resultado da inspeo de uma pea recm fabri-
cada, defeituosa ou no defeituosa; (iii) a opinio de um eleitor a respeito
da implantao do voto distrital, favorvel ou contrrio; (iv) o resultado de
um teste de aptido aplicado a um estudante, aprovado ou reprovado; (v)
o resultado de uma promoo de uma rede de lojas enviando para cada cli-
ente um cupom com desconto, cupom utilizado ou cupom no utilizado num
determinado perodo etc. H tambm situaes em que apenas duas possi-
178
3.2 Mtodos clssicos: uma nica tabela 2 2
bilidades so consideradas de interesse para uma varivel contnua, valores
menores do que um valor de referncia v
0
e valores maiores ou iguais a v
0
.
Nesses casos, podemos considerar uma nova varivel binria para essas duas
possibilidades. Por exemplo, numa determinada prova de conhecimentos v
0
pode ser a nota mnima para ser aprovado no exame, ou o valor mnimo para
um exame de laboratrio ser considerado alterado. Assim, variveis binrias
podem surgir naturalmente num experimento ou serem criadas dependendo
do interesse do estudo.
Inicialmente, apresentamos neste captulo uma resenha dos principais
mtodos clssicos para a anlise de tabelas de contingncia do tipo 22. Em
seguida, introduzimos o modelo de regresso logstica para resposta binria
e fazemos uma analogia com os mtodos tradicionais para tabelas 2 2.
Discutimos tambm a seleo de modelos logsticos, mtodos de diagnstico,
alguns tipos de modelos de dose-resposta, sobredisperso e regresso logstica
condicional.
Mtodos clssicos em tabelas de contingncia 2 2 so datados da dcada
de 50. Os primeiros trabalhos foram motivados pelo interesse na inferncia
de certos parmetros com grande aplicabilidade na rea biomdica, especi-
almente em Epidemiologia. Vrios trabalhos foram publicados durante as
dcadas de 50 e 60 e at hoje as tcnicas desenvolvidas tm sido utilizadas,
particularmente na anlise descritiva dos dados, antes de um tratamento
mais sosticado atravs de regresso. Apresentamos nesta seo uma re-
senha das principais tcnicas segundo o ponto de vista inferencial clssico.
Embora a metodologia apresentada possa ser aplicada em qualquer rea do
conhecimento, daremos nfase para a rea biomdica em que tem ocorrido
179
um nmero maior de aplicaes.
3.2.1 Risco relativo
Vamos supor que os indivduos de uma determinada populao sejam clas-
sicados segundo um fator com dois nveis, A e B, e a presena ou ausncia
de uma certa doena, denotados por D e

D, respectivamente. As propores
populacionais cam, nesse caso, descritas conforme a tabela abaixo.
Fator
Doena A B
D P
1
P
3
D P
2
P
4
Portanto, podemos denir outras quantidades:
P
1
/(P
1
+P
2
) : proporo de indivduos classicados como doentes no grupo
A;
P
3
/(P
3
+P
4
) : proporo de indivduos classicados como doentes no grupo
B.
A razo entre as duas propores acima foi denominada por Corneld (1951)
como sendo o risco relativo de doena entre os nveis A e B, ou seja
RR =
P
1
/(P
1
+ P
2
)
P
3
/(P
3
+ P
4
)
=
P
1
(P
3
+ P
4
)
P
3
(P
1
+ P
2
)
. (3.1)
Corneld (1951) tambm notou que se a doena for rara (P
1
<< P
2
e P
3
<<
P
4
) a quantidade (3.1) assume a forma simplicada
=
P
1
P
4
P
3
P
2
, (3.2)
a qual denominou Odds Ratio, que para ns ser denominada razo de chan-
ces. Muitas vezes comum ser chamado de risco relativo, embora isso
180
somente seja vlido quando P
1
e P
3
forem muito pequenos. A grande van-
tagem do uso de a facilidade inferencial tanto na abordagem tradicional
como na abordagem atravs de regresso.
Como em geral a porcentagem de indivduos doentes muito menor do
que a porcentagem de no doentes, bastante razovel num estudo cujo ob-
jetivo avaliar a associao entre algum fator particular e uma certa doena,
que a quantidade de doentes na amostra seja a maior possvel. Assim, a amos-
tragem retrospectiva, em que os indivduos so escolhidos separadamente nos
estratos D e

D, pode ser mais conveniente do que os demais procedimentos
amostrais. Um cuidado, entretanto, devemos ter nesses estudos. impor-
tante que os doentes (casos) sejam comparveis aos no doentes (controles)
segundo outros fatores (fatores potenciais de confundimento), possivelmente
associados com a doena. Nos estudos prospectivos, em que a amostragem
feita nos estratos A e B, esse tipo de problema pode ser controlado, embora
em geral seja necessrio um longo perodo at a obteno de um nmero
suciente de doentes para uma anlise estatstica mais representativa.
Como as inferncias para os estudos retrospectivos e prospectivos so
idnticas, trataremos apenas o caso retrospectivo. Assim, assumimos que no
estrato D so amostrados n
1
indivduos e no estrado

D so amostrados n
2
indivduos. O nmero observado de indivduos com presena de A nos estra-
tos D e

D ser denotado por y
1
e y
2
, respectivamente. Os dados resultantes
dessa amostragem podem ser resumidos conforme a tabela abaixo.
Fator
Doena A B Total
D y
1
n
1
y
1
n
1
D y
2
n
2
y
2
n
2
Discutimos nas sees seguintes a abordagem clssica para analisar a tabela
acima.
181
3.2.2 Modelo probabilstico no condicional
Denotaremos por Y
1
e Y
2
o nmero de indivduos com presena de A nos estra-
tos D e

D, respectivamente. Ser tambm assumido que essas variveis so
binomiais independentes de parmetros (n
1
,
1
) e (n
2
,
2
), respectivamente.
Logo, a funo de probabilidades conjunta de (Y
1
, Y
2
) ca dada por
f(y; ) =
_
n
1
y
1
__
n
2
y
2
_
y
1
1

y
2
2
(1
1
)
n
1
y
1
(1
2
)
n
2
y
2
, (3.3)
em que y = (y
1
, y
2
)
T
e = (
1
,
2
)
T
. Seguindo a notao da seo anterior,
temos que
1
= P
1
/(P
1
+ P
3
), 1
1
= P
3
/(P
1
+ P
3
),
2
= P
2
/(P
2
+ P
4
) e
1
2
= P
4
/(P
2
+ P
4
). Assim, mostramos que
=
P
1
P
4
P
3
P
2
=

1
(1
2
)
2
(1
1
)
,
e consequentemente que
1
=
2
/{
2
+ 1
2
}. A expresso (3.3) pode
ento ser expressa apenas em funo de (,
2
),
f(y; ) exp
_
y
1
log + (y
1
+ y
2
)log
_

2
1
2
__
(1
2
)
n
{
2
+ 1
2
}
n
1
, (3.4)
em que n = n
1
+n
2
. As estimativas de mxima verossimilhana de
1
e
2
so
dadas por
1
= y
1
/n
1
e
2
= y
2
/n
2
, respectivamente. Logo, a estimativa de
mxima verossimilhana no condicional de ca

= y
1
(n
2
y
2
)/y
2
(n
1
y
1
).
Note que E(
) = , o que impossibilita qualquer tipo de inferncia para

pequenas amostras. Por outro lado, para n
1
e n
2
grandes,

segue uma
distribuio normal de mdia e varincia assinttica
Var
A
(
) =
2
_
1
n
1
1
(1
1
)
+
1
n
2
2
(1
2
)
_
.
Formalmente, podemos dizer que sob condies gerais de regularidade e as-
sumindo que
n
1
n
a > 0, quando n , vale o resultado assinttico
n(
)
d
N(0, V
I
()),
182
em que V
I
() =
2
{1/a
1
(1
1
) + 1/(1 a)
2
(1
2
)}. A varincia
assinttica V
I
() consistentemente estimada por nVar
A
(
).
Alguns autores preferem trabalhar com log em vez de . Assim,
podemos mostrar, sob condies gerais de regularidade, que a estimativa no
condicional log

segue para grandes amostras uma distribuio normal de
mdia log e varincia assinttica Var
A
(log

) = {1/n
1
1
(1
1
)+1/n
2
2
(1
2
)}. De forma equivalente, quando n , temos que
n(log

log)
d
N(0,
2
V
I
()).
Esse resultado ser til na construo de intervalos de conana para .
3.2.3 Modelo probabilstico condicional
Devido aos problemas inferenciais com o modelo no condicional para peque-
nas amostras, a utilizao de um modelo condicional, cuja construo ser
discutida a seguir, tem sido a soluo encontrada sob o ponto de vista clssico
para fazer inferncias a respeito de .
Assim, aplicando o teorema da fatorizao para a funo de probabili-
dades (3.4), mostramos que o conjunto de estatsticas (Y
1
, Y
1
+Y
2
) suciente
minimal para o vetor de parmetros [log, log{
2
/(1
2
)}]. Logo, a distri-
buio de (Y
1
, Y
2
) condicionada a Y
1
+Y
2
= m, dever resultar numa funo
de probabilidades que depende apenas do parmetro de interese . Essa dis-
tribuio resultante (ver Corneld, 1956) tem sido largamente utilizada em
pequenas amostras. Alguns autores questionam, entretanto, o procedimento
adotado, uma vez que a estatstica Y
1
+Y
2
no ancilar para ; isto , con-
tm informaes a respeito do parmetro (ver discusso, por exemplo, em
Lehnman, 1994, pgs. 546-547).
O condicionamento de (Y
1
, Y
2
) em Y
1
+Y
2
= m produz o modelo carac-
terizado pela famlia de distribuies hipergeomtricas no centrais, denida
183
por
f(y
1
|m; ) =
_
n
1
y
1
__
n
2
my
1
_
y
1
t
_
n
1
t
__
n
2
mt
_
t
, (3.5)
em que 0 < < e t varia de max(0, m n
2
) a min(n
1
, m). Em particu-
lar, quando = 1, a expresso (3.5) ca reduzida conhecida distribuio
hipergeomtrica central, dada por
f(y
1
|m; = 1) =
_
n
1
y
1
__
n
2
my
1
_
_
n
1
+n
2
m
_ ,
cuja mdia e varincia so, respectivamente,
E(1) = E(Y
1
|m; = 1) =
mn
1
n
e
V(1) = Var(Y
1
|m; = 1) =
n
1
n
2
(n m)m
n
2
(n 1)
.
Para o modelo condicional (3.5) o logaritmo da funo de verossimi-
lhana ca dado por
L() y
1
log log
_
t
_
n
1
t
__
n
2
mt
_
t
_
.
Denotaremos por

a estimativa de mxima verossimilhana condicional.
Essa estimativa pode ser expressa como a soluo positiva da equao y
1
=
E(Y
1
|m;

). Temos que o momento de ordem r da distribuio condicional,
E(Y
r
1
|m; ) dado por E(Y
r
1
|m; ) = P
r
()/P
0
(), em que
P
r
() =
t
t
r
_
n
1
t
__
n
2
mt
_
t
, r = 1, 2, . . .
e P
0
() =
t
_
n
1
t
__
n
2
mt
_
t
. Assim, a equao de mxima verossimilhana
para obtermos

ca reescrita na forma
y
1
P
1
(
)
P
0
(
)
= 0. (3.6)
184
Com o aumento de n
1
, n
2
, m e nm, ca impraticvel obtermos

atravs de
(3.6), uma vez que essa equao contm polinmios em

de grau bastante
elevado. Uma sada, nesses casos, resolvermos (3.6) atravs de mtodos
numricos que no requerem a extrao das razes do polinmio P
1
()P
1
0
()
(ver McCullagh e Nelder, 1989, p. 256 ; Silva, 1992).
Para ilustrarmos a obteno de

, consideremos a tabela abaixo.
A B Total
D 1 3 4
D 1 2 3
Temos, nesse caso, que n
1
= 4, n
2
= 3 e m = 2. A distribuio condicional
ca ento dada por
f(y
1
|m; ) =
_
4
y
1
__
3
2 y
1
_
y
1
/
t
_
4
t
__
3
2 t
_
t
,
em que o somatrio varia no intervalo 0 t 2. Isso resulta nas probabili-
dades condicionais
f(0|m; ) = 3/{3 + 12 + 6
2
}
f(1|m; ) = 12/{3 + 12 + 6
2
} e
f(2|m; ) = 6
2
/{3 + 12 + 6
2
}.
A equao E(Y
1
|m;

) = y
1
ca ento dada por
12
+ 12
2
= 3 + 12
+ 6
2
,
que equivalente a 6
2
= 3 ou

= 0, 707.
Similarmente ao estimador no condicional, podemos mostrar para
grandes amostras que

segue uma distribuio normal de mdia e va-
rincia assinttica Var(
) = V
1
A
(), em que
185
V
A
() =
_
1
E
A
()
+
1
n
1
E
A
()
+
1
mE
A
()
+
1
n
2
m + E
A
()
_
1
,
e E
A
() sai da equao
E
A
(){n
2
m + E
A
()}
{n
1
E
A
()}{mE
A
()}
= , (3.7)
que para xo resulta numa equao quadrtica em E
A
(). Mostramos,
para = 1, que a nica raiz de (3.7) que satisfaz max(0, mn
2
) E
A
()
min(n
1
, m) dada por
E
A
() = ||r| s|,
em que r =
1
2
[n/( 1) + m + n
1
] e s = [r
2
mn
1
/( 1)]
1/2
.
Formalmente, podemos dizer que sob condies gerais de regularidade e
assumindo ainda que n
1
, n
2
, m e nm so grandes, vale o seguinte resultado:
n(
)
d
N(0, V
C
()),
em que V
C
() = lim
n
nVar(
). Logo, a varincia assinttica V

C
()
consistentemente estimada por nVar(
).
Quando = 1, a expresso (3.7) no resulta numa forma quadrtica
em E
A
(). Vericamos facilmente, nesse caso, que
E
A
(1) =
mn
1
n
e
V
A
(1) =
n
1
n
2
m(n m)
n
3
.
Podemos notar que a mdia e a varincia assinttica de

, quando = 1,
coincidem praticamente com a mdia e a varincia da distribuio condicional
dada em (3.5).
186
3.2.4 Teste de hipteses
Testes exatos
Uma vez conhecida a distribuio condicional que depende apenas do par-
metro de interesse , podemos desenvolver testes exatos para pequenas amos-
tras. Um caso de interesse seria testarmos H
0
: =
0
contra H
1
: <
0
,
em que
0
um valor conhecido. O nvel descritivo do teste, isto , a pro-
babilidade sob H
0
de obteno de valores to ou mais desfavorveis a H
0
(no
sentido de H
1
) denido por
P
I
=
ty
1
f(t|m;
0
),
em que o somatrio vai de max(0, m n
2
) at y
1
. Analogamente, para
testarmos H
0
: =
0
contra H
1
: >
0
, teremos P
S
=
ty
1
f(t|m;
0
).
Nesse caso, o somatrio vai de y
1
at min(n
1
, m). Para o teste bilateral, H
0
:
=
0
contra H
1
=
0
, o nvel descritivo denido por P= 2min{P
I
, P
S
}.
Em particular, quando fazemos
0
= 1, estamos objetivamente tes-
tando a no existncia de associao entre o fator e a doena, sendo o teste
resultante conhecido como teste exato de Fisher (ver, por exemplo, Everitt,
1977). Nesse caso, o nvel descritivo obtido computando as probabilidades
da distribuio hipergeomtrica central.
Podemos tambm utilizar o modelo condicional (3.5) para a estimao
intervalar de . Os respectivos limites de conana sero baseados em P
I
e P
S
e denotados por

I
e

S
, respectivamente. Como ilustrao, vamos
supor que estamos interessados em construir um intervalo de conana de
coeciente (1 ) para . Os limites

I
e

S
cam ento, invertendo a
regio crtica do teste H
0
: =
0
contra H
1
: =
0
, determinados pelas
equaes
187
2
=
ty
1
f(t|m;

S
) e

2
=
ty
1
f(t|m;

I
),
que so polinmios de grau elevado em

S
e

I
medida que os tamanhos
amostrais crescem, o que praticamente inviabiliza a soluo dessas equaes.
Nesses casos, a sada procurarmos intervalos assintticos.
Voltando tabela da seo anterior, vamos supor que queremos testar
H
0
: = 1 contra H
1
: = 1. Temos ento os nveis descritivos P
I
=
f(0|m; = 1) + f(1|m; = 1) = 15/21 e P
S
= f(1|m; = 1) + f(2|m; =
1) = 18/21 o que leva a P= 1, 0. Por outro lado, os limites

I
e

S
cam
dados por
2
=
1
t=0
f(t|m;

S
) e

2
=
2
t=1
f(t|m;

I
)
que equivalente, supondo = 0, 20, a
0, 10 = f(0|m;

S
) + f(1|m;

S
) e 0, 10 = f(1|m;

I
) + f(2|m;

I
),
que levam s equaes
0, 10 =
4
I
+ 2
2
I
1 + 4
I
+ 2
2
I
(
I
= 0, 0274)
e
0, 10 =
1 + 4
S
1 + 4
S
+ 2
2
S
(
S
= 18, 25).
Testes assintticos
Para grandes amostras, n
1
, n
2
, m e nm grandes, a distribuio condicional
(3.5) se aproxima de uma distribuio normal de mdia E
A
() e varincia
188
V
A
() (ver Hannan e Harkness, 1963). Esse fato tem sido utilizado para o
desenvolvimento de testes assintticos para testarmos H
0
: =
0
contra
H
1
: =
0
(H
1
: >
0
ou H
1
: <
0
). No caso de H
1
: =
0
,
utilizamos a estatstica qui-quadrado dada abaixo
X
2
=
{y
1
E
A
(
0
)}
2
V
A
(
0
)
, (3.8)
que sob H
0
segue assintoticamente uma distribuio qui-quadrado com 1 grau
de liberdade. Para H
1
: <
0
e H
1
: >
0
, o nvel descritivo dado por
P
I
= Pr
_
Z
y
1
E
A
(
0
)
_
V
A
(
0
)
_
e
P
S
= Pr
_
Z
y
1
E
A
(
0
)
_
V
A
(
0
)
_
,
respectivamente, em que Z segue um distribuio N(0, 1). Em particular,
quando
0
= 1, a estatstica qui-quadrado (3.8) ca reduzida forma conhe-
cida
X
2
=
_
y
1
mn
1
n
_
2
n
1
n
2
m(n m)/n
3
. (3.9)
Um intervalo assinttico de conana para pode ser obtido utilizando
a distribuio assinttica de log

. Os limites desse intervalo so dados por
log

I
= log

z
(1/2)
_
Var
A
(log

)
e
log

S
= log

+ z
(1/2)
_
Var
A
(log

),
em que z
(1/2)
o percentil (1 /2) da distribuio normal padro. Esses
limites podem ser expressos em uma outra forma, levando em conta a esta-
tstica qui-quadrado para testarmos H
0
: = 1 contra H
1
: = 1. Essa
189
3.3 Mtodos clssicos: k tabelas 2 2
estatstica dada por
X
2
=
(log

)
2
Var
A
(log

)
, (3.10)
que segue, para grandes amostras, uma distribuio qui-quadrado com 1 grau
de liberdade. Assim, os limites cam reexpressos nas formas
I
=

(1z
(1/2)
/X)
e
S
=

(1+z
(1/2)
/X)
.
Alguns autores (ver Breslow e Day, 1980, p. 135) tm constatado que para
n
1
= n
2
a probabilidade de cobertura do intervalo (
I
,

S
) em geral menor
do que o valor nominal utilizado. Por outro lado, quando n
1
e n
2
so muito
diferentes, essa probabilidade de cobertura superestimada. Uma sugesto,
nesses casos, utilizarmos o valor de X obtido do teste condicional (3.9) em
vez do valor obtido do teste no condicional (3.10).
Muitas vezes temos interesse em controlar a associao entre dois fatores bi-
nrios atravs de um terceiro fator, comumente chamado de fator de confun-
dimento. O principal objetivo com esse tipo de estraticao eliminarmos
ou pelo menos reduzirmos a inuncia desses fatores na associao de inte-
resse. Uma maneira mais eciente de controlarmos fatores de confundimento
atravs da regresso logstica, que ser discutida na Seo 3.6. Nesta se-
o, assumiremos apenas um fator de confundimento com k nveis, que so
amostrados n
i
indivduos no i-simo estrato (n
1i
casos e n
2i
controles) e que
os mesmos so classicados conforme a tabela 2 2 abaixo.
190
Fator
Doena A B Total
D y
1i
n
1i
y
1i
n
1i
D y
2i
n
2i
y
2i
n
2i
Seguindo a mesma notao das sees anteriores temos que as estimativas
no condicional e condicional de
i
so, respectivamente, tais que
i
=
y
1i
(n
2i
y
2i
)
y
2i
(n
1i
y
1i
)
e y
1i
P
1i
(
i
)
P
0i
(
i
)
= 0.
As propriedades assintticas de

i
e

i
so as mesmas de

e

da Seo 3.2,
bem como as formas dos testes de hipteses e da estimao intervalar.
3.3.1 Estimao da razo de chances comum
Um teste de interesse quando h k tabelas de contingncia 2 2 vericar-
mos a no existncia de interao entre os estratos, isto , vericarmos se a
associao entre o fator e a doena no muda de um estrato para o outro.
Isso equivalente a vericarmos se as razes de chances so homogneas, ou
seja, testarmos as hipteses
H
0
:
1
= =
k
H
1
: pelo menos dois valores diferentes.
H vrias propostas de estimativas para a razo de chances comum. As
estimativas de mxima verossimilhana no condicional e condicional sero
denotadas por

e

, respectivamente. A primeira estimativa pode ser ob-
tida facilmente atravs do ajuste de uma regresso logstica, enquanto que a
segunda mais complexa do ponto de vista computacional e ser omitida.
Duas estimativas no iterativas foram propostas por Mantel e Haenszel
(1959) e Wolf (1955), as quais sero denotadas por

MH
e

W
, respectiva-
191
mente. A estimativa de Mantel-Hanszel denida por
MH
=
k
i=1
y
1i
(n
2i
y
2i
)/n
i
k
i=1
y
2i
(n
1i
y
1i
)/n
i
,
e pode tambm ser expressa como uma mdia ponderada de estimativas no
condicionais
MH
=
k
i=1
v
i

k
i=1
v
i
,
em que v
i
= y
2i
(n
1i
y
1i
)/n
i
. O estimador de Mantel-Hanszel consistente
e assintoticamente normal com varincia assinttica dada por
Var
A
(
MH
) =
2
k
i=1
a
i
1
i
/(
k
i=1
a
i
)
2
,
em que
i
= {n
1i
1i
(1
1i
)}
1
+ {n
2i
2i
(1
2i
)}
1
e a
i
= n
1i
n
2i
(1
1i
)
2i
/n
i
. A estimativa de Wolf dada por
W
= exp
_
k
i=1
u
i
log

k
i=1
u
i
_
,
em que u
i
= {1/y
1i
+1/(n
1i
y
1i
) +1/y
2i
+1/(n
2i
y
2i
)}
1
. Esse estimador
tambm consistente e assintoticamente normal com varincia dada por
Var
A
(
W
) =
2
1
,
em que =
1
+ +
k
. Para as estimativas

,

MH
e

W
de comum
assumimos o modelo no condicional para os dados.
3.3.2 Testes de homogeneidade
Suponha que estamos interessados em testar as hipteses H
0
e H
1
denidas
na seo anterior. A estatstica da razo de verossimilhanas que assume o
produto de 2k binomiais independentes a mais utilizada nesse caso. Do
192
ponto de vista de anlise preliminar dos dados, duas estatsticas tm sido
sugeridas. A primeira delas, proposta por Hosmer e Lemeshow (1989, p.
74), denida abaixo
X
2
HL
=
k
i=1

i
(log

i
log

W
)
2
,
que segue, sob H
0
e assintoticamente (para n
1i
e n
2i
grandes, i), uma dis-
tribuio qui-quadrado com k 1 graus de liberdade. A outra estatstica,
denida em Breslow e Day (1980, p. 42), baseada no modelo condicional,
sendo dada por
X
2
BD
=
k
i=1
{y
1i
E
A
i
(
MH
)}
2
V
A
i
(
MH
)
,
que tambm segue, sob H
0
e para grandes amostras, uma distribuio qui-
quadrado com k1 graus de liberdade. A novidade, nesse caso, a utilizao
da estatstica no iterativa de Mantel-Hanszel no lugar da estimativa condi-
cional

.
Quando a hiptese nula no rejeitada, um teste imediato vericar-
mos a no existncia de associao entre o fator e a doena, mantendo apenas
o efeito da estraticao. Esse teste, conhecido como teste de Mantel-Hanszel
(1959), utiliza a seguinte estatstica:
X
2
MH
=
{(
k
i=1
y
1i
k
i=1
E
A
i
(1))}
2
k
i=1
V
A
i
(1)
,
que, sob H
0
: = 1, segue para grandes amostras (n
i
grande i ou para
k grande) uma distribuio qui-quadrado com 1 grau de liberdade. Simi-
larmente ao caso de uma nica tabela 2 2, um intervalo assinttico de
conana para com coeciente de conana (1 ) ca dado por
(
I
,

S
) =

(1z
(1/2)
/X
MH
)
MH
,
em que X
MH
=
_
X
2
MH
.
193
3.4 Mtodos clssicos: tabelas 2 k
A dicotomizao de um fator com mais de 2 nveis, a m de deixarmos
mais simples o estudo da associao entre esse fator e uma determinada
doena, pode omitir informaes relevantes acerca da associao de cada um
dos nveis agrupados e a doena em estudo. Assim, sempre que possvel,
devemos manter para as anlises o maior nmero possvel de nveis do fator.
Uma tabela resultante, nesse caso, dada abaixo.
Fator
Doena Nvel 1 Nvel 2 Nvel k Total
D y
11
y
12
n
1
k1
i=1
y
1i
n
1
D y
21
y
22
n
2
k1
i=1
y
2i
n
2
Analogamente ao caso de uma nica tabela 22, assumimos que so amostra-
dos n
1
elementos do estrato D e n
2
elementos do estrato

D e que (Y
i1
, . . . , Y
ik
)
T
segue uma distribuio multinomial de parmetros (
i1
, . . . ,
ik
)
T
, com
ik
=
1
k1
j=1

ij
, i = 1, 2. Comumente, para analisarmos as associaes entre
os nveis do fator e a doena, denimos um nvel do fator como referncia,
que formar com os demais as razes de chances. Escolhendo o nvel 1 como
referncia, as razes de chances cam dadas por
1
= 1 e
j
=

1j
21
2j
11
, j = 2, . . . , k,
em que
j
a razo de chances entre o nvel j e o nvel 1 do fator. As
anlises inferenciais atravs do uso do modelo multinomial so tratadas em
textos correntes de anlise de dados categorizados (ver, por exemplo, Agresti,
1990). Aqui, nos concentraremos no estudo do modelo condicional, que
obtido aps o condicionamento de (Y
i1
, . . . , Y
ik
)
T
, i = 1, 2, nas estatsticas
sucientes minimais Y
1j
+ Y
2j
= m
j
, j = 1, , k. O modelo resultante
caracterizado pela distribuio hipergeomtrica multivariada no central
194
que depende apenas dos parmetros de interesse
1
, . . . ,
k
(ver McCullagh
e Nelder, 1989, p. 261). Em particular, a hiptese de ausncia de associao
completa entre os nveis do fator e a doena denida por H
0
:
j
= 1, j, que
ser avaliada atravs da distribuio hipergeomtrica central k-dimensional,
cuja funo de probabilidades o produto de k distribuies hipergeomtricas
centrais
f(y
1
|m; = 1) =
k
j=1
_
n
1j
y
1j
__
n
2j
m
j
y
1j
_
_
n
1j
+n
2j
m
j
_ , (3.11)
em que y
1
= (y
11
, . . . , y
1k
)
T
, m = (m
1
, . . . , m
k
)
T
e = (
1
, . . . ,
k
)
T
. A
mdia, varincia e covarincia correspondentes distribuio (3.11) so, res-
pectivamente, dadas por
E
j
(1) = E(Y
1j
|m
j
; = 1) =
m
j
n
1
n
,
V
j
(1) = Var(Y
1j
|m
j
; = 1) =
n
1
n
2
(n m
j
)m
j
n
2
(n 1)
e
C
j
= Cov(Y
1j
, Y
1
|m
j
, m
; = 1) =
m
j
m
n
1
n
2
n
2
(n 1)
, j = ,
em que n = n
1
+ n
2
. Um teste estatstico para H
0
, que tem sido largamente
utilizado para testarmos a homogeneidade de k propores (Armitage, 1971),
dado por
X
2
A
=
(n 1)
n
k
j=1
{y
1j
E
j
(1)}
2
_
1
E
j
(1)
+
1
m
j
E
j
(1)
_
= (n 1)
_
1
n
1
+
1
n
2
_
k
j=1
{y
1j
E
j
(1)}
2
m
j
, (3.12)
que segue, sob H
0
e para valores grandes de n
1
, n
2
e m
j
, j, uma distribuio
qui-quadrado com k 1 graus de liberdade. Entretanto, quando os nveis do
fator so quantitativos ou qualitativos ordinais, pode ser mais informativo
195
3.5 Aplicaes
o uso de um teste para a tendncia do risco da doena com o aumento dos
nveis do fator. Como ilustrao, vamos supor que h k doses x
j
, j = 1, . . . , k,
associadas aos k nveis do fator. Um teste apropriado considerarmos a
regresso dos desvios {y
1j
E
j
(1)} sobre x
j
(Armitage, 1955; Mantel, 1963).
A estatstica correspondente ca dada por
X
2
HOM
=
n
2
(n 1)[
k
j=1
x
j
{y
1j
E
j
(1)}]
2
n
1
n
2
{n
k
j=1
x
2
j
m
j
(
k
j=1
x
j
m
j
)
2
}
, (3.13)
que segue, para grandes amostras e sob H
0
, uma distribuio qui-quadrado
com k 1 graus de liberdade.
Uma outra maneira de analisarmos a associao entre o fator e a doena
atravs da amostragem nos k nveis do fator de interesse. Nesse caso,
a distribuio resultante um produto de k binomiais independentes e a
hiptese de ausncia de associao entre o fator e a doena pode ser avaliada
atravs do ajuste de uma regresso logstica, que ser discutida na Seo 3.6.
Por outro lado, se tambm forem xados os totais n
1
e n
2
, a distribuio
condicional resultante uma hipergeomtrica no central k-dimensional que
sob H
0
ca reduzida a (3.11). Logo, as estatsticas dadas em (3.12) e (3.13)
podem ser aplicadas, pelo menos numa anlise preliminar dos dados, para
avaliarmos a ausncia de associao total entre o fator e a doena.
Generalizaes de (3.12) e (3.13) para o caso de h estratos so dadas
em Breslow e Day (1980, pgs. 148-149).
3.5 Aplicaes
3.5.1 Associao entre fungicida e desenvolvimento de tumor
Como ilustrao, analisaremos o conjunto de dados apresentado em Innes et
al. (1969), referente a um estudo para avaliar o possvel efeito cancergeno
196
3.5 Aplicaes
do fungicida Avadex. No estudo, 403 camundongos so observados. Desses,
65 receberam o fungicida e foram acompanhados durante 85 semanas, veri-
cando o desenvolvimento ou no de tumor cancergeno. Os demais animais
no receberam o fungicida (grupo controle) e tambm foram acompanhados
pelo mesmo perodo, vericando a ocorrncia ou no de tumor. Dois fatores
potenciais de confundimento, sexo e raa, foram considerados nas anlises.
Os dados do experimento so resumidos na Tabela 3.1.
Tabela 3.1
Classicao dos camundongos quanto a raa (R1 ou R2),
sexo, grupo e ocorrncia ou no de tumor cancergeno.
Estrato Grupo Com tumor Sem tumor Total
Tratado 4 12 16
R1-Macho Controle 5 74 79
Total 9 86 95
Tratado 2 14 16
R2-Macho Controle 3 84 87
Total 5 98 103
Tratado 4 14 18
R1-Fmea Controle 10 80 90
Total 14 94 108
Tratado 1 14 15
R2-Fmea Controle 3 79 82
Total 4 93 97
Em virtude dos valores relativamente altos das marginais das quatro
tabelas 2 2 formadas pela combinao dos fatores sexo e raa, procedemos
inicialmente uma anlise atravs do modelo no condicional. Temos ento, na
primeira coluna da Tabela 3.2, as estimativas pontuais das razes de chances
de tumor maligno entre o grupo tratado e o grupo controle. Na segunda
197
3.5 Aplicaes
coluna apresentamos os intervalos assintticos de 95% para . Notamos que,
embora todas as estimativas sinalizem para uma associao positiva, apenas
o primeiro intervalo de conana no cobre o valor = 1, evidenciando
associao apenas no primeiro estrato, ao nvel de 5%.
O teste de homogeneidade das razes de chances forneceu X
2
BD
= 0, 867
(3 g.l. e P= 0, 833), indicando fortemente pela no rejeio da ausncia de
interao entre os estratos. J o teste de Mantel-Hanszel forneceu X
2
MH
=
8, 289 (1 g.l. e P= 0, 004), indicando pela rejeio da hiptese de razo de
chances comum igual a um, isto , de que h fortes indcios de associao
entre os grupos controle e tratado. As estimativas de comum deram

MH
=
3, 079 e

W
= 3, 109, com intervalo assinttico de conana de 95% dado por
[1, 43; 6, 62].
Tabela 3.2
Estimativas das razes de chances de tumor
cancergeno nos estratos de camundongos.
Estrato Estimativa

Intervalo assinttico
R1-Macho 4,93 [1,28 ; 18,97]
R2-Macho 4,00 [0,69 ; 23,09]
R1-Fmea 2,29 [0,64 ; 8,14]
R2-Fmea 1,88 [0,19 ; 48,87]
3.5.2 Efeito de extrato vegetal
Consideremos agora parte dos dados de um experimento (ver Paula, Seva-
nes e Ogando, 1988) conduzido para avaliarmos o efeito de diversos extratos
vegetais na mortalidade de embries de Biomphalaria Glabrata (hospedeiro
da equistossomose). Para o extrato vegetal aquoso frio de folhas de P. Hyr-
siora consideramos um total de k = 7 grupos sendo que os n
i
embries do
i-simo grupo foram submetidos a uma dose x
i
(ppm) do extrato vegetal,
198
3.6 Regresso logstica linear
observando aps o 20
o
dia o nmero de embries mortos. Os dados so resu-
midos na Tabela 3.3. Para aplicarmos o teste de tendncia dado em (3.13),
devemos considerar que n = 50 + + 50 = 350, n
1
= y
1
+ + y
7
= 178,
n
2
= n n
1
= 172 e m
i
= 50, i. Assim, obtemos E
i
(1) = 25, 43 para
i = 1, . . . , 7. A estatstica forneceu o valor X
2
HOM
= 131, 82, que altamente
signicativo, indicando uma forte tendncia crescente para a proporo de
mortes com o aumento da dose.
Tabela 3.3
Distribuio dos embries segundo
os nveis de exposio do estrato
vegetal aquoso.
x
i
0 15 20 25 30 35 40
m
i
50 50 50 50 50 50 50
y
i
4 5 14 29 38 41 47
3.6.1 Introduo
A regresso logstica tem se constitudo num dos principais mtodos de mo-
delagem estatstica de dados. Mesmo quando a resposta de interesse no
originalmente do tipo binrio, alguns pesquisadores tm dicotomizado a res-
posta de modo que a probabilidade de sucesso possa ser ajustada atravs da
regresso logstica. Isso ocorre, por exemplo, em anlise de sobrevivncia dis-
creta em que a resposta de interesse o tempo de sobrevivncia, no entanto,
em algumas pesquisas, a funo de risco tem sido ajustada por modelos lo-
gsticos. Tudo isso se deve, principalmente, pela facilidade de interpretao
dos parmetros de um modelo logstico e tambm pela possibilidade do uso
desse tipo de metodologia em anlise discriminante.
199
Embora a regresso logstica seja conhecida desde os anos 50, foi atra-
vs de Cox (1970) (ver tambm Cox e Snell, 1989) que a regresso logstica
cou popular entre os usurios de Estatstica. Nesta seo apresentamos al-
guns resultados relacionados com o modelo logstico linear que completam o
que foi apresentado no Captulo 1, onde vimos esse modelo como um caso
particular de modelos lineares generalizados.
3.6.2 Regresso logstica simples
Vamos considerar inicialmente o modelo logstico linear simples em que (x),
a probabilidade de sucesso"dado o valor x de uma varivel explicativa qual-
quer denida tal que
log
_
(x)
1 (x)
_
= + x, (3.14)
em que e so parmetros desconhecidos. Esse modelo poderia, por exem-
plo, ser aplicado para analisar a associao entre uma determinada doena e
a ocorrncia ou no de um fator particular. Seriam ento amostrados, inde-
pendentemente, n
1
indivduos com presena do fator (x=1) e n
2
indivduos
com ausncia do fator (x=0) e (x) seria a probabilidade de desenvolvimento
da doena aps um certo perodo xo. Dessa forma, a chance de desenvolvi-
mento da doena para um indivduo com presena do fator ca dada por
(1)
1 (1)
= e
+
,
enquanto que a chance de desenvolvimento da doena para um indivduo com
ausncia do fator simplesmente
(0)
1 (0)
= e
.
Logo, a razo de chances ca dada por
=
(1){1 (0)}
(0){1 (1)}
= e
,
200
dependendo apenas do parmetro . Mesmo que a amostragem seja retros-
pectiva, isto , so amostrados n
1
indivduos doentes e n
2
indivduos no do-
entes, o resultado acima continua valendo. Essa uma das grandes vantagens
da regresso logstica, a possibilidade de interpretao direta dos coecientes
como medidas de associao. Esse tipo de interpretao pode ser estendido
para qualquer problema prtico.
Vamos supor agora que temos dois estratos representados por x
1
(x
1
=
0 estrato 1, x
1
= 1 estrato 2) e que so amostrados do estrato 1 n
11
indi-
vduos com presena do fator e n
21
indivduos com ausncia do fator e n
12
e n
22
, respectivamente, do estrato 2. A probabilidade de desenvolvimento
da doena ser denotada por (x
1
, x
2
), com x
2
(x
2
=1 presena do fator,
x
2
= 0 ausncia do fator). Temos aqui quatro parmetros a serem estima-
dos, (0, 0), (0, 1), (1, 0) e (1, 1). Logo, qualquer reparametrizao dever
ter no mximo quatro parmetros (modelo saturado).
Vamos considerar ento a seguinte reparametrizao:
log
_
(x
1
, x
2
)
1 (x
1
, x
2
)
_
= + x
1
+ x
2
+ x
1
x
2
,
em que representa o efeito do estrato, o efeito do fator e a interao
entre estrato e fator. Para entendermos melhor essa reparametrizao, vamos
calcular as razes de chances em cada estrato
1
=
(0, 1){1 (0, 0)}
(0, 0){1 (0, 1)}
= e
2
=
(1, 1){1 (1, 0)}
(1, 0){1 (1, 1)}
= e
+
.
Assim, a hiptese de homogeneidade das razes de chances (H
0
:
1
=
2
)
equivalente hiptese de no interao (H
0
: = 0). Portanto, a ausncia
de interao entre fator e estrato signica que a associao entre o fator e a
201
doena no muda de um estrato para o outro. Contudo, pode haver efeito
de estrato. Como ilustrao nesse caso, vamos supor que no rejeitamos a
hiptese H
0
: = 0. Assim, o logaritmo da chance de desenvolvimento da
doena ca dado por
log
_
(x
1
, x
2
)
1 (x
1
, x
2
)
_
= + x
1
+ x
2
,
ou seja, o mesmo nos dois estratos a menos da quantidade . Isso quer dizer
que mesmo no havendo interao entre os dois estratos (razo de chances
constante), as probabilidades de desenvolvimento da doena podem estar em
patamares diferentes. Num estrato essas probabilidades so maiores do que
no outro estrato. Essas interpretaes podem ser generalizadas para trs ou
mais tabelas.
Aplicao
Como ilustrao, vamos considerar novamente o exemplo descrito na Seo
3.5.1, supondo que agora temos apenas os estratos macho e fmea. Os dados
so resumidos na Tabela 3.4.
Tabela 3.4
Classicao de camundongos segundo sexo, grupo e
ocorrncia de tumor.
Macho Fmea
Tumor Tratado Controle Tratado Controle
Sim 6 8 5 13
No 26 158 28 159
Total 32 166 33 172
Denotamos por (x
1
, x
2
) a probabilidade de desenvolvimento de tu-
mor dados x
1
(x
1
=1 macho, x
1
=0 fmea) e x
2
(x
2
=1 tratado, x
2
=0 con-
trole). Para testarmos a hiptese de ausncia de interao (H
0
: = 0)
202
comparamos o desvio do modelo sem interao D(y;
0
) = 0, 832 com os
percentis da distribuio qui-quadrado com 1 grau de liberdade (temos que
o desvio do modelo saturado zero). O nvel descritivo obtido dado por
P= 0, 362, indicando pela no rejeio da hiptese de homogeneidade das ra-
zes de chances. Assim, ajustamos o modelo sem interao. As estimativas
resultantes so apresentadas na Tabela 3.5.
Tabela 3.5
logstico ajustado aos dados sobre
ocorrncia de tumor em camundongos.
Constante -2,602 -9,32
Estrato -0,241 -0,64
Tratamento 1,125 2,81
Os nveis descritivos dos testes para H
0
: = 0 e H
0
: = 0 so, res-
pectivamente, dados por P= 0, 005 e P= 0, 520, indicando fortemente pela
presena de associao entre a exposio ao fungicida e o desenvolvimento
de tumor e que as probabilidades de desenvolvimento de tumor no so di-
ferentes entre os dois estratos.
Temos que

= e
, logo um intervalo assinttico de conana para

com coeciente (1 ), ter os limites
(
I
,

S
) = exp{
z
(1/2)
_
Var(
)}.
Para o exemplo acima e assumindo um intervalo de 95%, esses limites cam
dados por [1, 403; 6, 759].
O valor observado da varivel explicativa no modelo logstico dado
em (3.14) pode representar o valor de alguma varivel quantitativa qualquer
como, por exemplo, a dose ou a log-dose de uma determinada droga. Nesse
203
caso, faz sentido calcularmos a chance de um indivduo que recebeu a dose
x
, ser curado, em relao a um outro indivduo que recebeu a dose x. A

razo de chances de cura, entre os dois nveis, ca dada por
(x
x)
=
(x
){1 (x)}
(x){1 (x
)}
= exp{(x
x)}.
Portanto, log
(x
x)
proporcional diferena entre as duas doses. Se > 0,
temos que a chance de cura aumenta com o aumento da dose e se < 0 ocorre
o contrrio. Essa interpretao pode ser estendida para qualquer varivel
explicativa quantitativa.
3.6.3 Regresso logstica mltipla
Vamos considerar agora o modelo geral de regresso logstica
log
_
(x)
1 (x)
_
=
1
+
2
x
2
+ +
p
x
p
,
em que x = (1, x
2
, . . . , x
p
)
T
contm os valores observados de variveis explica-
tivas. Como vimos na Seo 1.6.1, o processo iterativo para obtermos

pode
ser expresso como um processo iterativo de mnimos quadrados reponderados
(m+1)
= (X
T
V
(m)
X)
1
X
T
V
(m)
z
(m)
,
em que V = diag{
1
(1
1
), . . . ,
n
(1
n
)}, z = (z
1
, . . . , z
n
)
T
a varivel
dependente modicada, z
i
=
i
+ (y
i

i
)/
i
(1
i
), m = 0, 1, . . . e i =
1, . . . , n. Para dados agrupados (k grupos), substitumos n por k, V =
diag{n
1
1
(1
1
), . . . , n
k
k
(1
k
)} e z
i
=
i
+ (y
i
n
i
i
)/{n
i
i
(1
i
)}.
Assintoticamente, n no primeiro caso e para
n
i
n
a
i
> 0 no segundo
caso,

N
p
(0, (X
T
VX)
1
).
Uma interpretao interessante pode ser dada para as razes de chances
quando temos (q 1)(q p) das (p1) variveis explicativas do tipo binrio.
204
Como ilustrao, vamos supor q = 4 e que x
2
(x
2
= 1 presena, x
2
= 0
ausncia) e x
3
(x
3
= 1 presena, x
3
= 0 ausncia) representam dois fatores.
Vamos supor ainda que x
4
= x
2
x
3
representa a interao entre os dois fatores.
O modelo ca ento dado por
log
_
(x)
1 (x)
_
=
1
+
2
x
2
+
3
x
3
+
4
x
4
+
p
j=5
x
j
j
.
Denotaremos por
ij
a razo de chances entre um indivduo na condio
(x
2
= i, x
3
= j) em relao a um indivduo na condio (x
2
= 0, x
3
=
0), para i, j = 0, 1, supondo que os dois indivduos tm os mesmos valores
observados para as demais (p 4) variveis explicativas. Assim, podemos
mostrar facilmente que
10
= exp(
2
),
01
= exp(
3
) e
11
= exp(
2
+
3
+
4
).
Portanto, testarmos a hiptese H
0
:
4
= 0 (ausncia de interao) equiva-
lente a testarmos a hiptese de efeito multiplicativo H
0
:
11
=
10
01
. Em
particular, se x
3
representa dois estratos (x
3
= 0, estrato 1; x
3
= 1, estrato
2), a razo de chances no primeiro estrato entre presena e ausncia do fator
ca dada por
10
= exp(
2
), enquanto que no segundo estrato essa razo de
chances vale
11
/
01
= exp(
2
+
4
). Logo, testarmos H
0
:
4
= 0 equivale
tambm a testarmos a hiptese de homogeneidade das razes de chances nos
dois estratos.
3.6.4 Bandas de conana
Como foi visto na Seo 1.8.2 uma banda assinttica de conana de coe-
ciente 1 pode ser construda para (z), z IR
p
(ver tambm Piegorsch
e Casella, 1988). Assintoticamente

N
p
(0, (X
T
VX)
1
). Logo, uma
banda assinttica de conana de coeciente 1 para o preditor linear
205
z
T
, z IR
p
, ca dada por
z
T

{z
T
(X
T
VX)
1
z}
1/2
, z IR
p
,
em que c
tal que Pr{

2
p
c
} = 1 . Aplicando a transformao logito

podemos, equivalentemente, encontrar uma banda de conana de coeciente
1 para (z), dada por
exp[z
T

{z
T
(X
T
VX)
1
z}
1/2
]
1 + exp[z
T

{z
T
(X
T
VX)
1
z}
1/2
]
, z IR
p
.
importante observarmos que z um vetor p 1 que varia livremente no
IR
p
, enquanto X uma matriz xa com os valores das variveis explicativas.
3.6.5 Seleo de modelos
Uma vez denido o conjunto de covariveis (ou fatores) a ser includo num
modelo logstico, resta saber qual a melhor maneira de encontrarmos um mo-
delo reduzido que inclua apenas as covariveis e interaes mais importantes
para explicarmos a probabilidade de sucesso (x). Esse problema poderia
ser resolvido pelos mtodos usuais de seleo de modelos discutidos na Se-
o 1.11. Contudo, a questo de interpretao dos parmetros crucial num
modelo logstico, implicando que uma forma puramente mecnica de seleo
pode levar a um modelo sem sentido e de difcil interpretao. Particular-
mente, a incluso de certas interaes impe a permanncia no modelo de
seus respectivos efeitos principais de ordem inferior, na tica do princpio hi-
errquico. Muitas vezes, variveis consideradas biologicamente importantes
no devem ser deixadas de lado pela sua falta de signicncia estatstica.
Assim, a seleo de um modelo logstico deve ser um processo conjugado de
seleo estatstica de modelos e bom senso.
206
Mtodo stepwise
Um dos mtodos mais aplicados em regresso logstica o mtodo stepwise.
O mtodo, como foi visto na Seo 1.11, baseia-se num algoritmo misto de
incluso e eliminao de covariveis segundo a importncia das mesmas de
acordo com algum critrio estatstico. Esse grau de importncia pode ser
avaliado, por exemplo, pelo nvel de signicncia do teste da razo de ve-
rossimilhanas entre os modelos que incluem ou excluem as covariveis em
questo. Quanto menor for esse nvel de signicncia tanto mais importante
ser considerada a covarivel. Como a covarivel mais importante por esse
critrio no necessariamente signicativa do ponto de vista estatstico, de-
vemos impor um limite superior P
E
(os valores usuais esto no intervalo
[0, 15; 0, 25]) para esses nveis descritivos, a m de atrairmos candidatos im-
portantes em princpio entrada.
Dado que a incluso de novas covariveis num modelo pode tornar dis-
pensveis outras covariveis j includas, faremos a vericao da importncia
dessas covariveis confrontando os seus respectivos nveis com um limite su-
perior P
S
. As covariveis com um nvel descritivo maior do que P
S
sero
assim candidatas remoo.
Descrevemos a seguir uma variante desse algoritmo usada por Hosmer
e Lemeshow (1989, Cap. 3) (ver tambm Silva, 1992). A etapa inicial comea
com o ajustamento do modelo apenas com o intercepto e completada pelos
passos seguintes:
1. construmos testes da razo de verossimilhanas entre o modelo inicial
e os modelos logsticos simples formados com cada uma das covariveis
do estudo. O menor dos nveis descritivos associados a cada teste ser
comparado com P
E
. Se P
E
for maior, inclumos a covarivel referente
quele nvel e passamos ao passo seguinte; caso contrrio, paramos a
207
seleo e adotamos o ltimo modelo;
2. partindo do modelo incluindo a covarivel selecionada no passo ante-
rior, introduzimos individualmente as demais covariveis. Cada um
desses novos modelos testado contra o modelo inicial desse passo.
Novamente, o menor valor dos nveis descritivos comparado com P
E
.
Se for menor do que P
E
, implica na incluso no modelo da covari-
vel correspondente e a passagem ao passo seguinte. Caso contrrio,
paramos a seleo;
3. comparamos o desvio do modelo logstico contendo as covariveis se-
lecionadas nos passos anteriores com os desvios dos modelos que dele
resultam por excluso individual de cada uma das covariveis. Se o
maior nvel descritivo dos testes da razo de verossimilhanas for me-
nor do que P
S
, a covarivel associada a esse nvel descritivo permanece
no modelo. Caso contrrio, ela removida. Em qualquer circunstncia,
o algoritmo segue para o passo seguinte;
4. o modelo resultante do passo anterior ser ajustado, no entanto, antes
de tornar-se o modelo inicial da etapa 2 (seleo de interaes de pri-
meira ordem entre as covariveis includas), avaliamos a signicncia
de cada um dos coecientes das covariveis selecionadas, por exemplo
atravs de um teste de Wald. Se alguma covarivel ou fator no for
signicativo podemos exclu-los do modelo;
5. uma vez selecionadas as covariveis mais importantes", ou os efeitos
principais, damos entrada na etapa 2 com o passo 1 que agora envolve
apenas interaes de primeira ordem entre as covariveis selecionadas,
e assim por diante.
208
comum que algumas covariveis ou interaes de interesse ou com algum
signicado no estudo sejam mantidas no modelo desde o incio, mesmo que
no sejam signicativas. tambm comum que a seleo de interaes seja
feita dentre aquelas de interesse ou com algum signicado no problema.
Uma desvantagem do procedimento descrito pelos passos 1-5 de exi-
gir as estimativas de mxima verossimilhana em cada passo, o que encarece
o trabalho computacional, particularmente quando h muitas covariveis (ou
fatores). Alguns autores tm sugerido aproximaes para esse processo de
seleo. O aplicativo cientco BMDP (Dixon, 1987) usa aproximaes li-
neares nos testes da razo de verossimilhanas. Peduzzi, Hardy e Holford
(1980) apresentam uma variante desse mtodo baseada no uso da estatstica
de Wald.
Mtodo de Akaike
Um procedimento mais simples para selecionarmos variveis explicativas num
modelo logstico atravs do mtodo de Akaike descrito na Seo 1.11. Uma
sugesto primeiro fazermos uma seleo dos efeitos principais e depois num
segundo passo, das interaes de 1
a
ordem. Para ilustrarmos uma aplicao
do mtodo, vamos supor que as respostas binrias estejam armazenadas em
resp e as variveis explicativas sejam denotadas por var1, var2 e var3. O
ajuste do modelo logstico apenas com os efeitos principais pode ser realizado
atravs dos comandos
ajuste < glm(resp var1 + var2 + var3, family=binomial).
A seleo dos efeitos principais pode ser realizada pelos comandos
require(MASS)
stepAIC(ajuste).
Eventualmente algumas variveis explicativas selecionadas podem no
209
ser signicativas marginalmente e a retirada das mesmas do modelo poder
ser conrmada atravs de algum teste estatstico apropriado, como por exem-
plo o teste da razo de verossimilhanas. A incluso de interaes de 1
a
ordem
pode ser feita individualmente dentre aquelas interaes de interesse ou de
fcil interpretao.
3.6.6 Amostragem retrospectiva
Em muitas situaes prticas, especialmente no estudo de doenas raras,
pode ser mais conveniente a aplicao de uma amostragem retrospectiva em
que um conjunto de n
1
casos (indivduos com y = 1) e n
2
controles (indi-
vduos com y = 0) selecionado aleatoriamente e classicado segundo os
valores de x = (x
1
, . . . , x
p
)
T
. Esse tipo de planejamento muitas vezes
motivado por questes econmicas ligadas ao custo e a durao do experi-
mento. A amostragem retrospectiva assim constituda levaria diretamente
a um modelo para Pr(X = x|y), ao contrrio dos dados prospectivos que
esto associados ao modelo (x) = Pr(Y = y|x). Como o desenvolvimento
de um modelo para Pr(X = x|y) pode car muito complexo medida que o
valor x envolve um nmero maior de variveis explicativas, particularmente
contnuas, a proposta de uma abordagem alternativa atravs da especicao
de um modelo para Pr(Y = y|x), de modo a induzirmos um modelo para
Pr(X = x|y), tem sido bastante utilizada.
Vamos supor ento um modelo logstico linear para explicarmos (x) =
Pr(Y = 1|x). Mostraremos a seguir que a probabilidade (x), a menos de
uma constante adicionada ao intercepto do modelo, coincide com a probabi-
lidade
(x) = Pr(Y = 1|x, Z = 1) se a seleo amostral no depende de

x, em que Z uma varivel indicadora da classicao amostral (ver, por
210
exemplo, Armitage, 1971). Denotaremos
1
= Pr(Z = 1|Y = 1) e
2
= Pr(Z = 1|Y = 0),
em que
1
a probabilidade de um caso ser selecionado e
2
a probabilidade
de um controle ser selecionado da populao global. Estamos supondo que
1
e
2
no dependem de x. Portanto
(x) = Pr(Y = 1|x, Z = 1)

=
Pr(Z = 1|Y = 1)Pr(Y = 1|x)
y=0,1
Pr(Z = 1|Y = y)Pr(Y = y|x)
,
que pode ser expressa em funo de (x), ou seja
(x) =

1
(x)
2
{1 (x)} +
1
(x)
=
2
_
(x)
1(x)
_
1 +

1
2
_
(x)
1(x)
_.
Assim, obtemos
(x) =
e
log{
1
/
2
}+
1 + e
log{
1
/
2
}+
,
em que =
p
j=1
x
j
j
.
Portanto, se fazemos uma amostragem retrospectiva e ajustamos um
modelo logstico como se fosse uma amostragem prospectiva, os coecientes
devem coincidir desde que a seleo tenha sido feita independente de x. Se,
no entanto, temos interesse particular em estimar (x), isto , fazer predies
dado x, devemos corrigir a constante do modelo ajustado, obtendo o novo
intercepto
1
=

1
log(
1
/
2
),
em que

1
o intercepto do modelo ajustado. Apresentamos um exemplo
ilustrativo na prxima seo.
211
Como vimos na Seo 1.4 , quando o nmero de grupos k xo num expe-
rimento binomial e
n
i
n
a
i
> 0 quando n , o desvio D(y; ) segue sob
a hiptese do modelo adotado ser verdadeiro uma distribuio qui-quadrado
com (k p) graus de liberdade. Esse resultado no vale quando n
e n
i
i
(1
i
) ca limitado. Nesse caso, Hosmer e Lemeshow (1989) suge-
rem uma estatstica alternativa para avaliao da qualidade do ajuste. Essa
estatstica denida comparando o nmero observado com o nmero espe-
rado de sucessos de g grupos formados. O primeiro grupo dever conter
n
1
elementos correspondentes s n
1
menores probabilidades ajustadas, as
quais sero denotadas por
(1)

(2)

(n
1
)
. O segundo grupo
dever conter os n
2
elementos correspondentes s seguintes probabilidades
ajustadas
(n
1
+1)

(n
1
+2)

(n
1
+n
2
)
. E assim, sucessivamente, at
o ltimo grupo que dever conter as n
g
maiores probabilidades ajustadas

(n
1
++n
g1
+1)

(n
1
++n
g1
+2)

(n)
. O nmero observado de su-
cessos no primeiro grupo formado ser dado por O
1
=
1
j=1
y
(j)
, em que
y
(j)
= 0 se o elemento correspondente fracasso e y
(j)
= 1 se sucesso. Ge-
neralizando, obtemos O
i
=
1
++n
i
j=n
1
++n
i1
+1
y
(j)
, 2 i g. A estatstica
denida por
C =
g
i=1
(O
i
n
i

i
)
2
n
i

i
(1
i
)
,
em que

1
=
1
n
1
n
j=1

(j)
e
i
=
1
n
i
n
i
++n
j=n
1
++n
i1
+1

(j)
,
para 2 i g. Hosmer e Lemeshow sugerem a formao de g = 10 grupos de
mesmo tamanho (aproximadamente), de modo que o primeiro grupo conte-
nha n
i
elementos correspondentes s [n/10] menores probabilidades ajustadas
e assim por diante at o ltimo grupo com n
10
elementos correspondentes s
212
[n/10] maiores probabilidades ajustados. Quando no h empates, isto ,
n
i
= 1, i, ca relativamente fcil montarmos os 10 grupos com tamanhos
aproximadamente iguais. No entanto, quando h empates, pode ser neces-
srio que dois indivduos com a mesma congurao de covariveis sejam
alocados em grupos adjacentes a m de que os grupos formados no tenham
tamanhos muito desiguais. Hosmer e Lemeshow vericaram atravs de simu-
laes que a distribuio nula assinttica de

C pode ser bem aproximada por
uma distribuio qui-quadrado com (g 2) graus de liberdade.
Estudos de simulao (ver, por exemplo, Williams, 1984) tm sugerido o
resduo t
D
i
para as anlises de diagnstico em modelos lineares generalizados,
uma vez que o mesmo tem apresentado nesses estudos propriedades similares
quelas do resduo t
i
da regresso normal linear. Em particular, para os
modelos binomiais, esse resduo expresso, para 0 < y
i
< n
i
, na forma
t
D
i
=
2
1
h
ii
_
y
i
log
_
y
i
n
i

i
_
+ (n
i
y
i
)log
_
n
i
y
i
n
i
n
i

i
__
1/2
,
em que o sinal o mesmo de y
i
y
i
. Quando y
i
= 0 ou y
i
= n
i
, o componente
do desvio padronizado toma as formas
t
D
i
=
{2n
i
|log(1
i
)|}
1/2
_
1
h
ii
e t
D
i
=
{2n
i
|log
i
|}
1/2
_
1
h
ii
,
respectivamente. O resduo Studentizado t
S
i
, tambm utilizado para avaliar-
mos a presena de observaes aberrantes mesmo tendo em geral distribuio
assimtrica acentuada, toma a forma
t
S
i
=
1
_
1
h
ii
(y
i
n
i

i
)
{n
i

i
(1
i
)}
1/2
.
213
Para medirmos a inuncia das observaes nas estimativas dos coecientes,
utilizamos a distncia de Cook aproximada dada por
LD
i
=
h
ii
(1
h
ii
)
2
(y
i
n
i

i
)
2
n
i

i
(1
i
)
.
Hosmer e Lemeshow (1989) observam que

h
ii
depende das probabili-
dades ajustadas
i
, i = 1, . . . , k, e consequentemente os resduos t
S
i
e t
D
i
e a
medida de inuncia LD
i
tambm dependem. Temos que
h
ii
= n
i
i
(1
i
)x
T
i
(X
T
VX)
1
x
i
,
comV = diag{n
1
1
(1
1
), . . . , n
k
k
(1
k
)}. Hosmer e Lemeshow mostram
atravs de um estudo numrico que o comportamento de

h
ii
numa regresso
logstica pode ser muito diferente do comportamento de

h
ii
na regresso linear
para uma mesma matrix modelo X.
Tabela 3.6
Possveis valores para algumas medidas de diagnstico segundo
as probabilidades ajustadas.
Probabilidade ajustada
Medida 0,0-0,1 0,1-0,3 0,3-0,7 0,7-0,9 0,9-1,0
t
2
S
i
grande ou moderado moderado ou moderado grande ou
pequeno pequeno pequeno
LD
i
pequeno grande moderado grande pequeno
h
ii
pequeno grande moderado ou grande pequeno
pequeno
A Tabela 3.6 descreve os possveis valores de algumas medidas de di-
agnstico em funo das probabilidades ajustadas. A medida

h
ii
pode ser
interpretada de maneira similar medida h
ii
da regresso normal linear para
0, 1
i
0, 9. No entanto, quando
i
pequena ou alta,

h
ii
ca em geral
pequeno o que pode dicultar a deteco de pontos que estejam mais afasta-
dos no subespao gerado pelas colunas da matrix X. A sugesto, portanto,
214
so os grcos de t
2
S
i
, t
2
D
i
e LD
i
contra as probabilidades ajustadas
i
. Es-
ses grcos podem ser informativos a respeito do posicionamento dos pontos
aberrantes e inuentes com relao s probabilidades ajustadas. Os grcos
dessas quantidades contra

h
ii
podem ser complementares, pelo menos para
vericarmos se as tendncias apresentadas na Tabela 3.11 so conrmadas
para o modelo ajustado.
Outros grcos recomendados em regresso logstica so os grcos da
varivel adicionada e de |
max
| contra
i
.
3.6.9 Aplicaces
Processo infeccioso pulmonar
Voltemos agora ao exemplo discutido na Seo 1.12.2 em que 175 pacientes
com processo infeccioso pulmonar foram classicados de acordo com as vari-
veis tipo de tumor, sexo, idade, nvel de HL e nvel de FF. Para simplicidade
das anlises, iremos reagrupar os nveis de HL e FF de modo que os nveis
de intensidade ausente"e discreto"sejam agora considerados como inten-
sidade baixa"e os nveis moderado"e intenso"sejam agora de intensidade
alta"(ver Tabela 3.7).
Nesse estudo os pacientes foram amostrados retrospectivamente, sendo
que os controles (processo benigno) foram formados por uma amostra de 104
pacientes de um grupo de 270, enquanto que os casos (processo maligno)
foram todos os pacientes diagnosticados com processo infeccioso pulmonar
maligno durante o perodo da pesquisa. Portanto, seguindo a notao da
Seo 3.6.6 , temos que
1
= 1 e
2
= 104/270
1
.
1
Estamos supondo que a razo
1
/
2
= 270/104 vale tambm se as amostras tivessem
sido feitas diretamente da populao
215
Tabela 3.7
Descrio das novas variveis referentes ao exemplo
sobre processo infeccioso pulmonar.
Varivel Descrio Valores
Y Processo Infecioso 1:maligno
0:benigno
IDADE Idade em anos
SEXO Sexo 0:masculino
1:feminino
HL Intensidade de 1:alta
Histicitos-linfcitos 0:baixa
FF Intensidade de 1:alta
Fibrose-frouxa 0:baixa
Aplicaremos a seguir o mtodo de seleo stepwise proposto por Hos-
mer e Lemeshow (1989). Na etapa 1 consideraremos apenas os efeitos princi-
pais. Adotaremos P
E
= 0, 20 (nvel para incluso de covariveis) e P
S
= 0, 25
(nvel para eliminao de covariveis).
No passo 1 inclumos a covarivel IDADE, uma vez que o nvel des-
critivo dessa covarivel foi o menor dentre os nveis descritivos das demais
covariveis e tambm foi menor do que P
E
. No passo seguinte inclumos a co-
varivel HL, e agora com duas covariveis includas no modelo vericamos se
possvel eliminar uma das duas. O maior nvel descritivo da IDADE que
encontra-se na Tabela 3.8 na linha de referncia do passo 3 e abaixo da curva
tipo escada. O nvel descritivo dessa covarivel no superior a P
S
, logo
mantemos a IDADE no modelo. Seguindo essa lgica, encontramos os meno-
res nveis descritivos em cada passo como sendo o primeiro elemento acima
da curva tipo escada. Sendo todos inferiores a P
E
, decidimos pela incluso
de todas as covariveis no modelo. Relativamente eliminao, observamos
que os nveis com asterisco (maiores nveis decritivos) so sempre inferiores
a P
S
, indicando pela manuteno das covariveis no modelo. Em resumo, o
216
modelo resultante na etapa 1 o modelo com todos os efeitos principais.
De forma anloga procedemos a etapa 2, cujos nveis descritivos para
tomada de deciso em cada passo encontram-se na Tabela 3.9. Conclumos
ento que apenas trs interaes de primeira ordem sero includas no modelo,
sendo que nenhuma delas foi excluda posteriormente. Essas interaes so
IDADE HL, HL FF e SEXO FF.
Na etapa 3 nenhuma interao de segunda ordem foi selecionada, uma
vez que o menor nvel descritivo dos testes de incluso foi menor do que P
E
.
Assim, o modelo resultante contm os efeitos principais e trs interaes de
primeira ordem.
Tabela 3.8
Nveis descritivos referentes etapa 1
do processo de seleo stepwise.
Passo IDADE HL SEXO FF
1 0,000 0,000 0,288 0,001
2 0,000 0,000 0,100 0,003
3 0,000
0,000 0,050 0,124

4 0,000 0,000 0,050
0,182
5 0,000 0,000 0,050 0,182
Tabela 3.9
Nveis descritivos referentes etapa 2 do processo de seleo stepwise.
Passo IDA*HL HL*FF SEX*FF IDA*FF IDA*SEX HL*SEX
1 0,012 0,014 0,050 0,056 0,663 0,063
2 0,012 0,027 0,060 0,232 0,218 0,099
3 0,023 0,027
0,012 0,233 0,275 0,176

4 0,028
0,005 0,012 0,207 0,403 0,791

O desvio do modelo foi de D(y; ) = 146, 22 (167 graus de liberdade),
indicando um ajuste adequado. As Figuras 3.1a-3.1d apresentam alguns gr-
cos de diagnstico. Na Figura 3.1a temos o grco de

h
ii
contra os valores
217
ajustados e notamos dois pontos com maior destaque, #6 e #69. No grco
de resduos t
D
i
, Figura 3.1b, a maioria dos pontos cai dentro do intervalo
[-2,2], com apenas duas observaes, #21 e #172, fora do intervalo, porm
muito prximas aos limites. J o grco de inuncia LD
i
destaca novamente
a observao #69 e a observao #172. O paciente #172 do sexo feminino,
tem processo maligno, idade 55 anos e nveis altos para HL e FF. Pelos re-
sultados das estimativas seria mais provvel esperarmos de um paciente com
esse perl um processo benigno. O paciente #69 tambm do sexo femi-
nino, tem 78 anos, nveis altos para HL e FF e no tem processo maligno.
Aqui seria um pouco menos provvel processo benigno para o paciente. Perl
parecido tem o paciente #6. J o paciente #21 tem processo benigno, 82
anos, do sexo feminino e tem nvel alto para HL e baixo para FF. Seria
mais provvel nesse caso processo maligno para o paciente. Finalmente, te-
mos na Figura 3.1d o grco normal de probabilidades para o resduo t
D
i
e
no notamos nenhum indcio de que a distribuio utilizada seja inadequada.
Retirando cada uma das observaes destacadas pelos grcos de diagns-
tico notamos mudana inferencial quando a observao #172 excluda, a
interao SEXO FF deixa de ser signicativa. Ou seja, a signicncia da
interao SEXO FF induzida pela observao #172. Logo, essa interao
deve ser retirada do modelo.
As estimativas dos parmetros do modelo nal sem a interao SEXO FF
bem como os valores padronizados pelos respectivos erros padro aproxima-
dos encontram-se na Tabela 3.10.
Como temos interesse em estudar a associao entre o tipo de processo
infeccioso pulmonar e as covariveis histolgicas HL e FF, formamos algumas
razes de chances envolvendo essas covariveis. Como ilustrao, a razo de
chances de processo infeccioso maligno entre um paciente no nvel alto de HL
218
e um paciente no nvel baixo de HL, que denotaremos por
HL
, supondo que
os pacientes tenham o mesmo sexo, idade e nvel de FF, estimada por
HL
= exp{5, 371 + 0, 061IDADE + 2, 255FF}.
Tabela 3.10
logstico ajustado aos dados sobre processo
infeccioso pulmonar.
Efeito Parmetro Estimativa E/E.Padro
Constante
1
-1,247 -1,36
IDADE
2
0,038 2,23
HL
3
-5,371 -3,34
SEXO
4
0,765 1,60
FF
5
-2,090 -2,36
IDADE*HL
6
0,061 2,18
HL*FF
7
2,255 2,11
Logo, podemos concluir que a chance de processo maligno maior
para pacientes com nvel baixo de HL do que para pacientes com nvel alto
de HL, quando ambos esto no nvel baixo de FF e tambm tenham a mesma
idade. Por outro lado, quando ambos esto na categoria alta de FF,

HL
ca
maior do que um aps a idade de 52 anos (aproximadamente), indicando
uma chance maior de processo maligno para pacientes no nvel alto de HL
aps essa idade.
Analogamente, denotaremos por
FF
a razo de chances de processo
infeccioso maligno entre um paciente com nvel alto de FF e um paciente
com nvel baixo de FF. Supondo que os pacientes so semelhantes nas demais
covariveis esse parmetro estimado por
FF
= exp{2, 090 + 2, 255HL}.
219
Dessa expresso podemos deduzir que a chance de processo maligno maior
para pacientes com intensidade baixa de FF do que para pacientes com in-
tensidade alta de FF, isso no grupo de pacientes com intensidade baixa de
HL. Ocorre o contrrio no grupo de pacientes com intensidade alta de HL.
Na comparao dos pacientes com relao ao sexo temos que a razo
de chances de processo infeccioso pulmonar entre pacientes do sexo feminino
e masculino estimada por

FM
= exp(0, 765)
= 2, 15.
Se temos interesse em prever Pr{Y = 1|x}, probabilidade de um paci-
ente da populao com um determinado conjunto de valores para as covari-
veis estar com processo infeccioso maligno, devemos antes estimar
1
fazendo
a correo
1
=

1
log(270/104) = 1, 247 0, 954 = 2, 201.
Tabela 3.11
Discriminao do modelo logstico ajustado
aos dados sobre processo infeccioso pulmonar.
Classicao Classicao pelo modelo
Correta Benigno Maligno
Benigno 81 23
Maligno 13 58
A regresso logstica tem mltiplas utilidades, entre as quais a possi-
bilidade de tambm ser utilizada em anlise discriminante quando h ape-
nas dois grupos para serem discriminados. O objetivo aqui encontrarmos
um modelo ajustado que melhor discrimine os dois grupos. Como aproxi-
madamente 21% dos 341 pacientes foi diagnosticado com processo maligno
podemos vericar qual a taxa de acertos do modelo ajustado. Um critrio
seria classicarmos com processo maligno todo indivduo com probabilidade
220
0.0 0.2 0.4 0.6 0.8
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Valores Ajustados
A
l
a
v
a
n
c
a
(a)
6
69
0.0 0.2 0.4 0.6 0.8
1
0
1
2
3
Valores Ajustados
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
(b)
21
172
0.0 0.2 0.4 0.6 0.8
0
.
0
0
.
5
1
.
0
1
.
5
Valores Ajustados
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
(c)
69
172
2 1 0 1 2
1
0
1
2
3
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
(d)
Figura 3.1: Grcos de diagnstico referentes ao modelo logstico ajustado
aos dados sobre processo infeccioso pulmonar.
ajustada de pelo menos 0,21. Caso contrrio o indivduo seria classicado
com processo benigno. A Tabela 3.11 apresenta a discrimina ao feita pelo
modelo ajustado aos dados sobre processo infeccioso pulmonar. Temos que
a taxa de acertos de 139/175 = 0,795 (79,5%).
Ocorrncia de vaso-constrio
Como outra aplicao, vamos considerar os dados de um experimento desen-
volvido para avaliar a inuncia da quantidade de ar inspirado na ocorrncia
de vaso-constrio na pele dos dedos da mo (Finney, 1978; Pregibon, 1981).
221
Os dados do experimento so descritos na Tabela 3.12 e tambm no arquivo
pregibon.dat. A resposta, nesse exemplo, a ocorrncia (Y = 1) ou au-
sncia (Y = 0) de compresso de vasos e as covariveis so o logaritmo do
volume e o logaritmo da razo de ar inspirado. Vamos supor para a i-sima
unidade experimental que Y
i
Be(
i
), em que
log
_

i
1
i
_
=
1
+
2
log(volume)
i
+
3
log(razao)
i
,
com
i
denotando a probabilidade de ocorrncia de vaso-constrio.
Tabela 3.12
Dados do experimento sobre a inuncia da razo e do volume de ar
inspirado na ocorrncia de vaso-constrio da pele dos dedos da mo.
Obs Volume Razo Resposta Obs. Volume Razo Resposta
1 3,70 0,825 1 20 1,80 1,800 1
2 3,50 1,090 1 21 0,40 2,000 0
3 1,25 2,500 1 22 0,95 1,360 0
4 0,75 1,500 1 23 1,35 1,350 0
5 0,80 3,200 1 24 1,50 1,360 0
6 0,70 3,500 1 25 1,60 1,780 1
7 0,60 0,750 0 26 0,60 1,500 0
8 1,10 1,700 0 27 1,80 1,500 1
9 0,90 0,750 0 28 0,95 1,900 0
10 0,90 0,450 0 29 1,90 0,950 1
11 0,80 0,570 0 30 1,60 0,400 0
12 0,55 2,750 0 31 2,70 0,750 1
13 0,60 3,000 0 32 2,35 0,030 0
14 1,40 2,330 1 33 1,10 1,830 0
15 0,75 3,750 1 34 1,10 2,200 1
16 2,30 1,640 1 35 1,20 2,000 1
17 3,20 1,600 1 36 0,80 3,330 1
18 0,85 1,415 1 37 0,95 1,900 0
19 1,70 1,060 0 38 0,75 1,900 0
39 1,30 1,625 1
222
As estimativas dos parmetros so descritas na Tabela 3.13 e como
podemos notar as variveis explicativas log(volume) e log(razo) so al-
tamente signicativas. O desvio do modelo foi de D(y; ) = 29, 36 (com 36
graus de liberdade), indicando um ajuste adequado. As Figuras 3.2a-3.2d
descrevem alguns dos grcos sugeridos acima bem como o grco normal
de probabilidades com envelope para o resduo t
D
i
. Na Figura 3.2a temos o
grco de

h
ii
contra os valores ajustados e podemos notar que a observao
#31 destacada mais do que as restantes.
Tabela 3.13
logstico ajustado aos dados sobre
vaso-constrio.
1
-2,875 -2,18
2
5,179 4,85
3
4,562 2,49
Na Figura 3.2b temos o grco de LD
i
contra os valores ajustados e
notamos duas observaes mais discrepantes, #4 e #18, cujos valores ajusta-
dos so menores do que 0, 11. Uma tendncia similar exibida na Figura 3.2c
onde temos o grco de t
2
S
i
contra os valores ajustados. A eliminao da ob-
servao #4 levou s novas estimativas

1
= 5, 204(2, 17),

2
= 7, 452(2, 93)
e

3
= 8, 465(3, 246) com variao, respectivamente, de -81%, 64% e 63%. O
desvio do modelo reduziu para D(y; ) = 22, 42 (35 g.l.), variao de 24%.
Resultado parecido ocorreu com a eliminao da observao #18. Nesse
caso obtemos

1
= 4, 757(2, 008),

2
= 6, 879(2, 718) e

3
= 7, 669(2, 937)
com variao, respectivamente, de -66%, 48% e 51%. O desvio caiu para
D(y; ) = 23, 58 (35 g.l.), reduo de 20%. Mesmo com as variaes despro-
porcionais no houve mudana inferencial. Esses resultados indicam que os
pontos #4 e #18 so inuentes e aberrantes. Note que para os dois casos
223
houve ocorrncia de ar inspirado, porm o valor do volume e da razo so
relativamente baixos contrariando a tendncia observada pelo modelo ajus-
tado. O grco normal de probabilidades para o resduo t
D
i
(Figura 3.2d) no
fornece indcios de afastamentos srios da suposio de distribuio binomial
para a resposta. Podemos notar a maioria dos pontos dentro do envelope
gerado.
Tabela 3.14
Quantidades usadas para o clculo da estatstica

C
referente ao modelo logstico ajustado aos dados
sobre vaso-constrio.
Grupo Obervaes O
i
n
i

i
1 7,9,10,11,32 0 5 0,0024
2 4,18,21,26,30 2 5 0,0459
3 12,13,22,28,38 0 5 0,2737
4 8,19,23,29,37 1 5 0,5113
5 6,24,31,33,39 3 5 0,6728
6 5,15,34,35,36 5 5 0,7956
7 3,14,20,25,27 5 5 0,8974
8 1,2,16,17 4 4 0,9766
Apresentamos na Tabela 3.14 os grupos formados com as observaes
da Tabela 3.12 para o clculo da estatstica

C proposta por Hosmer e Le-
meshow (1989). Foram formados sete grupos com cinco observaes cada e
um grupo com quatro observaes. Os termos para o clculo de

C so dados
abaixo
C = 0, 0120 + 14, 3157 + 1, 8842 + 1, 9391

+ 0, 1203 + 1, 2846 + 0, 5716 + 0, 0958
= 20, 2233,
224
Valores ajustados
A
l
a
v
a
n
c
a
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
31
(a)
Valores ajustados
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
4
0
.
8
1
.
2
4
18
(b)
Valores ajustados
(
R
e
s
i
d
.
S
t
u
d
e
n
t
i
z
a
d
o
)
^
2
0.0 0.2 0.4 0.6 0.8 1.0
0
2
4
6
8
1
0
1
2
1
4
4
18
(c)
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
2
-
1
0
1
2
(d)
aos dados sobre vaso-constrio.
cujo nvel descritivo para uma qui-quadrado com 6 graus de liberdade dado
por P= 0, 0025, indicando que o ajuste no adequado. Por outro lado, se
eliminamos as observaes #4 e #18, obtemos

C = 5, 9374, que leva ao nvel
descritivo P= 0, 4302. Portanto, as duas observaes destacadas pelas an-
lises de diagnstico tm grande inuncia na falta de ajuste detectada pela
estatstica

C. O programa para a gerao do envelope da Figura 3.2d des-
crito no Apndice B. Assumimos que os resultados do ajuste esto disponveis
em fit.model.
225
Preferncia de consumidores
Para ilustrarmos uma terceira aplicao com resposta binria vamos analisar
parte dos dados descritos no arquivo prefauto.dat sobre a preferncia de
consumidores americanos com relao a automveis. Uma amostra aleatria
de 263 consumidores foi considerada. As seguintes variveis foram observadas
para cada comprador: preferncia do tipo de automvel (1: americano, 0:
japons), idade (em anos), sexo (0: masculino; 1: feminino) e estado civil
(0: casado, 1: solteiro). Para maiores detalhes ver Foster, Stine e Waterman
(1998, pgs. 338-339). Na Tabela 3.15 temos a distribuio da preferncia do
comprador segundo o sexo e estado civil, respectivamente.
Tabela 3.15
Distribuio da preferncia do comprador de
automvel segundo o sexo e o estado civil.
Masculino Feminino
Americano 61 (42,4%) 54 (45,4 %)
Japons 83 (57,6%) 65 (54,6 %)
Total 144 119
Casado Solteiro
Americano 83 (48,8%) 32 (34,4 %)
Japons 87 (51,2%) 65 (65,6 %)
Total 170 93
Podemos notar que para ambos os sexos a maior preferncia por
carro japons. Dentre os casados h pequena vantagem por carro japons.
Contudo, essa preferncia bem mais acentuada entre os solteiros. Pelos
boxplots da Figura 3.3 notamos que a idade mediana dos compradores de
automvel americano ligeiramente superior idade mediana dos compra-
dores de automvel japons.
226
2
0
3
0
4
0
5
0
6
0
Japones Americano
I
d
a
d
e
Figura 3.3: Boxplots da idade dos compradores de automveis japons e
americano.
Tabela 3.16
ao modelo logstico ajustado aos dados
sobre preferncia de compradores.
Constante -1,600 -2,31
Idade 0,049 2,30
E.Civil -0,526 -1,94
Denotamos por Y
i
a preferncia com relao ao tipo do automvel pelo
i-simo comprador (1: americano, 0: japons). Vamos supor inicialmente
um modelo logstico sem interao em que Y
i
Be(
i
) com
log
_

i
1
i
_
=
1
+
2
idade
i
+
3
sexo
i
+
4
ecivil
i
,
sendo
i
a probabilidade do i-simo comprador preferir automvel americano.
Aplicando o mtodo AIC retiramos a varivel sexo do modelo. As estimativas
dos parmetros do modelo nal sem interao so descritas na Tabela 3.16.
227
Valores Ajustados
M
e
d
i
d
a

h
0.3 0.4 0.5 0.6 0.7
0
.
0
2
0
.
0
6
0
.
1
0
99
223
(a)
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 50 100 150 200 250
0
.
0
0
.
1
0
0
.
2
0
0
.
3
0
99
(b)
Indice
R
e
s
i
d
u
o

C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
0 50 100 150 200 250
-
2
-
1
0
1
2
(c)
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-3 -1 0 1 2 3
-
2
-
1
0
1
2
(d)
aos dados sobre preferncia de consumidores.
No foi signicativa a incluso no modelo da interao entre a idade e
o estado civil do comprador. Assim, temos que a preferncia por automvel
americano aumenta com a idade do comprador. Com relao ao estado civil
notamos que os casados preferem mais carro americano do que os solteiros.
Essa razo de chances (entre casados e solteiros) por carro americano pode
ser estimada por

= exp(0, 526) = 1, 69. Nos grcos de diagnstico da
Figura 3.4 duas observaes so destacadas como possivelmente pontos de
alvanca e inuentes, #99 (idade de 60 anos, solteira e prefere carro japons)
e #223 (idade de 54 anos, solteiro e prefere carro americano). Porm, no h
indcios de observaes aberrantes nem de afastamentos srios da suposio
228
de distribuio de Bernoulli para a resposta. Na Tabela 3.17 so apresentadas
as estimativas dos parmetros sem essas duas observaes. Embora ocorram
algumas variaes desproporcionais no h mudana inferencial.
Tabela 3.17
logstico ajustado aos dados sobre preferncia
de consumidores sem as observaes #99 e #223.
Efeito Estimativa E/E.Padro Variao
Constante -1,942 -2,65 -17,5%
Idade 0,060 2,65 18,3%
E.Civil -0,474 -1,72 9,9%
Efeito Estimativa E/E.Padro Variao
Constante -1,463 -2,07 8,7%
Idade 0,045 2,05 -8,9%
E.Civil -0,550 -2,02 -4,8%
3.6.10 Modelos de dose-resposta
O modelo logstico frequentemente utilizado em Toxicologia no estudo do
comportamento de determinados medicamentos, que medido pela probabi-
lidade (x) de algum efeito produzido pelo medicamento em estudo, segundo
a dose (ou a log-dose) x aplicada. Essa probabilidade pode ser escrita pela
expresso geral
(x) =
_
x
f(u)du, (3.15)
em que f() representa uma funo densidade de probabilidade, tambm co-
nhecida como funo de tolerncia. Como vimos na Seo 1.3.1, alguns can-
didatos naturais para f(u) so as funes de densidade da normal padro,
da distribuio logstica e da distribuio do valor extremo, as quais levam
aos modelos probito, logstico e complementar log-log, respectivamente. Uti-
lizamos o preditor linear =
1
+
2
x no lugar de x em (3.15) a m de
ampliarmos o leque de opes para (x).
229
Os modelos de dose-resposta visam no somente a predio da pro-
babilidade de sucesso (x) para uma dosagem especca x, mas tambm a
determinao da dosagem necessria para atingirmos uma probabilidade de
sucesso p. Essa dosagem chamada de dose letal. A notao usual para uma
dose letal de 100p% dada por DL
100p
. Logo,
p = (
1
+
2
DL
100p
), 0 < p < 1.
A dose letal mais comum em Toxicologia a dose mediana (DL
50
), embora
em certos casos sejam tambm de interesse doses extremas, tais como DL
1
ou DL
99
. Devemos observar que hoje em dia modelos de dose-resposta so
denidos em vrias reas do conhecimento, em que a dose pode ser a idade,
o peso, a resistncia de um material etc.
Supondo o modelo logstico com preditor linear =
1
+
2
x, a esti-
mativa de mxima verossimilhana de DL
100p
ca, pela propriedade de inva-
rincia, dada por
DL
100p
= d(
) =
1
2
_
log
_
p
1 p
_
1
_
,
em que

a estimativa de mxima verossimilhana de = (
1
,
2
)
T
.
A varincia assinttica de

DL
100p
pode ser obtida aps uma aproxima-
o de primeira ordem por srie de Taylor de d(
) em torno de , levando
ao seguinte:
Var
A
[
DL
100p
] = D()
T
(X
T
VX)
1
D(),
em que
D() = d()/ =
_
1
2
,
1
2
2
_
1
log
_
p
1 p
___
T
.
Lembramos que (X
T

VX)
1
contm as varincias e covarincia estimadas de
1
e

2
. Portanto, um intervalo de conana assinttico de coeciente (1)
230
para DL
100p
ca dado por
DL
100p
z
(1/2)
_
Var
A
[d(
)].
3.6.11 Aplicaes
Exposio de besouros
Tabela 3.18
Mortalidade de besouros expostos
a disulfeto de carbono gasoso.
Dose Besouros Besouros
log
10
CS
2
expostos mortos
1,6907 59 6
1,7242 60 13
1,7552 62 18
1,7842 56 28
1,8113 63 52
1,8369 59 53
1,8610 62 61
1,8839 60 60
Em Bliss (1935) (ver tambm Silva, 1992) encontramos uma situao
tpica para o ajuste de um modelo logstico de dose-resposta. O estudo
baseia-se no comportamento de besouros adultos exposio de disulfeto de
carbono gasoso (CS
2
) durante cinco horas. Os resultados obtidos a partir dos
481 besouros expostos segundo diferentes doses so apresentados na Tabela
3.18 e no arquivo besouros.dat. Ajustando um modelo logstico do tipo
logit{(x)} =
1
+
2
x aos dados, em que x denota a dose de CS
2
, obtemos as
estimativas

1
= 60, 72(5, 18),

2
= 34, 27(2, 91) e Cov(
1
,

2
) = 15, 04.
O desvio do modelo foi de D(y; ) = 11, 23 para 6 graus de liberdade, o
que leva a um nvel descritivo de P= 0, 0815, indicando um ajuste razovel.
O grco de envelope descrito na Figura 3.5 conrma essa falta de ajuste.
231
Talvez a incluso de um termo quadrtico ou mesmo o ajuste de um modelo
logstico no linear (ver Silva, 1992) possam melhorar a qualidade do ajuste.
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
-
3
-
2
-
1
0
1
2
Figura 3.5: Grco normal de probabilidades referente ao modelo logstico
ajustado aos dados sobre exposio de besouros.
Uma vez conhecida a covarincia assinttica entre

1
e

2
, podemos
calcular a varincia assinttica de DL
100p
para alguns valores de p e con-
sequentemente os intervalos assintticos de conana. Em particular, para
p = 0, 50, obtemos
DL
50
=
1
2
_
log
_
0, 5
1 0, 5
_
1
_
=
2
=
60, 72
34, 27
= 1, 772.
232
Um intervalo de conana assinttico de 95% para DL
50
ca ento dado por
1, 772 1, 96
(0, 029, 0, 052)

T
(X
T
VX)
1
_
0, 029
0, 052
_
= 1, 772 1, 96
_
0, 00001488
= [1, 764; 1, 780].
dose
P
o
r
p
o
r
c
a
o

d
e

M
o
r
t
o
s
1.65 1.70 1.75 1.80 1.85 1.90
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Figura 3.6: Modelo logstico ajustado proporo de besouros mortos.
A Figura 3.6 descreve a curva ajustada e as frequncias observadas.
Como podemos observar os pontos abaixo de (x) = 0, 50 parecem mais mal
ajustados do que os pontos com resposta estimada acima desse valor. Isso
sugere que um modelo binomial com ligao complemento log-log poderia ser
mais apropriado. A parte sistemtica desse modelo ca expressa na forma
log{log(1 (x))} =
1
+
2
x,
233
em que x denota a dose de CS
2
. As estimativas paramtricas cam dadas
por

1
= 39, 57(3, 24),

2
= 22, 04(1, 80) e Cov(
1
,

2
) = 5, 82. O desvio
do modelo caiu para D(y; ) = 3, 45 com 6 graus de liberdade, que leva a
um nvel descritivo de P= 0, 751. Logo, no rejeitamos o modelo. O grco
da curva ajustada (Figura 3.7a) e o grco normal de probabilidades (Figura
3.7b) conrmam essa indicao de modelo bem ajustado.
dose
P
o
r
p
o
r
c
a
o

d
e

M
o
r
t
o
s
1.65 1.70 1.75 1.80 1.85 1.90
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
(a)
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-1.5 -0.5 0.0 0.5 1.0 1.5
-
3
-
2
-
1
0
1
2
(b)
Figura 3.7: Curva ajustada para a proporo de besouros mortos (a) e grco
normal de probabilidades sob o modelo complementar log-log (b).
Para o modelo com ligao complemento log-log a estimativa de m-
xima verossimilhana de DL
100p
ca dada por
DL
100p
= d(
) =
1
2
_
log{log(1 p)}

1
_
,
para a qual obtemos a varincia assinttica
Var
A
[
DL
100p
] = D()
T
(X
T
WX)
1
D(),
234
em que
D() = d()/ =
_
1
2
,
1
2
2
{
1
log(log(1 p))}
_
T
,
com W sendo uma matriz diagonal de pesos dados por
i
= n
i
1
i
(1
i
)log
2
(1
i
) i = 1, . . . , 8. Em particular, para p = 0, 50, obtemos
DL
50
=
1
2
_
log{log(1 0, 5)}

1
_
=
1
22, 04
(0, 3665 + 39, 57)
= 1, 779.
Logo, um intervalo assinttico de 95% para DL
50
ca dado por
1, 779 1, 96
(0, 0454, 0, 0807)

T
(X
T
WX)
1
_
0, 0454
0, 0807
_
= 1, 779 1, 96
_
0, 00001606
= [1, 771; 1, 787].
Podemos notar que as estimativas intervalares para DL
50
so praticamente
as mesmas sob os dois modelos ajustados.
Garotas de Varsvia
Os problemas de dose-resposta no se esgotam em Toxicologia. Milecer e
Szczotka (1966) investigam a idade do incio da menstruao em 3918 ga-
rotas de Varsvia. Para 25 mdias de idade foram observadas a ocorrncia
(Y = 1) ou no (Y = 0) do incio de perodos de menstruao nas adoles-
centes. Os dados desse estudo so apresentados na Tabela 3.19 e no arquivo
meninas.dat. Adotamos o modelo logstico linear
log
_
(x)
1 (x)
_
=
1
+
2
x,
235
em que (x) = Pr{Y = 1|x} e x denota a idade mdia. As estimativas
de mxima verossimilhana deram

1
= 21, 23(0, 769),

2
= 1, 63(0, 059)
e Cov(
1
,

2
) = 0, 045. Na Figura 3.8 so apresentadas a curva ajustada
e as frequncias observadas. O desvio do modelo foi de D(y; ) = 26, 80
(23 graus de liberdade) para um nvel descritivo de P= 0, 264, indicando um
ajuste adequado.
Tabela 3.19
Ocorrncia do incio da menstruao em garotas de Varsvia.
Nmero de garotas Nmero de garotas
Idade Menstruadas Entrevistadas Idade Menstruadas Entrevistadas
9,21 0 376 13,08 47 99
10,21 0 200 13,33 67 106
10,58 0 93 13,58 81 105
10,83 2 120 13,83 88 117
11,08 2 90 14,08 79 98
11,33 5 88 14,33 90 97
11,58 10 105 14,58 113 120
11,83 17 111 14,83 95 102
12,08 16 100 15,08 117 122
12,33 29 93 15,33 107 111
12,58 39 100 15,58 92 94
12,83 51 108 15,83 112 114
17,53 1049 1049
A estimativa da idade mediana de incio do perodo de menstruao
ca portanto dada por
DL
50
=
21, 23
1, 63
= 13, 02,
com o seguinte intervalo assinttico de conana de 95%:
13, 02 1, 96
_
0, 004524 = [12, 89; 13, 15].
236
Idade
P
o
r
p
o
r
c
a
o

d
e

G
a
r
o
t
a
s

M
e
n
s
t
r
u
a
d
a
s
10 12 14 16 18
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Figura 3.8: Curva ajustada pelo modelo logstico linear para a proporo de
garotas de Varsvia.
Pelo grco de envelope descrito na Figura 3.9a notamos que os resduos
apresentam uma tendncia sistemtica dentro do envelope gerado, sugerindo
a incluso de um termo quadrtico na parte sitemtica do modelo. O ajuste
de um modelo com parte sistemtica dada por
(x) =
1
+
2
x +
3
x
2
forneceu as seguintes estimativas:

1
= 30, 96(5, 24),

2
= 3, 12(0, 78) e
3
= 0, 06(0, 03) com desvio D(y, ; ) = 23, 40 (22 graus de liberdade) para
um nvel descritivo de P= 0, 38. O grco de envelope descrito na Figura
3.9b conrma a adequao do modelo com termo quadrtico.
Stukel (1988) (ver tambm Silva, 1992) mostra que o uso de um modelo
logstico no linear pode melhorar substancialmente a qualidade do ajuste dos
modelos de dose-resposta apresentados nesta seo.
237
3.6.12 Estimao da dose letal
Intervalos de conana aproximados para a dose letal DL
100p
podem ser cons-
trudos utilizando a varincia assinttica para

DL
100p
, conforme descrito na
seo anterior. H, contudo, um outro mtodo que baseado no teorema de
Fieller (1954) e ser descrito a seguir. Chamamos =

0
1
, em que
0
e
1
so
estimados por

0
e

1
e assumimos que essas estimativas so normalmente
distribudas com mdias
0
e
1
, varincias v
00
e v
11
e covarincia v
01
. De-
nimos a funo

=

1
. Ento, se

0
e

1
so estimativas no viesadas
de
0
e
1
, obtemos E(
) = 0. A varincia de

ca, portanto, dada por
v = Var(
) = v
00
+
2
v
11
2v
01
. (3.16)
Desde que

0
e

1
so normalmente distribudos, ento

tambm normal-
mente distribudo. Consequentemente, a varivel
(
1
)/
v
segue uma distribuio normal padro. Assim, um intervalo assinttico de
conana para com coeciente (1 ) formado pelos valores de tais
que
|

1
| z
(1/2)
v.
Os limites desse intervalo de conana saem da equao quadrtica
2
0
+
2
2
1
2
1
z
2
(1/2)
v = 0,
que, aps algumas manipulaes algbricas e usando (3.16), ca dada por
(
2
1
z
2
(1/2)
v
11
)
2
+ (2v
01
z
2
(1/2)
2
1
) +

2
0
v
00
z
2
(1/2)
= 0.
Portanto, as razes da equao acima formam os limites inferior e superior do
intervalo de conana para . Basta chamarmos =
1
/
2
e aplicarmos os
238
resultados acima para encontrarmos um intervalo assinttico de coeciente
(1 ) para DL
50
.
(a) Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
(b) Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
Figura 3.9: Grcos normais de probabilidades para os modelos logstico com
componente sistemtica linear (a) e no linear (b) ajustados aos dados sobre
garotas de Varsvia.
3.6.13 Modelos de retas paralelas
Modelos de retas paralelas so comumente aplicados na rea de Farmacologia
para compararmos a ecincia de drogas do mesmo tipo, ou seja, com ao
similar (ver, por exemplo, Finney, 1971; Collett, 1991). Nesses estudos,
o interesse principal compararmos as potncias entre as drogas denindo
uma droga particular como nvel base ou droga padro. Para aplicarmos
esses modelos em experimentos com respostas binrias assumimos que Y
ijk
,
o efeito produzido pela j-sima dose correspondente i-sima droga no k-
239
simo indivduo, i = 1, . . . , g, j = 1, . . . , d
i
e k = 1, . . . , n
ij
, segue uma
distribuio de Bernoulli com probabilidade de sucesso
ij
denida tal que
g(
ij
) =
i
+ logx
ij
, (3.17)
e que as variveis Y
ijk
s so mutuamente independentes. Se tomarmos a
primeira droga como padro, a potncia
i
da i-sima droga com relao
primeira denida por
log
i
= (
i
1
)/,
i = 1, . . . , g. Essa suposio leva seguinte relao:
g(
ij
) =
1
+ log
i
x
ij
,
isto , x unidades da droga i tm o mesmo efeito que
i
x unidades da primeira
droga.
Aplicao
A Tabela 3.20 resume os resultados de um experimento (ver Collett, 1991)
em que trs inseticidas so aplicados num determinado tipo de inseto e
vericado o nmero de sobreviventes para cada dose aplicada.
Tabela 3.20
Mortalidade de insetos segundo as doses de trs inseticidas.
Dose mg/cm
2
Inseticida 2,00 2,64 3,48 4,59 6,06 8,00
DDT 3/50 5/49 19/47 19/50 24/49 35/50
-BHC 2/50 14/49 20/50 27/50 41/50 40/50
DDT + -BHC 28/50 37/50 46/50 48/50 48/50 50/50
Ajustando o modelo (3.17) com ligao logito aos dados, obtemos as
estimativas
1
= 4, 555(0, 361),
2
= 3, 842(0, 333),
3
= 1, 425(0, 285)
240
e

= 2, 696(0, 214), com desvio dado por D(y; ) = 21, 282, para 14 graus
de liberdade, P= 0, 0946. Isso quer dizer que o ajuste do modelo de retas
paralelas parece ser razovel.
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
2
-
1
0
1
2
3
Figura 3.10: Grco normal de probabilidades para o modelo logstico de
retas paralelas ajustado aos dados sobre trs tipos de inseticida.
Temos, portanto, os seguintes ajustes para as trs drogas:
log
_

1
(x
j
)
1
1
(x
j
)
_
= 4, 555 + 2, 696logx
j
(DDT);
log
_

2
(x
j
)
1
2
(x
j
)
_
= 3, 842 + 2, 696logx
j
(BHC) e
log
_

3
(x
j
)
1
3
(x
j
)
_
= 1, 425 + 2, 696logx
j
(DDT + BHC),
para j = 1, . . . , 6. Notamos, pelas estimativas, que h um aumento de
potncia quando as drogas DDT e -BHC so misturadas. Em particu-
241
lar, a potncia da mistura com relao s drogas DDT e -BHC esti-
mada, respectivamente, por
1
= exp{(1, 425 + 4, 555)/2, 696} = 3, 19 e

2
= exp{(1, 425 + 3, 842)/2, 696} = 2, 45.
Pelo grco normal de probabilidades (Figura 3.10), notamos que to-
dos os resduos caem dentro do envelope gerado. No entanto, parece haver
uma tendncia no grco, uma vez que os resduos negativos apresentam-se
ligeiramente abaixo da mdia enquanto os resduos positivos apresentam-se
ligeiramente acima. Isso pode ser um indcio de sobredisperso, isto , que as
rplicas (para cada dose e cada inseticida) no so totalmente independentes.
Em Collett (1991, Cap. 6) h uma discusso sobre o assunto. Apresentare-
mos a seguir uma abordagem para esse tipo de problema.
3.6.14 Sobredisperso
Sobredisperso ou variao extrabinomial um fenmeno comum que ocorre
na modelagem de dados binrios agrupados e cuja ocorrncia caracterizada
quando a variao observada excede aquela assumida pelo modelo (ver, por
exemplo, Hinde e Demtrio, 1998). Em particular em regresso logstica,
quando o desvio D(y; ) maior que o nmero de graus de liberdade (g p),
pode haver indcios de sobredisperso, em que g o nmero de grupos. Isso
pode ser avaliado mais precisamente pelo nvel descritivo do teste de ajus-
tamento comparando D(y; ) com os percentis da distribuio qui-quadrado
com (g p) graus de liberdade.
Diferentes circunstncias, entretanto, podem causar um valor alto para
o desvio. Algumas delas representam uma sobredisperso aparente. Por
exemplo, alguns pontos aberrantes podem aumentar substancialmente o valor
do desvio e a simples eliminao desses pontos pode reduzir as evidncias de
sobredisperso. Outra causa aparente de sobredisperso a ausncia de
242
algum termo extra na parte sistemtica do modelo. Medidas de diagnstico
so ferramentas importantes para detectarmos o fenmeno. Em sntese, h
duas possveis causas de sobredisperso: correlao entre as rplicas binrias
ou variao entre as probabilidades de sucesso de um mesmo grupo. Do ponto
de vista prtico difcil distinguirmos entre os dois casos, contudo, como
veremos a seguir, os procedimentos estatsticos para tratarmos o problema
podem ser os mesmos.
Caso I
Vamos supor inicialmente a existncia de g grupos de modo que para o i-simo
grupo sejam observadas n
i
repeties de uma varivel aleatria Y
ij
Be(
i
)
(Bernoulli com probabilidade de sucesso
i
). O nmero total de sucessos no
i-simo grupo ser denido por
Y
i
= Y
i1
+ + Y
in
i
.
Segue que E(Y
ij
) =
i
e Var(Y
ij
) =
i
(1
i
). Vamos supor adicionalmente
a existncia de correlao entre as repeties do i-simo grupo. Logo,
Var(Y
i
) =
n
i
j=1
Var(Y
ij
) +
n
i
j=1
n
i
k=1,k=j
Cov(Y
ij
, Y
ik
).
Se essa correlao constante, Corr(Y
ij
, Y
ik
) = para j = k, ento teremos
que Cov(Y
ij
, Y
ik
) =
i
(1
i
). Da obtemos
Var(Y
i
) =
n
i
j=1
i
(1
i
) +
n
i
j=1
n
i
k=1,k=j
i
(1
i
)
= n
i
i
(1
i
) + n
i
(n
i
1)
i
(1
i
)
=
2
i
n
i
i
(1
i
),
em que
2
i
= 1 + (n
i
1). Se exigido que
2
i
> 0, ento devemos ter
1 + (n
i
1) > 0,
243
que implica em > 1/(n
i
1). Portanto, haver a restrio
1
n
i
1
1.
Assim, assumir valores negativos apenas para n
i
pequeno. Caso contrrio,
assumir valores positivos. Logo, teremos em geral Var(Y
i
) > n
i
i
(1
i
)
(sobredisperso).
Caso II
Vamos supor agora que p
i
representa a probabilidade de sucesso nas respostas
do i-simo grupo tal que E(p
i
) =
i
e Var(p
i
) =
i
(1
i
), 0. Temos
portanto um modelo de efeito aleatrio, que reduz ao modelo usual de efeito
xo se tomarmos = 0. Assumimos ainda que Y
ij
|p
i
Be(p
i
) de onde segue
que E(Y
ij
|p
i
) = p
i
e Var(Y
ij
|p
i
) = p
i
(1 p
i
). Da obtemos
E(Y
i
) = E{E(Y
i
|p
i
)} = n
i
i
e
Var(Y
i
) = E{Var(Y
i
|p
i
)} + Var{E(Y
i
|p
i
)}
= n
i
i
(1
i
)(1 ) + n
2
i
i
(1
i
)
= n
i
i
(1
i
){1 + (n
i
1)},
que coincidem com os resultados obtidos para o primeiro caso. No entanto
aqui temos a restrio 0.
Estimao
A estimao de tem sido discutida em vrios contextos. No primeiro caso,
por exemplo, pode ser consistentemente estimado por
=
g
i=1
<
r
P
i
r
P
i
/(N p), (3.18)

244
em que r
P
i
= (y
i

i
)/
_

i
(1
i
) o resduo de Pearson estimado,
N =
1
2
g
i=1
n
i
(n
i
1) e
i
a estimativa de mxima verossimilhana de
i
supondo = 0. Podemos, contudo, estimar e simultaneamente atra-
vs de um processo iterativo. Uma proposta o uso de equaes de estimao
generalizadas (Liang e Zeger, 1986) as quais sero discutidas no Captulo 5.
As novas estimativas, denotadas por

G
e

, saem do sistema de equaes
g
i=1
{1 + (n
i
1)
}
1
x
i
(y
i
n
i

i
) = 0.
Dada uma estimativa inicial para , que pode ser

, temos o seguinte processo
iterativo para obter

G
:
(m+1)
=
(m)
+{
g
i=1
(m)
i
x
i
x
T
i
}
1
g
i=1
{
(m)
i
x
i
(y
i
n
i
(m)
i
)/n
i
(m)
i
(1
(m)
i
)},
(3.19)
m = 0, 1, 2 . . ., em que
i
= n
i
i
(1
i
)/{1+(n
i
1)
}. O processo iterativo
(3.19) alternado com (3.18) at chegarmos convergncia. Podemos mos-
trar que o estimador

G
consistente e assintoticamente normal. A varincia
assinttica de

G
dada por
Var(
G
) = {
g
i=1
i
x
i
x
T
i
}
1
.
H tambm uma proposta de varincia assinttica robusta no caso da estru-
tura de correlao ter sido denida incorretamente, que dada por
Var(
G
) = {
g
i=1
i
x
i
x
T
i
}
1
{
g
i=1
i
x
i
x
T
i
}{
g
i=1
i
x
i
x
T
i
}
1
,
em que
i
= {1 + (n
i
1)}
2
(y
i
i
)(y
i

i
). Um desvio corrigido
para esse modelo ca dado por D(y;
G
) =
g
i=1
{1 +(n
i
1)
}d
2
i
, em que d
2
i
o i-simo componente do desvio de um modelo binomial, avaliado em

G
.
245
Apresentamos a seguir os procedimentos para resolvermos (3.19) no R.
Inicialmente iremos propor uma funo corpearson para obtermos (3.18).
Denotaremos os vetores (y
1
/n
1
, . . . , y
g
/n
g
)
T
, (y
1
, . . . , y
g
)
T
e (n
1
, . . . , n
g
)
T
por
fr, yt e nt, respectivamente, e o nmero de parmetros por npar. A funo
denida por
corpearson = function(fr, yt, nt, npar) {
nt1 = 0.5*sum(nt*(nt-1))
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum1 = sum(sum1)
rho = sum1/(nt1-npar)
rho }.
Vamos supor que temos duas variveis explicativas representadas por x1 e
x2 sem intercepto e que os resultados do ajuste do modelo supondo inde-
pendncia sejam colocados em fit.model. Em fit.gee so armazenados os
resultados do processo iterativo dado em (3.19) e vamos supor 10 iteraes.
Seguem os comandos
fit.model = glm(resp x1 + x2 - 1, family=binomial)
eta = predict(fit.model)
fr = fitted(fit.model)
rr = corpearson(fr, yt, nt, npar)
i = 1
while(i <= 10) {
fit.gee = glm(resp x1 + x2 -1, family=binomial, start=
mu = exp(eta)/(1 + exp(eta)),
maxiter = 1,
weights = 1/(1 + (nt - 1)*rr))
246
eta = predict(fit.gee)
fr = fitted(fit.gee)
rr = corpearson(fr, yt, nt, npar)
i = i + 1 }.
A estimativa nal da correlao est armazenada em rr. Para rodarmos os
programas descritos acima no R colocamos inicialmente a funo corpearson
num arquivo externo, por exemplo denominado corr.s, e executamos o
mesmo atravs do comando abaixo
source(corr.s).
Ento a funo corpearson estar instalada. Em seguida devemos fazer
o mesmo para ajustarmos o modelo colocando os demais comandos num
arquivo externo, por exemplo denominado super.s, fazendo o seguinte:
source(super.s).
Teste de ausncia de sobredisperso
Podemos ter interesse particular em testar a hiptese de ausncia de sobre-
disperso H
0
: = 0 contra H
1
: > 0. Como o conhecimento da distribuio
de Y
ij
bastante complexo sob a hiptese alternativa, o que inviabilizaria a
aplicao de testes tradicionais tais como razo de verossimilhanas, Wald
e escore, propomos a aplicao de um teste tipo escore que requer apenas o
conhecimento dos dois primeiros momentos de Y
ij
e a estatstica do teste
avaliada sob a hiptese nula (modelo binomial de respostas independentes).
A estatstica do teste (ver Paula e Artes, 2000) assume a forma
S
=
g
i=1
M
i
_
g
i=1
M
2
i
,
em que

M
i
=
<
r
P
i
r
P
i
de modo que H
0
seja rejeitada quando
S
>
z
(1)
. Podemos mostrar que essa estatstica corresponde forma padroni-
247
zada (sob H
0
) de

. Para calcularmos
S
propomos a funo abaixo em que
fr denota os valores ajustados sob a hiptese nula.
escore = function(fr,yt,nt) {
sum1 = (0.5*yt*(yt-1) - fr*(nt-1)*yt +
0.5*fr*fr*nt*(nt-1))/(fr*(1-fr))
sum2 = sum(sum1*sum1)
sum1 = sum(sum1)
escore = sum1/sqrt(sum2)
escore }.
Quase-Verossimilhana
Uma outra possibilidade de estudarmos o fenmeno de sobredisperso atra-
vs do uso do modelo beta-binomial em que Y
i
| B(n
i
, ) enquanto
segue uma distribuio beta. Podemos mostrar que a varincia de Y
i
dada
por
Var(Y
i
) = n
i
i
(1
i
){1 + (n
i
1)},
em que
i
e dependem dos parmetros da distribuio beta. A estimao
de bastante complexa nesse caso requerendo o uso de mtodos iterativos
e de integrao numrica (ver, por exemplo, Collett, 1991, Cap. 6).
Podemos ainda supor
2
i
=
1
, estimarmos consistentemente dos
dados ou do modelo ajustado e substituirmos a estimativa obtida nas quan-
tidades que envolvem . Quando n
i
grande, i, podemos estimar direta-
mente do desvio
1
=
D(y; )
g p
.
248
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
Figura 3.11: Grco normal de probabilidades para o resduo corrigido para
o modelo logstico de retas paralelas ajustado aos dados sobre trs tipos de
inseticida.
No caso de n
i
pequeno, para algum i, recomendamos a estimativa abaixo
1
=
1
g p
g
i=1
(y
i
n
i

i
)
2
n
i

i
(1
i
)
,
em que p denota o nmero de parmetros da parte sistemtica do modelo
e
1
, . . . ,
g
so as probabilidades ajustadas nos g grupos. Sob a hiptese
de que o modelo verdadeiro, essa estimativa tambm consistente para .
Essa opo um caso particular de modelos de quase-verossimilhana que
sero discutidos no Captulo 5.
No exemplo da seo anterior, envolvendo a comparao de trs inse-
ticidas, temos um total de 18 grupos com probabilidades ajustadas
i
(x
j
),
i = 1, 2, 3 e j = 1, . . . , 6. Como n
i
= 50 para a maioria dos grupos e prximo
a esse valor para os demais grupos, podemos estimar consistentemente
249
atravs de
1
=
D(y; )
g p
=
21, 282
14
= 1, 52.
Algumas quantidades que envolvem devero ser corrigidas,
Var(
) =

1
(X
T
VX)
1
,
D
(y; ) =

D(y; ) e
t
D
i
=
_
t
D
i
. O novo grco normal de probabilidades, agora com t
D
i
,
apresentado na Figura 3.11 e no apresenta indcios de afastamentos srios
das suposies feitas para o modelo. importante observarmos que o novo
resduo t
D
i
no corresponde ao componente do desvio de nenhum modelo
particular. Nos modelos de quase-verossimilhana a distribuio da resposta
em geral desconhecida e o uso de D
(y; ) deve ser encarado de forma

descritiva.
Aplicao
Collett (1991, Seo 6.9) descreve um experimento com duas espcies de
rotifers, um tipo microscpico de invertebrado aqutico. O objetivo do ex-
perimento determinar a densidade relativa para cada uma das espcies.
Foi utilizado um mtodo indireto que consiste em centrifugar os animais em
recipientes com densidades relativas de uma determinada substncia e ento
utilizar uma regresso logstica para ajustar a proporo de rotifers que per-
manece suspensa segundo a densidade relativa. A densidade relativa de cada
espcie pode ser estimada pela DL
50
, que nesse caso representa a densidade
relativa da substncia que deixa suspenso 50% de rotifers.
Seja Y
ij
o nmero de animais da i-sima espcie que permanecem sus-
pensos num recipiente com densidade relativa d
j
da soluo, onde foram
250
colocados n
ij
rotifers. Assumimos inicialmente que Y
ij
B(n
ij
,
ij
), i = 1, 2
e j = 1, . . . , 20, em que
log
_

ij
1
ij
_
=
i
+
i
d
j
.
Tabela 3.21
Distribuio de rotifers das duas espcies.
Polyarthra major Keratella cochlearis
Densidade Suspensos Expostos Suspensos Expostos
1,019 11 58 13 161
1,020 7 86 14 248
1,021 10 76 30 234
1,030 19 83 10 283
1,030 9 56 14 129
1,030 21 73 35 161
1,031 13 29 26 167
1,040 34 44 32 286
1,040 10 31 22 117
1,041 36 56 23 162
1,048 20 27 7 42
1,049 54 59 22 48
1,050 20 22 9 49
1,050 9 14 34 160
1,060 14 17 71 74
1,061 10 22 25 45
1,063 64 66 94 101
1,070 68 86 63 68
1,070 488 492 178 190
1,070 88 89 154 154
Na Tabela 3.21 e no arquivo rotifers.dat so apresentados para cada
espcie a densidade relativa da substncia, o nmero de rotifers expostos
251
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
6
-
4
-
2
0
2
4
6
Figura 3.12: Grco normal de probabilidades do modelo logstico ajustado
aos dados sobre rotifers.
e o nmero de rotifers em suspenso. Para a espcie Polyathra as esti-
mativas de mxima verossimilhana so dadas por
1
= 109, 72(5, 22) e
1
= 105, 67(5, 02), enquanto que para a espcie Keratella obtemos
2
=
114, 35(4, 03) e

2
= 108, 75(3, 86). Embora essas estimativas sejam alta-
mente signicativas, o desvio do modelo D(y; ) = 434, 02 (36 graus de liber-
dade) indica para um ajuste inadequado. O grco normal de probabilidades
descrito na Figura 3.12 conrma a sobredisperso. Segundo Collett (1991,
Cap. 6) a sobredisperso nos dados pode ter sido causada por uma poss-
vel m distribuio dos animais nos recipientes, uma vez que rotifers mais
jovens so menos densos do que os mais maduros. Collett (1991) prope
um modelo logstico com efeito aleatrio para ajustar a proporo de ani-
mais em suspenso e consegue uma reduo substancial no valor do desvio.
252
Vamos assumir, alternativamente, o modelo proposto na Seo 3.6.14, que
com uma adaptao de notao corresponde a assumirmos E(Y
ij
) = n
ij
ij
e Var(Y
ij
) = n
ij
ij
(1
ij
){1 + (n
ij
1)}, em que denota a correlao
intraunidade experimental.
Valores ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
0.0 0.2 0.4 0.6 0.8
-
3
-
2
-
1
0
1
16
Figura 3.13: Grco de resduos de Pearson contra os valores ajustados para
o modelo logstico de sobredisperso ajustado aos dados sobre rotifers.
Usando o processo iterativo dado na seo anterior obtemos as novas
estimativas
1
= 90, 64(13, 18),

1
= 87, 22(12, 66),
2
= 117, 25(14, 91),
2
= 111, 45(14, 21) e

= 0, 0815. Pela Figura 3.13 notamos que exceto a
observao # 16, que corresponde a uma unidade experimental com baixa
proporo de rotifers, 10/22, para uma densidade alta, os demais resduos
permanecem no intervalo [-2,2] e no apresentam nenhuma tendncia siste-
253
mtica contra os valores ajustados. A aplicao da estatstica
S
para testar
H
0
: = 0 contra H
1
: > 0 forneceu o valor
S
= 3, 126, com nvel descritivo
P= 0, 0009, indicando fortemente pela rejeio da hiptese nula. Portanto,
h indcios de sobredisperso nos dados.
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 5 10 15 20 25 30
0
.
0
0
.
2
0
.
4
0
.
6
18
28
Indice
R
e
s
i
d
u
o

C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
0 5 10 15 20 25 30
0
1
2
3
Figura 3.14: Grcos de diagnstico para o modelo logstico condicional
aplicado aos dados sobre diabetes.
3.6.15 Modelo logstico condicional
Em alguns estudos de caso e controle ou de seguimento o nmero de estratos
formados pode ser relativamente grande. Isso ocorre em particular nos estu-
dos emparelhados de caso e controle, em que a inuncia de fatores suspeitos
de confundimento controlada atravs de emparelhamentos de casos com
controles, segundo alguns nveis desses fatores. Para cada emparelhamento
254
temos um estrato. Assim, se adotado um modelo logstico linear, alm
dos parmetros correspondentes aos efeitos includos no modelo, temos um
parmetro (intercepto) para cada estrato. Nos casos de estratos com poucas
observaes, o nmero de parmetros pode ser da mesma ordem do nmero
total de observaes, o que em geral leva a estimativas viesadas (ver Cox e
Hinkley, 1974, p. 292).
Como ilustrao, vamos supor um estudo de caso e controle com k
emparelhamentos do tipo 1:1 (1 caso por 1 controle) segundo os nveis de um
fator binrio de exposio representado pela varivel X (X = 1 presena da
exposio, X = 0 ausncia da exposio). Denotamos por Y
i
(x) o resultado
da resposta para o indivduo do i-simo estrato com X = x (Y
i
(x) = 1 caso,
Y
i
(x) = 0 controle). Vamos supor que Y
i
(x) Be{
i
(x)}, em que
log
_

i
(x)
1
i
(x)
_
=
i
+ x.
A razo de chances de ser caso entre o indivduo exposto e o indivduo no
exposto no i-simo estrato ca dada por
=

i
(1)/{1
i
(1)}
i
(0)/{1
i
(0)}
= exp()
sendo, portanto, constante ao longo dos estratos.
Para eliminarmos os parmetros
i
s podemos trabalhar com a distri-
buio condicional de Y
i
(1) dado Y
i
(1) + Y
i
(0) = m. Essa distribuio foi
discutida na Seo 3.2.3. A funo de probabilidades pode ser expressa na
forma
f(a|m; ) =
_
1
a
__
1
ma
_
v
t=u
_
1
t
__
1
mt
_
t
,
em que a = 0, 1 e m = 0, 1, 2. fcil mostrar que f(a|0; ) = f(a|2; ) = 1,
havendo portanto informao a respeito de somente nos estratos em que
255
Y
i
(1) + Y
i
(0) = 1. A funo de probabilidades nesse caso denida para
a = 0 e a = 1, sendo as probabilidades dadas por
f(0|1; ) = 1/(1 + )
e
f(1|1; ) = /(1 + ).
Se denirmos para o i-simo estrato duas novas variveis binrias X
1i
e X
2i
representando, respectivamente, o nvel de exposio do caso e do controle,
poderemos expressar as probabilidades condicinais na forma
f(a|1, ) =
exp(x
1i
x
2i
)
1 + exp(x
1i
x
2i
)
,
em que a = 0, 1. Assim, para k estratos, a funo de verossimilhana conjunta
condicional, que depende apenas de e ser denotada por (), assume a
forma
() =
k
i=1
_
exp{(x
i1
x
i2
)}
1 + exp{(x
i1
x
i2
)}
_
.
Temos que a expresso acima coincide com a funo de verossimilhana de
uma regresso logstica com k sucessos em k ensaios, com uma nica cova-
rivel com valores observados z
i
= x
i1
x
i2
, i = 1, . . . , k, e passando pela
origem.
Generalizando para p covariveis e supondo ainda emparelhamentos
1:1, teremos o modelo
log
_

i
(x)
1
i
(x)
_
=
i
+x
T
,
em que x = (x
1
, . . . , x
p
)
T
, = (
1
, . . . ,
p
)
T
e
i
(x) = Pr{Y
i
= 1|x}, i =
1, . . . , k. Se observamos no i-simo estrato os valores x
i1
= (x
i11
, . . . , x
i1p
)
T
para o caso e os valores x
i2
= (x
i21
, . . . , x
i2p
)
T
para o controle, a funo de
256
verossimilhana conjunta condicional assume a forma geral (ver, po exemplo,
Breslow e Day, 1980, p. 205; Hosmer e Lemeshow, 1989, Cap. 7)
() =
k
i=1
_
exp{(x
i1
x
i2
)
T
}
1 + exp{(x
i1
x
i2
)
T
}
_
.
Logo, a estimao de pode ser feita atravs do ajuste de uma regresso
logstica com k sucessos em k ensaios, com valores observados das covari-
veis dados por z
ij
= x
i1j
x
i2j
, i = 1, . . . , k e j = 1, . . . , p e passando pela
origem. Devemos observar que embora algumas quantidades da regresso
logstica condicional para estudos emparelhados do tipo 1:1 coincidam com
as quantidades de uma regresso logstica no condicional passando pela ori-
gem, tais como estimativas dos parmetros e erros padro assintticos, as
distribuies dos modelos so diferentes. No primeiro caso temos o produto
de hipergeomtricas independentes enquanto que no segundo caso temos o
produto de binomiais independentes. Isso pode reetir na obteno de alguns
resultados, como por exemplo, gerao de envelope para o resduo compo-
nente do desvio que usa a distribuio da resposta no processo de gerao
dos dados.
Tcnicas de diagnstico
Moolgavkar, Lustbader e Venzon (1985) e Pregibon (1984) tm mostrado
que a maioria das tcnicas usuais de diagnstico do modelo logstico no
condicional podem ser estendidas para o modelo logstico condicional. Como
a varivel resposta no modelo logstico condicional sempre assume o valor 1,
o resduo componente do desvio sempre positivo, sendo dado por
t
D
i
=
2|log
i
|
_
1
h
ii
,
257
em que

i
=
exp(z
T
i
)
1 + exp(z
T
i
)
e

h
ii
=
i
(1
i
)z
T
i
(Z
T

VZ)
1
z
i
.
Os grcos de t
D
i
e

h
ii
i
podem revelar em-
parelhamentos discrepantes com algum tipo de inuncia nos resultados do
modelo.
De forma similar, a distncia de Cook no caso emparelhado ca dada
por
LD
i
=
h
ii
(1
h
ii
)
2
r
2
P
i
,
em que
r
P
i
=
1
i
_

i
(1
i
)
o resduo de Pearson. Temos que r
P
1
assume sempre valores no negativos.
O grco de LD
i
i
pode revelar aqueles empare-
lhamentos com maior inuncia nas estimativas dos parmetros. A gerao
de envelope, contudo, somente pode ser feita atravs do modelo logstico
condicional.
Para ilustrarmos o ajuste no R, vamos supor um estudo com k = 20
emparelhamentos do tipo 1:1 e que foram observados os valores de duas
covariveis V 1 e V 2. Os valores observados dos casos sero armazenados nos
objetos v11 e v12 e os valores observados dos controles nos objetos v21 e
v22. O ajuste segue os seguintes passos:
resp < rep(1, times=20)
z1 < v11 - v21
z2 < v12 - v22
fit.cond < glm(resp z1+z2 - 1, family=binomial).
Podemos analisar fit.cond em geral da mesma forma que analisamos a
sada de um modelo logstico linear. Por exemplo, as estimativas e os erros
258
padro, como foi mostrado acima, coincidem com as estimativas e os erros
padro obtidos pelo modelo logstico condicional.
Aplicao
Como aplicao, discutimos a seguir um estudo cujo objetivo foi avaliar o
efeito da obesidade, do histrico familiar e de atividades fsicas no desenvol-
vimento de diabetes no dependente de insulina. 30 indivduos no diabticos
foram emparelhados com 30 indivduos diabticos no dependentes de insu-
lina pela idade e pelo sexo. A obesidade foi medida atravs do ndice de
massa coporal (IMC), que denida como sendo o peso (em kg) dividido
pela altura (em metros quadrados). O histrico familiar com diabetes (HF)
e as atividades fsicas (ATF) foram tratadas como sendo variveis binrias
(HF=1 presena, HF=0 ausncia; ATF=1 presena, ATF=0 ausncia). Os
dados so descritos em Lee (1991, p. 312) e reproduzidos na Tabela 3.22 e
esto tambm no arquivo diabetes.dat. Denotaremos por x
i11
, x
i12
e x
i13
,
respectivamente, o valor da massa corporal (IMC), histrico familiar (HF) e
atividades fsicas (ATF) para o i-simo indivduo diabtico e por x
i21
, x
i22
e x
i23
os valores dessas variveis para o i-simo indivduo no diabtico. A
funo de verossimilhana do modelo logstico condicional ser dada por
() =
30
i=1
_
exp(z
i1
1
+ z
i2
2
+ z
i3
3
)
1 + exp(z
i1
1
+ z
i2
2
+ z
i3
3
)
_
,
em que z
i1
= x
i11
x
i21
, z
i2
= x
i12
x
i22
e z
i3
= x
i13
x
i23
.
As estimativas de mxima verossimilhana (erro padro aproximado)
so dadas por

1
= 0, 090(0, 065),

2
= 0, 968(0, 588) e

3
= 0, 563(0, 541),
cujos nveis descritivos so, respectivamente, dados por 0, 166, 0, 099 e 0, 298,
indicando indcios de efeito signicativo apenas para o histrico familiar.
Na Figura 3.14 so apresentados alguns grcos de diagnstico em que
podemos notar a inuncia das observaes #18 e #28 como possivelmente
259
Tabela 3.22
Emparelhamento de 30 diabticos no
dependentes de insulina (casos) e 30
no diabticos (controles).
Casos Controles
Par IMC HF ATF IMC HF ATF
1 22,1 1 1 26,7 0 1
2 31,3 0 0 24,4 0 1
3 33,8 1 0 29,4 0 0
4 33,7 1 1 26,0 0 0
5 23,1 1 1 24,2 1 0
6 26,8 1 0 29,7 0 0
7 32,3 1 0 30,2 0 1
8 31,4 1 0 23,4 0 1
9 37,6 1 0 42,4 0 0
10 32,4 1 0 25,8 0 0
11 29,1 0 1 39,8 0 1
12 28,6 0 1 31,6 0 0
13 35,9 0 0 21,8 1 1
14 30,4 0 0 24,2 0 1
15 39,8 0 0 27,8 1 1
16 43,3 1 0 37,5 1 1
17 32,5 0 0 27,9 1 1
18 28,7 0 1 25,3 1 0
19 30,3 0 0 31,3 0 1
20 32,5 1 0 34,5 1 1
21 32,5 1 0 25,4 0 1
22 21,6 1 1 27,0 1 1
23 24,4 0 1 31,1 0 0
24 46,7 1 0 27,3 0 1
25 28,6 1 1 24,0 0 0
26 29,7 0 0 33,5 0 0
27 29,6 0 1 20,7 0 0
28 22,8 0 0 29,2 1 1
29 34,8 1 0 30,0 0 1
30 37,3 1 0 26,5 0 0
260
inuentes nas estimativas dos parmetros. A eliminao do emparelhamento
#18 no muda os resultados inferenciais embora aumente a signicncia do
histrico familiar. J a eliminao do emparelhamento #28 muda os re-
sultados inferenciais uma vez que o ndice de massa corporal passa a ser
signicante ao nvel de 10%. Nesse emparelhamento o controle tem histrico
familiar e atividade fsica enquanto o caso no apresenta as duas caracters-
ticas. Alm disso, o caso tem um ndice de massa corporal menor do que o
controle.
Emparelhamento 1:M
Para emparelhamentos do tipo 1:M (M 2) e k estratos a funo de verossi-
milhana (ver, por exemplo, Breslow e Day, 1980; Cordeiro e Paula, 1989b)
para = (
1
, . . . ,
p
)
T
ca dada por
() =
k
i=1
{exp(x
T
i0
)/
M
=0
exp(x
T
i
)}, (3.20)
cujo logaritmo assume a forma
L() = log() =
k
i=1
[x
T
i0
log{
M
=0
exp(x
T
i
)}], (3.21)
em que x
i0
= (x
i01
, . . . , x
i0p
)
T
denota os valores observados para o caso e
x
i
= (x
i1
, . . . , x
ip
)
T
denota os valores observados para o -simo controle.
A funo de verossimilhana (3.21) coincide com a funo de veros-
similhana do modelo de regresso de Cox (Cox, 1972; Cox e Oakes, 1974)
quando no h ocorrncia de empates. Isso permite que os modelos logsticos
condicionais para emparelhamentos 1:M (M 2) sejam ajustados atravs de
programas desenvolvidos para o modelo de Cox.
261
3.7 Exerccios
3.7 Exerccios
1. Os dados abaixo so de um estudo de seguimento cujo objetivo foi
avaliar a associao de duas tcnicas cirrgicas, A e B, e a ocorrncia
de problemas graves ps-operatrios segundo duas faixas de idade.
Faixa I Faixa II
Problema A B A B
Sim 6 7 7 4
No 14 23 9 12
Obtenha um intervalo assinttico de conana de 95% para a razo
de chances em cada estrato. Teste a hiptese de homogeneidade das
razes de chances. Comente.
2. A tabela abaixo resume um estudo de caso e controle em que foram
considerados como casos 200 homens adultos diagnosticados com cncer
de esfago num hospital de uma determinada comunidade. Os controles
foram uma amostra de 775 homens adultos escolhidos aleatoriamente da
lista de eleitores da comunidade. Esses dois grupos foram classicados
segundo os nveis alto (mais de 80g/dia) e baixo (at 80g/dia) do fator
Exposio ao Alcool.
Alto Baixo Total
Caso 96 104 200
Controle 109 666 775
Total 205 770 975
Verique, atravs de um teste apropriado, se h associao entre o fator
de exposio e a doena. Encontre um intervalo de conana assinttico
para a razo de chances. Indique as suposies utilizadas e interprete
os resultados.
262
3.7 Exerccios
3. (Day e Byar, 1979). Suponha Y
ij
B(n
ij
,
ij
) mutuamente indepen-
dentes, i, j = 1, 2 com as probabilidades
ij
sendo denidas por
log
_

i1
1
i1
_
=
i
e log
_

i2
1
i2
_
=
i
+ .
Interprete
1
,
2
e . Mostre que o teste de escore para testar H
0
:
= 0 contra H
1
: = 0, coincide com o teste de Mantel-Hanszel
(X
2
MH
) para testar H
0
: = 1 contra H
1
: = 1, em que =
i2
(1
i1
)/
i1
(1
i2
), i = 1, 2.
4. Supor um modelo logstico quadrtico de dose-resposta, em que =
+ x + x
2
. Como ca expressa a estimativa

DL
100p
? E a varincia
assinttica de d(
)?
5. Suponha o modelo logstico com ligao de Aranda-Ordaz. Desenvolva
um processo iterativo para estimar (
T
, )
T
e escreva um programa
em R. Aplique esse processo iterativo para ajustar os dados do exemplo
sobre a exposio de besouros descrito na Seo 3.6.11. Assuma =
1
+
2
x. signicativamente diferente de um? Com ca o resduo
componente do desvio? E o desvio? Houve melhora na qualidade do
ajuste? Tente gerar envelope.
6. Supor o modelo logstico com parte sistemtica = + x + x
2
.
Assumir que
2
/x
2
< 0. Qual a soluo para /x = 0? Denotando
essa soluo por x
0
, encontre uma estimativa intervalar para x
0
.
7. (Paula, Sevanes e Ogando, 1988). Os conjuntos de dados apresentados
nos arquivos dose1.dat, dose2.dat e dose3.dat so provenientes de
um experimento de dose-resposta conduzido para avaliar a inuncia
dos extratos vegetais aquoso frio de folhas", aquoso frio de frutos"e
de um extrato qumico, respectivamente, na morte de um determinado
263
3.7 Exerccios
tipo de caramujo. Para cada conjunto, ajuste um modelo logstico li-
near simples e um modelo complementar log-log linear simples. Para
o melhor ajuste (use envelopes como critrio), encontre um intervalo
assinttico de 95% para a dose letal DL
50
, construa as bandas de con-
ana e verique se h indcios de sobredisperso aplicando um teste
apropriado.
8. (Collett, 1991, p.127). Os dados abaixo so provenientes de um experi-
mento desenvolvido para avaliar a germinao de um determinado tipo
de semente segundo trs condies experimentais: nvel da temperatura
(21
o
C, 42
o
C e 62
o
C); nvel da umidade (baixo, mdio e alto) e tem-
peratura da germinao (11
o
C e 21
o
C). A tabela abaixo apresenta o
nmero de sementes que germinaram aps cinco dias para cada 100 se-
mentes submetidas a cada condio experimental. Assuma um modelo
logstico para explicar o nmero de sementes que germinaram. Aplique
o mtodo stetpwise de seleo de modelos. Considere at iteraes de
1
a
ordem. Interprete os resultados. Faa uma anlise de diagnstico
com o modelo selecionado.
Temperatura da Nvel da Nvel da Temperatura
Germinao Umidade 21
o
C 42
o
C 62
o
C
11
o
C baixo 98 96 62
11
o
C mdio 94 79 3
11
o
C alto 92 41 1
21
o
C baixo 94 93 65
21
o
C mdio 94 71 2
21
o
C alto 91 30 1
9. Mostre que a varincia assinttica do estimador de mxima verossimi-
lhana no condicional da razo de chances numa tabela 2 2 dada
264
3.7 Exerccios
por
Var
A
(
) =
2
_
1
n
1
1
(1
1
)
+
1
n
2
2
(1
2
)
_
.
Lembre que: sob condies gerais de regularidade, os estimadores de
mxima verossimilhana so assintoticamente normais e no viesados
com varincia assinttica igual inversa da matriz de informao de
Fisher.
10. Sejam Y
1
e Y
2
1
B(n
1
,
1
)
e Y
2
B(n
2
,
2
). Seja RR =
1
/
2
o risco relativo. (i) Expresse a
funo de probabilidades conjunta de Y
1
e Y
2
em funo de (RR,
2
),
(ii) encontre as estimativas de mxima verossimilhana

RR e
2
, (iii)
como ca a matriz de informao de Fisher para (RR,
2
)? e a varincia
assinttica de

RR? (iv) Desenvolva o teste da Wald para testar H
0
:
RR = 1 contra H
1
: RR = 1. Qual a distribuio nula assinttica do
teste?
11. A tabela abaixo descreve o resultado de um experimento em que vrios
pacientes foram submetidos a um de quatro nveis de exposio de um
tratamento particular e foi observado, aps 12 meses, se o paciente foi
curado ou no curado.
Nvel de Exposio
Resultado E1 E2 E3 E4
Curado 20 16 12 5
No-Curado 80 84 48 20
Seja Y
i
o nmero de pacientes curados dentre os n
i
submetidos ao nvel
de exposio Ei. Suponha que Y
i
B(n
i
,
i
), i = 1, . . . , 4. Tome o nvel
E1 como nvel de referncia e teste a hiptese de homogeneidade das
265
3.7 Exerccios
razes de chances contra a alternativa de razes de chances diferentes.
Sugesto: use a estaststica X
2
A
.
12. Sejam Y
1
, . . . , Y
n
variveis aleatrias mutuamente independentes tais
que Y
i
B(m,
i
), em que log{
i
/(1
i
)} = . (i) Encontre a es-
timativa de mxima verossimilhana de . (ii) Calcule Var( ). (iii)
Como ca o teste da razo de verossimilhanas para testar H
0
: = 0
versus H
1
: = 0? Qual a distribuio nula assinttica da estatstica
do teste?
13. Considere o modelo logstico de dose-resposta em que Y
i
B(m,
i
),
i = 1, . . . , k, com parte sistemtica dada por
log
_

i
1
i
_
= + x
i
,
Expresse o logaritmo da funo de verossimilhana em funo da dose
letal = DL
50
e de . Encontre a funo escore U
= L(, )/.
Considere agora as hipteses H
0
: = a contra H
1
: = a. Como ca
o teste de escore para testar H
0
contra H
1
? Qual a distribuio nula
assinttica da estatstica do teste? Sugesto: para facilitar a notao
expresse a varincia assinttica de

em funo das quantidades v
00
=
Var( ), v
11
= Var(
) e v
01
= Cov( ,

).
14. (Lawless, 1982, p.389; Efron, 1988). Vamos considerar agora uma apli-
cao de regresso logstica em anlise de sobrevivncia. Seja
i
(t) a
probabilidade de um equipamento do tipo i falhar no intervalo I
t
=
(t 1, t] dado que o mesmo no falhou at o tempo t 1. Seja Y
it
o
nmero de falhas no intervalo I
t
e seja n
it
o nmero de equipamentos
que no falharam at o tempo t 1 no i-simo grupo. Assumiremos
que Y
it
B(n
it
,
i
(t)) e que as falhas so independentes. Ajustar um
266
3.7 Exerccios
modelo logstico do tipo
log
_

i
(t)
1
i
(t)
_
=
i
+
i
t +
i
t
2
(3.22)
ao seguinte conjunto de dados:
Tipo A Tipo B Tipo C
Tempo n
1t
y
1t
n
2t
y
2t
n
3t
y
3t
1 42 4 50 6 48 11
2 38 3 44 11 37 10
3 35 3 32 10 27 12
4 31 5 22 8 15 8
5 26 6 12 6 6 4
Apresente o grco com as curvas ajustadas e os valores observados.
Tente selecionar um submodelo apropriado. Verique a adequao do
modelo adotado atravs do grco normal de probabilidades com en-
velope utilizando o resduo t
D
i
. Interprete os resultados.
15. (Hosmer e Lemeshow, 1989, Cap.7). No arquivo matched.dat esto os
dados de um estudo de caso-controle com emparelhamentos do tipo 1:1,
em que os casos foram mulheres com diagnstico conrmado de tumor
benigno na mama e os controles de mulheres sadias diagnosticadas no
mesmo hospital e perodo dos casos. A varivel de emparelhamento foi
a idade da paciente na poca da entrevista AGMT. Escolha trs variveis
do arquivo mencionado e verique atravs de uma regresso logstica
condicional a associao entre as variveis escolhidas e o diagnstico
da doena (sim=1, no=0) representado pela varivel FNDX. Interprete
as estimativas dos parmetros do modelo ajustado. Faa uma anlise
de diagnstico e gere envelope. Obsevao: caso voc escolha alguma
varivel com observaes perdidas, exclua das anlises as pacientes cor-
respondentes.
267
3.7 Exerccios
16. (Morgan, 1992, p.90). A tabela abaixo descreve os resultados de um
experimento em que a toxicidade de trs concentraes (R-rotenine,
D-deguelin e M-mistura, essa ltima como uma mistura das duas pri-
meiras) investigada. As concentraes foram testadas em insetos e
observado para cada dose o nmero de insetos mortos.
Concentrao Dose Expostos Mortos
R 0,41 50 6
R 0,58 48 16
R 0,71 46 24
R 0,89 49 42
R 1,01 50 44
D 0,71 49 16
D 1,00 48 18
D 1,31 48 34
D 1,48 49 47
D 1,61 50 47
D 1,70 48 48
M 0,40 47 7
M 0,71 46 22
M 1,00 46 27
M 1,18 48 38
M 1,31 46 43
M 1,40 50 48
Suponha inicialmente o modelo log{
i
(x)/(1
i
(x))} =
i
+
i
x, i =
1, 2, 3, em que
i
(x) a proporo esperada de insetos mortos sob a
concentrao i e dose x. Faa uma anlise de diagnstico e verique
se h indcios de sobredisperso aplicando um teste apropriado. Teste
a hiptese de paralelismo com todos os pontos e sem as observaes
discrepantes. Comente.
268
3.7 Exerccios
17. Vamos considerar agora uma aplicao de regresso logstica em trans-
portes. Seja
i
(t) a probabilidade de um caminho do tipo i ser desa-
tivado durante o ano t dado que o mesmo no foi desativado durante
o ano t 1. Assuma que durante o ano t foram desativados y
it
cami-
nhes dentre os n
it
existentes no comeo do ano, i = 1, 2 e t = 1, . . . , k.
Suponha que Y
it
B(n
it
,
i
(t)) e que so mutuamente independentes.
Considere o modelo
log
_

1
(t)
1
1
(t)
_
=
t
e log
_

2
(t)
1
2
(t)
_
=
t
+ .
O que signica testar H
0
: = 0? Qual a matriz X do modelo? Como
ca Var(
)? Mostre que a estatstica de escore para testar H

0
: = 0
contra H
1
SR
=
_
k
t=1
_
y
2t
y
t
n
2t
n
t
_
_
2
/
k
t=1
y
t
n
1t
n
2t
(n
t
y
t
)
n
3
t
,
em que n
t
= n
1t
+ n
2t
e y
t
= y
1t
+ y
2t
. Qual a distribuio nula
assinttica de
SR
?
18. Sejam Y
1
, . . . , Y
k
variveis aleatrias independentes tais que a funo
de probabilidades de Y
i
seja dada por
f(y
i
;
i
) =
_
1
y
i
__
1
1y
i
_
y
i
i
1
t=0
_
1
t
__
1
1t
_
t
i
,
em que y
i
= 0, 1. Supor a parte sistemtica log
i
= . (i) Encontre a
estimativa de mxima verossimilhana de ; (ii) encontre a informao
de Fisher para ; (iii) como ca o teste de escore para testar H
0
: = 0
contra H
1
: = 0? Qual a distribuio nula assinttica do teste? (iv)
Expresse o resduo r
i
= (y
i

i
)/
_
Var(Y
i
) em funo de y
i
e

; (v)
Como voc faria para gerar valores de Y
i
da distribuio dada acima?
269
3.7 Exerccios
19. Considere a tabela abaixo em que um grupo de gestantes fumantes
foi classicado segundo os fatores: idade (< 30 ou 30 ou +), nmero
de cigarros consumidos por dia (< 5 ou 5 ou +), tempo de gestao
( 260 dias ou > 260 dias) e a situao da criana (sobreviveu ou no
sobreviveu).
Durao da Sobrevivncia
Idade No. de cigarros Gestao No Sim
< 30 < 5 260 50 315
> 260 24 4012
5+ 260 9 40
> 260 6 459
30+ < 5 260 41 147
> 260 14 1594
5+ 260 4 11
> 260 1 124
Ajustar um modelo logstico linear em que a resposta a sobrevivn-
cia da criana (sim=1, no=0). Considere at interaes de 1
a
ordem.
Verique a adequao do modelo e interprete os resultados atravs de
estimativas intervalares para as razes de chances. Sugesto: transfor-
mar as variveis idade, cigarros e durao da gestao em vari-
vies binrias conforme arquivo descrito abaixo.
Idade Cigarros Gestao No Sim
0 0 0 50 315
0 0 1 24 4012
0 1 0 9 40
0 1 1 6 459
1 0 0 41 147
1 0 1 14 1594
1 1 0 4 11
1 1 1 1 124
270
3.7 Exerccios
20. (Everitt, 1994). Os dados do arquivo leuce.dat referem-se a um es-
tudo com 51 pacientes adultos, previamente diagnosticados com um
tipo agudo de leucemia, que receberam um tipo de tratamento e foi
vericado aps um certo perodo a ecincia ou no do tratamento.
Algumas variveis explicativas pr-tratamento foram tambm observa-
das. As variveis em estudo so as seguintes: (i) idade do paciente na
poca do diagnstico (em anos), (ii) mancha diferencial da doena (em
%), (iii) inltrao na medula (em %), (iv) clulas com leucemia na
medula (em %), (v) malignidade da doena (10
3
), (vi) temperatura
mxima antes do tratamento (10
o
F), (vii) tratamento (1: satisfat-
rio, 0: no satisfatrio), (viii) tempo de sobrevivncia aps o diagns-
tico (em meses) e (ix) situao (1: sobrevivente, 0: no sobrevivente).
Considere um modelo logstico linear para explicar a probabilidade de
ecincia do tratamento dadas as seis variveis explicativas. Selecio-
nar as variveis explicativas bem como as interaes de primeira ordem
atravs do mtodo stepwise. Usar P
E
= P
S
= 0, 20. Fazer uma anlise
de diagnstico com o modelo selecionado e interpretar algumas razes
de chances. Calcular a estatstica de Hosmer-Lemeshow para avaliar a
qualidade do ajuste do modelo selecionado.
21. (McCullagh e Nelder, 1989, pgs. 128-135). No arquivo grahani.dat
esto os dados referentes distribuio de duas espcies de lagarto
(grahani e opalinus) segundo quatro fatores: (i) perodo do dia (manh,
meio-dia, tarde), (ii) comprimento da madeira (curta, comprida), (iii)
largura da madeira (estreita, larga) e (iv) local de ocupao (claro,
escuro). Suponha que o nmero de lagartos encontrados da espcie
grahani tenha distribuio binomial.
(i) Proponha um modelo logstico (sem interao) para explicar a pro-
271
3.7 Exerccios
poro de lagartos da espcie grahani. Ajuste o modelo e verique
atravs do teste da razo de verossimilhanas quais efeitos so signi-
cativos ao nvel de 10%.
(ii) Verique separadamente se cada interao de primeira ordem pode
ser includa no modelo ao nvel de 5%. Construa o ANODEV.
(iii) Interprete os resultados tentando falar de uma forma no tcnica
sobre as preferncias dos dois tipos de lagarto.
22. (Agresti, 1990, pgs. 122-123). Cinquenta e quatro indivduos consi-
derados idosos so submetidos a um exame psiquitrico para avaliar a
ocorrncia ou no de sintoma de caduquice. Acredita-se que o escore
obtido num exame psicolgico feito previamente esteja associado com
a ocorrncia ou no do sintoma. Os dados so apresentados abaixo
(score: escala no exame psicolgico e resp: ocorrncia (resp=1) ou
no ocorrncia (resp=0) do sintoma).
Score Resp Score Resp Score Resp Score Resp Score Resp
9 1 7 1 7 0 17 0 13 0
13 1 5 1 16 0 14 0 13 0
6 1 14 1 9 0 19 0 9 0
8 1 13 0 9 0 9 0 15 0
10 1 16 0 11 0 11 0 10 0
4 1 10 0 13 0 14 0 11 0
14 1 12 0 15 0 10 0 12 0
8 1 11 0 13 0 16 0 4 0
11 1 14 0 10 0 10 0 14 0
7 1 15 0 11 0 16 0 20 0
9 1 18 0 6 0 14 0
Ajustar um modelo logstico para explicar a probabilidade de ocorrncia
do sintoma em funo do escore. Interpretar os resultados. Calcule a
272
3.7 Exerccios
estatstica de Hosmer-Lemeshow. Faa uma anlise de diagnstico com
o modelo ajustado.
23. (Neter et el., 1996, pgs. 582-584). Em um estudo para investigar a
incidncia de dengue numa determinada cidade da costa mexicana, um
total de 196 indivduos, escolhidos aleatoriamente em dois setores da
cidade, respondeu s seguintes perguntas: (i) idade, idade do entre-
vistado (em anos), (ii) nivel, nvel scio-econmico (nivel=1, nvel
alto; nivel=2, nvel mdio; nivel=3, nvel baixo) e (iii) setor, setor
da cidade onde mora o entrevistado (setor=1, setor 1; setor=2, setor
2) e (iv) caso, se o entrevistado contraiu (caso=1) ou no (caso=0) a
doena recentemente. Um dos objetivos do estudo tentar prever ou
explicar a probabilidade de um indivduo contrair a doena dadas as
variveis explicativas idade, nivel e setor. Os dados esto descritos
no arquivo dengue.dat. Tente selecionar um modelo atravs da apli-
cao do mtodo AIC considerendo interaes de 1a. ordem. Faa uma
interpretao do modelo selecionado (atravs de razes de chances) e
faa uma anlise de diagnstico do mesmo. Verique a qualidade do
ajuste atravs da estatstica de Hosmer-Lemeshow.
24. (McCullagh e Nelder, 1989, p.144). No arquivo olhos.dat so apre-
sentados dados referentes a 78 famlias com pelo menos seis lhos cada
uma. Na primeira coluna tem-se a classicao dos olhos dos pais se-
gundo a cor (1: ambos claros, 2: ambos castanhos, 3: ambos escuros, 4:
claro e castanho, 5: claro e escuro e 6: castanho e escuro), na segunda
coluna a classicao dos olhos dos avs segundo a cor (1: todos claros,
2: todos castanhos, 3: todos escuros, 4: trs claros e um castanho, 5:
trs claros e um escuro, 6: um claro e trs castanhos, 7: um escuro
e trs castanhos, 8: um claro e trs escuros, 9: um castanho e trs
273
3.7 Exerccios
escuros, 10: dois claros e dois castanhos, 11: dois claros e dois escuros,
12: dois castanhos e dois escuros, 13: dois claros, um castanho e um
escuro, 14: um claro, dois castanhos e um escuro e 15: um claro, um
castanho e dois escuros), na terceira coluna tem-se o nmero de lhos
na famlia e na ltima coluna o nmero de lhos com olhos claros. Seja
Y
i
o nmero de lhos com olhos claros pertencentes i-sima famlia.
Assuma inicialmente que Y
i
B(n
i
,
i
), i = 1, . . . , 78. Resolver os tens
abaixo.
(i) Ajustar inicialmente um modelo logstico linear apenas com o fator
cor dos olhos dos pais. Construir grcos de resduos. Identi-
car os pontos aberrantes. Quais as mudanas nos resultados com a
eliminao desses pontos. H indcios de sobredisperso? Ajustar
um modelo de quase-verossimilhana com e sem os pontos aber-
rantes. Comente.
(ii) Incluir agora o fator cor dos olhos dos avs. Refazer todos os
passos acima. Comente os resultados.
25. No arquivo pulso.dat so descritas as variveis pulsao em repouso
(1: normal, 2: alta), hbito de fumar (1: sim, 2: no) e peso (em kg) de
92 adultos do sexo masculino. Ajuste um modelo logstico linear para
explicar a probabilidade de pulsao alta dadas as demais variveis.
Faa uma anlise de diagnstico. Apresente as curvas ajustadas para
cada grupo de hbito de fumar com as respectivas bandas de conana
de 95%.
274
Captulo 4
Modelos para Dados de Contagem
4.1 Introduo
Neste captulo apresentamos alguns mtodos para a anlise de dados de con-
tagem. Inicialmente so apresentados os principais mtodos tradicionais e
em seguida discutimos a modelagem atravs de regresso. Duas situaes
de interesse so consideradas. Na primeira delas, muito comum em estudos
de seguimento, as unidades amostrais so classicadas segundo os nveis de
categorias, tais como sexo, faixa etria, tipo de tratamento etc, e so acom-
panhadas por um perodo xo pr-estabelecido ou at a ocorrncia de um
determinado evento. Temos, portanto, um tempo particular de observao
para cada unidade amostral, o qual dever ser incorporado nas anlises. Na
segunda situao, o interesse estudarmos o nmero de ocorrncias de um
evento particular segundo os nveis de categorias, de modo que seja poss-
vel construirmos uma tabela tpica de contingncia. Aqui, a suposio de
distribuio de Poisson para o nmero de ocorrncias do evento em cada
275
4.1 Introduo
congurao de nveis das categorias leva a resultados equivalentes supo-
sio de distribuio multinomial para as caselas da tabela de contingncia
formada. Assim, muitas tabelas de contingncia que seriam originalmente
analisadas atravs de um modelo log-linear multinomial podem ser analisa-
das, alternativamente, por um modelo log-linear de Poisson. A vantagem
disso o fato do modelo log-linear de Poisson ser ajustado mais facilmente
do que o modelo log-linear multinomial, alm da possibilidade de todos os
procedimentos desenvolvidos para os MLGs serem diretamente estendidos
para o modelo log-linear de Poisson. No discutimos, contudo, aspectos par-
ticulares na anlise de tabelas de contingncia, tais como testes ou modelos
multinomiais mais especcos.
Discutimos tambm neste captulo o fenmeno de sobredisperso que
pode ocorrer com dados de contagem quando a varincia da varivel resposta
maior do que a mdia. Nesses casos, a suposio de distribuio de Poisson
para a resposta inadequada sendo necessrio o uso de modelos alternati-
vos. O modelo de quase-verossimilhana com parmetro de disperso leva
s mesmas estimativas do modelo de Poisson, porm corrige a variabilidade
das estimativas. Daremos, contudo, ateno especial aos modelos com res-
posta binomial negativa, os quais permitem uma anlise mais completa dos
dados do que os modelos de quase-verossimilhana. Finalmente, abordamos
de forma sucinta os modelos de Poisson e binomial negativo com excesso de
zeros.
4.1.1 Mtodos clssicos: uma nica tabela 2 2
Considere inicialmente a tabela abaixo resultante de um estudo de segui-
mento (em que indivduos expostos e no expostos so acompanhados ao
longo do tempo por um perodo xo ou at a ocorrncia de um evento).
276
4.1 Introduo
E

E
Casos y
1
y
2
Pessoas-Tempo t
1
t
2
Vamos assumir que Y
1
e Y
2
seguem, respectivamente, distribuio de Poisson
com parmetros
1
e
2
, em que
1
a taxa mdia de casos (por unidade
de tempo) no grupo exposto e
2
a taxa mdia de casos no grupo no
exposto. O parmetro de interesse nesse tipo de estudo a razo entre as
taxas, denotada por =

1
2
. O objetivo principal fazermos inferncias a
respeito de .
A funo de probabilidades conjunta de (Y
1
, Y
2
) ca ento dada por
f(y; ) =
e
1
t
1
(
1
t
1
)
y
1
y
1
!
e
2
t
2
(
2
t
2
)
y
2
y
2
!
= exp{
2
t
1
2
t
2
+ y
1
log + (y
1
+ y
2
)log
2
+ y
1
logt
1
+ y
2
logt
2
logy
1
! logy
2
!},
em que y = (y
1
, y
2
)
T
e = (
1
,
2
)
T
. Portanto, pelo teorema da fatorizao
temos que as estatsticas (Y
1
, Y
1
+ Y
2
) so sucientes minimais para (,
2
).
Logo, condicionando em Y
1
+Y
2
= m, obtemos uma distribuio que depende
apenas de , isto
f(a|m; ) = Pr{Y
1
= a | Y
1
+ Y
2
= m}
=
_
m
a
_
a
(1 )
(ma)
,
em que = t
1
/{t
2
+t
1
} = /{t
2
/t
1
+}, sendo a probabilidade de um
caso ter sido exposto. Equivalentemente, temos que
=
t
2
(1 )t
1
.
Aqui o interesse testarmos H
0
: = 1 contra H
1
: = 1, que equivalente
a testarmos H
0
: =
0
contra H
1
: =
0
, em que
0
= t
1
/(t
1
+ t
2
).
277
4.1 Introduo
O nvel descritivo exato para testarmos a hiptese H
0
contra H
1
dado
por P = 2min{P
I
, P
S
}, em que
P
I
=
a
x=0
_
m
x
_
x
0
(1
0
)
(mx)
e
P
S
=
m
x=a
_
m
x
_
x
0
(1
0
)
(mx)
.
Podemos usar o resultado abaixo (ver, por exemplo, Leemis e Trivedi, 1996)
para expressarmos a distribuio condicional de Y
1
dado Y
1
+ Y
2
= m em
funo de uma distribuio F
u,v
, ou seja uma distribuio F com u e v graus
de liberdade. Supondo Y B(n, p), temos que
Pr(Y y) = Pr{F
2y,2(ny+1)
< (n y + 1)p/y(1 p)}, (4.1)
com 0 < p < 1. Da temos, sob H
0
: =
0
, que
P
I
= 1
m
x=a+1
_
m
x
_
x
0
(1
0
)
(mx)
= 1 Pr
_
F
u,v
<
(ma 1 + 1)
0
(a + 1)(1
0
)
_
= 1 Pr {F
u,v
< bt
1
/(a + 1)t
2
} ,
com b = ma, u = 2(a+1) e v = 2b. Similarmente, obtemos sob H
0
: =
0
,
que
P
S
= Pr{F
u,v
< (b + 1)t
1
/at
2
},
com u = 2a e v = 2(b + 1). De (4.1) temos que que os limites exatos de
conana para p, para um coeciente de conana (1 ), so tais que
2
=
ty
Pr(Y = t; p
I
) = Pr(Y y; p
I
)
278
4.1 Introduo
e
2
=
ty
Pr(Y = t; p
S
) = 1 Pr(Y y + 1; p
S
).
Logo, usando (4.1) obtemos
p
I
=
1
1 +
ny+1
yF
2y,2(ny+1)
(/2)
e
p
S
=
1
1 +
ny
(y+1)F
2(y+1),2(ny)
(1/2)
,
em que F
u,v
(/2) denota o percentil /2 de uma distribuio F com u e v
graus de liberdade. Portanto, temos para , fazendo y = a e m = a + b, o
limite inferior exato de conana

I
=
1
1 +
b+1
aF
u,v
(/2)
= aF
u,v
(/2)/{b + 1 + aF
u,v
(/2)},
em que u = 2a e v = 2(b + 1). De forma anloga obtemos o limite superior
exato

S
=
1
1 +
b
aF
u,v
(1/2)
= aF
u,v
(1 /2)/{b + aF
u,v
(1 /2)},
em que u = 2(a + 1) e v = 2b. A estimativa de mxima verossimilhana
para considerando a distribuio no condicional (produto de Poissons
independentes) ca dada por
2
,
em que

1
= y
1
/t
1
e

2
= y
2
/t
2
. Portanto, obtemos

= y
1
t
2
/y
2
t
1
. Se,
por outro lado, utilizamos a distribuio condicional, B(m, ), temos que a
279
4.1 Introduo
estimativa de mxima verossimilhana de ca dada por
=
t
2
(1 )t
1
,
em que = y
1
/m e (1 ) = y
2
/m. Logo,

ca expresso de forma anloga
ao caso no condicional. A explicao desse fato, que no ocorre nos estu-
dos de caso e controle com respostas binomiais, que a estatstica Y
1
+ Y
2
,
alm de ser suciente para
2
, tambm ancilar para , isto , no contm
qualquer informao acerca de . No caso do produto de duas binomiais
independentes, Y
1
+Y
2
suciente para
2
, no entanto, no ancilar para .
Uma consequncia desse fato que a estimativa de mxima verossimilhana
condicional no coincide com a estimativa no condicional.
Aplicao
Vamos considerar, como aplicao, os dados apresentados em Boice e Monson
(1977) referentes a um estudo de seguimento com dois grupos de mulheres
com tuberculose, um grupo exposto a radiao e o outro grupo no exposto,
sendo observado ao longo do tempo o desenvolvimento ou no de cncer de
mama. Os resultados desse estudo so resumidos na Tabela 4.1.
Tabela 4.1
Casos de cncer de mama em mulheres
com tuberculose.
Radiao
Exposto No Exposto
Casos 41 15
Pessoas-anos 28010 19017
Temos, portanto, que a = 41, b = 15, t
1
= 28010 e t
2
= 19017. Os nveis
descritivos correspondentes ao teste exato para testar H
0
: = 1 contra
280
4.1 Introduo
H
1
: = 1 cam dados por
P
I
= 1 Pr{F
84,30
< 0, 526} = 0, 988
e
P
S
= Pr{F
82,32
< 0, 575} = 0, 024,
e obtemos o nvel descritivo P= 0, 048 que indica, para um nvel de signi-
cncia de 5%, pela rejeio de H
0
. Isso quer dizer que h indcios de que
mulheres com tuberculose e expostas a radiao tm uma chance maior de
desenvolvimento de cncer de mama do que mulheres no expostas com a
mesma doena. Uma estimativa pontual de mxima verossimilhana para
ca dada por

=
0,73219017
0,26828010
= 1, 85 e um intervalo exato de conana de
95% para tem os limites

I
= 41 F
82,32
(0, 025)/{16 + 41 F
82,32
(0, 025)}
= 0, 597 e

S
= 41 F
84,30
(0, 975)/{15 + 41 F
84,30
(0, 975)}
= 0, 838.
Desses limites obtemos os limites exatos de conana para
I
=

I
t
2
(1
I
)t
1
=
0, 597 19017
(1 0, 597) 28010
= 1, 007 e
S
=

S
t
2
(1
S
)t
1
=
0, 838 19017
(1 0, 838) 28010
= 3, 512.
Temos que o intervalo [1, 007; 3, 512] no cobre o valor = 1, como era
esperado.
281
4.1 Introduo
4.1.2 Estraticao: k tabelas 2 2
Se o dados so estraticados segundo um fator com k nveis, cada tabela
resultante pode ser expressa na forma abaixo.
E

E
Casos y
1i
y
2i
Pessoas-Tempo t
1i
t
2i
Temos aqui as suposies Y
1i
P(
1i
t
1i
) e Y
2i
P(
2i
t
2i
), i = 1, . . . , k.
Consequentemente, a distribuio condicional de Y
1i
dado Y
1i
+ Y
2i
= m
i

uma B(m
i
,
i
), em que
i
=
i
/{t
2i
/t
1i
+
i
}, ou equivalentemente
i
=

i
t
2i
(1
i
)t
1i
.
Se temos interesse em testar a homogeneidade das razes de taxas H
0
:
1
=
. . . =
k
contra a alternativa de pelo menos duas diferentes, a estimativa
comum

, sob H
0
, sai do sistema de equaes
k
i=1
y
1i
=

i=1
m
i
/{
+ t
2i
/t
1i
},
que tem no mximo uma raiz positiva. Alternativamente, de forma anloga
aos estudos de caso e controle, podemos construir uma verso da estimativa
de Mantel-Haenszel dada por
MH
=
k
i=1
y
1i
t
2i
/t
i
k
i=1
y
2i
t
1i
/t
i
,
em que t
i
= t
1i
+ t
2i
. Segundo Breslow e Day (1987),

MH
consistente e
assintoticamente normal com varincia assinttica estimada por
Var
A
(
MH
) =
MH
k
i=1
t
1i
t
2i
m
i
/t
2
i
_
k
i=1
t
1i
t
2i
m
i
t
i
(t
1i
+

MH
t
2i
)
_
2
.
282
4.1 Introduo
A estatstica sugerida para testar H
0
denida por
X
2
=
k
i=1
_
(y
1i
y
1i
)
2
y
1i
+
(y
2i
y
2i
)
2
y
2i
_
,
em que y
1i
= m
i

i
, y
2i
= m
i
(1
i
) e

i
=
MH
t
2i
/t
1i
+

MH
.
A distribuio nula assinttica de X
2
uma qui-quadrado com k1 graus de
liberdade. Quando a hiptese de homogeneidade das razes de chances no
rejeitada, podemos testar a hiptese de associao entre o fator e a doena
levando em conta o efeito de estrato. Isso equivale a testarmos H
0
: = 1
contra H
1
: = 1. O teste qui-quadrado apropriado dado por
X
2
=
{
k
i=1
y
2i
k
i=1
E(Y
2i
|m
i
, = 1)}
2
k
i=1
Var(Y
2i
|m
i
, = 1)
=
{
k
i=1
y
2i
k
i=1
m
i
t
1i
/(t
1i
+ t
2i
)}
2
k
i=1
m
i
t
1i
t
2i
/(t
1i
+ t
2i
)
2
. (4.2)
A distribuio nula assinttica de X
2
, quando
n
i
n
a
i
> 0 fazendo n ,
em que n = n
1
+ + n
k
, uma
2
1
.
Temos que a varincia assinttica de log(
MH
) estimada por
Var
A
{log(
MH
)} =

2
MH
Var
A
(
MH
).
Assim, um intervalo assinttico de conana com coeciente (1 ) para
log ca dado por log(
MH
) z
(1/2)

1
MH
{Var
A
(
MH
)}
1/2
o que implica
nos limites de conana superior e inferior dados abaixo
I
=

MH
exp{z
(1/2)

1
MH
_
Var
A
(
MH
)} e
S
=

MH
exp{z
(1/2)

1
MH
_
Var
A
(
MH
)}.
Esse intervalo deve ser construdo quando a aplicao da estatstica (4.2)
levar rejeio da hiptese H
0
: = 1.
283
4.2 Modelos de Poisson
4.2.1 Propriedades da Poisson
Vamos supor que Y P() cuja funo de probabilidades dada por
Pr(Y = y) =
e
y
y!
, y = 0, 1, 2, . . . .
Podemos mostrar (ver, por exemplo, McCullagh e Nelder, 1989, p. 195) que
quando
(Y )/

d
N(0, 1).
Em outras palavras, para grande temos que Y segue aproximadamente
uma distribuio normal de mdia e desvio padro
. Se queremos,
no entanto, aplicar um modelo normal linear para explicar , teremos o
incoveniente do desvio padro depender da mdia, o que inviabiliza o uso
de um modelo normal linear homocedstico. Uma maneira de contornarmos
esse problema atravs da aplicao de uma transformao na resposta Y de
modo a alcanarmos a normalidade e a constncia de varincia, mesmo que
aproximadamente. Nesse sentido, temos que se Y Poisson, segue quando
o seguinte resultado:
{
Y E(
Y )}
d
N(0, 1/4).
Portanto, quando grande, a varivel aleatria 2{
Y E(
Y )} segue
aproximadamente uma distribuio N(0, 1). Assim, se temos uma amostra
aleatria Y
1
, . . . , Y
n
tal que Y
i
P(
i
) e queremos explicar
i
atravs de
variveis explicativas, podemos propor para
i
grande, i, o modelo normal
linear abaixo
_
Y
i
= x
T
i
+
i
,
em que
i
N(0,
2
), i = 1, . . . , n. Isso foi feito na Seo 1.12.3 no exemplo
sobre sobrevivncia de bactrias.
284
4.2.2 Modelos log-lineares: k tabelas 2 2
Como foi visto no Captulo 1, os modelos log-lineares so recomendados para
a anlise de dados de contagem, mesmo quando o tempo de observao no
o mesmo para cada unidade amostral. Em particular, se temos um conjunto
de k tabelas 2 2, uma modelagem possvel para a taxa mdia por unidade
de tempo em cada casela supormos que Y
1i
P(
1i
t
1i
) e Y
1i
P(
1i
t
1i
),
i = 1, . . . , k, mutuamente independentes e com a seguinte parte sistemtica:
log
11
= ,
log
21
= + ,
log
1i
= +
i
e
log
2i
= + +
i
+
i
,
para i = 2, . . . , k. Portanto, temos a reparametrizao (
11
,
21
, . . . ,
1k
,
2k
)
(, ,
2
,
2
, . . . ,
k
,
k
). A razo de taxas na i-sima tabela ca denida
por
i
=
2i
/
1i
= exp(+
i
), com
1
= 0. Assim, testarmos H
0
:
1
= =
k
o mesmo que testarmos na nova parametrizao H
0
:
2
= =
k
= 0,
o que signica no haver interao entre as tabelas. Devemos lembrar que
i
o efeito da i-sima tabela com relao primeira tabela. Logo, testarmos
H
0
:
2
= =
k
, dado que
i
= 0, signica testarmos a ausncia de efeito
de estrato.
Aqui t
ij
denota o total de unidades de tempo na casela (i, j), i = 1, 2
e j = 1, . . . , k. Assim, temos que log
ij
= logt
ij
+ log
ij
, em que logt
ij
desempenha o papel de um oset. Pela propriedade de que os totais mar-
ginais Y
1i
+ Y
2i
so estatsticas sucientes para os parmetros
21
, . . . ,
2k
e ancilares para
1
, . . . ,
k
, devemos esperar que as estimativas de mxima
verossimilhana no condicionais

i
= exp(
i
), i = 1, . . . , k, coincidam
com as estimativas condicionais.
285
Uma maneira de vericarmos se razovel a suposio de distribuio
de Poisson nas unidades de tempo tratarmos logT
ij
como sendo uma varivel
explicativa, isto , ajustarmos o modelo com parte sistemtica dada por
log
ij
= logt
ij
+ log
ij
. Assim, ao testarmos H
0
: = 1 contra H
1
: = 1,
a no rejeio de H
0
indica que a suposio de distribuio de Poisson nas
unidades de tempo no inadequada. Como veremos a seguir isso signica
que os tempos tm distribuio exponencial.
Relao com a exponencial
O logaritmo da funo de verossimilhana do modelo de Poisson para a an-
lise de k tabelas 2 2 dado por
L()
2
i=1
k
j=1
(y
ij
log
ij
ij
t
ij
), (4.3)
em que = (
11
,
21
, . . . ,
k1
,
k2
)
T
. Temos, portanto, para cada casela (i, j)
um estudo de seguimento em que as unidades amostrais foram observadas um
total de t
ij
unidades de tempo. Sem perda de generalidade, vamos supor que
t
ij
= N e que nesse subestrato foram acompanhadas I unidades amostrais
cujos tempos de observao foram, respectivamente, N
1
, N
2
, . . . , N
I
. Faremos
u
= 1 se o evento sob estudo ocorrer para a -sima unidade amostral antes

de um tempo pr-xado T. Quando o evento no ocorrer para a -sima
unidade amostral durante o perodo de estudo (u
= 0) dizemos que h
censura, sendo aqui o tempo de observao dado por N
= T. Vamos supor
ainda que a taxa de ocorrncia do evento, que denida por
= lim
t0
Pr{o evento ocorrer em (t, t + t)}
t
,
dado que o evento no ocorreu at o tempo t, permanece constante durante
o perodo de observao. Finalmente, assumimos que as ocorrncias so
286
independentes entre as unidades amostrais. Sob essas condies, mostramos
que a distribuio conjunta das variveis (N
, u
), = 1, . . . , I, um produto
de I exponenciais independentes de parmetro . Se o evento ocorrer antes
do tempo T para a -sima unidade amostral (N
< T, u
= 1) a mesma
contribui com o fator e
N
na funo de verossimilhana. Caso contrrio

(N
= T, u
= 0), o fator dado por e

T
. O logaritmo da funo de
verossimilhana conjunta ca ento dado por
L() =
I
=1
(u
log N
)
= log
I
=1
u
=1
N
. (4.4)
Se considerarmos que para a casela (i, j) o evento ocorreu y
ij
vezes, as unida-
des amostrais foram observadas um total de t
ij
unidades de tempo e a taxa
de ocorrncia do evento
ij
, ento (4.4) ca reexpressa na forma
L(
ij
) = y
ij
log
ij
ij
t
ij
,
que coincide com o termo geral da expresso (4.3). Portanto, a suposio
de modelo de regresso log-linear de Poisson com oset logt
ij
equivale su-
posio de tempos exponenciais para as unidades amostrais. No entanto,
importante ressaltarmos que as inferncias exatas para no modelo ex-
ponencial so bastante complexas em virtude da ocorrncia de censura (ver
discusso, por exemplo, em Breslow e Day, 1987, p. 132). J os resultados
assintticos so equivalentes queles obtidos para o modelo de Poisson.
Aplicao
A Tabela 4.2 resume os resultados de um estudo de seguimento em que douto-
res Britnicos foram acompanhados durante a dcada de 50 e observado, em
287
particular, a ocorrncia de mortes por cncer de pulmo segundo o consumo
mdio dirio de cigarros e a faixa etria. Denotamos por Y
ij
o nmero de
mortes para o i-simo nvel de consumo e j-sima faixa etria, i, j = 1, . . . , 4.
Vamos supor que Y
ij
P(
ij
t
ij
), em que
ij
a taxa mdia de mortes por
unidade de tempo para o consumo i e faixa etria j. O modelo saturado
nesse caso dado por
log
ij
= +
i
+
j
+
ij
,
em que
1
= 0,
i
o efeito da i-sima classe de consumo de cigarros com
relao classe de no fumantes, i = 2, 3, 4,
1
= 0,
j
o efeito da j-
sima faixa etria com relao faixa etria de 40 49 anos e
ij
denota
a interao entre faixa etria e consumo de cigarros, em que
i1
=
1j
= 0,
para i, j = 1, . . . , 4.
Tabela 4.2
Nmero de casos de morte por cncer de pulmo e pessoas-anos
de observao em doutores Britnicos segundo a faixa etria
e o consumo mdio dirio de cigarros.
Consumo mdio dirio Faixa Etria
de cigarros 40-49 50-59 60-69 70-80
0 mortes 0 3 0 3
p-anos 33679 21131,5 10599 4495,5
1-9 mortes 0 1 3 3
p-anos 6002,5 4396 2813,5 1664,5
10-30 mortes 7 29 41 45
p-anos 34414,5 25429 13271 4765,5
+ 30 mortes 3 16 36 11
p-anos 5881 6493,5 3466,5 769
O teste de ausncia de interao, H
0
:
ij
= 0, ij, contra a alternativa
de pelo menos um parmetro diferente de zero forneceu
RV
= 11, 91 (9
288
graus de liberdade) que equivale a um nvel descritivo P= 0, 218. Adotamos,
portanto, um modelo sem interao.
Tabela 4.3
Estimativas dos parmetros do modelo log-linear
de Poisson para explicar a taxa mdia de morte
de doutores Britnicos com cncer de pulmo.
Constante -11,424 -22,44
C(1-9)
2
1,409 2,53
C(10-20)
3
2,866 6,86
C(+30)
4
3,758 8,80
F(50-59)
2
1,769 5,10
F(60-69)
3
2,897 8,62
F(70-80)
4
3,791 11,12
As estimativas so apresentadas na Tabela 4.3. Notamos claramente
que as estimativas so signicativamente diferentes de zero e que h fortes in-
dcios de um aumento (exponencial) da taxa mdia de mortes com o aumento
da faixa etria e/ou com o aumento do consumo mdio dirio de cigarros. O
ajuste do modelo com logT
ij
como varivel explicativa forneceu a estimativa
de mxima verossimilhana

= 1, 839(0, 610). O teste de Wald para testar-
mos H
0
: = 1 contra H
1
: = 1 forneceu o valor
RV
= 1, 89, cujo nvel
descritivo dado por P= 0, 17, indicando que o modelo pode ser ajustado
com logt
ij
como sendo oset.
4.2.3 Modelos gerais de Poisson
Vamos supor agora que Y
i
so variveis aleatrias independentes distribudas
tais que Y
i
P(
i
), i = 1, . . . , n, com parte sistemtica dada por g(
i
) =
i
,
em que
i
= x
T
i
, x
i
= (x
i1
, . . . , x
ip
)
T
contm valores de variveis explicativas
e = (
1
, . . . ,
p
)
T
um vetor de parmetros desconhecidos. As ligaes
289
mais utilizados so logartmica (g(
i
) = log
i
), raiz quadrada (g(
i
) =
i
)
e identidade (g(
i
) =
i
). O processo iterativo para estimao de , como
foi visto na Seo 1.6.1, dado por
(m+1)
= (X
T
W
(m)
X)
1
X
T
W
(m)
z
(m)
,
m = 0, 1, . . ., varivel dependente modicada z = + W
1/2
V
1/2
(y ),
= (
1
, . . . ,
n
)
T
, y = (y
1
, . . . , y
n
)
T
, = (
1
, . . . ,
n
)
T
, V = diag{
1
, . . . ,
n
}
e W = diag{
1
, . . . ,
n
} com
i
= (d
i
/d
i
)
2
/
i
. Em particular temos
i
=
i
para ligao logartmica,
i
= 4 para ligao raiz quadrada e
i
=
1
i
para ligao identidade.
No caso das unidades experimentais serem observadas em tempos dis-
tintos t
i
s e for assumido que Y
i
P(
i
t
i
), i = 1, . . . , n, a parte sistemtica
do modelo para ligao logartmica ca dada por
log
i
= logt
i
+x
T
i
,
em que logt
i
desempenha papel de oset e isso deve ser informado ao sistema.
Outra possibilidade incluirmos os tempos t
i
s como valores da varivel ex-
plicativa logT
i
. Nesse caso, a parte sistemtica assume a forma
log
i
= logt
i
+x
T
i
.
O teste de H
0
: = 1 contra H
1
: = 1 verica se logt
i
deve ser includo no
modelo como oset. A no rejeio da hiptese nula signica a suposio de
tempos exponenciais nas unidades experimentais.
O estimador de mxima verossimilhana

consistente, eciente e
tem distribuio assinttica dada por
N
p
(0, (X
T
WX)
1
),
portanto, assintoticamente, Var(
) = (X
T
WX)
1
.
290
A funo desvio de um modelo de Poisson supondo y
i
> 0, i, denida por
D(y; ) = 2
n
i=1
{y
i
log(y
i
/
i
) (y
i

i
)}.
Porm, se y
i
= 0, o i-simo termo de D(y; ) ca dado por 2
i
.
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
Figura 4.1: Grco normal de probabilidades referente ao modelo log-linear
de Poisson ajustado aos dados sobre morte por cncer de pulmo de doutores
Britnicos.
Em particular, para ligao logartmica e se o modelo inclui uma cons-
tante na parte sistemtica, mostramos que

n
i=1
(y
i

i
) = 0, cando a
funo desvio reexpressa na forma D(y; ) =
n
i=1
y
i
log(y
i
/
i
). Logo, se
particionamos o vetor de parmetros tal que = (
T
1
,
T
2
)
T
, em que
1
e
2
so subvetores de dimenso p q e q, respectivamente, a estatstica da
291
razo de verossimilhanas para testarmos H
0
:
2
= 0 contra H
1
:
2
= 0 em
modelos log-lineares ca dada por
RV
= D(y;
0
) D(y; )
= 2
n
i=1
y
i
log(
0i
/
i
).
Sob H
0
e para grandes amostras
RV

2
q
. Os resultados assintticos para
os modelos de Poisson valem tanto para p xo e n como para n xo e
i
, i.
Um dos resduos mais recomendados para modelos com resposta de Poisson
o componente do desvio padronizado, que para y
i
> 0, ca dado por
t
D
i
=
2
_
1
h
ii
{y
i
log(y
i
/
i
) (y
i

i
)}
1/2
,
em que h
ii
o i-simo elemento da diagonal principal da matriz de projeo
H = W
1/2
X(X
T
WX)
1
X
T
W
1/2
. Quando y
i
= 0 o resduo componente do
desvio padronizado assume a forma t
D
i
=
2
i
/
_
1
h
ii
.
Estudos de simulao (ver Williams, 1984) mostram que em geral a dis-
tribuio de t
D
i
no se afasta muito da distribuio normal padro, podendo
ser usadas nas anlises de diagnstico as mesmas interpretaes da regres-
so normal linear. Em particular, a construo de envelopes fortemente
recomendada para t
D
i
.
A Figura 4.1 apresenta o grco normal de probabilidades para o res-
duo t
D
i
correspondente ao modelo ajustado aos dados da Tabela 4.2. Como
podemos notar, todos os resduos cairam dentro do envelope gerado sem
apresentarem nenhuma tendncia sistemtica, indicando que a suposio de
distribuio de Poisson parece ser bastante razovel. O programa utilizado
292
para gerarmos o grco de envelopes apresentado no Apndice B. Os re-
sultados do modelo ajustado devem ser colocados no arquivo fit.model.
4.2.6 Aplicao
Como ilustrao vamos considerar os dados apresentados em Neter et al.
(1996, p. 613) sobre o perl dos clientes de uma determinada loja oriundos
de 110 reas de uma cidade. O objetivo do estudo relacionar o nmero
esperado de clientes em cada rea com as seguintes variveis explicativas em
cada rea: nmero de domiclios (em mil), renda mdia anual (em mil USD),
idade mdia dos domiclios (em anos), distncia ao concorrente mais prximo
(em milhas) e distncia loja (em milhas). Portanto, a rea a unidade
experimental. Esses dados esto tambm descritos no arquivo store.dat.
Tabela 4.4
de Poisson ajustado aos dados sobre perl
de clientes.
Domiclio
1
0,606 4,27
Renda
2
-0,012 -5,54
Idade
3
-0,004 -2,09
Dist1
4
0,168 6,54
Dist2
5
-0,129 -7,95
Na Figura 4.2 so apresentados os diagramas de disperso entre o
nmero de clientes (varivel resposta) e as variveis explicativas renda e
idade mdia, distncia ao concorrente mais prximo (dist1) e distncia
loja (dist2). Indcios mais evidentes de relao linear podem ser observados
entre a resposta e as distncias dist1 e dist2. Ou seja, h indcios de que o
293
nmero de clientes aumenta medida que a distncia ao concorrente mais
prximo aumenta e a distncia loja diminui.
Renda
C
l
i
e
n
t
e
s
20000 60000 100000
0
5
1
0
2
0
3
0
(a)
Idade
C
l
i
e
n
t
e
s
0 10 20 30 40 50 60
0
5
1
0
2
0
3
0
(b)
Dist1
D
i
s
t
2
1 2 3 4 5 6
0
5
1
0
2
0
3
0
(c)
Dist2
D
i
s
t
2
2 4 6 8 10
0
5
1
0
2
0
3
0
(d)
Figura 4.2: Diagramas de disperso entre o nmero de clientes que visitaram
a loja e algumas variveis explicativas.
Denotamos por Y
i
o nmero de clientes da i-sima rea que foram loja
no perodo determinado. Vamos supor que Y
i
P(
i
) com parte sistemtica
dada por
log
i
= +
1
domic
i
+
2
renda
i
+
3
idade
i
+
4
dist1
i
+
5
dist2
i
.
Temos que a varivel nmero de domiclios (domic) deve ser includa no
modelo uma vez que as reas no tm o mesmo nmero de domiclios. As
294
estimativas dos parmetros so apresentadas na Tabela 4.4 e como podemos
notar todas as estimativas so altamente signicativas. O desvio do modelo
foi de D(y; ) = 114, 98 (104 graus de liberdade) que equivale a um nvel
descritivo P= 0, 35 indicando um ajuste adequado. Notamos pela tabela que
o nmero esperado de clientes na loja cresce com o aumento do nmero de
domiclios na rea e da distncia ao concorrente mais prximo, porm diminui
com o aumento da renda mdia e da idade mdia dos domiclios bem como da
distncia da rea loja. Isso sugere que deve ser uma loja de convenincia.
Valores Ajustados
M
e
d
i
d
a

h
5 10 15 20 25 30 35
0
.
0
0
.
4
0
.
8
(a)
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 20 40 60 80 100
0
.
0
0
.
2
0
.
4
(b)
20
43
Valores Ajustados
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
5 10 15 20 25 30 35
-
3
-
1
0
1
2
3
(c)
Preditor Linear
V
a
r
i
a
v
e
l

z
1.5 2.0 2.5 3.0 3.5
0
.
5
1
.
5
2
.
5
3
.
5
(d)
Figura 4.3: Grcos de diagnstico referentes ao modelo log-linear de Poisson
ajustado aos dados sobre perl de clientes.
295
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
2
0
2
de Poisson ajustado aos dados sobre perl de clientes.
Podemos fazer algumas interpretaes. Por exemplo, se aumentarmos
em 1 mil USD a renda mdia dos domiclios de uma determinada rea espera-
mos aumento relativo no nmero de clientes que iro loja de exp(0, 012) =
0, 988. Ou seja, decrescimento de 1,2%. Por outro lado, se a distncia ao
concorrente mais prximo aumentar em uma milha esperamos aumento re-
lativo no nmero de clientes de exp(0, 168) = 1, 183. Ou seja, aumento de
18,3%.
Dentre as observaes destacadas pelos grcos de diagnstico (ver
Figura 4.3), apenas as reas #20 e #43 apresentam algumas variaes des-
proporcionais nas estimativas dos parmetros, porm no houve mudana
inferencial. Pela Figura 4.3d no h indcios de que a ligao utilizada seja
inapropriada e o grco de envelope (Figura 4.4) no apresenta indicaes de
afastamentos srios da suposio de distribuio de Poisson para o nmero
de clientes.
296
4.3 Modelos com resposta binomial negativa
4.3.1 Distribuio binomial negativa
O fenmeno de sobredisperso, similarmente ao caso de dados com resposta
binria discutido na Seo 3.6.14, ocorre quando esperada uma distribuio
de Poisson para a resposta, porm a varincia maior do que a resposta
mdia. Uma causa provvel desse fenmeno a heterogeneidade das unidades
amostrais que pode ser devido variabilidades interunidades experimentais.
Isso pode ser visto, por exemplo, supondo que para um conjunto xo x =
(x
1
, . . . , x
p
)
T
de valores de variveis explicativas, Y |z tem mdia z e varincia
z, no entanto Z, que no observvel, varia nas unidades amostrais com x
xo, de modo que E(Z) = . Ento,
E(Y ) = E[E(Y |Z)] = E[Z] = e
Var(Y ) = E[Var(Y |Z)] + Var[E(Y |Z)]
= + Var(Z).
Podemos, adicionalmente, supor que Y |z tem distribuio de Poisson com
mdia z e funo de probabilidades denotada por f(y|z) e que Z segue uma
distribuio gama de mdia e parmetro de disperso k = cuja funo
de densidade ser denotada por g(z; , k).
Temos E(Z) = e Var(Z) =
2
/k de modo que E(Y ) = e Var(Y ) =
+
2
/k = (1 + )/. Assim, as funes densidades f(y|z) e g(z; , k)
assumem as seguintes formas:
f(y|z) =
e
z
z
y
y!
e g(z; , k) =
1
(k)
_
zk
_
k
e
kz
1
z
.
297
Logo, Y tem funo de probabilidades dada por
Pr{Y = y} =
_

0
f(y|z)g(z; , k)dz
=
1
y!(k)
_
k
_
k
_

0
e
z(1+k/)
z
k+y1
dz.
Fazendo a transformao de varivel t = z(1 +
k
) temos que
dz
dt
= (1 +
k
)
1
.
Ento,
Pr{Y = y} =
1
y!(k)
_
k
_
k
_
1 +
k
_
(k+y)
_

0
e
t
t
k+y1
dt
=
(y + k)
k
(y + 1)(k)(1 + )
y+k
=
(y + k)
(y + 1)(k)
_

1 +
_
k
_
1
1 +
_
y
=
(y + k)
(y + 1)(k)
(1 )
k
y
, y = 0, 1, 2, . . . ,
em que = 1/(1 + ). Portanto, Y tem distribuio binomial negativa de
mdia e parmetro de disperso k.
Podemos, similarmente, supor que Y |z P(z) e que Z G(, ), em
que no depende de . Nesse caso E(Z) = e Var(Z) =
2
/ de onde
segue que E(Y ) = e Var(Y ) = +
2
/. Temos ento que
f(y|z) =
e
z
z
y
y!
e g(z; , ) =
1
()
_
z
1
z
.
A funo de probabilidades de Y ca dada por
Pr{Y = y} =
_

0
f(y|z)g(z; , )dz
=
1
y!
_
_

0
e
z(1+/)
z
+y1
dz.
298
Fazendo a transformao de varivel t = z(1 +

) temos que
dz
dt
= (1 +

)
1
.
Da segue que
Pr{Y = y} =
1
y!()
_
_
1 +

_
(+y)
_

0
e
t
t
+y1
dt
=
( + y)
y
()(y + 1)( + )
+y
=
( + y)
(y + 1)()
_

+
_
y
_

+
_
=
( + y)
(y + 1)()
(1 )
y
, y = 0, 1, 2, . . . ,
com = /( + ). Portanto, neste caso Y tambm segue distribuio
binomial negativa de mdia e parmetro de disperso . Denotamos Y
BN(, ). Podemos mostrar (ver, por exemplo, Jrgensen,1996, p. 96) que
1
(Y )
d
N(0, /(1 )
2
), quando .
Podemos obter tambm aproximaes da binomial negativa para a Poisson
e gama.
4.3.2 Modelos de regresso com resposta binomial negativa
Vamos supor ento que Y
1
, . . . , Y
n
so variveis aleatrias independentes tais
que Y
i
BN(
i
, ). A funo de probabilidades de Y
i
ca dada por
f(y
i
;
i
, ) =
( + y
i
)
(y
i
+ 1)()
_

i
i
+
_
y
i
_

i
+
_
, y
i
= 0, 1, 2, . . . .
Temos que E(Y
i
) =
i
e Var(Y
i
) =
i
+
2
i
/. Similarmente aos MLGs
assumimos parte sistemtica dada por g(
i
) =
i
= x
T
i
, em que x
i
=
(x
i1
, . . . , x
ip
)
T
contm valores de variveis explicativas, = (
1
, . . . ,
p
)
T
um vetor de parmetros desconhecidos e g() a funo de ligao. Como

299
nos modelos de Poisson as ligaes mais utilizados so logartmica (g(
i
) =
log
i
), raiz quadrada (g(
i
) =
i
) e identidade (g(
i
) =
i
).
Denindo = (
T
, )
T
o logaritmo da funo de verossimilhana ca
dado por
L() =
n
i=1
_
log
_
( + y
i
)
(y
i
+ 1)()
_
+ log + y
i
log
i
( + y
i
)log(
i
+ )
_
,
em que
i
= g
1
(x
T
i
). A m de obtermos a funo escore para calculamos
inicialmente as derivadas
L()/
j
=
n
i=1
_
y
i
i
d
i
d
i
( + y
i
)
( +
i
)
d
i
d
i
j
_
=
n
i=1
_
y
i
i
d
i
d
i
x
ij
( + y
i
)
( +
i
)
d
i
d
i
x
ij
_
=
n
i=1
_
(d
i
/d
i
)
i
( +
i
)
(y
i
i
)x
ij
_
=
n
i=1
i
f
1
i
(y
i
i
)x
ij
,
em que
i
= (d
i
/d
i
)
2
/(
2
i
1
+
i
) e f
i
= d
i
/d
i
. Logo, podemos espressar
a funo escore na forma matricial
U
() = X
T
WF
1
(y ), (4.5)
em que X a matriz modelo com linhas x
T
i
, i = 1, . . . , n, W= diag{
1
, . . . ,
n
},
F = diag{f
1
, . . . , f
n
}, y = (y
1
, . . . , y
n
)
T
e = (
1
, . . . ,
n
)
T
. De forma simi-
lar a funo escore para ca dada por
U
() =
n
i=1
[(+y
i
)()(y
i
+)/(+
i
)+log{/(+
i
)}+1], (4.6)
em que () a funo digama.
300
Para obtermos a matriz de informao de Fisher calculamos as deriva-
das
2
L()/
j
=
n
i=1
_
( + y
i
)
( +
i
)
2

y
i
2
i
__
d
i
d
i
_
2
x
ij
x
i
+
n
i=1
_
y
i
( + y
i
)
( +
i
)
_
d
2
i
d
2
i
x
ij
x
i
,
cujos valores esperados cam dados por
E{
2
L()/
j
} =
n
i=1
(d
i
/d
i
)
2
( +
i
)
x
ij
x
i
=
n
i=1
i
x
ij
x
i
.
Logo, podemos expressar a informao de Fisher para em forma matricial
K
() = E
_
2
L()
T
_
= X
T
WX.
Lawless(1987) mostra que a informao de Fisher para pode ser expressa
na forma
K
() =
n
i=1
{
j=0
( + j)
2
Pr(Y
i
j)
1
i
/(
i
+ )},
e que e so parmetros ortogonais. Assim , a matriz de informao de
Fisher para assume a forma bloco diagonal
K
=
_
K
0
0 K
_
.
As estimativas de mxima verossimilhaa para e podem ser obtidas
atravs de um algoritmo de mnimos quadrados reponderados, aplicando o
mtodo escore de Fisher, a partir de (4.5) e do mtodo de Newton-Raphson
para obter

desenvolvido a partir de (4.6), os quais so descritos abaixo
(m+1)
= (X
T
W
(m)
X)
1
X
T
W
(m)
y
(m)
301
e
(m+1)
=
(m)
{U
(m)
L
(m)
},
para m = 0, 1, 2, . . ., em que
y
= X +F
1
(y )
uma varivel dependente modicada e
=
n
i=1
{
( + y
i
) + (y
i
2
i
)/( +
i
)
2
} + n
1
{1
()}.
Tabela 4.5
Quantidades
i
e f
i
para algumas ligaes.
Ligao
i
f
i
log
i
=
i

i
/(
i
1
+ 1)
i
i
=
i
(
2
i
1
+
i
)
1
1
i
=
i
4/(
i
1
+ 1) 2
i
Os dois procedimentos so aplicados simultaneamente at a convergn-
cia. Podemos encontrar as estimativas de mxima verossimilhana (
T
,

)
T
pela aplicao do comando library(MASS) do R. Como ilustrao, vamos su-
por um modelo log-linear com resposta binomial negativa resp e covariveis
cov1 e cov2. Devemos acionar os seguintes comandos no R:
library(MASS)
fit.bn = glm.nb( resp cov1 + cov2).
No objeto fit.bn estaro os resultados do ajuste. Outras ligaes,
alm da ligao logartmica, podem ser usadas com a distribuio binomial
negativa. Por exemplo, para o ajuste de um modelo com resposta binomial
negativa e ligao identidade se resp considerada resposta e cov1 e cov2
so consideradas variveis explicativas, devemos fazer o seguinte:
library(MASS)
302
fit.bn = glm.nb( resp cov1 + cov2, link=identity).
A Tabela 4.5 apresenta as expresses para
i
e f
i
para algumas ligaes
usuais em modelos com resposta binomial negativa.
Usando os mesmos argumentos da Seo 1.6 temos que para n grande
segue distribuio aproximadamente normal p-variada de mdia e ma-

triz de varincia-covarincia K
1
, ou seja , para n grande

N
p
(, K
1
).
Similarmente para n grande

N(, K
1
). Alm disso,

e

so assintoti-
camente independentes.
A funo desvio assumindo xo ca dada por
D
(y; ) = 2
n
i=1
_
log
_

i
+
y
i
+
_
+ y
i
log
_
y
i
(
i
+ )

i
(y
i
+ )
__
,
em que
i
= g
1
(x
T
i
). Quando y
i
= 0 o i-simo componente da funo
desvio D
(y; ) ca dado por

d
2
(y
i
,
i
) = 2{logf(0; y
i
, ) logf(0;
i
, )}
= 2log{/(y
i
+ )} 2log{/(
i
+ )}
= 2log{(
i
+ )/( y
i
+ )}
= 2log{(
i
+ )/}.
Portanto, os componentes do desvio no caso binomial negativo assumem as
seguintes formas:
d
2
(y
i
;
i
) =
_
_
_
2
_
log
_
(
i
+)
(y
i
+)
_
+ y
i
log
_
y
i
(
i
+)

i
(y
i
+)
__
se y
i
> 0;
2log
_
(
i
+)
_
se y
i
= 0.
Sob a hiptese de que o modelo adotado est correto D
(y; ) segue para

grande e
i
grande, i, uma distribuio qui-quadrado com (n p) graus de
liberdade.
303
Vamos supor agora a partio = (
T
1
,
T
2
)
T
em que
1
um vetor
q-dimensional enquanto
2
tem dimenso p q e que xo ou conhecido.
O teste da razo de verossimilhanas para testarmos H
0
:
1
= 0 contra
H
1
:
1
= 0 reduz, neste caso, diferena entre dois desvios
RV
= D
(y;
0
) D
(y; ),
em que
0
e so, respectivamente, as estimativas de sob H
0
e H
1
. Para
desconhecido o teste da razo de verossimilhanas ca expresso na seguinte
forma:
RV
= 2
n
i=1
[log{(
+ y
i
)(
0
)/(
0
+ y
i
)(
)} +

log{
/(
+
i
)}
0
log{
0
/(
0
+
0
i
)} + y
i
log{
i
(
0
+
0
i
)/
0
i
(
+
i
)}],
em que

0
e

so as estimativas de mxima verossimilhana de sob H
0
e
H
1
, respectivamente. Para n grande e sob H
0
temos que
RV

2
q
.
Fazendo uma analogia com os MLGs a matriz de projeo H assume aqui a
seguinte forma:
H = W
1/2
X(X
T
WX)
1
X
T
W
1/2
.
O i-simo elemento da diagonal principal de H ca dado por
h
ii
=
(d
i
/d
i
)
2
(
i
1
+
i
)
x
T
i
(X
T
WX)
1
x
i
.
Em particular, para os modelos log-lineares h
ii
ca dado por
h
ii
=

i
( +
i
)
x
T
i
(X
T
WX)
1
x
i
,
em que
i
=
i
/( +
i
). Como

h
ii
dever depender de
i
, grcos de

h
ii
contra os valores ajustados so mais informativos do que os grcos de

h
ii
contra a ordem das observaes.
304
Estudos de Monte Carlo desenvolvidos por Svetliza (2002) (ver tambm
Svetliza e Paula, 2003) indicam boa concordncia entre o resduo componente
do desvio
t
D
i
=
d
(y
i
;
i
)
_
1
h
ii
com a distribuio normal padro, em que
d
(y
i
;
i
) =
_
_
_
2
_
log
_

i
+
y
i
+
_
+ y
i
log
_
y
i
(
i
+)

i
(y
i
+)
__
1/2
se y
i
> 0;
2
_
log
_
(
i
+)
__
se y
i
= 0.
Para extrairmos a quantidade d
i
(y
i
;
i
) do objeto fit.bn devemos fa-
zer o seguinte:
d = resid(fit.bn, type= deviance").
Uma verso da distncia de Cook aproximada dada por
LD
i
=
h
ii
(1
h
ii
)
2
r
2
P
i
,
em que r
P
i
= (y
i
i
)/
_
Var(Y
i
) e Var(Y
i
) =
i
+
2
i
/. A quantidade r
P
i

obtida no R atravs do comando
rp = resid(fit.bn, type=pearson").
O grco de LD
i
contra as observaes ou valores ajustados pode re-
velar pontos inuentes nas estimativas

e

. Svetliza (2002) desenvolveu as
expresses matriciais para a obteno de
max
para

e

.
4.3.5 Seleo de modelos
Similarmente aos modelos lineares generalizados, pelo critrio de Akaike de-
vemos encontrar um submodelo para o qual a quantidade abaixo seja mini-
mizada
AIC = D
(y; ) + 2p.
305
Devemos acionar no R os seguintes comandos:
library(MASS)
stepAIC(fit.model).
Aqui fit.model denota o objeto com o modelo binomial negativo ajus-
tado.
4.3.6 Aplicaes
Estudantes australianos
Venables e Ripley(1999, Caps. 6 e 7) apresentam os resultados de um estudo
sociolgico desenvolvido na Austrlia com 146 estudantes de 8
a
srie e ensino
mdio com o objetivo de comparar a ausncia na escola segundo os seguintes
fatores: ano que o estudante est cursando (1: 8
a
srie, 2: 1
o
ano do ensino
mdio, 3: 2
o
ano do ensino mdio, 4: 3
o
ano do ensino mdio), etnia (0: abo-
rgine, 1: no aborgine), desempenho escolar (0: insuciente, 1: suciente)
e sexo (0: masculino, 1: feminino). Para obtermos esses dados no R devemos
acionar o comando library(MASS) e em seguida quine. Uma cpia desses
dados est disponvel no arquivo quine.dat. Denotamos por Y
ijkm
o nmero
de faltas num determinado perodo referentes ao m-simo aluno, cursando o
i-simo ano, de etnia j, com desempenho escolar k e pertencente ao -simo
sexo, em que i = 1, 2, 3, 4, j, k, = 1, 2 e m = 1, . . . , 144. Vamos supor que
Y
ijkm
BN(
ijk
, ), em que
log
ijk
= +
i
+
j
+
k
+
,
com
1
= 0,
1
= 0,
1
= 0 e
1
= 0. Assim, temos um modelo casela de
referncia em que
2
,
3
e
4
denotam os incrementos do primeiro, segundo
e terceiro ano do ensino mdio, respectivamente, em relao 8
a
srie,
2
a diferena entre os efeitos do grupo no aborgine com relao ao grupo
306
aborgine,
2
denota a diferena entre os efeitos dos grupos com desempenho
suciente e insuciente e a diferena entre os efeitos do sexo feminino e
masculino.
Tabela 4.6
Estimativas de mxima verossimilhana referentes ao modelo
log-linear binomial negativo ajustado aos dados sobre ausncia
escolar de estudantes australianos.
Efeito Modelo 1 E/E.Padro Modelo 2 E/E.Padro
Intercepto 2,895 12,70 2,628 10,55
Etnia -0,569 -3,72 0,131 0,38
Sexo 0,082 0,51
Ano2 -0,448 -1,87 0,178 0,56
Ano3 0,088 0,37 0,827 2,61
Ano4 0,357 1,44 0,371 1,11
Desemp 0,292 1,57
Etn*Ano2 -0,991 -2,26
Etn*Ano3 -1,239 -2,78
Etn*Ano4 -0,176 -0,38
1,275 7,92 1,357 7,80
Na Tabela 4.6 temos as estimativas de mxima verossimilhana com os
respectivos erros padro aproximados. O desvio do modelo ajustado (modelo
1) foi de D
(y; ) = 167, 95 (139 graus de liberdade). Notamos que os fatores

sexo e desempenho escolar no so signicativos a 10%, sendo portanto reti-
rados do modelo. Contudo, notamos a necessidade de incluso da interao
ano*etnia no novo modelo. O valor da estatstica da razo de verossimilhan-
as nesse caso de
RV
= 11, 16 (P= 0, 0109). As novas estimativas so
tambm apresentadas na Tabela 4.6. O desvio do novo modelo (modelo 2)
foi de D
(y; ) = 167, 84 (138 graus de liberdade). A Figura 4.5 apresenta

as mdias ajustadas do modelo nal. Podemos notar que o grupo no abo-
rgine tem em geral um n
o
mdio menor de dias ausentes. A maior mdia
observada para estudantes do grupo aborgine cursando o 2
o
do ensino mdio
307
e o menor valor mdio observado para estudantes do grupo no aborgine
cursando o 1
o
do ensino mdio.
Ano
V
a
l
o
r
e

A
j
u
s
t
a
d
o
1
0
1
5
2
0
2
5
3
0
8a.Serie Ano1 Ano2 Ano3
Abor
Nabo
Figura 4.5: Valores mdios estimados pelo modelo log-linear binomial nega-
tivo ajustado aos dados sobre ausncia escolar de estudantes australianos.
Vericamos tambm, neste estudo, como ca o ajuste atravs de um
modelo log-linear de Poisson. Temos nas Figura 4.6a e 4.6b os grcos nor-
mais de probabilidades para os dois ajustes e notamos uma clara superi-
oridade do modelo log-linear com resposta binomial negativa. O modelo
log-linear de Poisson apresenta fortes indcios de sobredisperso com os re-
sduos cruzando o envelope gerado. Isso justicado pelo valor do desvio
308
D
(y; ) = 1597, 11 (138 graus de liberdade).

Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
5
0
5
1
0
(a)
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
3
(b)
Figura 4.6: Grcos normais de probabilidades referentes ao modelo log-
linear de Poisson (a) e ao modelo log-linear binomial negativo (b) ajustados
aos dados sobre ausncia escolar de estudantes australianos.
Nas Figuras 4.7a a 4.7d so apresentados alguns grcos de diagnstico.
Na Figura 4.7a em que so apresentados os valores de

h
ii
nenhum dos 8 grupos
formados so destacados como alavanca. J pela Figura 4.7b notamos pelo
menos trs pontos com mais destaque como inuentes em

, so os alunos
#72, #104 e #36. Os trs alunos tm vrios dias ausentes, respectivamente,
67, 69 e 45. O aluno #72 no aborgine e estava cursando a 8
a
srie. O aluno
#104 tambm no aborgine, porm estava cursando o 3
o
ano, enquanto
o aluno #36 aborgine e estava tambm cursando a 8
a
srie. Pela Figura
4.7c notamos dois pontos com mais destaque como aberrantes, #98 e #61.
Esses alunos no tiveram faltas, estavam cursando o 3
o
ano, um aborgine
(#61) e o outro (#98) no aborgine. Em geral os pontos aberrantes desse
exemplo referem-se a alunos sem nenhuma falta. A retirada desses pontos
309
no altera os resultados inferenciais. Finalmente, a Figura 4.7d indica que a
escolha da ligao logartmica no parece ser inadequada.
Valores Ajustados
M
e
d
i
d
a

h
10 15 20 25 30
0
.
0
0
.
4
0
.
8
(a)
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 20 40 60 80 100 140
0
.
0
0
.
4
0
.
8
(b)
36
72
104
Indice
R
e
s
i
d
u
o

C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
0 20 40 60 80 100 140
-
4
-
2
0
2
(c)
61 98
Preditor Linear
V
a
r
i
a
v
e
l

z
2.0 2.5 3.0 3.5
1
2
3
4
5
6
(d)
Figura 4.7: Grcos de diagnstico referentes ao modelo binomial negativo
ajustado aos dados sobre ausncia escolar de estudantes australianos.
Demanda de TV a cabo
Na Tabela 4.7 apresentado um conjunto de dados sobre a demanda de TVs
a cabo em 40 reas metropolitanas dos EUA (Ramanathan, 1993). Esses
dados esto tambm disponveis no arquivo tvcabo.dat. Foram observadas,
para cada rea, o nmero de assinantes (em milhares) de TV a cabo (nass),
310
Tabela 4.7
Demanda de TV a cabo em 40 reas metropolitanas dos EUA.
Nass Domic Perc Percap Taxa Custo Ncabo Ntv
105 350 30,000 9839 14,95 10 16 13
90 255,631 35,207 10606 15 7,5 15 11
14 31 45,161 10455 15 7 11 9
11,7 34,840 33,582 8958 10 7 22 10
46 153,434 29,980 11741 25 10 20 12
11,217 26,621 42,136 9378 15 7,66 18 8
12 18 66,667 10433 15 7,5 12 8
6,428 9,324 68,940 10167 15 7 17 7
20,1 32 62,813 9218 10 5,6 10 8
8,5 28 30,357 10519 15 6,5 6 6
1,6 8 20,000 10025 17,5 7,5 8 6
1,1 5 22,000 9714 15 8,95 9 9
4,355 15,204 28,644 9294 10 7 7 7
78,910 97,889 80,612 9784 24,95 9,49 12 7
19,6 93 21,075 8173 20 7,5 9 7
1 3 33,333 8967 9,95 10 13 6
1,65 2,6 63,462 10133 25 7,55 6 5
13,4 18,284 73,288 9361 15,5 6,3 11 5
18,708 55 34,015 9085 15 7 16 6
1,352 1,7 79,529 10067 20 5,6 6 6
170 270 62,963 8908 15 8,75 15 5
15,388 46,540 33,064 9632 15 8,73 9 6
6,555 20,417 32,106 8995 5,95 5,95 10 6
40 120 33,333 7787 25 6,5 10 5
19,9 46,39 42,897 8890 15 7,5 9 7
2,45 14,5 16,897 8041 9,95 6,25 6 4
3,762 9,5 39,600 8605 20 6,5 6 5
24,882 81,98 30,351 8639 18 7,5 8 4
21,187 39,7 53,368 8781 20 6 9 4
3,487 4,113 84,780 8551 10 6,85 11 4
3 8 37,500 9306 10 7,95 9 6
42,1 99,750 42,206 8346 9,95 5,73 8 5
20,350 33,379 60,966 8803 15 7,5 8 4
23,15 35,5 65,211 8942 17,5 6,5 8 5
9,866 34,775 28,371 8591 15 8,25 11 4
42,608 64,840 65,713 9163 10 6 11 6
10,371 30,556 33,941 7683 20 7,5 8 6
5,164 16,5 31,297 7924 14,95 6,95 8 5
31,150 70,515 44,175 8454 9,95 7 10 4
18,350 42,040 43,649 8429 20 7 6 4
311
o nmero de domiclios (em milhares) na rea (domic), a porcentagem de
domiclios com TV a cabo (perc), a renda per capita (em USD) por domiclio
com TV a cabo (percap), a taxa de instalao de TV a cabo (taxa) em USD, o
custo mdio mensal de manuteno de TV a cabo (custo) em USD, o nmero
de canais a cabo disponveis na rea (ncabo) e o nmero de canais no pagos
com sinal de boa qualidade disponveis na rea (ntv).
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
4
-
2
0
2
4
6
8
(a)
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
4
-
2
0
2
(b)
Figura 4.8: Grcos normais de probabilidades referentes aos modelos log-
linear de Poisson(a) e log-linear binomial negativo (b) ajustados aos dados
sobre demanda de TV a cabo.
Como so dados de contagem podemos pensar inicialmente num mo-
delo de Poisson em que nass
i
denota o nmero de assinantes na i-sima regio
tal que nass
i
P(
i
), em que
log
i
= +
1
domic
i
+
2
percap
i
+
3
taxa
i
+
4
custo
i
+
5
ncabo
i
+
6
ntv
i
para i = 1, . . . , 40. No entanto, o ajuste do modelo forneceu desvio D(y; ) =
225 para 33 graus de liberdade indicando fortes indcios de sobredisperso,
312
que conrmado pelo grco normal de probabilidades da Figura 4.8a. Ten-
tamos ento um modelo binomial negativo em que nass
i
BN(
i
, ). O gr-
co normal de probabilidades (Figura 4.8b) bem como o desvio D
(y; ) =
42, 35 fornecem indcios de ajuste adequado. No entanto, pela Figura 4.9,
notamos uma rea altamente inuente (observao #14) e outra rea com
moderada inuncia (observao #1). A rea #14 apresenta custos altos de
instalao e manuteno de TV a cabo, porm um alto ndice de assinantes.
0 50 100 150 200 250
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Valores Ajustados
M
e
d
i
d
a

h
(a)
0 10 20 30 40
0
1
2
3
4
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
(b)
1
14
0 10 20 30 40
1
0
1
2
3
4
Indice
R
e
s
i
d
u
o

C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
(c)
2 3 4 5
1
2
3
4
5
Preditor Linear
V
a
r
i
a
v
e
l

z
(d)
Figura 4.9: Grcos de diagnstico referentes ao modelo log-linear binomial
negativo ajustado aos dados sobre demanda de TV a cabo.
313
A rea #1 tem um baixo ndice de assinantes com grande oferta de canais
a cabo e canais no pagos de boa qualidade. As estimativas dos coecientes
com todos os pontos e eliminando as observaes mais discrepantes (1 e 14)
so apresentadas na Tabela 4.8. Como podemos observar h indcios de
que quatro coecientes (percap, taxa, ncabo e ntv) so marginalmente no
signicativos a 10%. Aplicamos ento o teste da razo de verossilhanas
para testarmos H
0
:
2
=
3
=
5
=
6
= 0 contra pelo menos um parmetro
diferente de zero que forneceu o valor
RV
= 2, 50 para 4 graus de liberdade
(P=0,64), indicando pela no rejeio da hiptese nula. Isso signica que
as duas observaes discrepantes so responsveis pela signicncia de trs
desses coecientes que aparecem signicativos marginalmente com todos os
pontos, bem como pelo aumento da sobredisperso uma vez que a estimativa
de cresce com a eliminao das duas reas.
Tabela 4.8
Estimativas de mxima verossimilhana referentes do modelo log-linear
binomial negativo ajustado aos dados sobre demanda de TV a cabo.
Efeito Todos pontos E/E.Padro Sem 1 e 14 E/E.Padro
Intercepto 2,437 1,99 3,608 3,34
Domic 0,013 8,24 0,014 9,69
Percap 6 10
5
0,42 2 10
6
-0,01
Taxa 0,041 1,84 0,010 0,50
Custo -0,207 1,95 -0,266 -2,69
Ncabo 0,067 2,01 0,050 1,63
Ntv -0,135 1,84 -0,071 -1,02
3,311 3,49 5,060 2,89
Portanto, um modelo mais recomendado envolveria apenas as variveis
explicativas domic e custo, ou seja, com parte sitemtica dada por log
i
= +
1
domic
i
+
4
custo
i
. O desvio desse modelo ca dado por D
(y; ) = 41, 05
para 35 graus de liberdade (P= 0, 22), indicando um ajuste adequado. As
novas estimativas sem as reas #1 e # 14 (erro padro aproximado) cam
314
dadas por = 3, 620(0, 637),

1
= 0, 015(0, 001),

4
= 0, 242(0, 091) e
= 4, 54(1, 51).
Portanto, pela estimativa de
4
, se o custo mensal de manuteno
aumentar de USD 1 esperamos uma reduo aproximada de 22% no nmero
de assinantes com TV a cabo na rea.
4.3.7 Sobredisperso e quase-verossimilhana
De uma forma geral o fenmeno de sobredisperso sugere que a varincia de
Y seja dada por Var(Y ) =
2
, em que
2
> 1. Uma maneira mais simples
de resolvermos o problema ajustarmos um modelo log-linear de Poisson aos
dados e estimarmos
2
separadamente (mtodo de quase-verossimilhana),
por exemplo, usando a estimativa proposta por Wedderburn (1974), dada
por

2
=
n
i=1
(y
i

i
)
2

i
/(n p), (4.7)
em que
i
= exp(x
T
i
). Algumas quantidades, tais como a matriz de varincia-

covarincia assinttica de

, o desvio, resduos etc, devero ser corrigidos de
maneira similar ao caso tratado na Seo 3.6.14. Finalmente, podemos pen-
sar na aplicao de modelos mais gerais de quase-verossimilhana que sero
discutidos no Captulo 5.
Aplicao
Como ilustrao, vamos considerar os dados descritos na Tabela 4.9 (Mc-
Cullagh e Nelder, 1989, Seo 6.3.2) e tambm no arquivo navios.dat em
que avarias causadas por ondas em navios de carga so classicadas segundo
o tipo do navio (A-E), ano da fabricao (1:1960-64, 2:1965-69, 3:1970-74 e
4:1975-79) e perodo de operao (1:1960-74 e 2:1975-79).
315
Tabela 4.9
Distribuio de avarias em navios de
carga segundo o tipo do navio, ano de
fabricao perodo de operao
e total de meses em operao.
Tipo Ano Perodo Meses Avarias
A 1 1 127 0
A 1 2 63 0
A 2 1 1095 3
A 2 2 1095 4
A 3 1 1512 6
A 3 2 3353 18
A 4 2 2244 11
B 1 1 44882 39
B 1 2 17176 29
B 2 1 28609 58
B 2 2 20370 53
B 3 1 7064 12
B 3 2 13099 44
B 4 2 7117 18
C 1 1 1179 1
C 1 2 552 1
C 2 1 781 0
C 2 2 676 1
C 3 1 783 6
C 3 2 1948 2
C 4 2 274 1
D 1 1 251 0
D 1 2 105 0
D 2 1 288 0
D 2 2 192 0
D 3 1 349 2
D 3 2 1208 11
D 4 2 2051 4
E 1 1 45 0
E 2 1 789 7
E 2 2 437 7
E 3 1 1157 5
E 3 2 2161 12
E 4 2 542 1
316
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
3
(a)
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
3
(b)
linear de Poisson (a) e log-linear de quase-verossimilhana (b) ajustados aos
dados sobre avarias em navios de carga.
Foi tambm considerado o tempo em que cada navio cou em operao
(em meses). Inicialmente, sugerimos um modelo log-linear de Poisson com
oset dado por log(meses) e efeitos principais. Assim, denotamos por Y
ijk
o nmero de avarias observadas para o navio do tipo i, construdo no ano j
que operou no perodo k e vamos supor que Y
ijk
P(
ijk
t
ijk
), em que t
ijk

o total de meses de operao e
ijk
o nmero mdio esperado de avarias por
unidade de tempo. A parte sistemtica do modelo dada por
log
ijk
= +
1(i)
+
2(j)
+
3(k)
,
com as restries
1(1)
=
2(1)
=
3(1)
= 0, para i = 1, . . . , 5; j = 1, . . . , 4 e
k = 1, 2, com
1
,
2
e
3
denotando, respectivamente, o efeito de tipo, de ano
de construo e perodo de operao. O desvio do modelo foi de D(y; ) =
38, 69 (25 graus de liberdade) que corresponde a um nvel descritivo P=
0, 040, indicando que o ajuste no est satisfatrio.
317
Pelo grco normal de probabilidades, descrito na Figura 4.10a, no-
tamos a maioria dos resduos prximos dos limites superior e inferior do
envelope gerado, sugerindo sobredisperso que nesse caso deve ser devido ao
fato de um mesmo navio ter sido observado mais de uma vez. Usando (4.7)
obtemos
2
= 1, 69, e corrigindo o componente do desvio padronizado de
modo que
t
D
i
= d
i
/
_
1
h
ii
,
obtemos um novo grco normal de probabilidades descrito na Figura 4.10b,
em que os resduos esto melhor distribudos dentro do envelope gerado.
Tabela 4.10
log-linear de quase-verossimilhana ajustado
aos dados sobre avarias em navios de carga.
Constante -6,406 -22,69
Tipo
A 0,000 -
B -0,543 -2,36
C -0,687 -1,61
D -0,076 0,20
E 0,326 1,06
Ano
60-64 0,000 -
65-69 0,697 3,59
70-74 0,818 3,71
75-79 0,453 1,50
Perodo
60-74 0,000 -
75-79 0,384 2,50
O novo desvio ca dado por D
(y; ) = D(y; )/
2
= 38,69/1,69 =
22,89 (25 graus de liberdade), indicando um ajuste adequado. Devemos
318
4.4 Relao entre a multinomial e a Poisson
observar que tanto o resduo t
D
i
como o desvio D
(y; ) devem ser olha-

dos de maneira meramente descritiva uma vez que em modelos de quase-
verossimilhana a distribuio da resposta em geral desconhecida. As esti-
mativas de mxima verossimilhana e os valores padronizados pelos respecti-
vos erros padro aproximados, j multiplicados pelo fator , so apresentadas
na Tabela 4.10. Williams (1987) mostra que o problema de sobredisperso
neste exemplo causado particularmente por duas observaes discrepantes
e sugere a incluso da interao tipo*ano com pelo menos uma dessas obser-
vaes excludas. Pela Tabela 4.10 notamos que os navios de tipos B e C so
aqueles com uma incidncia menor de avarias por unidade de tempo. Por
outro lado, os navios fabricados de 65 a 74 como tambm aqueles que ope-
raram de 75 a 79 apresentam uma inicidncia maior de avarias por unidade
de tempo do que os demais.
Vamos supor agora que todas as unidades amostrais so acompanhadas du-
rante o mesmo perodo e que so classicadas segundo s nveis de exposio
e r grupos, conforme descrito abaixo.
Exposio
Grupo E1 E2 E3 Es
G1 y
11
y
12
y
13
y
1s
G2 y
21
y
22
y
23
y
2s

Gr y
r1
y
r2
y
r3
y
rs
Supondo que Y
ij
P(
ij
), i = 1, . . . , r e j = 1, . . . , s, temos que
Pr{Y = a|
i,j
Y
ij
= n} =
n!
i,j
a
ij
!
i,j
a
ij
ij
,
319
em que
ij
=
ij
/
++
,
++
=
i,j

ij
, Y = (Y
11
, . . . , Y
rs
)
T
e a = (a
11
, . . . , a
rs
)
T
.
Vamos considerar o modelo log-linear de Poisson com parte sistemtica dada
por log
ij
= +
1(i)
+
2(j)
+
12(ij)
, com as restries
1(1)
=
2(1)
=
12(1j)
=
12(i1)
= 0 para i = 1, . . . , r e j = 1, . . . , s. Temos que
=
++
=
r
i=1
s
j=1
exp{ +
1(i)
+
2(j)
+
12(ij)
}
= e
i=1
s
j=1
exp{
1(i)
+
2(j)
+
12(ij)
},
e podemos denir as probabilidades
ij
=
exp{
1(i)
+
2(j)
+
12(ij)
}
r
i=1
s
j=1
exp{
1(i)
+
2(j)
+
12(ij)
}
,
em que o total do denominador invariante com a parametrizao utilizada
no modelo. Temos que as probabilidades
ij
s no dependem do parmetro .
Como veremos a seguir, a estimativa de mxima verossimilhana do vetor
correspondente ao modelo multinomial coincide com a estimativa de mxima
verossimilhana para = (
T
1
,
T
2
,
T
12
)
T
referente ao modelo log-linear de
Poisson. Se, por exemplo, ajustarmos um modelo multinomial do tipo log-
linear aos dados tal que
log
ij
=
+
1(i)
+
2(j)
+
12(ij)
,
teremos, devido imposio
i,j

ij
= 1, que exp(
) = 1/
j
exp{
1(i)
+
2(j)
+
12(ij)
}, ou seja,
= log(). O que muda a estimativa do in-

tercepto, embora na prtica sempre seja possvel obtermos
atravs de
e vice-versa. Para mostrarmos a equivalncia das estimativas partiremos da
relao abaixo
Pr{Y = a|n} =
Pr{Y = a; Y
++
= n}
Pr{Y
++
= n}
,
320
em que Y
++
=
i,j
Y
ij
. Denotando L
y|n
() = logPr{Y = a|n}, L
y
(, ) =
logPr{Y = a; Y
++
= n} e L
y
++
() = logPr{Y
++
= n} temos que
L
y
(, ) = L
y
++
() + L
y|n
(), (4.8)
em que
L
y
++
() = + y
++
log log(y
++
!)
e
L
y|n
() = logn! +
i,j
a
ij
log
ij
i,j
loga
ij
!.
Portanto, maximizarmos L
y
(, ) com relao a equivalente a maximizar-
mos L
y|n
() com relao a . Isso quer dizer que as estimativas de mxima
verossimilhana para o vetor so as mesmas sob o modelo log-linear multi-
nomial com probabilidades
11
, . . . ,
rs
e sob o modelo log-linear de Poisson
de mdias
11
, . . . ,
rs
. As matrizes de segundas derivadas com relao a ,
para os dois modelos, so tais que
2
L
y
(, )
T
=

2
L
y|n
()
T
.
Devido linearidade em (4.8) segue que a matriz de informao observada
para (,
T
)
T
bloco-diagonal com elementos dados por
2
L
y
(, )/
2
e
2
L
y
(, )/
T
, respectivamente. Segue, portanto, que a matriz de
informao de Fisher ser tambm bloco-diagonal com os valores esperados
das quantidades acima,
K
=
_
_
E
y
_
2
L
y
(,)
2
_
0
0 E
y
_
2
L
y
(,)
T
_
_
_
.
A varincia assinttica de

ca ento dada por
Var
y
(
) = [E
y
{
2
L
y
(, )/
T
}]
1
.
321
Palmgren (1981) mostra que K
coincide com a matriz de informao ob-

servada sob a restrio = n.
Esses resultados podem ser generalizados para quaisquer dimenses
de tabelas bem como sob a presena de variveis explicativas contnuas. A
varincia assinttica de

ca no modelo multinomial dada por
Var
y|n
(
) =
_
E
y|n
_
2
L
y|n
()
T
__
1
,
coincidindo com a varincia assinttica do modelo no condicional sob a
restrio = n. Contudo, do ponto de vista prtico, as varincias assintticas
de

devem coincidir uma vez que a estimativa de mxima verossimilhana
de dada por = n.
4.4.1 Modelos log-lineares hierrquicos
Um modelo log-linear dito hierrquico se dado que uma interao est no
modelo, todas as interaes de ordem menor como tambm os efeitos princi-
pais correspondentes devero estar tambm no modelo. A utilizao de tais
modelos tem a vantagem de permitir uma interpretao das interaes nulas
como probabilidades condicionais. Em muitos casos podemos expressar as
estimativas dos valores mdios em forma fechada, evitando assim a utilizao
de processos iterativos.
Como ilustrao, vamos supor o modelo log-linear apresentado na seo
anterior. Podemos mostrar que a hiptese H
0
:
12(ij)
= 0, ij, equivalente
hiptese de independncia na tabela, isto H
0
:
ij
=
i+
+j
, ij. Dado
que no h interao, testarmos a ausncia de efeito de exposio, isto
testarmos H
0
:
1(i)
= 0, i = 1, . . . , r, equivalente a testarmos H
0
:
1+
=
=
r+
= 1/r. Finalmente, dado que no h interao, testarmos a
ausncia de efeito de grupo, isto testarmos H
0
:
2(j)
= 0, j = 1, . . . , s,
equivalente a testarmos H
0
:
+1
= =
+s
= 1/s.
322
Vamos supor agora um modelo log-linear de Poisson com trs fatores
de r, s e t nveis, respectivamente. Podemos representar a parte sistemtica
do modelo saturado da seguinte forma:
log
ijk
= +
1(i)
+
2(j)
+
3(k)
+
12(ij)
+
13(ik)
+
23(jk)
+
123(ijk)
, (4.9)
com as restries
1(1)
=
2(1)
=
3(1)
= 0,
12(1j)
=
12(i1)
= 0,
13(1k)
=
13(i1)
= 0,
23(1k)
=
23(j1)
= 0,
123(1jk)
=
123(i1k)
=
123(ij1)
= 0, para
i = 1, . . . , r; j = 1, . . . , s e k = 1, . . . , t. Temos vrias classes de modelos
hierrquicos que correspondem a situaes de interesse na tabela de contin-
gncia formada. Uma primeira classe corresponde hiptese de ausncia
de interao de segunda ordem, representada por H
0
:
123(ijk)
= 0, ijk,
sendo equivalente hiptese de associao entre dois fatores quaisquer ser
constante nos nveis do terceiro. Isso quer dizer, em outras palavras, que
a razo de produtos cruzados
ijk
k
/
ij
jk
, representando a associao
entre os nveis (i, j) e (i
, j
) dos dois primeiros fatores, constante nos nveis

do terceiro fator. Se omitimos no modelo (4.9) a interao de segunda ordem
mais uma interao de primeira ordem, dizemos que os dois fatores omitidos
correspondentes interao de primeira ordem so independentes do terceiro
fator. Por exemplo, se omitimos
123(ijk)
e
23(jk)
, ijk, cando com a parte
sistemtica
log
ijk
= +
1(i)
+
2(j)
+
3(k)
+
12(ij)
+
13(ik)
,
dizemos que os fatores 2 e 3 so independentes nos nveis do primeiro fator,
ou equivalentemente, que
ijk
=
ij+
i+k
/
i++
, ijk.
Se agora omitimos alm de
123(ijk)
e
23(jk)
tambm
13(ik)
, ijk, cando a
parte sistemtica
log
ijk
= +
1(i)
+
2(j)
+
3(k)
+
12(ij)
,
323
dizemos que o terceiro fator independente dos dois primeiros, ou equivalen-
temente, que
ijk
=
ij+
++k
, ijk.
O modelo apenas com os efeitos principais cuja parte sistemtica dada por
log
ijk
= +
1(i)
+
2(j)
+
3(k)
,
equivale hiptese de independncia entre os trs fatores, isto , que
ijk
=
i++
+j+
++k
, ijk.
A Tabela 4.11 resume as trs situaes de independncia para o modelo (4.9).
Tabela 4.11
Algumas interaes em modelos log-lineares de Poisson.
Forma para
ijk
Interao Interpretao
i++
+j+
++k
nenhuma fatores mutuamente
independentes
ij+
++k

12(ij)
fatores 1 e 2 independentes
do fator 3
ij+
i+k
/
i++

12(ij)
+
13(ik)
fatores 2 e 3 independentes
nos nveis do fator 1
Em muitos desses casos possvel expressarmos as estimativas das proba-
bilidades
ijk
s em forma fechada. Uma anlise mais completa de modelos
hierrquicos pode ser encontrada, por exemplo, em Cordeiro e Paula (1989b,
Cap. 3) e Agresti (1990, Cap. 5).
4.4.2 Aplicaes
Associao entre renda e satisfao no emprego
A Tabela 4.12 apresenta o resultado de uma pesquisa com 901 indivduos
(Agresti, 1990, pgs. 20-21) classicados segundo a renda anual e o grau de
324
satisfao no emprego. Denotamos por Y
ij
o nmero de indivduos perten-
centes classe de renda i com grau de satisfao j.
Tabela 4.12
Classicao de indivduos segundo a renda
e o grau de satisfao no emprego.
Grau de Satisfao
Renda (US$) Alto Bom Mdio Baixo
<6000 20 24 80 82
6000-15000 22 38 104 125
15000-25000 13 28 81 113
>25000 7 18 54 92
Vamos supor que Y
ij
P(
ij
) com parte sistemtica inicialmente dada
por (modelo saturado)
log
ij
= +
1(i)
+
2(j)
+
12(ij)
,
em que
ij
denota o nmero esperado de indivduos pertencentes classe
de renda i com grau de satisfao j,
1(i)
denota o efeito renda,
2(j)
de-
nota o efeito satisfao e
12(ij)
denota a interao. Temos as restries
1(1)
=
2(1)
= 0. O teste da razo de verossimilhanas para testarmos
H
0
:
12(ij)
= 0, ij (ausncia de interao) fornece o valor
RV
= 12, 04 com
nvel descritivo P= 0, 21, indicando pela ausncia de interao ou indepen-
dncia entre os dois fatores. Se denotarmos por
ij
a proporo de indivduos
na classe de renda i e grau de satisfao j, no rejeitarmos H
0
equivalente
a escrevermos
ij
=
i+
+j
, ij, em que
i+
denota a proporo de indiv-
duos na classe de renda i e
+j
denota a proporo de indivduos com grau
de satisfao j. Ou seja, temos independncia entre renda e satisfao no
emprego. Isso signica que a distribuio do grau de satisfao no emprego
mesma em todos as faixas de renda. A Tabela 4.13 apresenta as estimativas
dos parmetros do modelo com efeitos principais.
325
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
de Poisson ajustado aos dados sobre renda e satisfao no emprego.
Tabela 4.13
de Poisson ajustado ao dados sobre renda e
satisfao no emprego.
Renda 2
1(2)
0,338 3,71
Renda 3
1(3)
0,132 1,389
Renda 4
1(4)
-0,186 -1,81
Grau 2
2(2)
0,555 3,49
Grau 3
2(3)
1,638 11,87
Grau 4
2(4)
1,894 13,93
Os fatores renda e grau de satisfao so altamente signicativos. No-
tamos pelas estimativas dos parmetros que h uma proporo maior de
326
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
(a)
Percentis da N(0,1)
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
-2 -1 0 1 2
-
3
-
2
-
1
0
1
2
3
(b)
linear de Poisson (a) e log-linear de quase-verossimilhana (b) ajustados aos
dados sobre doena das coronrias.
indivduos na classe de renda 2 (6000-15000) e uma proporo menor na
classe de renda 4 (>25000). Por outro lado, notamos que a proporo de
indivduos cresce com o aumento do grau de satisfao. O desvio do mo-
delo foi de D(y; ) = 12, 04 (9 graus de liberdade) com nvel descritivo de
P= 0, 21, indicando um ajuste adequado. Pelo grco normal de probabili-
dades com o resduo t
D
i
(Figura 4.11) no h indcios fortes de que o modelo
adotado seja incorreto, embora o fato dos resduos negativos estarem abaixo
da reta mediana e os resduos positivos ligeiramente acima seja uma indcio
de sobredisperso nos dados.
Doena das coronrias
Vamos considerar agora os dados da Tabela 4.14 (Everitt, 1977) referente
classicao de 1330 pacientes segundo trs fatores: doena das coronrias
327
(sim ou no), nvel de colesterol (1: menor do que 200 mg/100 cc, 2: 200-
219, 3: 220-259 e 4: 260 ou +) e presso arterial (1: menor do que 127
mm Hg, 2: 127-146, 3: 147-166 e 4: 167 ou +). Os dados esto tambm
descritos no arquivo heart.dat. Denotamos por Y
ijk
o nmero de pacientes
nos nveis (i, j, k) dos trs fatores: doena das coronrias, nvel de colesterol
e presso arterial, respectivamente. Vamos supor que Y
ijk
P(
ijk
) com
parte sistemtica inicialmente dada por (modelo saturado)
log
ijk
= +
1(i)
+
2(j)
+
3(k)
+
12(ij)
+
13(ik)
+
23(jk)
+
123(ijk)
,
em que
ijk
denota o nmero esperado de indivduos pertencentes aos nveis
(i, j, k), respectivamente,
1(i)
denota o efeito doena das coronrias,
2(j)
de-
nota o efeito nvel de colesterol,
3(k)
denota o efeito presso arterial e
12(ij)
,
13(ik)
,
23(jk)
e
123(ijk)
so as interaes de 1
a
e 2
a
ordens, respectivamente,
com as restries dadas na Seo 4.4.1.
Tabela 4.14
Distribuio de 1330 pacientes segundo
ocorrncia de doena das coronrias,
nvel de colesterol e presso arterial.
Doena das Nvel de Presso arterial
coronrias colesterol 1 2 3 4
1 2 3 3 4
Sim 2 3 2 1 3
3 8 11 6 6
4 7 12 11 11
1 117 121 47 22
No 2 85 98 43 20
3 119 209 68 43
4 67 99 46 33
Pela Tabela 4.15 notamos que, segundo o princpio hierrquico, apenas
a interao de segunda ordem pode ser eliminada. A incluso dos efeitos
328
principais altamente signicativa. Dado que os efeitos principais esto
no modelo, a incluso da interao doena*colesterol (
12(ij)
) leva a
RV
=
30, 45 (3 graus de liberdade) com P= 0, 00. Dado que essa interao est no
modelo, a incluso da interao doena*presso (
13(ik)
) fornece
RV
= 24, 10
(3 graus de liberdade) com P= 0, 00. Finalmente, dadas as duas interaes
de primeira ordem, a incluso da interao remanescente, colesterol*presso,
leva a
RV
= 19, 62 (9 graus de liberdade) com P= 0, 02. O desvio do
modelo (4.9) sem a interao de segunda ordem de D(y; ) = 4, 77 (9 graus
de liberdade) para um nvel descritivo de P= 0, 853, indicando um ajuste
adequado.
Tabela 4.15
Resumo do ANODEV referente ao modelo
log-linear de Poisson ajustado aos
dados sobre doena das coronrias.
(D:doena, C:colesterol e P:presso)
Efeito Desvio g.l. Diferena g.l.
D+C+P 78,96 24 - -
+ D.C 48,51 21 30,45 3
+ D.P 24,40 18 24,10 3
+ C.P 4,77 9 19,63 9
A ausncia de interao de segunda ordem neste exemplo signica que
as razes de chances (entre os nveis de colesterol ou entre os nveis de presso
arterial) so as mesmas nos grupos de doentes e no doentes. Contudo,
o grco normal de probabilidades descrito na Figura 4.12a indica que os
resduos negativos esto acima da mdia esperada, ocorrendo o contrrio
com os resduos positivos, embora todos sejam em geral pequenos. Isso
um indcio modesto de subdisperso, fenmeno que tambm pode ocorrer
em modelos de Poisson.
329
4.5 Modelos com excesso de zeros
Um modelo de quase-verossimilhana similar ao que foi usado no exem-
plo da Seo 4.2.6 leva estimativa
2
= 0, 53. Na Figura 4.12b temos o
grco normal de probabilidades com o resduo componente do desvio cor-
rigido pela estimativa de disperso. Notamos que os resduos esto melhor
distribudos dentro do envelope gerado. A concluso deste exemplo que h
associao entre os fatores dois a dois e que essa associao constante nos
nveis do terceiro fator.
4.5 Modelos com excesso de zeros
Modelo de Poisson com excesso de zeros
Modelo binomial negativo com excesso de zeros
4.6 Exerccios
1. Seja Y uma varivel aleatria com distribuio binomial negativa, isto
, Y o nmero de ensaios at a ocorrncia do r-simo sucesso, em que
a probabilidade de sucesso em cada ensaio. Mostre que a funo de
probabilidades de Y pode ser expressa na forma exponencial. Calcule
e V (). Use a forma abaixo para a funo de probabilidades de Y
f(y; , r) =
_
y 1
r 1
_
r
(1 )
(yr)
,
em que y = r, r+1, . . .. Obtenha a funo desvio supondo uma amostra
de n variveis aleatrias independentes de probabilidades de sucesso
i
.
2. Seja Y varivel aleatria com distribuio binomial negativa biparam-
trica de mdia e parmetro de disperso , cuja funo de probabili-
dades dada por
f(y; , ) =
( + y)
(y + 1)()
_

+
_
y
_

+
_
,
330
4.6 Exerccios
em que > 0, > 0 e y = 0, 1, 2, . . . . Mostre que para conhecido
a distribuio de Y pertence famlia exponencial de distribuies.
Encontrar a funo de varincia. Obtenha a funo desvio supondo
uma amostra de n variveis aleatrias independentes de mdias
i
e
parmetro de disperso .
3. Sejam Y
1
e Y
2
i
P(
i
),
i = 1, 2. Considere a razo de taxas =
1
/
2
. Encontre a varincia
assinttica de

, Var
A
(
).
4. (Breslow e Day, 1987). A tabela abaixo apresenta o nmero de mortes
por cncer respiratrio e o nmero de pessoas-anos de observao entre
trabalhadores de indstrias siderrgicas do estado de Montana (EUA)
segundo o nvel de exposio ao arsnico.
Nvel de Exposio
Alto Baixo
Casos 68 47
Pessoas-Anos 9018 13783
Sejam Y
1
e Y
2
o nmero de casos observados para o nvel alto e baixo de
arsnico, respectivamente. Suponha que Y
i
P(
i
t
i
), em que t
i
denota
o nmero de pessoas-anos, i = 1, 2. Considere a razo de taxas =
1
/
2
. Encontre

e um intervalo de conana exato de 95% para .
Com base neste intervalo qual sua concluso sobre a hiptese H
0
: =
1? Informaes teis: F
136,96
(0, 025) = 0, 694 e F
138,94
(0, 975) = 1, 461.
5. (Neter et al., 1996, p. 623). No arquivo geriatra.dat esto descritos
os dados de um estudo prospectivo com 100 indivduos de pelo menos
65 anos de idade em boas condies fsicas. O objetivo do estudo
331
4.6 Exerccios
tentar relacionar o nmero mdio de quedas num perodo de seis
meses com algumas variveis explicativas. Os dados esto descritos na
seguinte ordem: quedas (nmero de quedas no perodo), interveno
(=0 educao somente, =1 educao e exerccios fsicos), sexo (=0
feminino, =1 masculino), balano (escore) e fora (escore). Para as
variveis balano e fora quanto maior o valor maior o balano e
a fora do indivduo, respectivamente. Tente selecionar um modelo
apropriado apenas com os efeitos principais. Interprete os resultados e
faa uma anlise de diagnstico.
6. (Breslow e Day, 1987, pgs. 140-142). Os dados do arquivo canc1.dat
so provenientes de um estudo de seguimento para estudar a associao
entre a taxa anual de cncer nasal em trabalhadores de uma renaria de
nquel no Pas de Gales e algumas variveis explicativas: idade no pri-
meiro emprego (4 nveis), ano do primeiro emprego (4 nveis) e tempo
decorrido desde o primeiro emprego (5 nveis). So tambm apresenta-
dos o nmero de casos de cncer nasal e o total de pessoas anos para
cada combinao desses trs fatores. Proponha um modelo log-linear
com resposta de Poisson sendo o nmero de casos de cncer nasal com
oset dado por log(p-anos). Considere inicialmente apenas os efeitos
principais dos trs fatores: idade no primeiro emprego, ano do primeiro
emprego e tempo decorrido desde o primeiro emprego. Verique se
possvel incluir alguma interao de primeira ordem. Faa uma an-
lise de diagnstico com o modelo nal e interprete os resultados, por
exemplo, fazendo uma comparao das taxas estimadas de cncer nasal
entre os nveis de um mesmo fator.
7. (Hinde, 1982). No arquivo rolos.dat so apresentados os dados refe-
rentes a produo de peas de tecido numa determinada fbrica. Na
332
4.6 Exerccios
primeira coluna tem-se o comprimento da pea (em metros) e na se-
gunda coluna o nmero de falhas. Faa inicialmente um grco do
nmero de falhas contra o comprimento da pea. Ajuste um modelo
log-linear de Poisson apropriado. Faa uma anlise de resduos e veri-
que se h indcios de sobredisperso. Em caso armativo ajuste um
modelo de quase-verossimilhana e um modelo log-linear com distribui-
o binomial negativa. Interprete os resultados pelas razes de mdias
(x + 1)/(x), em que x denota o comprimento da pea.
8. Sejam Y
1
, . . . , Y
n
i
P(
i
)
e parte sistemtica dada por
i
=
p
j=1
x
ij
j
tal que

n
i=1
x
ij
x
i
= 0,
para j = . Ou seja, as colunas da matriz modelo X so ortogonais.
Encontre a ligao que faz com que Corr(
j
,

) = 0, para j = .
Comente sobre as vantagens desse resultado.
9. Considere um experimento em que duas mquinas, M1 e M2, so ob-
servadas durante o mesmo perodo sendo computados para cada uma
o nmero de peas defeituosas produzidas, conforme descrito pelo es-
quema abaixo.
M1 M2
P. Defeituosas y
1
y
2
Suponha que Y
1
P(
1
) e Y
2
P(
2
) e considere o modelo log-linear
log
1
= e log
2
= + . Obtenha a varincia assinttica de

,
Var
y
(
), expressando-a em funo de e . Proponha agora um mo-

delo binomial condicional, dado Y
1
+Y
2
= m. Expresse a probabilidade
de sucesso em funo de . Interprete e encontre a varincia as-
sinttica de

, Var
y|m
(
). Mostre que as duas varincias assintticas

333
4.6 Exerccios
estimadas coincidem e so dadas por
Var(
) =
(1 + e
)
2
me
,
em que

o estimador de mxima verossimilhana de . Comente.
10. Supor Y
1
, . . . , Y
n
variveis aleatrias independents tais que Y
i
P(
i
)
e seja
i
= +(x
i
x), em que x a mdia amostral de x
1
, . . . , x
n
.
(i) Obtenha a matriz modelo X. (ii) Calcule as varincias assintticas
Var( ) e Var(
). (iii) Mostre tambm que Cov( ,

) = 0 e comente.
(iv) Como ca o teste de escore para testar H
0
: = 0 contra H
1
: =
0? Qual a distribuio nula assinttica da estatstica do teste?
11. Sejam Y
ij
variveis aleatrias mutuamente independentes tais que Y
ij

BN(
i
, ) para i = 1, 2 e j = 1, . . . , m com parte sistemtica dada por
1
= e
2
= +. (i) Como ca a matriz modelo X? (ii) Calcule
Var(
) e (iii) mostre que a estatstica de escore para testar H

0
: = 0
contra H
1
SR
=
m
0
2 y
( y
2
y
1
)
2
( y +
0
)
,
em que y = ( y
1
+ y
2
)/2 e
0
denota a estimativa de sob H
0
.
12. SejamY
1
, . . . , Y
n
i
BN(
i
, )
com parte sistemtica dada por log
i
= +(x
i
x) em que x =
x
i
n
.
(i) Como ca a matriz modelo X? (ii) Obtenha Var(
). (iii) Como ca
o teste de escore para testar H
0
: = 0 contra H
1
: = 0? Qual a
distribuio nula assinttica do teste?
13. Na tabela abaixo uma amostra de 174 alunos de Estatstica Bsica no
IME-USP foi classicada segundo o curso e o desempenho na disciplina.
334
4.6 Exerccios
Resultado da Avaliao
Curso Aprovado Reprovado Reavaliao
Pedagogia 32 16 3
Geograa 32 18 10
Fsica 35 14 14
Ajustar um modelo log-linear de Poisson para explicar
ij
, a proporo
de alunos do curso i com resultado j, em que i, j = 1, 2, 3. Interprete
os resultados e faa uma anlise de diagnstico.
14. (Hand et al., 1994). No arquivo recrutas.dat so descritos os resul-
tados de um estudo desenvolvido em 1990 com recrutas americanos
referente a associao entre o nmero de infees de ouvido e alguns
fatores. Os dados so apresentados na seguinte ordem: hbito de nadar
(ocasional ou frequente), local onde costuma nadar (piscina ou praia),
faixa etria (15-19, 20-25 ou 25-29), sexo (masculino ou feminino) e
nmero de infeces de ouvido diagnosticadas pelo prprio recruta. Ve-
rique qual dos modelos, log-linear de Poisson, quase-verossimilhana
ou log-linear binomial negativo, se ajusta melhor aos dados. Utilize
mtodos de diagnstico como critrio.
15. Supor, por um lado, o modelo log-linear de Poisson em que Y
i
P(
i
),
i = 1, 2, 3, em que log
1
= , log
2
= +
2
e log
3
= +
3
. Fazendo
=
1
+
2
+
3
expresse o logaritmo da funo de verossimilhana desse
modelo em funo de (,
2
,
3
). Mostre que a matriz de informao
de Fisher bloco diagonal K
= diag{K
, K
}, em que = (
2
,
3
)
T
.
Por outro lado, sabe-se que a distribuio condicional Y = a|Y
1
+Y
2
+
Y
3
= n, em que Y = (Y
1
, Y
2
, Y
3
)
T
e a = (a
1
, a
2
, a
3
)
T
, multinomial
M(a
1
, a
2
, a
3
;
1
,
2
,
3
). Supor o modelo log-linear log
1
=
, log
2
=
+
2
e log
3
=
+
3
, em que
= log(1 + e
2
+ e
3
) devido
335
4.6 Exerccios
restrio
1
+
2
+
3
= 1. Encontre a matriz de informao de
Fisher K
para = (
2
,
3
)
T
no modelo multinomial. Mostre que
as estimativas de mxima verossimilhana para coincidem nos dois
modelos log-lineares. Mostre tambm que K
= K
quando = n,
comente.
16. Supor que Y
ij
P(
ij
), para i = 1, . . . , r e j = 1, . . . , c, com parte
sistemtica dada por
log
ij
= +
i
+
j
,
em que
1
=
1
= 0. Supor ainda que os
i
s referem-se aos efeitos
do fator A e os
j
s aos efeitos do fator B. Dena um modelo multi-
nomial equivalente e mostre que a representao acima corresponde
independncia (no sentido probabilstico) entre os fatores A e B.
17. (Bishop, Fienberg e Holland, 1975, p. 143). A tabela abaixo apresenta
o resultado de uma pesquisa em que 1008 pessoas receberam duas mar-
cas de detergente, X e M, e posteriormente responderam s seguintes
perguntas: maciez da gua (leve, mdia ou forte); uso anterior do deter-
gente M (sim ou no); temperatura da gua (alta ou baixa); preferncia
(marca X ou marca M).
Maciez
Temperatura Uso de M Preferncia Leve Mdio Forte
Alta Sim X 19 23 24
M 29 47 43
No X 29 33 42
M 27 23 30
Baixa Sim X 57 47 37
M 49 55 52
No X 63 66 68
M 53 50 42
336
4.6 Exerccios
Ajustar um modelo log-linear de Poisson para explicar
ijk
, a pro-
poro de indivduos que responderam, respectivamente, nvel de tem-
peratura (i=1 alta, i=2 baixa), uso prvio de M (j=1 sim, j=2 no),
preferncia (k=1 X, k=2 M) e nvel de maciez ( = 1 leve, = 2
mdio, = 3 forte). Selecionar atravs do mtodo AIC os efeitos prin-
cipais signicativos. Depois incluir apenas as interaes signicativas
de primeira ordem. Interpretar os resultados e fazer uma anlise de
diagnstico.
18. Seja o modelo trinomial em que
0
= Pr(Y = 0),
1
= Pr(Y = 1) e
2
= Pr(Y = 2) com a restrio
0
+
1
+
2
= 1. Suponha que Y = 0
se (Z
0
= 1, Z
1
= 0, Z
2
= 0), Y = 1 se (Z
0
= 0, Z
1
= 1, Z
2
= 0) e Y = 2
se (Z
0
= 0, Z
1
= 0, Z
2
= 1). Note que Z
0
+ Z
1
+ Z
2
= 1. Portanto, a
funo de probabilidades de (Z
0
, Z
1
, Z
2
) ca dada por
g(z
0
, z
1
, z
2
;
0
,
1
,
2
) =
z
0
0

z
1
1

z
2
2
.
Logo, para uma amostra aleatria de tamanho n a funo de probabi-
lidades de Y = (Y
1
, . . . , Y
n
)
T
pode ser expressa na forma
g(y;
0
,
1
,
2
) =
n
i=1
z
0i
0i

z
1i
1i

z
2i
2i
.
usual considerar a parte sistemtica
log
_
1i
0i
_
=
1i
= x
T
i

1
e log
_
2i
0i
_
=
2i
= x
T
i

2
sendo que x
i
= (x
i1
, . . . , x
ip
)
T
,
1
= (
11
, . . . ,
1p
)
T
e
2
= (
21
, . . . ,
2p
)
T
.
Responda aos itens abaixo:
(a) Verique que
0i
= {1 + e
1i
+ e
2i
}
1
,
1i
= e
1i
/{1 + e
1i
+ e
2i
}
e
2i
= e
2i
/{1 + e
1i
+ e
2i
}.
337
4.6 Exerccios
(b) Encontre as funes escore U
1
e U
2
de
1
e
2
, respectivamente.
(c) Encontre a matriz de informao de Fisher para = (
T
1
,
T
2
)
T
.
(d) Desenvolva um processo iterativo para obter a estimativa de m-
xima verossimilhana de . Deixe o processo iterativo em forma
matricial. Como inici-lo?
(e) Como ca o desvio do modelo? E o resduo componente do desvio?
19. No arquivo nitrofen.dat esto descritos os dados de um experimento
com uma amostra de 50 C.dubia (pequeno animal invertebrado aqu-
tico de gua doce), que foram submetidos a dosagens diferentes do
herbicida Nitrofen: 0, 80, 160, 235 e 310 mg/. Para cada nvel de
Nitrofen 10 animais caram expostos e foi observado o total de ovos
eclodidos aps 3 ninhadas. Faa inicialmente uma anlise descritiva
dos dados, por exemplo um diagrama de disperso entre o nmero de
ovos eclodidos (tovos) contra o nvel de exposio do herbicida (dose).
Compare os ajustes de alguns modelos com resposta de Poisson para
explicar o total de ovos eclodidos dado o nvel de exposio. Escolha
o melhor ajuste atravs de mtodos de diagnstico. Para o modelo
selecionado faa uma interpretao dos coecientes estimados.
338
Captulo 5
Modelos de Quase-Verossimilhana
5.1 Introduo
Os modelos de quase-verossimilhana foram propostos por Wedderburn (1974)
e podem ser interpretados como uma generalizao dos MLGs no sentido de
assumirem uma funo de varincia para a varivel resposta bem como uma
relao funcional entre a mdia e o vetor paramtrico , no entanto, no
requerem mais o conhecimento da distribuio da resposta. A distribuio
da varivel resposta car determinada quando a funo de varincia esco-
lhida coincidir com a funo de varincia de alguma distribuio da famlia
exponencial. Se Y a varivel aleatria de interesse, assumimos que
E(Y ) = () e Var(Y ) =
2
V (),
em que V () uma funo conhecida da mdia e
2
o parmetro de
disperso. O logaritmo da funo de quase-verossimilhana denido por
Q(; y) =
1
2
_

y
y t
V (t)
dt.
339
5.1 Introduo
Como temos acima uma integral denida, segue que
Q(; y)
=
y t
2
V (t)
|
y
=
y
2
V ()
,
que tem propriedades semelhantes ao logaritmo da funo de verossimilhana
usual, tais como
E
_
Q(; Y )
_
= 0 e
E
_
_
Q(; Y )
_
2
_
= E
_
2
Q(; Y )
2
_
.
Uma terceira propriedade mostrada por Wedderburn (1974) a seguinte:
E
_
2
Q(; Y )
2
_
E
_
2
L(; Y )
2
_
.
Essa relao mostra que a informao quando se conhece apenas a relao
entre a varincia e a mdia menor que a informao quando se conhece
a distribuio da resposta (informao de Fisher). Assim, a quantidade
E{
2
(QL)/
2
} pode ser interpretada como o ganho quando se acres-
centa ao conhecimento da relao mdia-varincia tambm o conhecimento
da distribuio da resposta.
Exemplos
Normal
Vamos supor V () = 1. Logo, o logaritmo da funo de quase-verossimilhana
ca dado por
Q(; y) =
_

y
y t
2
dt =
1
2
{(y )
2
/2}, < , y < ,
que proporcional ao logaritmo da funo de verossimilhana de uma N(,
2
)
para
2
conhecido.
340
5.1 Introduo
Poisson
Vamos supor V () = . Logo, obtemos
Q(; y) =
_

y
y t
2
t
dt
=
1
2
{ylog ylogy + y}
2
{ylog }, y > 0, > 0.
Se assumirmos
2
= 1 temos para > 0 e y = 0, 1, 2, . . . que Q(; y)
proporcional ao logaritmo da funo de verossimilhana de uma P().
Binomial
Supor a funo de varincia V () = (1 ). O logaritmo da funo de
quase-verossimilhana ca nesse caso dado por
Q(; y) =
_

y
y t
2
t(1 t)
dt
=
1
2
[ylog{/(1 )} + log(1 ) logy]
2
[ylog{/(1 )} + log(1 )], 0 < y, < 1.
Assumindo
2
= 1 temos para y = 0, 1 que Q(y; ) proporcional ao loga-
ritmo da funo de verossimilhana de uma Be().
Gama
Supor a funo de varincia V () =
2
. O logaritmo da funo de quase-
verossimilhana ca nesse caso dado por
Q(; y) =
_

y
y t
2
t
2
dt
=
1
2
{y/ log + 1 + logy}
2
{y/ log} y, > 0.
341
5.2 Respostas independentes
Fazendo
2
= 1 e supondo , y 0 temos que Q(y; ) proporcional ao
logaritmo da funo de verossimilhana de uma G(, 1).
Funo de varincia V () =
2
(1 )
2
Nesse caso o logaritmo da funo de quase-verossimilhana co dada por
Q(; y) =
1
2
_

y
y t
t
2
(1 t)
2
dt
2
[(2y 1)log{/(1 )} y/ (1 y)/(1 )].
Recomenda-se essa funo de varincia para 0 < < 1 e 0 y 1, no
entanto, a funo Q(; y) obtida no corresponde a nenhuma funo com
verossimilhana conhecida.
Portanto algumas, mas no todas, funes de quase-verossimilhana
correspondem a uma verdadeira funo de verossimilhana para .
Vamos supor que Y
1
, . . . , Y
n
so variveis aleatrias independentes com loga-
ritmo da funo de quase-verossimilhana Q(
i
; y
i
), i = 1, . . . , n. O logaritmo
da funo de quase-verossimilhana correspondente distribuio conjunta
ca dado por
Q(; y) =
n
i=1
Q(
i
; y
i
). (5.1)
Vamos supor ainda que
g(
i
) =
i
= x
T
i
, (5.2)
em que x
i
= (x
i1
, . . . , x
ip
)
T
contm os valores de variveis explicativas, =
(
1
, . . . ,
p
)
T
e g() uma funo de ligao. Note que os MLGs so um caso
particular de (4.1)-(4.2). Podemos mostrar que a funo escore para ca
342
expressa na forma
U
=
1
2
D
T
V
1
(y ),
em que D = / = W
1/2
V
1/2
X, = (
1
, . . . ,
n
)
T
, = (
1
, . . . ,
n
)
T
,
y = (y
1
, . . . , y
n
)
T
, V = diag{V
1
, . . . , V
n
}, W = diag{
1
, . . . ,
n
},
i
=
(d/d)
2
i
/V
i
e X uma matriz n p de linhas x
T
i
, i = 1, . . . , n. A ma-
triz de informao para ca dada por
K
= E
_
U()
_
=
1
2
D
T
V
1
D.
A estimativa de quase-verossimilhana para sai da soluo da equao
U
= 0 que pode ser resolvida pelo mtodo escore de Fisher resultando no

seguinte processo iterativo:
(m+1)
=
(m)
+{D
(m)T
V
(m)
D
(m)
}
1
D
(m)T
V
(m)
{y
(m)
}, (5.3)
m = 0, 1, 2, . . . . Note que o processo iterativo (4.3) no depende de
2
, no
entanto, precisa ser iniciado numa quantidade
(0)
. Mostra-se, sob certas
condies de regularidade (vide, por exemplo, McCullagh e Nelder, 1989, p.
333), que

consistente e assintoticamente normal com matriz de varincia-
covarincia dada por Var(
) =
2
(D
T
V
1
D)
1
. O parmetro de disperso
2
deve ser estimado separadamente. O mtodo convencional o mtodo dos
momentos que leva seguinte estimativa:

2
=
1
(n p)
n
i=1
(y
i

i
)
2
V (
i
)
.
Funo quase-desvio
possvel denir uma funo tipo desvio para os modelos de quase-verossimilhana
de forma similar aos MLGs. Sejam Q(y; y) e Q( ; y), respectivamente, as
343
funes de quase-verossimilhana do modelo saturado e do modelo sob inves-
tigao. A funo quase-desvio denida por
D(y; ) = 2
2
{Q(y; y) Q( ; y)}
= 2
2
Q( ; y) = 2
2
n
i=1
Q(
i
; y
i
)
= 2
n
i=1
_
y
i

i
y
i
t
V (t)
dt,
que no depende de
2
. natural que se compare
2
D(y; ) com os percen-
tis da distribuio
2
(np)
, embora no seja em geral conhecida a distribuio
nula de
2
D(y; ). Apresentamos abaixo a funo quase-desvio para alguns
casos particulares supondo uma nica observao.
V () Componente de D(y; )
2{ylog ylogy + y}, y, > 0
(1 ) 2[ylog{/(1 )} + log(1 ) logy], 0 < y, < 1
2
2{1 y/ log + logy}, y, > 0
Teste de hipteses
Seja o vetor paramtrico particionado tal que = (
T
1
,
T
2
)
T
,
1
e
2
so subvetores de dimenso q e p q, respectivamente. Suponha que temos
interesse em testar H
0
:
1
= 0 contra H
1
:
1
= 0. McCullagh (1983)
mostra que tambm no caso de quase-verossimilhana a diferena entre duas
funes quase-desvio funciona como um teste da razo de verossimilhanas.
Ou seja, se denotarmos por D(y;
0
) a funo quase-desvio sob H
0
e por
D(y; ) a funo quase-desvio sob H
1
, para n grande e sob H
0
,
1
2
_
D(y;
0
) D(y; )
_

2
q
,
344
para
2
xo que pode ser estimado consistemente, como ocorre com os MLGs.
Testes tipo Wald e tipo escore so tambm possveis de serem desenvolvidos.
Usando resultados do Captulo 1 podemos mostrar que
Var(
1
) = {D
T
1
V
1/2
M
2
V
1/2
D
1
}
1
,
em que M
2
= I H
2
, H
2
= V
1/2
D
2
(D
T
2
VD
2
)
1
D
T
2
V
1/2
, D
1
= W
1/2
V
1/2
X
1
e D
2
= W
1/2
V
1/2
X
2
. Assim, um teste tipo Wald ca dado por
W
=

T
1
Var
1
(
1
)
1
,
em que

Var(
1
) denota que a varincia est sendo avaliada em

. Sob H
0
e
para n temos que
W

2
q
.
O no conhecimento da verdadeira funo de verossimilhana de di-
culta o desenvolvimento de alguns mtodos de diagnstico. Tanto o estudo de
resduos como de medidas de inuncia dependem em geral do conhecimento
de L(). O que tem sido proposto em modelos de quase-verossimilhana
no sentido de avaliar a qualidade do ajuste so grcos de resduos. Uma
sugesto (vide McCullagh e Nelder, 1989, Cap. 9) o grco do resduo de
Pearson
r
P
i
=
y
i

i

_
V (
i
)
contra alguma funo dos valores ajustados, como por exemplo contra g(
i
),
em que g() a funo de ligao. Espera-se uma distribuio aleatria dos
resduos em torno do eixo zero. Tendncias diferentes, como por exemplo
aumento da variabilidade, podem indicar que a funo de varincia utilizada
no adequada. Um outro resduo que pode tambm ser utilizado, embora
de forma descritiva, dado por
t
D
i
=
d
(
y
i
;
i
)

_
1
h
ii
,
345
em que d(y
i
;
i
) a raiz quadrada com sinal de y
i

i
do i-simo compo-
nente do quase-desvio D(y; ), enquanto h
ii
o i-simo elemento da diagonal
principal da matriz de projeo H = V
1/2
D(D
T
V
1
D)
1
D
T
V
1/2
.
Uma verso da distncia de Cook para os modelos de quase-verossimilhana
ca dada por
D
i
=
h
ii
(1
h
ii
)
2
r
2
P
i
,
em que r
P
i
o resduo de Pearson e

h
ii
denota o i-simo elemento da diagonal
principal da matriz

H. Grcos de

h
ii
contra a ordem das observaes ou
contra os valores ajustados podem revelar pontos possivelmente inuentes
nos parmetros do preditor linear.
5.2.1 Aplicaes
Mosca do chifre
No arquivo mosca.dat apresentado parte dos dados de um experimento
desenvolvido para estudar a distribuio do nmero de caros em placas de
esterco de gado bovino no estado de S. Paulo (Paula e Tavares, 1992). Essas
placas so depsitos de ovos da mosca do chifre (Haematobia irritans), uma
das pragas mais importantes da pecuria brasileira. Os caros so inimigos
naturais da mosca do chifre uma vez que se alimentam de ovos e larvas dessas
moscas. No arquivo mosca.dat tem-se a distribuio do nmero de caros
de quatro espcies segundo algumas variveis de interesse: (i) N, nmero de
partes da placa onde foram coletados os caros, (ii) Posio, posio na placa
onde foram coletados os caros (1: lateral, 0: central), (iii) Regio, regio
onde a placa foi coletada (1: So Roque, 2: Pindamonhangaba, 3: Nova
Odessa e 4: Ribeiro Preto) e (iv) Temp, temperatura no local da coleta (em
o
C).
346
Pensou-se inicialmente, como trata-se de dados de contagem, num mo-
delo log-linear de Poisson para explicar o nmero mdio de caros segundo
as variveis explicativas. Denotando por Y
ij
o nmero de caros coletados na
i-sima posio e j-sima regio vamos supor que Y
ij
P(
ij
),
ij
= N
ij
ij
com N
ij
denotando o nmero de partes da placa onde foram coletados os
caros. A parte sistemtica do modelo ca dada por
log
ij
= logN
ij
+ log
ij
, (5.4)
em que
log
ij
= +
i
+
j
+ Temp, (5.5)
logN
ij
desempenha papel de oset,
i
denota o efeito da posio,
j
o efeito
da regio e Temp a temperatura. Temos as restries
1
=
1
= 0. O
desvio do modelo ajustado para a espcie 6 foi de D(y; ) = 318, 69 (96
graus de liberdade) indicando fortes indcios de sobredisperso. Propomos
ento um modelo de quase-verossimilhana com funo de varincia dada
por V (
ij
) =
ij
. Esse modelo parece tambm inadequado pelo grco de
resduos de Pearson r
P
ij
= (y
ij

ij
)/
_

ij
contra log
ij
(Figura 4.1).
Nota-se um aumento da variabilidade com o aumento do logaritmo das
mdias ajustadas, indcio de que a variabilidade no foi totalmente contro-
lada. Para ajustar o modelo pelo R, vamos supor que as variveis Posio,
Regio e Temp sejam colocadas em posicao, regiao e temp, respectivamente,
e que logN denote o logaritmo do nmero de partes da placa. O nmero de
caros ser denotado por acaros. A sequncia de comandos dada abaixo
regiao = factor(regiao)
fit1.mosca = glm(acaros posicao + regiao + temp +
offset(logN), family=quasi(link=log, variance= "mu")).
347
Log valores ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
-2 -1 0 1
-
1
0
1
2
3
4
5
Figura 5.1: Grco de resduos de Pearson contra log para o modelo ajus-
tado com funo de varincia V () = aos dados sobre a mosca do chifre.
Tabela 4.1
Estimativas dos parmetros do modelo de quase-verossimilhana
com funo de varincia V () =
2
ajustado aos
dados sobre a mosca do chifre.
Com todos os pontos Sem pontos aberrantes
Constante -0,828 -0,74 -2,575 -2,13
Posio -0,288 -0,64 0.380 0,78
Pindam. -0,424 -0,66 -0,910 -1,31
N. Odessa -1,224 -1,71 -1,836 -2,36
R. Preto -2,052 -2,98 -2,589 -3,46
Temp. 0,029 0,67 0,087 1,84
2
5,129 5,913
Se colocarmos em phi a estimativa do parmetro de disperso, o resduo de
348
Log valores ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
-2 -1 0 1
0
1
2
3
84
28
61
Figura 5.2: Grco de resduos de Pearson contra log para o modelo ajus-
tado com funo de varincia V () =
2
aos dados sobre a mosca do chifre.
Pearson padronizado ser obtido pelo comando
phi = summary(fit1.mosca)$dispersion
rp = resid(fit.mosca, type = "pearson")/sqrt(phi).
No objeto fit.mosca esto os principais resultados do ajuste. Propomos
agora, no sentido de controlar a variabilidade, um modelo de quase-verossimilhana
com funo de varincia quadrtica V (
ij
) =
2
ij
e parte sistemtica dada por
(4.4)-(4.5). O grco de resduos de Pearson contra o logaritmo das mdias
ajustadas (Figura 4.2) parece bastante razovel, embora apaream 9 pontos
com valores para r
P
ij
acima de 2. Na Tabela 4.1 apresentamos as estimativas
dos parmetros com todos os pontos e tambm eliminando-se as observaes
mais aberrantes, #28, #61 e #84.
Os comandos no R para ajustar os dois modelos so dados abaixo
349
offset(logN), family=quasi(link=log, variance= "mu 2"), maxit=50)
offset(logN), family=quasi(link=log, variance= "mu 2 "), subset
= -c(28,61,84), maxit=50).
Nota-se pelas estimativas dos dois modelos ajustados que Nova Odessa
e Ribeiro Preto apresentam um nmero mdio de caros bem menor do
que as outras duas regies. No h indcios de efeito de posio, porm
a eliminao das trs observaes mais aberrantes faz com que o efeito de
temperatura que mais acentuado, havendo indcios de que o nmero mdio
de caros cresce com o aumento da temperatura.
As observaes #28, #61 e #84 tm em comum o fato de apresentarem
um nmero mdio de caros (por parte de placa) pelo menos duas vezes acima
da mdia em temperaturas relativamente baixas. Essas observaes foram
coletadas nas regies de Pindamonhangaba, Nova Odessa e Ribeiro Preto,
respectivamente. Assim, esperado que a eliminao desses pontos reduza
o valor das estimativas dos efeitos dessas regies como tambm aumente
a estimativa do coeciente da temperatura. A m de que as 9 observaes
aberrantes possam ser melhor ajustadas pode-se tentar outros tipos de funo
de varincia, como por exemplo V () =
2
(1 + )
2
(vide Paula e Tavares,
1992).
Demanda de TV a cabo
Vamos reanalisar nesta seo o exemplo sobre demanda de TV a cabo discu-
tido no Captulo 3 sob um enfoque de modelo log-linear binomial negativa.
Proporemos aqui um modelo um pouco diferente. Ao invs de ser ajustado o
nmero mdio esperado de assinantes de TV a cabo ser ajustada a proporo
350
Logito valores ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
-1.5 -1.0 -0.5 0.0 0.5
-
1
0
1
2
Figura 5.3: Grco de resduos de Pearson contra logito de para o modelo
ajustado com funo de varincia V () = (1) aos dados sobre demanda
de TV a cabo.
esperada de assinantes de TV a cabo em cada rea. A proporo observada
dada por Razao = Nass/Domic. Como 0 Razao 1, propomos o seguinte
modelo de quase-verossimilhana:
E(Razao
i
) =
i
e
Var(Razao
i
) =
2
i
(1
i
),
em que
i
denota a proporo esperada de assinantes na i-sima rea, i =
1, . . . , 40. A parte sistemtica do modelo ser dada por
log
_

i
1
i
_
= +
1
Percap
i
+
2
Taxa
i
+
3
Custo
i
+
4
Ncabo
i
+
5
Ntv
i
.
Na Figura 4.3 apresentado o grco dos resduos r
P
i
= (Razao
i

i
)/
_

i
(1
i
) contra o logito dos valores ajustados e como pode-se notar
h um ligeiro aumento da variabilidade com o aumento da proporo de
351
reas com o TV a cabo. J na Figura 4.4 so apresentadas as distncias
de Cook contra a ordem das observaes com destaque para as reas #5 e
#14. A observao #5 corresponde a uma rea de renda alta porm com
uma proporo pequena de assinantes de TV a cabo, talvez devido aos altos
custos de instalao e manuteno. J a rea #14 tem uma proporo alta
de assinantes de TV a cabo embora as taxas tambm sejam altas.
Tabela 4.2
Estimativas dos parmetros do modelo de quase-verossimilhana
com funo de varincia V () = (1 ) ajustado aos
dados sobre demanda de TV a cabo.
Com todos os pontos Sem reas 5 e 14
Intercepto -2,407 -1,72 -2,440 -1,60
Percap 4 10
4
2,50 4 10
4
2,80
Taxa 0,023 0,93 0,016 0,64
Custo -0,203 -1,79 -0,252 -2,27
Ncabo 0,073 1,94 0,079 2,22
Ntv -0,216 -2,61 -0,201 -2,61
2
0,114 0,098
A eliminao dessas duas reas, como pode ser observado pela Tabela
4.2, no altera os resultados inferenciais com todas as observaes embora
aumente a signicncia dos coecientes. Nota-se que apenas o coeciente da
varivel Taxa parece no ser signicativo marginalmente.
O novo grco de resduos de Pearson contra o logito dos valores ajus-
tados sem as observaes #5 e #14 apresentado na Figura 4.5, e ainda
apresenta um ligeiro aumento da variabilidade com o aumento da proporo
estimada de assinantes de TV a cabo. Uma tentativa no sentido de tentar
reduzir essa variabilidade seria o uso de uma funo de varincia do tipo
352
5.3 Classe estendida
Indice
D
i
s
t
a
n
c
i
a

d
e

C
o
o
k
0 10 20 30 40
0
.
0
0
.
5
1
.
0
1
.
5
5
14
Figura 5.4: Grco da distncia de Cook contra a ordem das observaes
para o modelo ajustado com funo de varincia V () = (1 ) aos dados
sobre demanda de TV a cabo.
V () =
2
(1 )
2
. Nota-se ainda que no ajuste da proporo esperada
de domiclios com TV a cabo mais variveis permanecem no modelo do que
no ajuste do nmero esperado de domiclios com TV a cabo com resposta
binomial negativa, como foi visto no Captulo 4.
O logaritmo da funo de quase-verosssimilhana Q(; y) assume que a fun-
o de varincia conhecida, logo a mudana dessa funo signica que um
novo modelo est sendo denido. No sentido de permitir comparaes de
diferentes funes de varincia para um mesmo modelo como tambm pos-
sibilitar a obteno de uma estimativa para o desvio padro assinttico
2
,
353
Logito valores ajustados
R
e
s
i
d
u
o

d
e

P
e
a
r
s
o
n
-1.5 -1.0 -0.5 0.0 0.5
-
2
-
1
0
1
2
Figura 5.5: Grco de resduos de Pearson contra logito de para o modelo
ajustado com funo de varincia V () = (1) aos dados sobre demanda
de TV a cabo e sem as reas #5 e #14.
Nelder e Pregibon (1987) propuseram uma quase-verossimilhana estendida,
denida por
Q
+
(; y) =
1
2
D(y; )/
2
1
2
log{2
2
V (y)},
em que D(y; ) = 2
_
y
{(y t)/V (t)}dt o quase-desvio e =

1
2
o par-
metro de disperso. Similarmente a Q, Q
+
no pressupe que a distribuio
completa de Y seja conhecida, mas somente os dois primeiros momentos. A
estimativa de maximizando-se Q
+
(y; ), para uma amostra aleatria de
tamanho n, coincide com a estimativa de quase-verossimilhana para , uma
vez que Q
+
uma funo linear de Q. A estimativa de maximizando-se
Q
+
dada por

= D(y; )/n. Portanto, para os casos especiais em que
Q
+
corresponde s distribuies normal e normal inversa,

corresponde
estimativa de mxima verossimilhana de . Para a distribuio gama, Q
+
354
5.4 Respostas correlacionadas
difere do logaritmo da funo de verossimilhana por um fator dependendo
somente de ; para as distribuies de Poisson, binomial e binomial negativa,
Q
+
obtida do logaritmo da funo de verossimilhana correspondente subs-
tituindo qualquer fatorial k! pela aproximao de Stirling k!
= (2k)
1/2
k
k
e
k
.
Discusses mais interessantes e aplicaes da classe estendida so dadas em
Nelder e Pregibon (1987).
A m de estabelecermos a notao a ser utilizada nesta seo, denotaremos
por Y
i
= (Y
i1
, . . . , Y
ir
i
)
T
o vetor resposta multivariado para a i-sima uni-
dade experimental, i = 1, . . . , n, e assumiremos em princpio que apenas
conhecida a distribuio marginal de Y
it
, dada por
f(y;
it
, ) = exp[{y
it
b(
it
)} + c(y, )], (5.6)
em que E(Y
it
) =
it
= b
(
it
), Var(Y
it
) =
1
V
it
, V
it
= d
it
/d
it
a funo
de varincia e
1
> 0 o parmetro de disperso, em geral desconhecido.
Podemos denir um modelo linear generalizado para cada instante t acres-
centando a (4.6) a componente sistemtica
g(
it
) =
it
, (5.7)
em que
it
= x
T
it
o preditor linear, = (
1
, . . . ,
p
)
T
um vetor de par-
metros desconhecidos a serem estimados, x
it
= (x
it1
, . . . , x
itp
)
T
representa os
valores de p variveis explicativas observadas para a i-sima unidade experi-
mental no tempo t e g() a funo de ligao. A funo escore e a matrix
de informao para , ignorando-se a estrutura de correlao intra-unidade
experimental, cam, respectivamente, dadas por
U
=
n
i=1
D
T
i
V
1
i
(y
i
i
) (5.8)
355
e
K
=
n
i=1
D
T
i
V
i
D
i
, (5.9)
em que D
i
= W
1/2
i
V
1/2
i
X
i
, X
i
uma matriz r
i
p de linhas x
T
it
, W
i
=
diag{
i1
, . . . ,
ir
i
} a matriz de pesos com
it
= (d
it
/d
it
)
2
/V
it
, V
i
=
diag{V
i1
, . . . , V
ir
i
} e
i
= (
i1
, . . . ,
ir
i
)
T
. Quando h ligao cannica a fun-
o escore e a matriz de informao cam dadas por U
n
i=1
X
T
i
(y
i
i
)
e K
n
i=1
X
T
i
V
i
X
i
, respectivamente. O estimador de , ignorando-se
a estrutura de correlao intra-unidade experimental, sai da equao U
= 0.
Esse estimador consistente e assintoticamente normal. Note que podemos
supor que a distribuio marginal de Y
it
desconhecida assumindo uma fun-
o de varincia diferente daquela que caracteriza a distribuio de Y
it
. Nesse
caso, teremos um modelo de quase-verossimilhana em cada instante t com
funo escore e matriz de informao, ignorando-se a estrutura de correlao,
dadas por (4.8) e (4.9), respectivamente.
Um tpico de pesquisa importante, que tem interessado a vrios pes-
quisadores, o desenvolvimento de metodologias para a estimao dos pa-
rmetros de interesse quando os dados so correlacionados e a distribuio
marginal no Gaussiana, como o caso introduzido nesta seo. Uma
maneira de resolver o problema ignorar a estrutura de correlao, como vi-
mos acima, produzindo estimadores consistentes e assintoticamente normais,
porm muitas vezes com perda de ecincia. Uma outra maneira, que des-
creveremos a seguir, tentarmos introduzir alguma estrutura de correlao
na funo escore, produzindo um novo sistema de equaes para estimar .
A m de facilitarmos o entendimento dessa metodologia, vamos supor inici-
almente que os dados so no correlacionados e que a matriz de correlao
denotada por R
i
. Logo, teremos R
i
= I
r
i
. A matriz de varincia-covarincia
356
para Y
i
por denio dada por
Var(Y
i
) =
1
V
1/2
i
R
i
V
1/2
i
, (5.10)
que no caso de dados no correlacionados ca simplesmente dada por
1
V
i
.
A ideia introduzirmos em (4.10) uma matriz de correlao no diagonal,
por exemplo dada por R
i
(), com reexos na funo escore que passaria a
depender tambm de R
i
(). O incoveniente dessa proposta o fato da cor-
relao, que restrita ao intervalo [1, 1], depender de , o que aumentaria
a complexidade do processo de estimao. A soluo encontrada para con-
tornar esse problema foi dada por Liang e Zeger (1986) que propuseram uma
matriz de correlao dada por R
i
(), em que = (
1
, . . . ,
q
)
T
um vetor
de parmetros de perturbao que no dependem de .
Para entender melhor essa proposta vamos assumir, sem perda de ge-
neralidade, que r
i
= r. Denimos ento
i
=
1
V
1/2
i
R()V
1/2
i
,
em que
i
a matriz de varincia-covarincia de Y
i
se a verdadeira correlao
entre os elementos de Y
i
for dada por R(). Note que R() uma matriz
r r que depende de um nmero nito de parmetros = (
1
, . . . ,
q
)
T
,
sendo denominada matriz trabalho. Para estimarmos devemos resolver o
seguinte sistema de equaes:
S
G
) = 0, (5.11)
denominado equaes de estimao generalizadas (EEGs), em que S
() =
n
i=1
D
T
i

1
i
(y
i
i
). Note que (4.11) reduz-se a U
= 0 quando R() = I
r
,
isto , quando ignorada a estrutura de correlao intraunidade experimen-
tal. Na verdade S
() depende tambm de e = (
1
, . . . ,
q
)
T
que so
357
estimados separadamente de . O processo iterativo para a estimao de ,
que uma modicao do mtodo escore de Fisher, dado por
(m+1)
G
=
(m)
G
+{
n
i=1
D
(m)T
i

(m)
i
D
(m)
i
}
1
[
n
i=1
D
(m)T
i

(m)
i
{y
i
(m)
i
}],
m = 0, 1, 2 . . . . As estimativas

e so dadas inicialmente e modicadas
separadamente a cada passo do processo iterativo.
Supondo que e

so estimadores consistentes de e , respectiva-
mente, temos que
n(
G
)
d
N
p
(0, ),
em que
= lim
n
[n(
n
i=1
D
T
i

1
i
D
i
)
1
{
n
i=1
D
T
i

1
i
Var(Y
i
)
1
i
D
i
}(
n
i=1
D
T
i

1
i
D
i
)
1
].
Se a matriz de correlao R() denida corretamente, ento um estimador
consistente para Var(
G
) dado por H
1
1
(
G
), em que
H
1
(
G
) =
n
i=1
(
D
T
i
1
i
D
i
),
com

D
i
sendo avaliado em

G
e

i
avaliado em (
, ,

G
). Entretanto, se a
matriz trabalho R() denida incorretamente H
1
1
(
G
) pode ser inconsis-
tente. Um estimador robusto para Var(
G
), sugerido por Liang and Zeger
(1986), dado por
V
G
= H
1
1
(
G
)H
2
(
G
)H
1
1
(
G
),
em que H
2
(
G
) =
n
i=1
{
D
T
i
1
i
(y
i

i
)(y
i

i
)
T

1
i
D
i
}. O estimador
V
G
consistente mesmo se a matriz trabalho for denida incorretamente.
358
5.5 Exemplos
Estruturas de correlao
Quando a matriz de correlao R() no estruturada ento ser um vetor
de dimenso r(r 1)/2. O (s, s
)-simo elemento de R pode ser estimado

por
R
ss
= (n p)
1
n
i=1
(y
is

is
)
V
1/2
is
(y
is

is
)
V
1/2
is
.
Quando R
ss
= 1 para s = s
e R
ss
= para s = s
tem-se uma estrutura de

correlao simtrica ou permutvel. Um estimador consistente para nesse
caso dado por
=
n
i=1
<
r
P
i
r
P
i
/{nr(r 1)/2 p},

em que r
P
i
denota o resduo de Pearson estimado sem
. Podemos tambm
ter, dentre outras, uma estrutura de correlao autoregressiva em que R
ss
=
1 para s = s
e R
ss
=
|ss
|
para s = s
ou uma estrutura estacionria

de ordem 1 em que R
ss
= 1 para s = s
e R
ss
= para |s s
| = 1. O
parmetro de disperso
1
pode ser estimado consistentemente por
1
=
n
i=1
r
t=1
(y
it

it
)
2
V
it
/(nr p).
Testes de hipteses para ou para subconjuntos de podem ser desenvolvi-
dos atravs de estatsticas tipo Wald com a matriz de varincia-covarincia
estimada

V
G
.
5.5 Exemplos
5.5.1 Ataques epilpticos
No arquivo ataques.dat (Diggle, Liang e Zeger, 1994, Seo 8.4) so resu-
midos os resultados de um ensaio clnico com 59 indivduos epilpticos os
359
5.5 Exemplos
quais foram aleatorizados de modo que cada um recebesse uma droga anti-
epilptica denominada progabide ou placebo. Os dados de cada indivduo
consistiram de um nmero inicial de ataques epilpticos num perodo de oito
semanas antes do tratamento, seguido do nmero de ataques em cada pe-
rodo de duas semanas, num total de quatro perodos, aps o tratamento. O
interesse da pesquisa saber se a droga reduz a taxa de ataques epilpticos.
Para ajustar esses modelos no R usaremos a library gee, que deve ser
acionada atravs do comando
require(gee).
Os ajustes podem ser feitos de forma muito similar aos MLGs desde que os
dados estejam descritos de forma apropriada. Existem outras formas de gerar
dados longitudinais atravs de outras subrotinas que facilitam, por exemplo,
a elaborao de grcos de pers. Nesses casos, ser necessrio informarmos
nos comandos de ajuste como as unidades experimentais esto dispostas e o
tipo de correlao intraunidade experimental a ser assumida.
No caso dos ataques epilpticos uma possvel distribuio marginal
para os dados a distribuio de Poisson, uma vez que tem-se dados de
contagem. Contudo, observando-se a tabela abaixo, onde esto descritos os
valores amostrais para a razo varincia/mdia para os 10 grupos experimen-
tais, nota-se um forte indcio de sobredisperso sugerindo que o parmetro
de disperso no dever ser xado como sendo igual a um.
Antes Per1 Per2 Per3 Per4
Placebo 22,13 10,98 8,04 24,50 7,24
Progradibe 24,76 38,77 16,70 23,75 18,79
Para compararmos o nmero de ataques epilpticos nos 10 perodos
experimentais, devemos padronizar os valores referentes ao perodo anterior
ao tratamento em que os pacientes foram observados por 8 semanas. Assim,
360
5.5 Exemplos
ser possvel uma comparao com os demais perodos de 2 semanas. Na
Figura 4.6 temos o grco de pers com os dois tratamentos. Nota-se que
pelo menos um paciente (# 49), que foi tratado com a droga progabide,
apresenta um nmero alto de ataques antes e depois do tratamento.
Vamos supor ento que Y
ijk
representa o nmero de ataques epilpti-
cos ocorridos com o k-simo indivduo do i-simo grupo no j-simo perodo.
Assumimos que Y
ijk
P(
ij
t
j
), t
j
denota o nmero de semanas do j-simo
perodo, i = 1, 2; j = 0, 1, 2, 3, 4 e k = 1, . . . , r
ij
, em que r
1j
= 28 (grupo
placebo), r
2j
= 31 (grupo tratado), t
0
= 8 e t
1
= t
2
= t
3
= t
4
= 2. Assumi-
mos tambm uma estrutura de correlao permutvel para cada indivduo,
isto , Corr(Y
ijk
, Y
ijk
) = , para k = k
e (i, j) xos. A parte sistemtica do

modelo ser dada por
log
10
= ,
log
1j
= + ,
log
20
= + e
log
2j
= + + + ,
para j = 1, 2, 3, 4, em que denota o nvel base, o efeito de tratamento,
o efeito de grupo e a interao entre tratamento e grupo. Note que antes
do tratamento o logaritmo da razo entre as taxas dos dois grupos dado
por
log{
20
/
10
} = + = . (5.12)
Aps o tratamento o logaritmo da razo entre as taxas ca dado por
log{
2j
/
1j
} = + + + = + . (5.13)
361
5.5 Exemplos
Tempo
A
t
a
q
u
e
s
8 10 12 14 16
0
2
0
4
0
6
0
8
0
1
0
0
placebo
progabide
Figura 5.6: Grco de pers com o nmero de ataques por perodo de 2
semanas.
Portanto, se o tratamento no ecaz espera-se que o logaritmo da razo no
mude aps o tratamento. Logo, avaliar a ecincia do tratamento equivale a
testar H
0
: = 0 contra H
1
: = 0.
Tabela 4.3
Estimativas dos parmetros do modelo log-linear de Poisson
aplicado aos dados sobre ataques epilpticos.
Com todos os pacientes Sem o paciente #49
Parmetro Estimativa z-robusto Estimativa z-robusto
1,347 8,564 1,347 8,564
0,112 0,965 0,112 0,965
0,027 0,124 -0,107 -0,551
-0,105 -0,491 -0,302 -1,768
0,771 0,593
1
19,68 10,53
362
5.5 Exemplos
Se denotarmos por
ij
= E(Y
ijk
), a parte sistemtica do modelo em
funo das mdias ca dada por
log
ij
= logt
j
+ log
ij
,
em que logt
j
desempenha o papel de oset. Para ajustarmos esse modelo no
R deve-se seguir a sequncia abaixo de comandos
fit1.ataques = gee(ataques grupo + periodo + grupo*perido
+ offset(log(semanas)), id=paciente, family=poisson,
corstr="exchangeable")
em que grupo representa o grupo (=0 placebo, =1 progabide), periodo re-
presenta o perodo (=0 antes, =1 depois), semanas o nmero de semanas,
paciente o nmero do paciente (so 59 pacientes) e corstr o tipo de corre-
lao a ser assumida.
As estimativas dos parmetros (erro padro aproximado) so apresen-
tadas na Tabela 4.3. No h portanto nenhum indcio de efeito de trata-
mento. Para a anlise de resduos vamos considerar o resduo componente
do desvio d
(y
i
;
i
) denido no Captulo 1, em que
i
denota a estimativa
robusta. Portanto, ser considerado o resduo marginal. A gerao de enve-
lopes para esse resduo um pouco mais complicado do que no caso usual de
respostas independentes, uma vez que requer o conhecimento da distribuio
conjunta das respostas de cada indivduo. No entanto, mesmo quando essa
distribuio no totalmente desconhecida possvel, em alguns casos, gerar
a distribuio emprica dos dados (vide, por exemplo, Cardoso-Neto, 2001).
Nota-se pela Tabela 4.3 que a estimativa do parmetro de disperso
1
muito diferente da suposio de = 1 para modelos com resposta de
Poisson, sugerindo indcios fortes de sobredisperso. Assim, para uma an-
lise de resduos mais apropriada deve-se considerar o componente do desvio
pardronizado d
(y
i
;
i
)/
_
cujo grco descrito na Figura 4.7. Nota-se 13

363
5.5 Exemplos
resduos com valores superiores a 3,0, dos quais 5 resduos correspondem ao
paciente # 49. Para ajustar no R o modelo sem esse paciente deve-se usar os
comandos abaixo
fit2.ataques = gee(ataques grupo + periodo + grupo*perido
+ offset(log(semanas)), id=paciente, subset=-c(241, 242, 243, 244,
245), family=poisson, corstr="exchangeable").
As novas estimativas indicam evidncia de que o tratamento com a droga
progabide reduz o nmero mdio de ataques epilpticos, ou seja, h mudana
inferencial em relao ao modelo com todos os pontos.
Indice
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
0 50 100 150 200 250 300
0
2
4
6
21
71
86
121
124
141
186
241
242
243
244
245
261
Figura 5.7: Grco de resduos do modelo ajustado com todos os pontos aos
dados sobre ataques epilpticos.
364
5.5 Exemplos
5.5.2 Condio Respiratria
Vamos considerar agora um exemplo discutido em Myers, Montgomery e
Vining (2002, Seo 6.5) que envolve a comparao de dois tratamentos apli-
cados em pacientes com problemas respiratrios. Um total de 56 pacientes
foi considerado no estudo sendo que 27 receberam o tratamento com uma
droga ativa enquanto que os 29 pacientes restantes receberam placebo. Cada
paciente foi observado em quatro ocasies em que mediu-se a condio res-
piratria (boa ou ruim). Foram tambm observados o sexo e a idade (em
anos) de cada paciente alm da pr-existncia de um nvel base (sim ou no).
Apenas como ilustrao descrevemos abaixo a incidncia do problema respi-
ratrio em cada ocasio segundo os dois tratamentos.
Visita 1 Visita 2 Visita 3 Visita 4
Tratamento 22/27 13/27 5/27 1/27
Placebo 20/29 18/29 21/29 15/29
Nota-se pela tabela acima que na primeira visita h uma incidncia alta para
ambos os tratamentos de pacientes em condio respiratria ruim, contudo
a partir da segunda visita nota-se uma queda acentuada para os pacientes
tratados com a droga ativa e pouca variao para os pacientes tratados com
placebo. Portanto, h fortes indcios de que a droga reduz a chance de
condio respiratria ruim. Os dados completos desse experimento esto
descritos no arquivo respiratorio.dat.
Vamos denotar por Y
ij
a condio (=1 ruim, =0 boa) do i-simo pa-
ciente na j-sima ocasio, i = 1, . . . , 56 e j = 1, 2, 3, 4. Como trata-se de
resposta binria ser assumido marginalmente que Y
ij
Be(
ij
) com parte
sistemtica dada por
log
_

ij
1
ij
_
+
1
Idade
i
+
2
Trat
i
+
3
Sexo
i
+
4
Base
i
,
365
5.5 Exemplos
em que Idade
i
denota a idade (em anos), Trat
i
(=0 droga ativa, =1 pla-
cebo), Sexo
i
(=0 feminino, =1 masculino) e Base
i
(=0 ausncia do nvel
base, =1 presena do nvel base) do i-simo paciente. Seguindo a sugesto
de Myers, Montgomery e Vining (2002, Seo 6.5) ser assumida uma estru-
tura de correlao AR(1) para as respostas de cada paciente, ou seja, que
Corr(Y
ij
, Y
ij
) = 1 para j = j
e Corr(Y
ij
, Y
ij
) = para |j j
| = 1. Para
ajustar esse modelo no R deve-se usar os comandos
fit1.respir = gee(condicao idade + trat + sexo + base,
id=paciente, family=binomial, corstr="AR(M)", M=1).
As estimativas dos parmetros dos modelos com estrutura AR(1) e
independente so apresentadas na Tabela 4.4. Nota-se que as estimativas
no diferem muito e os resultados inferencias so os mesmos. Isso pode
ser explicado pela baixa correlao entre as respostas do mesmo indivduo,
= 0, 275.
Tabela 4.4
Estimativas dos parmetros do modelo logstico aplicado
aos dados sobre condio respiratria.
Correlao AR(1) Independncia
Parmetro Estimativa z-robusto Estimativa z-robusto
-0,377 -0,386 -0,404 -0,474
1
0,043 3,380 0,048 3,443
2
1,001 3,066 1,070 3,425
3
-2,003 -2,988 -2,178 -3,162
4
0,492 0,586 0,498 0,977
0,275 0,00
Pelas estimativas da Tabela 4.4 pode-se concluir que o resultado da
condio respiratria independe do nvel base, no entanto depende da idade,
366
5.5 Exemplos
Indice
C
o
m
p
o
n
e
n
t
e

d
o

d
e
s
v
i
o
0 50 100 150 200
-
2
-
1
0
1
Figura 5.8: Grco de resduos do modelo ajustado aos dados sobre condio
respiratria.
do tratamento e do sexo. Por exemplo, h um aumento na chance de condio
respiratria ruim com o aumento da idade, conforme esperado. A razo de
chances entre sexo feminino e masculino estimada por

= e
2,003
= 7, 41,
ou seja, as mulheres tm aproximadamente 7,41 vezes a chance dos homens
terem o problema. Pacientes que foram tratados com placebo tm

=
e
1,001
= 2, 72 vezes a chance dos pacientes que foram tratados com a droga
de terem condio respiratria ruim. Em todos os clculos acima supe-
se que as demais variveis esto xadas. Na Figura 4.8 apresentado o
grco do resduo componente do desvio contra a ordem das observaes e
como podemos observar, com exceo de 2 resduos, todos os demais caem
no intervalo [-2,2], indicando um bom ajuste do modelo com estrutura de
correlao AR(1).
367
5.5 Exemplos
5.5.3 Placas dentrias
Hadgu e Koch(1999) discutem os resultados de um ensaio clnico com 109
adultos voluntrios com pr-existncia de placa dentria. Nesse estudo os
indivduos foram distribudos de forma aleatria para receberem um lquido
tipo A (34 indivduos), um lquido tipo B (36 indivduos) e um lquido con-
trole (39 indivduos). As placas dentrias de cada indivduo foram avaliadas
e classicadas segundo um escore no incio do tratamento, aps 3 meses e
aps 6 meses. Os dados encontram-se no arquivo rinse.dat.
Tabela 4.5
Medidas resumo para os escores das placas
dentrias segundo os tratamentos e
perodos de escovao.
Incio 3 Meses 6 Meses
2,562 1,786 1,738
Controle (0,343) (0,700) (0,595)
n=39 n=39 n=36
2,568 1,315 1,259
Lquido A (0,354) (0,715) (0,744)
n=34 n=34 n=34
2,479 1,255 1,032
Lquido B (0,296) (0,550) (0,451)
n=36 n=36 n=36
O objetivo do estudo vericar se pelo menos um dos novos lquidos
reduz o nmero mdio de placas dentrias. Seja Y
ijk
o escore do k-simo
indivduo do i-simo grupo (=1 controle, =2 lquido A, =3 lquido B) e j-
simo perodo (=1 incio do tratamento, =2 aps 3 meses, =3 aps 6 meses),
k = 1, . . . , n
ij
com n
1j
= 39, n
2j
= 34 e n
3j
= 36. Foram omitidas das nossas
anlises quatro observaes para as quais no foi possvel obter o valor do
escore. Na Tabela 4.5 descrevemos os valores mdios com os respectivos
erros padro para os grupos formados. Nota-se um decrscimo no valor
368
5.5 Exemplos
mdio aps 3 meses de escovao para os trs tratamentos, sendo a reduo
mais acentuada para os lquidos A e B. Nota-se tambm um aumento da
variabilidade. De 3 meses para 6 meses de escovao o decrscimo continua
para o escore mdio dos grupos que receberam os lquidos A e B, havendo
uma reduo mais evidente para o grupo tratado com o lquido B. Esse grupo
tambm apresenta as menores variabilidades.
Tabela 4.6
Estimativas dos parmetros do modelo log-linear gama aplicado aos
dados sobre placas dentrias.
Parmetro Estimativa z-robusto Parmetro Estimativa z-robusto
0,941 44,407 ()
22
-0,308 -3,124
2
0,002 0,080 ()
32
-0,319 -3,835
3
-0,033 -1,138 ()
23
-0,333 -3,266
2
-0,278 -7,335 ()
33
-0,492 -5,792
3
-0,004 -8,321
0,38
1
5,68
Os pesquisadores vericaram aps uma anlise descritiva dos dados
que a distribuio gama mais apropriada para descrever a resposta do que
a distribuio normal. Assim, vamos assumir que Y
ijk
G(
ij
, ). Segundo
ainda os pesquisadores vamos supor um modelo log-linear com interao entre
tratamento e perodo, porm com uma parametrizao um pouco diferente,
log
ij
= +
i
+
j
+ ()
ij
,
em que ()
ij
representa a interao entre tratamento e perodo, sendo
i
e
j
os efeitos principais. Teremos as restries
1
= 0,
1
= 0 e ()
1j
=
()
i1
= 0, para i = 1, 2, 3 e j = 1, 2, 3. As estimativas dos parmetros so
descritas na Tabela 4.6 supondo correlao simtrica entre as medidas de um
mesmo indivduo. Nota-se que a estimativa da correlao no muito alta.
Claramente conrma-se a existncia de interao entre perodo e tratamento.
369
5.5 Exemplos
Os lquidos A e B reduzem em mdia a quantidade de placas dentrias,
havendo indcios de uma reduo mais acentuada com o lquido B de 3 meses
para 6 meses de escovao.
Indice
C
o
m
p
o
n
e
n
t
e

d
o

D
e
s
v
i
o
0 50 100 150 200 250 300
-
4
-
2
0
2
29
30
58
Figura 5.9: Grco de resduos do modelo ajustado aos dados sobre placas
dentrias.
Para ajustar esse modelo no R deve-se usar os comandos
tratm = factor(tratm)
mes = factor(mes)
fit1.placas = gee(score + tratm + mes + tratm*mes,
id=voluntar, family=Gamma(link=log), corstr="exchangeable").
A Figura 4.9 descreve o grco de ndices do resduo componente do
desvio. Trs observaes aparecem com resduos negativos relativamente
370
5.6 Exerccios
altos. As observaes de #29 e #30 referem-se aos escores do indivduo
#10 aps 3 meses e 6 meses de escovao, respectivamente, que utilizou
o lquido A no tratamento. Os escores (0,10 e 0,12) so muito pequenos
quando comparados com os valores mdios dos grupos correspondentes. J
a abservao #58 refere-se ao escore do indivduo #20 aps 3 meses de
escovao, que tambm foi tratado com o lquido A. O valor observado para
o escore (0,05) muito inferior ao valor mdio do grupo correspondente.
A eliminao desses pontos aumenta um pouco o valor da estimativa da
interao ()
22
, porm no muda os resultados inferenciais. Cardoso-Neto
e Paula (2001) analisaram este exemplo supondo restries em alguns dos
parmetros e encontraram evidncias mais fortes com relao aos resultados
obtidos por Hadgu e Koch(1999).
5.6 Exerccios
1. Supor as funes de varincia V () =
3
e V () = +
2
/k. Encon-
tre para cada caso a funo Q(; y) e verique sob quais restries as
funes encontradas so proporcionais a funes de verossimilhana da
famlia exponencial.
2. Supor Y
1
, . . . , Y
n
variveis aleatrias independentes com logaritmo da
funo de quase-verossimilhana Q(
i
; y
i
), i = 1, . . . , n. Mostre que as
funes escore e de informao para cam, respectivamente, dadas
por:
U
=
1
2
D
T
V
1
(y )
e
K
= E
_
U()
_
=
1
2
D
T
V
1
D.
371
5.6 Exerccios
3. Sejam Y
ij
variveis aleatrias tais que Y
ij
FE(
i
, ), i = 1, 2 e j =
1, . . . , m. A estatstica de Wald para testar H
0
:
1

2
= 0 contra
H
1
:
1

2
= 0 dada por
W
= ( y
1
y
2
)
2
/Var( y
1
y
2
). Sob H
0
e para m segue que
W

2
1
. Calcular Var( y
1
y
2
) para as
seguintes situaes:
(a) supondo que Corr(Y
ij
, Y
ij
) = para (j = j
; i xo) e =0 em caso
contrrio;
(b) supondo que Corr(Y
ij
, Y
i
j
) = para (i = i
; j xo) e =0 em caso
contrrio;
Para
1

2
e xos e 0 discutir o comportamento do poder de
W
conforme cresce para as situaes (a) e (b). So esperados esses
comportamentos? Comente.
4. Supor o modelo de quase-verossimilhana em que Y
1
, . . . , Y
n
so vari-
veis aleatrias independentes tais que E(Y
i
) =
i
e Var(Y
i
) =
2
2
i
com
parte sistemtica dada por log
i
=
0
+
1
(x
i
x). Responda aos itens
abaixo:
(a) como cam as varincias assintticas de

0
e de

1
?
(b) Como ca o teste de Wald para testar H
0
:
0
= 0 contra H
1
:
0
= 0?
(c) Proponha um teste tipo escore para testar H
0
:
1
= 0 contra
H
1
:
1
= 0.
5. (McCullagh e Nelder, 1989, p. 329) No arquivo cevada.dat apresen-
tado um conjunto de dados referente a incidncia de manchas na folha
do gro de cevada para dez variedades. Nove folhas foram consideradas
372
5.6 Exerccios
para cada variedade. Seja Y
ij
a proporo afetada da rea da j-sima
folha da i-sima variedade. Note que 0 Y
ij
1. Ajuste inicialmente
aos dados um modelo de quase-verossimilhana tal que E(Y
ij
) =
i
,
Var(Y
ij
) =
2
i
(1
i
) e parte sistemtica dada por
log
_

i
1
i
_
= +
i
,
com a restrio
1
= 0, i = 1, . . . , 10 e j = 1, . . . , 9. Faa uma anlise
de resduos para vericar a adequao da funo de varincia adotada.
Se for necessrio mude a funo de varincia e ajuste um novo modelo.
Interprete os resultados do modelo nal ajustado.
6. Como ca a diferena entre desvios para testar H
0
:
1
= 0 contra H
1
:
1
= 0 num modelo de quase-verossimilhana com V (
i
) =
2
i
(1
i
)
2
,
g(
i
) =
i
= x
T
i
e = (
T
1
,
T
2
)
T
?
7. (Park, Shin e Park, 1998) Vamos supor que o vetor de respostas seja
agora dado por Y
ij
= (Y
ij1
, . . . , Y
ijT
)
T
, em que Y
ijt
denota a resposta
para o j-simo elemento do i-simo grupo no instante t, i = 1, . . . , g e
j = 1, . . . , r
i
. Supor ainda que E(Y
ijt
) =
i
, Var(Y
ijt
) = V
i
1
e que
Y
ijt
pertence famlia exponencial. Mostre que dado a equao de
estimao generalizada para
i
pode ser expressa na forma S(
i
) = 0,
em que
S(
i
) =
r
i
j=1
1
T
T
R
ij
()(y
ij
i
1
T
),
R
ij
a matriz trabalho para o j-simo indivduo do i-simo grupo e
1
T
um vetor T 1 de uns. Expresse a estimativa de
i
em forma
fechada.
8. Supor que Y
i
= (Y
i1
, . . . , Y
ir
i
)
T
, i = 1, . . . , n, so vetores aleatrios
independentes tais que Y
ij
Be(
i
). Assumir ainda que a matriz
373
5.6 Exerccios
trabalho para Y
i
permutvel e que
log
_

i
1
i
_
= x
T
i
.
Mostre que, dado , as EEGs para cam dadas por
S
G
) =
n
i=1
{1 + (r
i
1) }
1
x
i
(y
i
n
i

i
) = 0,
em que y
i
= y
i1
+ + y
ir
i
. Sugesto: use a relao abaixo
R
1
i
() = (1 )
1
[I
r
i
{1 + (r
i
1)}
1
J],
em que J uma matriz r
i
r
i
de uns. Como ca o processo iterativo
para estimar ?
9. (Myers, Montgomery e Vining, 2002, Seo 6.5) No arquivo ratos-
gee.dat esto os dados de um experimento em que 30 ratos tiveram
uma condio de leucemia induzida. Trs drogas quimio-terpicas fo-
ram utilizadas no tratamento dos animais. Foram coletadas de cada
animal a quantidade de clulas brancas (WBC), a quantidade de clulas
vermelhas (RBV) e o nmero de colnias de clulas cancerosas (RESP)
em quatro perodos diferentes. Assuma distribuio de Poisson para
RESP em cada perodo e verique atravs de um modelo log-linear se
existe diferenas signicativas entre os trs tratamentos considerando
WBC e RBC como variveis explicativas. Compare os resultados su-
pondo estruturas de correlao independente e AR(1). Faa uma an-
lise de resduos.
10. (Myers, Montgomery e Vining, 2002, p. 231) Um experimento condu-
zido para avaliar a disperso de um pigmento particular numa pintura.
Quatro diferentes misturas do pigmento so estudadas. O procedimento
374
5.6 Exerccios
consiste em preparar cada mistura e aplic-la num painel usando trs
mtodos diferentes: pincel, rolo e spray. O experimento repetido de
forma independente trs dias diferentes. Os dados so descritos abaixo
Mistura
Dia Mtodo 1 2 3 4
1 64,5 66,3 74,1 66,5
1 2 68,3 69,5 73,8 70,0
3 70,3 73,1 78,0 72,3
1 65,2 65,0 73,8 64,8
2 2 69,2 70,3 74,5 68,3
3 71,2 72,8 79,1 71,5
1 66,2 66,5 72,3 67,7
3 2 69,0 69,0 75,4 68,6
3 70,8 74,2 80,1 72,4
Analise os dados atravs de equaes de estimao generalizadas com
estrutura de correlao simtrica. Faa anlise de resduos.
375
Bibliograa
Agresti A. (1990). Categorical Data Analysis. John Wiley, New York.
Aitkin, M.; Anderson, D. A.; Francis, B e Hinde, J. P. (1989). Statistical
Modelling in Glim. Clarendom Press, Oxford.
Akaike, H. (1974). A new look at statistical model identication. IEEE
Transactions on Automatic Control AU-19 716-722.
Aranda-Ordaz, F. J. (1981). On two families of transformations to additi-
vity for binary response data. Biometrika 68, 357-364.
Armitage, P. (1955). Test for linear trend in proportions and frequencies.
Biometrics 11, 375-386.
Armitage, P. (1971). Statistical Methods in Medical Research. Blackwell
Scientic Publications, Oxford.
Atkinson, A. C. (1981). Two graphical display for outlying and inuential
observations in regression. Biometrika 68, 13-20.
Atkinson, A. C. (1985). Plots, Transformations and Regressions. Oxford
Statistical Science Series, Oxford.
376
Bibliograa
Beckman R. J.; Nachtsheim, C. J. e Cook, R. D. (1987). Diagnostics for
mixed-model analysis of variance. Technometrics 29, 413-426.
Belsley, D. A.; Kuh, E. e Welsch, R. E. (1980). Regression Diagnostics.
John Wiley, New York.
Bliss, C. I. (1935). The calculation of the dosage-mortality curve. Annals
of Applied Biology 22, 134-167.
Bishop, Y. M. M.; Fienberg, S. E. e Holland, P. W. (1975). Discrete Mul-
tivariate Analysis: Theory and Practice. MIT Press, Cambridge.
Boice, J. D. e Monson, R. R. (1977). Breast cancer in women after repeated
uoroscopic examinations of the chest. Journal of the National Cancer
Institute 59, 823-832.
Box, G. E. P. e Cox, D. R. (1964). An analysis of transformations (with
discussion). Journal of the Royal Statistical Society B 26, 211-252.
Breslow, N. E. e Clayton, D. G. (1993). Approximate inference in generali-
zed linear mixed models. Journal of the American Statistical Associa-
tion 88, 9-25.
Breslow N. E. e Day, N. E. (1980). Statistical Methods in Cancer Rese-
arch, Vol. I, The Analysis of Case-Control Studies. IARC Scientic
Publications, International Agency for Research on Cancer, Lyon.
Breslow, N. E. e Day, N. E. (1987). Statistical Methods in Cancer Research,
Vol. II, The Design and Analysis of Cohort Studies. IARC Scientic
Publications, International Agency for Research on Cancer, Lyon.
Buse, A. (1982). The likelihood ratio, Wald and Lagrange multiplier tests:
an expository note. The American Statistician 36, 153-157.
377
Bibliograa
Cardoso-Neto, J. e Paula, G. A. (2001). Wald one-sided test using generali-
zed estimating equations approach. Computational Statistics and Data
Analysis 36, 475-495.
Casella, G. e Straederman, W. E. (1980). Condence bands for linear re-
gression with restricted preditor variables. Journal of the American
Statistical Association 75, 862-868.
Chatterjee, S. e Hadi, A. S. (1988). Sensitivity Analysis in Linear Regres-
sion. New York: Wiley.
Collett, D. (1991). Modelling Binary Data. Chapman and Hall, London.
Cook, R. D. (1977). Detection of inuential observations in linear regressi-
ons. Technometrics 19, 15-18.
Cook, R. D. (1987). Inuence assessment. Journal of Applied Statistics 14,
117-131.
Cook, R. D. (1986). Assessment of local inuence (with discussion). Journal
of the Royal Statistical Society B 48, 133-169.
Cook, R. D.; Pea, D. e Weisberg, S. (1988). The likelihood displacement:
A unifying principle for inuence measures. Communications in Sta-
tistics, Theory and Methods 17, 623-640
Cook, R. D. e Weisberg, S. (1982). Residuals and Inuence in Regression.
Chapman and Hall, London.
Cordeiro, G. M. (1986). Modelos Lineares Generalizados. Livro texto de
minicurso, VII Simpsio Nacional de Probabilidade e Estatstica, UNI-
CAMP, Campinas, SP.
378
Bibliograa
Cordeiro, G. M. e McCullagh, P. (1991). Bias correction in generalized
linear models. Journal of the Royal Statistical Society B 53, 629-643.
Cordeiro, G. M.; de P. Ferrari, S. L. e Paula, G. A. (1993). Improved score
tests for generalized linear models. Journal of the Royal Statistical
Society B 55, 661-674.
Cordeiro, G. M.; Paula, G. A. e Botter, D. A. (1994). Improved likelihood
ratio tests for dispersion models. International Statistical Review 62,
257-274.
Cordeiro, G. M. e Paula, G. A. (1989a). Improved likelihood ratio statistics
for exponential family nonlinear models. Biometrika 76, 93-100.
Cordeiro, G. M. e Paula, G. A. (1989b). Modelos de Regresso para a
Anlise de Dados Univariados. Livro texto de minicurso, 17
o
Colquio
Brasileiro de Matemtica, IMPA, Rio de Janeiro.
Cordeiro, G. M. e Paula, G. A. (1992). Estimation, large-sample para-
metric tests and diagnostics for non-exponential family nonlinear mo-
dels. Communications in Statististics - Simulation and Computation
21, 149-172.
Corneld, J. (1951). A method of estimating comparative rates from clinical
data. Applications to cancer of the lung, breast and crevix. Journal of
the National Cancer Institute 11, 1269-1275.
Corneld, J. (1956). A statistical problem arising from retrospective studies.
In: Proceedings of the Third Berkeley Symposium, Berkeley, University
of California Press, pgs. 133-148.
Cox, D. R. (1970). The Analysis of Binary Data. Methuen, London.
379
Bibliograa
Cox, D. R. (1972). Regression models and life tables (with discussion).
Journal of the Royal Statistical Society B 74, 187-220.
Cox, D. R. e Hinkley, D. V. (1974). Theorical Statistics. Chapman and
Hall, London.
Cox, D. R. e Oakes, D. (1984). Analysis of Survival Data. Chapman and
Hall, London.
Cox, D. R. e Snell, E. J. (1968). A general denition of residuals (with
discussion). Journal of the Royal Statistical Society B 30, 248-275.
Cox, D. R. e Snell, E. J. (1989). The Analysis of Binary Data, 2nd Edition.
Davison, A. C. e Gigli, A. (1989). Deviance residuals and normal scores
plots. Biometrika 76, 211-221.
Davison, A.C. e Tsai, C-L. (1992). Regression model diagnostics. Interna-
tional Statistical Review 60, 337-353.
Day, N. E. e Byar, D. P. (1979). Testing hypothesis in case-control studies-
equivalence of Mantel-Haenszel statistics and logit score tests. Biome-
trics 35, 623-630.
de Souza, F. A. M. e Paula, G. A. (2002). Deviance residuals for an angular
response. Australian and New Zealand Journal of Statistics 44, 345-
356.
Diggle, P. J.; Liang, K. Y. e Zeger, S. L. (1994). Analysis of Longitudinal
Data. Oxford University Press.
380
Bibliograa
Dixon, W. J. (1987). BMDP Statistical Software. University of California
Press, Berkeley.
Efron, B. (1988). Logistic regression, survival analysis and the Kaplan-
Meier curve. Journal of the American Statistical Association 83, 414-
425..
Emerson, J. D.; Hoaglin, D. C. and Kempthorne, P. J. (1984). Leverage in
least squares additive-plus-multiplicative ts for two-way tables. Jour-
nal of the American Statistical Association 79, 329-335.
Escobar, L. A. e Meeker, W. Q. (1992). Assessing inuence in regression
analysis with censored data. Biometrics 48, 507-528.
Everitt, B. S. (1977). The Analysis of Contingency Tables. Chapman and
Hall, London.
Everitt, B. S. (1994). A Handbook of Statistical Analysis using S-Plus.
Fahrmeir, L. e Kaufmann, H. (1985). Consistency and asymptotic norma-
lity of the maximum likelihood estimator in generalized linear models.
Annals of Statistics 13, 342-368.
Fahrmeir, L. e Klinger, J. (1994). Estimating and testing generalized linear
models under inequality constraints. Statistical Papers 35, 211-229.
Farhrmeir, L. e Tutz, G. (1994). Multivariate Statistical Modelling based on
Generalized Linear Models. Springer, New York.
Feigl, P. e Zelen, M. (1965). Estimation of exponential survival probabilities
with concomitant information. Biometrics 21, 826-838.
381
Bibliograa
Finney, D. J. (1971). Probit Analysis, 3rd. Edition. Cambridge University
Press, Cambridge.
Finney, D. J. (1978). Statistical Methods in Biological Assay, 3rd. Edition.
Cambridge University Press, Cambridge.
Fieller, E. C. (1954). Some problems in interval estimation. Journal of the
Royal Statistical Society B 16, 175-185.
Fung, W. K. (1993). Unmasking outliers and leverage points: A Conrma-
tion. Journal of the American Statistical Association 88, 515-519.
Fung, W. K. e Kwan, C. W. (1997). A note on local inuence based on
normal curvature.Journal of the Royal Statistical Society B 59, 839-
843.
Galea, M.; Paula, G. A. e Bolfarine, H. (1997). Local inuence in elliptical
linear regression models. The Statistician 46, 71-79.
Galea, M.; Paula, G. A. e Uribe-Opazo, M. (2003). On inuence diagnostic
in univariate elliptical linear regression models. Statistical Papers 44,
23-45.
Galea, M.; Riquelme, M. e Paula, G. A. (2000). Diagnostic methods in
elliptical linear regression models. Brazilian Journal of Probability and
Statistics 14, 167-184.
Galves, J. A.; Paula, G. A. e Goebbels, M. (1998). Relatrio de An-
lise Estatstica sobre o Projeto: Evoluo Temporal da Variao Pr-
clise/nclise no Portugus Clssico. RAECEA-9810, IME-USP.
Gray, J. B. (1989). On the use of regression diagnostics. The Statistician
38, 97-105.
382
Bibliograa
Gu, H. e Fung, W. K. (1998). Assessing local inuence in canonical corre-
lation analysis. Annals of the Institute of Statistical Mathematics 50,
755-772.
Hadgu, A. e Koch, G. (1999). Application of generalized estimating equati-
ons to a dental randomized clinical trial. Journal of Biopharmaceutical
Statistics 9, 161-178.
Hand, D. J.; Daly, F.; Lunn, A. D.; McConway, K. J. e Ostrowski, E. (1994).
A Handbook of Small Data Sets. Chapman and Hall, London.
Hannan, J. e Harkness, W. (1963). Normal approximation to the distribu-
tion of two independent binomials, conditional to the sum. Annals of
Mathematical Statistics 34, 1593-1595.
Hastie, T. e Tibshirani, R. (1990). Generalized Additive Models. Chapman
and Hall, London.
Hinde, J. (1982). Compoud poisson regression models. In R. Gilchrist Ed.,
GLIM82, pgs. 109-121. Springer, New York.
Hinde, J. e Demtrio, C. G. B (1998). Overdispersion: model and estima-
tion. Computational Statistics and Data Analysis 27, 151-170.
Hoaglin, D. C. e Welsch, R. E. (1978). The hat matrix in regression and
ANOVA. The American Statistician 32, 17-22.
Hosmer, D. W. e Lemeshow, S. (1989). Applied Logistic Regression. John
Wiley, New York.
Innes, J. R. M.; Ulland, B. M.; Valerio, M. G.; Petrucelli, L.; Fishbein, L.;
Hart, E. R.; Pallota, A. J.; Bates, R. R.; Falk, H. L.; Gart, J. J.; Klein,
383
Bibliograa
M.; Mitchell, I. e Peters, J. (1969). Biossay of pesticides and industrial
chemicals for tumorigenicity in mice: A preliminary note. Journal of
the National Cancer Institute 42, 1101-1114.
Jrgensen, B. (1983). Maximum likelihood estimation and large-sample in-
ference for generalized linear and nonlinear regression models.Biometrika
70, 19-28.
Jrgensen, B. (1987). Exponential dispersion models (with discussion).
Journal of the Royal Statistical Society B 49, 127-162.
Jrgensen, B. (1996). The Theory of Dispersion Models. Chapman and
Hall, London.
Kim, M. G. (1995). Local inuence in multivariate regression. Communi-
cations in Statistics, Theory Methods 20, 1271-1278.
Kwan, C. W. e Fung, W. K. (1998). Assessing local inuence for specic
restricted likelihood: Applications to factor analysis. Psychometrika
63, 35-46.
Lawless, J. F. (1982). Statistical Models and Methods for Lifetime Data.
John Wiley, New York.
Lawless, J. F. (1987). Negative binomial and mixed Poisson regression. The
Canadian Journal of Statistics 15, 209-225.
Lawrence, A. J. (1988). Regression transformation diagnostics using local
inuence. Journal of the American Statistical Association 84, 125-141.
Lee, E. T. (1991). Statistical Methods for Survival Data Analysis, Second
Edition. John Wiley, New York.
384
Bibliograa
Lee, Y. e Nelder, J. A. (1996). Hierarchical generalized linear models. Jour-
nal of the Royal Statistical Society B 58, 619-678.
Lee, Y. e Nelder, J. A. (2001). Hierarchical generalised linear models: a
synthesis of generalised linear models, random-eect models and struc-
tured dispersions. Biomerika 88, 987-1006.
Leemis, L. M. e Trivedi, K. S. (1996). A comparison of aproximate interval
estimators for the Bernoulli parameter. The American Statistician 50,
63-68.
Liang, K. Y. e Zeger, S. L. (1986). Longitudinal data analysis using gene-
ralized linear models. Biometrika 73, 13-22.
Liu, S. Z. (2000). On local inuence for elliptical linear models. Statistical
Papers 41, 211-224.
Mantel, N. (1963). Chi-square tests with one degree of freedom: extensions
of the Mantel-Haenszel procedure. Journal of the American Statistical
Association 58, 690-700.
Mantel, N. e Haenszel, B. F. (1959). Statistical aspects of the analysis of
the data from retrospective studies of disease. Journal of the National
Cancer Institute 22, 719-748.
McCullagh, P. (1983). Quasi-likelihood functions. Annals of Statistics 11,
59-67.
McCullagh, P. (1987). Tensor Methods in Statistics. Chapman and Hall,
London.
McCullagh, P. e Nelder, J. A. (1989). Generalized Linear Models, 2nd.
Edition. Chapman and Hall, London.
385
Bibliograa
McCulloch, C. E. e Searle, S. R. (2001). Linear and Generalized Linear
Mixed Models. Wiley, New York.
Milicer, H. e Szczotka, F. (1966). Age at menarche in Warsaw girls in 1965.
Human Biology 38, 199-203.
Montgomery, D. C.; Peck, E. A. e Vining, G. G. (2001). Introduction to
Linear Regression Analysis, Third Edition. John Wiley, New York.
Myers, R.H.; Montgomery, D. C. e Vining, G. G. (2002). Generalized Li-
near Models: With Applications in Engineering and the Sciences. John
Wiley, New York.
Moolgavkar, S. H.; Lustbader, E. D. e Venzon, D. J. (1984). A geome-
tric approach to non-linear regression diagnostics with application to
matched case-control studies. Annals of Statistics 12, 816-826.
Morgan, B. J. T. (1992). Analysis of Quantal Response Data. Chapman
and Hall, London.
Narula, S. C. e Stangenhaus, G. (1988). Anlise de Regresso L
1
. Notas de
minicurso do VIII Simpsio Nacional de Probabilidade e Estatstica,
IMPA, Rio de Janeiro, RJ.
Nelder, J. A. e Pregibon, D. (1987). An extended quasi-likelihood function.
Biometrika 74, 221-232.
Nelder, J. A. e Wedderburn, R. W. M. (1972). Generalized linear models.
Journal of the Royal Statistical Society A 135, 370-384.
Neter, J.; Kutner, M. H.; Nachtsheim, C. J. e Wasserman, W.(1996). Ap-
plied Linear Regression Models, 3rd Edition. Irwin, Illinois,
386
Bibliograa
Nyquist, H. (1991). Restricted estimation of restricted generalized linear
models. Applied Statistics 40, 133-141.
OHara Hines, R. J.; Lawless, J. F. e Carter, E. M. (1992). Diagnostics
for a cumulative multinomial generalized linear model with applica-
tion to grouped toxicological mortality data. Journal of the American
Ortega, E. M. M.; Bolfarine, H. e Paula, G. A. (2003). Inuence diagnostic
in generalized log-gamma regression models. Computational Statistics
and Data Analysis 42, 165-186.
Palmgren, J. (1981). The Fisher information matrix for log linear models
against conditionally on observed explanatory variables. Biometrika
68, 563-566.
Pan, J. X.; Fang, K. T. e von Rosen (1997). Local inuence assessment
in the growth curve model with unstructured covariance. Journal of
Statistical Planning and Inference 62, 263-278.
Park, T. P.; Shin, D. W. e Park, C. G. (1998). A generalized estimating
equations approach for testing ordered group eects with repeated me-
asurements. Biometrics 54, 1645-1653.
Paula, G. A. (1993). Assessing local inuence in restricted regression mol-
dels. Computational Statistics and Data Analysis 16, 63-79.
Paula, G. A. (1995). Inuence and residuals in restricted generalized linear
models. Journal of Statistical Computation and Simulation 51, 315-
352.
387
Bibliograa
Paula, G. A. (1996). Inuence diagnostic in proper dispersion models. Aus-
tralian Journal of Statistics 38, 307-316.
Paula, G. A. (1997). Estimao e Testes em Modelos de Regresso com Pa-
rametros Restritos. Livro texto de minicurso da 5
a
Escola de Modelos
de Regresso, realizada de 26 a 28-02-97 em Campos do Jordo, SP.
Paula, G. A. (1999). Leverage in inequality constrained regression models.
The Statistician 48, 529-538.
Paula, G. A. e Artes, R. (2000). One-sided test to assess correlation in
logistic linear models using estimating equations. Biometrical Journal
42, 701-714.
Paula, G. A.; Barbosa, L. S. e Ferreira, R. F. G. (1989). Relatrio de Anlise
Estatstica sobre o Projeto: Comportamento Biolgico Evolutivo do
Tumor KB no Decorrer de suas Passagens Seriadas em Ratos Nude
Adultos. RAE-CEA8904, IME-USP.
Paula, G. A. e Cordeiro, G. M. (1986). Alguns modelos no-lineares via o
Glim. Atas do VII Simpsio Nacional de Probabilidade e Estatstica,
UNICAMP, So Paulo, pp. 204-217.
Paula, G. A.; Denaro-Machado, L.; Ogata, T. T.; Machado, J. C.; Matta,
M. S. e Petrella, S. M. C. N. (1992). Caquexia cancerosa em modelo
experimento rato nude atmico/tumor humano KB. Revista Laes Haes
76, 28-30.
Paula, G. A. e Oshiro, C. H. (2001). Relatrio de Anlise Estatstica sobre
o Projeto: Anlise de Captura por Unidade de Esforo do Peixe-Batata
na Frota Paulista. RAE-CEA0102, IME-USP.
388
Bibliograa
Paula, G. A. e Peres, C. A. (1988). Diagnostics for GLMs with linear ine-
quality parameter constraints. Communications in Statistics, Theory
and Methods 17, 4205-4219.
Paula, G. A. e Tuder, R. M. (1986). Utilizao da regresso logstica para
aperfeioar o diagnstico de processo infeccioso pulmonar. Revista Ci-
ncia e Cultura 40, 1046-1050.
Paula, G. A.; Sevanes, M. e Ogando, M. A. (1988). Relatrio de Anlise
Estatstica sobre o Projeto: Estudo de Plantas Brasileiras com Efeito
Moluscicida em Biomphalaria Glabrata. RAE-CEA8824, IME-USP.
Paula, G. A. e Sen, P. K. (1995). One-sided tests in generalized linear
models with parallel regression lines. Biometrics 51, 1494-1501.
Paula, G. A. e Tavares, H. R. (1992). Relatrio de Anlise Estatstica
sobre o Projeto: caros Associados ao Esterco Bovino. Subsdios para
Controle Biolgico da Mosca do Chifre. RAECEA 9206, IME-USP
Peduzzi, P. N.; Hardy, R. J. e Holford, T. T. (1980). A stepwise variable
selection procedure for nonlinear regression models. Biometrics 36,
511-516.
Pea, D. e Yohai, V. (1999). A fast procedure for outlier diagnostics in large
regression problems. Journal of the American Statistical Association
94, 434-445.
Pettitt, A. N. e Bin Daud, I. (1989). Case-weight measures of inuence for
proportional hazards regression. Applied Statistics 38, 51-67.
Piegorsch, W. W. e Casella, G. (1988). Condence bands for logistic re-
gression with restricted predictor variables. Biometrics 44, 739-750.
389
Bibliograa
Pregibon, D. (1981). Logistic regression diagnostics. Annals of Statistics 9,
705-724.
Pregibon, D. (1982). Score tests in GLIM with applications. Lecture Notes
in Statistics 14, 87-97. Springer-Verlag, New York.
Pregibon, D. (1984). Data analytic methods for matched case-control stu-
dies. Biometrics 40, 639-651.
Ramanathan, R. (1993). Statistical Methods in Econometrics. Wiley, New
York.
Rao, C. R. (1973). Linear Statistical Inference and Its Applications, Second
Edition. Wiley, New York.
Ratkowsky, D. A. (1983). Nonlinear Regression Modelling. Marcel Dekker,
New York.
Ross, W. H.(1987). The geometry of case deletion and the assessment of
inuence in nonlinear regression. Canadian Journal of Statistics 15,
91-103.
Ryan, B. F. e Joiner, B. L. (1994). Minitab Handbook, Third Edition. Dux-
bury Press, Belmont.
Seber, G. A. F. e Wild, C. J. (1989). Nonlinear Regression. John Wiley,
New York.
Sen, P. K. e Singer, J. M. (1993). Large Sample Methods in Statistics: An
Introduciton with Applications. Chapman and Hall, London.
Silva, G. L. (1992). Modelos Logsticos para Dados Binrios. Dissertao
de Mestrado, IME-USP.
390
Bibliograa
Spector, P. (1994). An Introduction to S and S-Plus. Duxbury Press, Bel-
mont.
St. Laurent, R. T. e Cook, R. D. (1992). Leverage and superleverage in
nonlinear regression. Journal of the American Statistical Association,
87, 985-990.
Stukel, T. A. (1988). Generalized logistic models. Journal of the American
Svetliza, C. F. (2002). Modelos No-Lineares com Resposta Binomial Ne-
gativa. Tese de Doutorado, IME-USP.
Svetliza, C. F. e Paula, G. A. (2001). On diagnostics in log-linear negative
binomial models. Journal of Statistical Computation and Simulation
71, 231-244.
Svetliza, C. F. e Paula, G. A. (2003). Diagnostics in nonlinear negative
binomial models. Communications in Statistics, Theory Methods 32,
1227-1250.
Thomas, W. e Cook, R. D. (1990). Assessing inuence on predictions from
generalized linear models. Technometrics 32, 59-65.
Tsai,C. H. e Wu, X. (1992). Assessing local inuence in linear regression mo-
dels with rst-order autoregressive or heteroscedastic error structure.
Statistics and Probability Letters 14, 247-252.
Venables, W. N. e Ripley, B. D. (1999). Modern Applied Statistics with
S-Plus, Third Edition. Springer, New York.
Wang, P. C. (1985). Adding a variable in generalized linear models. Tech-
nometrics 27, 273-276.
391
Bibliograa
Wedderburn, R. W. M. (1974). Quasi-likelihood functions, generalized li-
near models and the Gauss-Newton method. Biometrika 61, 439-447.
Wedderburn, R. W. M. (1976). On the existence and uniqueness of the
maximum likelihood estimates for certain generalized linear models.
Biometrika 68, 27-32.
Wei, B. C. (1998). Exponential Family Nonlinear Models. Lecture Notes in
Statistics Vol. 130. Springer, New York.
Wei, B.C.; Hu, Y.Q. e Fung, W.K. (1998). Generalized leverage and its
applications. Scandinavian Journal of Statistics 25, 25-37.
Williams, D. A. (1984). Residuals in generalized linear models. In: Pro-
ceedings of the 12th. International Biometrics Conference, Tokyo, pp.
59-68.
Williams, D. A. (1987). Generalized linear model diagnostic using the de-
viance and single case deletion. Applied Statistics 36, 181-191.
Wolf, (1955). On estimating the relationship between blood group and
disease. Annals of Human Genetic 19, 251-253.
Wood, F. S. (1973). The use of individual eects and residuals in tting
equations to data. Technometrics 15, 677-687.
392

Modelos de Regressão Com Apoio Computacional

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modelos de Regressão Com Apoio Computacional

Uploaded by

Copyright:

Available Formats

MODELOS DE REGRESSO

com apoio computacional

a proporo de sucessos em n ensaios independentes, cada um com

ca ento expressa na forma

< 1. Obtemos (1.1) fazendo = n, = log{/(1 )},

Figura 1.2: Ligao de Box-Cox para alguns valores de .

Figura 1.3: Ligao de Aranda-Ordaz para alguns valores de .

(y; ) = D(y; ) = 2{L(y; y) L( ; y)},

(y; ) depende do parmetro de disperso

(y; ) com os percentis da

}. A funo escore para ca dada

cam nesse caso dadas por

denota a primeira derivada de U

, respectivamente, essas quantidades avaliadas em

pode no ser positiva denida, a aplicao

pode ser mais conveniente. Isso resulta no seguinte pro-

a zero chegamos seguinte soluo:

a zero, dada por

em srie de Taylor em torno de obtemos

(para ligao cannica K

so independentes. Demonstraes mais rigorosas desses resultados podem

) denota a matriz de varincia-covarincia assinttica de

) denota que a varincia assinttica de

s nas m restantes. Da segue que X

tal que Pr{

} = 1 . importante observarmos que z

tal que Pr{

. Assim, uma vez que D(y;

denota a estimativa de mxima verossimilhana sob o modelo

() em torno de a = 0. Essa curvatura interpretada como sendo

a matriz de informao observada de Fisher enquanto

) para detectar pontos de alavanca. Hosmer e Lemeshow

(y; ) avaliado no parmetro verdadeiro. Podemos

) pelo correspondente valor esperado e por

(y; ) denota o desvio do modelo e p o nmero de parme-

0,28 (0,013) 0,27 (0,015) 0,27 (0,012) 0,26 (0,015)

192(52) 188(52) 223(62) 223(63)

e descreva o processo iterativo

s com na i-sima posio.

(y; ) = D(y; ) em que

. Pode ser mostrado facilmente para ligao

()/() a funo digama (vide Seo 1.6.2), ou ento

(y; ) segue distribuio qui-quadrado

(y; ) deve ser

(y; ) torna-se inapropriado.

(y; ) = 8, 861 5, 804 = 51, 43, com 45 graus de liberdade,

(y; ) = 51, 47 para 47 graus de liberdade

denotam, respectivamente, os efeitos da j-sima frota, k-

(y; ) = 270, 43 com 224 graus de liberdade e D

0, 003143] = [0,52; 0,87] que no cobre o valor 1,0. Por-

(y; ) = D(y; ) em que

(y; ). Supondo que o modelo postulado est correto

(y; ) segue distribuio qui-quadrado

(y; ) = 756, 87 (753 g.l.) com P=0,35

e . Aps algumas manipulaes algbricas obtemos o proceso iterativo

(y; , ) pode ser comparado com os percentis da

) = 0 para mostrar que E(logY ) = log log +

) = 0 para mostrar que E(Y

(y; ) = 2nlog( y/ y), em que y a mdia

). (ii) Mostre que o

) e mostre que Cov( ,

) = , o que impossibilita qualquer tipo de inferncia para