You are on page 1of 12

659

Anlise estatstica de dados da PNAD: incorporando a estrutura do plano amostral Statistical analysis of data from PNAD: incorporating the sample design

ARTIGO ARTICLE

Pedro Luis do Nascimento Silva 1 Djalma Galvo Carneiro Pessoa 1 Maurcio Franca Lila 2

Abstract This paper describes how the complex sample design aspects of stratification, clustering, unequal selection probabilities and calibration adjustments of the sample weights affecting the National Household Sample Survey (PNAD) of IBGE can be incorporated into the analysis of its data. For this purpose, it includes: a brief but comprehensive description of this surveys sample design; indication of how its data can be used for estimating totals; and also a description of the essential methods required to fit parametric models taking into account the complex sample survey design aspects mentioned. It also presents some estimates for household and personal characteristics obtained from PNAD/1998, for which standard errors and design effects are computed as an illustration. It concludes with an indication of the precautions users must take when analysing data from PNAD in their survey practice. Key words Design effect, Estimation, Survey data analysis, Structured data, Household survey, Parametric models
1 Departamento de Metodologia, Instituto Brasileiro de Geografia e Estatstica. Av. Chile 500/10o andar 20031-170 Rio de Janeiro RJ. pedrosilva@ibge.gov.br 2 Departamento de Emprego e Rendimento, Instituto Brasileiro de Geografia e Estatstica.

Resumo Este artigo descreve como podem ser considerados na anlise dos dados da Pesquisa Nacional por Amostra de Domiclios (PNAD) do IBGE os diversos aspectos de seu plano amostral complexo: estratificao, conglomerao, probabilidades desiguais de seleo e ajustes dos pesos para calibrao. Para isso, inclui: uma descrio resumida porm completa do plano amostral dessa pesquisa; indicao de como seus dados podem ser usados para estimar totais; e tambm uma descrio resumida dos mtodos essenciais para ajustar modelos paramtricos regulares com os dados da pesquisa levando em conta os aspectos de amostragem complexa. Apresenta ainda os resultados de algumas estimativas para caractersticas de pessoas e domiclios calculadas com base nos dados da PNAD/1998, para as quais so apresentadas estimativas dos respectivos desvios padro e dos efeitos do plano amostral. Conclui com uma indicao dos cuidados que os usurios devem ter ao analisar tais dados em sua prtica de pesquisa. Palavras-chave Efeito do plano amostral, Estimao, Anlise de dados amostrais, Dados estruturados, Pesquisa domiciliar, Modelos paramtricos

660
Silva, P. L. N. et al.

Introduo
Este artigo trata de problema de grande importncia para os usurios de dados obtidos atravs de pesquisas amostrais complexas, como o caso da PNAD (Pesquisa Nacional por Amostra de Domiclios, do IBGE ver IBGE, 1981). Dados da PNAD so usados rotineiramente para anlises descritivas que envolvem o clculo, comparao e interpretao de estimativas para totais, mdias, taxas, propores e razes populacionais. Quando so considerados nos clculos os pesos das unidades amostrais (fornecidos nos arquivos de microdados), as estimativas obtidas para os parmetros populacionais correspondentes so no viciadas. A incorporao dos pesos na estimao de medidas descritivas, como as citadas acima, pode ser feita com simplicidade empregando-se as opes de ponderao disponveis nos pacotes e sistemas estatsticos padro, tais como SAS, SPSS, SPLUS, STATA e muitos outros. J se o interesse for a estimao de medidas de disperso (varincia, desvio padro), concentrao (ndices de Gini e similares), funo de distribuio emprica e quantis associados (quartis, decis, percentis, etc.), solues adequadas muitas vezes ainda no esto disponveis nos pacotes padro. Isso ocorre porque a estimao de tais medidas requer considerar diversos aspectos adicionais do planejamento da amostra que foi usada para obter os dados alm dos pesos usualmente disponveis. Por esse motivo, a estimao de medidas de preciso das estimativas de medidas descritivas (desvios padro e coeficientes de variao), que depende da estimao de varincias e essencial para anlises qualificadas da significncia dessas estimativas e de diferenas entre elas, tambm enfrenta as mesmas dificuldades. comum, tambm, a utilizao de dados da PNAD para a construo e ajuste de modelos em anlises secundrias usando, por exemplo, modelos de regresso (Reis et al., 2001), modelos de regresso logstica (Leote, 1996; Pessoa et al., 1997), modelos de regresso multinomial logstica (Leite, 2001), e outros. Tais anlises, muitas vezes feitas por analistas que trabalham fora da agncia produtora dos dados, freqentemente utilizam para a modelagem pacotes estatsticos que se baseiam em hipteses vlidas somente quando os dados so obtidos atravs de amostras aleatrias simples com reposio (AASC). As excees so os trabalhos de Pessoa et al. (1997) e Leite (2001).

Acontece que o plano (desenho) amostral da PNAD incorpora todos os aspectos que definem um plano amostral complexo: estratificao das unidades de amostragem, conglomerao (seleo da amostra em vrios estgios, com unidades compostas de amostragem), probabilidades desiguais de seleo em um ou mais estgios, e ajustes dos pesos amostrais para calibrao com totais populacionais conhecidos. Por esse motivo, dados obtidos atravs das amostras das PNADs geralmente no podem ser tratados como se fossem observaes independentes e identicamente distribudas (isto , como se tivessem sido gerados por amostras aleatrias simples com reposio), como fazem os procedimentos usuais de anlise disponveis nos pacotes estatsticos padro. As estimativas pontuais de medidas descritivas da populao so influenciadas pelos pesos distintos das observaes. J as estimativas de varincia e desvio padro (medidas de preciso dos estimadores) e as estimativas de parmetros para ajustes de alguns tipos de modelos so influenciadas conjuntamente pela estratificao, conglomerao e pesos. Ao ignorar esses aspectos, as tcnicas e sistemas de anlise tradicionais podem produzir resultados incorretos tanto para as estimativas pontuais como para os respectivos desvios padro e nveis de significncia, o que pode comprometer a qualidade do ajuste de modelos e a interpretao dos resultados obtidos. O assunto tem recebido maior ateno nas ltimas duas dcadas, e j so muitos os recursos disponveis para tornar mais fcil e prtica a aplicao das tcnicas de anlise capazes de incorporar adequadamente os diversos aspectos de planos amostrais complexos, tanto na estimao de medidas descritivas e da preciso dessas estimativas, como no ajuste de modelos, no diagnstico e avaliao de significncia dos modelos ajustados, e na interpretao de resultados. Algumas referncias teis sobre o tema incluem: Pessoa e Nascimento Silva (1998), Skinner, Holt & Smith (1989), Korn e Graubard (1999), e Lehtonen e Pahkinen (1995), entre outras. O objetivo deste artigo apresentar uma descrio de como os mtodos modernos de anlise de dados incorporando os aspectos de complexidade do plano amostral podem ser aplicados para anlise dos dados da PNAD, tomando como exemplo os dados coletados na edio de 1998 dessa pesquisa. A seo 2 contm uma descrio do plano amostral utilizado na PNAD durante a dcada

661
Cincia & Sade Coletiva, 7(4):659-670, 2002

de 1990, e indicaes de como podem ser construdas as variveis descritoras da estrutura do plano amostral a partir das informaes existentes nos arquivos de microdados. A seo 3 apresenta estimadores para totais e suas varincias, bem como o mtodo de clculo dos pesos que acompanham os microdados da PNAD. A seo 4 apresenta uma breve reviso dos mtodos requeridos para ajuste de modelos paramtricos regulares com dados de pesquisas amostrais complexas, os quais formam a base para o desenvolvimento de pacotes estatsticos especializados tais como SUDAAN, entre outros. Na seo 5 so apresentadas estimativas de algumas medidas descritivas para variveis de pessoas e domiclios com base na PNAD/1998, junto com uma avaliao do impacto de ignorar o plano amostral ao estimar a preciso destas estimativas. Finalmente, na seo 6 so discutidas as dificuldades encontradas pelos usurios dos dados da PNAD para incorporar adequadamente na modelagem aspectos importantes do plano amostral como os que aqui foram discutidos.

Plano amostral da PNAD


A PNAD uma pesquisa anual por amostragem probabilstica de domiclios, realizada em todo o territrio nacional exclusive a rea rural da regio Norte. A populao alvo composta pelos domiclios e pessoas residentes em domiclios na rea de abrangncia da pesquisa. A PNAD adota um plano amostral estratificado e conglomerado com um, dois ou trs estgios de seleo, dependendo do estrato. A estratificao da amostra bsica da PNAD foi feita em duas etapas. Primeiro h uma estratificao geogrfica que dividiu o pas em 36 estratos naturais. Nesta estratificao, 18 unidades da federao formaram cada uma um estrato independente para fins de amostragem. As outras nove unidades da federao (PA, CE, PE, BA, MG, RJ, SP, PR, RS) deram origem a outros 18 estratos, pois em cada uma delas foram definidos dois estratos naturais: um com todos os municpios da Regio Metropolitana sediada na capital, e o outro com os demais municpios da unidade da federao. Nos nove estratos naturais formados pelas regies metropolitanas, o plano amostral da PNAD estratificado adicionalmente por municpio e conglomerado em dois estgios. Nestes estratos (municpios), as unidades prim-

rias de amostragem (UPAs) so os setores censitrios. As unidades secundrias de amostragem (USAs) so os domiclios. Dentro de cada municpio, a seleo dos setores (UPAs) foi feita usando amostragem sistemtica com probabilidades proporcionais ao tamanho (PPT), usando como medida de tamanho o nmero de domiclios conforme obtido do Censo Demogrfico de 1991. Antes de efetuar a seleo dos setores em cada estrato (municpio), os setores foram ordenados segundo a situao (urbano, rural) e o cdigo geogrfico, conferindo um efeito de estratificao implcita por situao devido ao uso do sorteio sistemtico. Nos 27 estratos naturais formados com os municpios que no so situados em regies metropolitanas ou ficam nas unidades da federao sem regio metropolitana, o plano amostral da PNAD conglomerado em trs estgios. As unidades primrias de amostragem so os municpios, as unidades secundrias so os setores e as unidades tercirias de amostragem so os domiclios. Nesses estratos naturais, alguns municpios considerados grandes em termos populacionais foram includos na amostra com certeza. Tais municpios so chamados de auto-representativos. Os municpios auto-representativos so, portanto, estratos geogrficos dentro dos quais o plano amostral igual ao utilizado nos municpios das regies metropolitanas, isto , conglomerado em dois estgios, com os setores como unidades primrias de amostragem e os domiclios como unidades secundrias de amostragem. Os demais municpios no situados nas regies metropolitanas so chamados de no auto-representativos. Os municpios no auto-representativos foram estratificados por tamanho e proximidade geogrfica, buscando formar estratos com populao total aproximadamente igual, conforme os dados do ltimo censo demogrfico. Em cada um dos estratos de municpios no auto-representativos, municpios foram selecionados atravs de sorteio sistemtico, com probabilidades proporcionais populao existente na poca do censo demogrfico. No segundo estgio de seleo, o sorteio de setores foi feito dentro de cada municpio contido na amostra do primeiro estgio, usando o mesmo mtodo j descrito para a seleo de setores nos estratos de regies metropolitanas. A cada ano, antes da ltima etapa de seleo da amostra (amostragem de domiclios), feita uma Operao de Listagem dentro de ca-

662
Silva, P. L. N. et al.

da setor selecionado. Essa operao fornece o cadastro atualizado para a seleo de domiclios em cada setor, permitindo assim localizar, identificar e quantificar as unidades domiciliares ali existentes no ano de realizao da pesquisa. Usando a listagem atualizada de unidades domiciliares existentes nos setores da amostra, faz-se ento a seleo das unidades domiciliares a serem pesquisadas a cada ano mediante amostragem sistemtica simples. As unidades domiciliares so formadas pelos domiclios particulares e unidades de habitao em domiclios coletivos com moradores na ocasio da Operao de Listagem. Nos domiclios selecionados, as entrevistas so realizadas face a face, usando-se questionrios em papel. Todos os moradores das unidades domiciliares selecionadas so includos na pesquisa. A descrio acima indica como selecionada a amostra bsica da PNAD. Esta complementada com unidades domiciliares selecionadas do Cadastro de Projetos de Novas Construes. Este cadastro inclui projetos habitacionais com mais de 30 domiclios que surgiram aps o censo realizado na dcada. O universo das Novas Construes estratificado por municpios, e nesses estratos o plano amostral conglomerado em apenas um estgio, pois neste caso as unidades primrias de amostragem so os domiclios, cujo sorteio efetuado mediante amostragem sistemtica simples. Em cada estrato natural, o plano amostral da PNAD autoponderado, isto , procura assegurar que todos os domiclios tenham igual probabilidade de seleo. Entretanto, as probabilidades de seleo podem variar bastante de um estrato natural para outro. No caso das 18

unidades da federao que formam cada uma um nico estrato natural, a frao amostral fixa e constante para todos os municpios. No caso das nove unidades da federao em que existem dois estratos naturais, os estratos naturais contendo os municpios das regies metropolitanas podem ter fraes amostrais diferentes dos estratos contendo os demais municpios que pertencem mesma unidade da federao. O quadro 1 apresenta as fraes amostrais usadas em cada um dos estratos naturais da pesquisa durante a dcada de 1990. No momento em que foi feita a primeira seleo de setores no incio da dcada, o nmero de domiclios a selecionar para a amostra por setor foi fixado em 13 e seria igual para todos os setores da amostra (Bianchini e Albieri, 1999). Quando as listagens de domiclios nos setores selecionados so atualizadas a cada ano, o nmero de domiclios a selecionar por setor pode variar, pois mantido fixo o intervalo de seleo de domiclios calculado por ocasio da primeira seleo. Por exemplo, num setor onde o nmero de domiclios existente no ano da pesquisa tivesse dobrado em relao ao nmero existente no ltimo censo demogrfico, seria dobrado o nmero de domiclios a selecionar para a PNAD desse ano, passando de 13 para 26. A figura 1 ilustra as partes do plano amostral da PNAD indicando, para cada parte, como devem ser construdas as variveis que definem a estrutura do plano amostral. Vale notar que a primeira parte, referente populao residente em regies metropolitanas, no existe em 18 das 27 unidades da federao. Considerando este esquema geral do plano amostral da PNAD numa unidade da federao qualquer, pode-se empregar o algoritmo a se-

Quadro 1 Fraes amostrais da PNAD por estratos naturais da pesquisa durante a dcada de 1990. reas de abrangncia Regio metropolitana de Belm Distrito Federal e regies metropolitanas de Fortaleza, Recife, Salvador e Porto Alegre Regies metropolitanas de Belo Horizonte e Curitiba Rondnia, Acre, Amazonas, Roraima, Amap, Tocantins, Sergipe, Mato Grosso do Sul, Mato Grosso e Gois Par Piau, Cear, Rio Grande do Norte, Paraba, Pernambuco, Alagoas, Bahia, Minas Gerais, Esprito Santo, Rio de Janeiro e regio metropolitana do Rio de Janeiro Paran, Santa Catarina e Rio Grande do Sul Maranho, So Paulo e regio metropolitana de So Paulo Frao amostral 1/150 1/200 1/250 1/300 1/350 1/500 1/550 1/750

663
Cincia & Sade Coletiva, 7(4):659-670, 2002

guir para definir os valores das variveis que descrevem a estrutura do plano amostral.

Figura 1 Ilustrao do plano amostral da PNAD durante a dcada de 1990.

Algoritmo para criao das variveis que definem a estrutura do plano amostral da PNAD (ESTRATO e UPA)
Este algoritmo descrito como deve ser aplicado para os registros de domiclios nos arquivos de microdados da PNAD. Uma vez criadas as variveis de estrutura do plano amostral para os domiclios, estas podem ser repassadas para os registros das pessoas moradoras correspondentes. Note que a varivel municpio est contida na varivel denominada UPA no arquivo de domiclios da PNAD. A nova varivel UPA criada no algoritmo abaixo deve ser guardada em nome distinto.

Amostra PNAD numa unidade da federao

rea 1 = Regio metropolitana Estrato = Municpio UPA = Setor USA = Domiclio

rea 2 = Municpios auto-representativos Estrato = Municpio UPA = Setor USA = Domiclio

Processa amostra bsica


Domiclio de regio metropolitana ou municpio auto-representativo SE (1<=V4107<=2) ENTO FAA: ESTRATO = UF*100000000 + MUNICPIO. UPA = V0102*1000; FIM1. Domiclio na amostra de municpio no autorepresentativo SE (V4107=3) ENTO FAA: ESTRATO =UF*100000000 + 99*1000000 + V4602*10000; UPA= UF*1000000 + V4602*10000 + MUNICPIO; FIM2.

rea 3 = Municpios no auto-representativos Estrato = Grupo de Municpios UPA = Municpio USA = Setor

Cadastro = Novas construes Estrato = Municpio UPA = Domiclio

Processa amostra de novas construes


SE Novas Construes ENTO FAA: ESTRATO = UF*100000000 + 98*1000000 + MUNICPIO; UPA=V0102*1000+V0103; FIM3.

razes, taxas e propores. Por esse motivo, apresenta-se aqui uma breve reviso de como so estimados totais usando os dados da amostra da PNAD para um ano qualquer (o ano de 1998 no foge regra). O estimador simples para o total de uma caracterstica y qualquer observada na amostra da PNAD para um estrato natural especificado definido por:
h hi =H Y dhij yhij h = 1i = 1 j = 1

(1)

Estimao de totais na PNAD


Boa parte das estimativas publicadas pela PNAD corresponde estimao de totais populacionais. Alm disso, a estimao de totais a base sobre a qual se assenta a estimao de mdias,

onde H o nmero de estratos existentes no estrato natural, nh nmero de unidades primrias de amostragem (UPAs) selecionadas para a amostra no estrato h, nhi numero de unidades elementares de interesse (domiclios ou pessoas) pesquisadas na amostra da UPA i do estrato h, dhij o peso amostral bsico da j-si-

664
Silva, P. L. N. et al.

ma unidade elementar pesquisada na UPA i do estrato h, e yhij o valor observado da varivel de interesse y para a j-sima unidade elementar pesquisada na UPA i do estrato h, cujo total se deseja estimar. Os pesos amostrais dhij correspondem aos valores inversos das probabilidades de incluso dos domiclios em cada estrato, isto , aos denominadores das fraes amostrais apresentadas no quadro 1. Variam, portanto, entre 150 e 750, dependendo do estrato natural a que pertence a unidade pesquisada. Como todas as pessoas residentes num domiclio selecionado so pesquisadas (no h sorteio de moradores), todas recebem o peso calculado para o domiclio. Vale destacar que no so estes os pesos usualmente gravados nos arquivos de dados da PNAD, como se ver mais adiante. Um estimador da varincia do estimador pode ser obtido usando: simples do total Y (Y ) = H V
2 shy 2 shy

mo igual a 1/150 (ver quadro 1), o que faz com que o efeito do fator de correo de populao finita (1 - f) desprezado com a aproximao adotada seja muito prximo de 1 (1 - 1/150 = 149/150 0,993). O estimador (1) no viciado para o total populacional de y no estrato natural, mas pode ser melhorado com a incorporao de ajustes de calibrao que aproveitam informaes populacionais auxiliares disponveis. Na PNAD, o mtodo efetivamente empregado no processo de expanso da amostra utiliza estimadores de razo (caso particular dos estimadores de calibrao ver Srndal, Swensson & Wretman, 1992), considerando informao auxiliar as projees independentes da populao total para cada um dos 36 estratos naturais. O estimador de razo empregado em um estrato natural qualquer definido como: R = Y x P =Px Y P Y =PxR P (3)

h=1

nh

(2)

onde

nh Y -Y 1 hi h = nh - 1 i = 1 phi

),
2

n = 1 h Yhi , Y h nh i = 1 phi
hi = Y nh phi dhij yhij hi j=1

onde P representa a populao residente projetada para o estrato natural obtida atravs de um processo de projeo independente da amostra, e o total estimado da populao residente no estrato natural atravs da amostra com base no estimador simples do plano amostral, isto ,
h hi =H P dhij xhij , h = 1i = 1 j = 1

e phi o tamanho relativo da UPA i, no estrato h, conforme o ltimo censo demogrfico. Este estimador em (2) corresponde aproximao do plano amostral PPT sistemtico adotado para seleo da amostra de unidades primrias na PNAD por um plano PPT com reposio no momento de estimar varincias das estimativas, chamado de mtodo do Conglomerado Primrio por Pessoa e Nascimento Silva (1998). O mtodo est descrito tambm em Cochran (1977) ou Korn e Graubard (1999). Essa a opo usual em casos como esse, porque quando o plano amostral tem sorteio sistemtico de UPAs no existem estimadores exatamente no viciados de varincia das estimativas pontuais de totais. O estimador de varincia adotado considerado conservador, no sentido de que seu valor esperado deve ser ligeiramente maior que a varincia do estimador sob o plano efetivamente utilizado que tem sorteio sem reposio das UPAs. Na PNAD, o vcio desse estimador de varincia deve ser modesto, de vez que a frao amostral no mxi-

onde xhij o nmero de moradores do j-simo domiclio pesquisado na UPA i do estrato h. Correspondendo ao estimador (3) para o total, cada unidade amostrada tem um peso ajustado, que calculado e adicionado aos registros de dados da PNAD. Esse peso ajustado corresponde ao valor do peso bsico dhij referente ao estimador (1) multiplicado pela razo ou fator de ajuste P/P, e dado por whij = dhij P P (4)

Com esses pesos, o estimador de razo (3) para o total populacional da varivel de interesse y pode ser escrito como um estimador linear, da forma
h hi R=H Y whij yhij , h = 1i = 1 j = 1

e fica portanto igualmente simples de calcular usando qualquer pacote estatstico padro, desde que os pesos corretos whij sejam considera-

665
Cincia & Sade Coletiva, 7(4):659-670, 2002

dos, motivo da simplicidade da estimao pontual de totais, mdias, taxas e razes partindo da amostra da PNAD. Todas as pessoas residentes num domiclio recebem o peso whij calculado para o domiclio onde residem. Os pesos assim ajustados, quando usados para estimar o total da populao em cada estrato natural, produzem uma estimativa que igual ao valor da populao residente projetada para o estrato natural pelo IBGE, conferindo assim a propriedade de calibrao no total populacional amostra da PNAD. R pode ser estiA varincia do estimador Y mada usando o mtodo de linearizao de Taylor (Pessoa e Nascimento Silva, 1998; Korn e Graubard, 1999) atravs da expresso: (Y R) = V onde s2 hp = s2 hpy =
H

plementando essa metodologia de estimao de totais e suas varincias incorporando o plano amostral em alguns dos pacotes estatsticos padro, entre os quais o SAS, o STATA, e as funes em R desenvolvidas por Pessoa (2002).

Ajuste de modelos considerando o plano amostral


Esta seo descreve resumidamente o mtodo de Mxima Pseudoverossimilhana (MPV), devido a Binder (1983), comumente empregado para ajuste de modelos paramtricos quando se considera o plano amostral (estratificao, conglomerao, etc.) e os pesos no processo de inferncia com dados de amostras complexas. O material aqui apresentado resumido da discusso apresentada em Pessoa e Nascimento Silva (1998). Seja yj=(yj1, ..., yjR) o vetor Rx1 das variveis de pesquisa observadas para a unidade elementar j, gerado por um vetor aleatrio Yj, para jU, onde U={1, ..., N} o conjunto de rtulos das unidades elementares da populao de interesse. Suponha tambm que Y1,...,YN so independentes e identicamente distribudos com densidade f(y;), onde = (1, 2,..., K) o vetor Kx1 de parmetros desconhecidos de interesse. Se todas as unidades elementares da populao finita U fossem pesquisadas, a funo de log-verossimilhana populacional seria dada por: LU () = log[f (yj ; )]
jU

h=1

1 nh

2 2 s2 - 2R s ] (5) [shy +R hp hpy

1 nh - 1

nh
i=1

P (P

hi hi

2, -P h
hi

nh 1 nh - 1 i = 1

P (P

hi hi

-P h

Y )( P

hi

, -Y h

n = 1 h Phi , e P h nh i = 1 phi
hi = P nh phi dhij xhij . hi j=1

Usando (5), estimativas dos desvios padro (DPs) e coeficientes de variao (CVs) associados s estimativas de totais da PNAD podem ser facilmente calculadas usando, respectivamente, R) = R) = R. dp (Y R) e cv (Y R) / Y V (Y V (Y Para obter estimativas de total e das respectivas varincias para reas definidas como agregaes de estratos naturais (como por exemplo, os totais de unidades da federao ou os totais nacionais), basta somar as estimativas dos totais e das respectivas varincias obtidas usando (3) e (5) para todos os estratos naturais componentes da rea de interesse. Vale aqui notar que os procedimentos usuais dos pacotes estatsticos padro no permitem estimar diretamente as varincias e os desvios padro das estimativas de totais considerando as frmulas aqui apresentadas. Entretanto, j h vrios pacotes estatsticos especializados para estimao em pesquisas amostrais complexas, entre os quais se destaca o SUDAAN (ver a reviso no ltimo captulo de Pessoa e Nascimento Silva, 1998). Mais recentemente, comearam a ficar disponveis procedimentos im-

(6)

Sob certas condies de regularidade, igualando-se as derivadas parciais de LU () com relao a cada componente de a 0, temos um sistema de equaes uj () = 0,
jU

onde uj () = log[f (yj ; )]/ o vetor Kx1 dos escores da unidade elementar j, para jU. A soluo U deste sistema seria o estimador de Mxima Verossimilhana de no caso de um censo. Podemos considerar U uma quantidade desconhecida da populao finita, sobre a qual se deseja fazer inferncias baseadas em informaes da amostra. Para populaes onde N for grande, U ser muito prximo de , e fazer inferncia para U ser o mesmo que fazer inferncia para . Seja T() = uj ()
jU

a soma dos escores, que um vetor de totais populacionais. Para estimar este vetor de totais,

666
Silva, P. L. N. et al.

pode-se usar um estimador linear ponderado () = w u (), da forma T j j


js

onde os wj so pesos amostrais adequados para a estimao de totais populacionais a partir da amostra s, tais como os implicados pelos estimadores (1) ou (3) por exemplo. O vetor de parmetros do modelo definido por f(y ; ) para a populao finita pode ser estimado usando o estimador de Mxima Pseudoverossi milhana MPV que um valor de que serve de soluo das equaes dadas por () = w u () = 0 T j j
js

(7)

A varincia assinttica do estimador MPV, sob a distribuio conjunta gerada pelo modelo e o plano amostral, pode ser estimada por: ( -1 V MPV) = [ J ( MPV)] V -1 [J ( MPV)] () T ( onde J MPV) = = wj
js

[ w u (
js j j

MPV)

(8) =

= MPV

uj ()
j j

= MPV

[ w u (
js

MPV)

um estimador consistente para a matriz de varincia (do desenho) do estimador do total populacional dos escores, obtido por exemplo usando (5) no caso da PNAD. Muitos modelos paramtricos podem ser ajustados empregando o mtodo da Mxima Pseudoverossimilhana para estimar os parmetros, com dados obtidos atravs de diferentes planos amostrais. Os estimadores de MPV no sero nicos, entretanto, j que existem diversas maneiras de se definir os pesos wj correspondentes a diferentes estimadores de totais. Os pesos mais usados so os do estimador simples para totais-estimador (1). No caso da PNAD, so usados os pesos (4) correspondentes ao estimador de razo (3). Dependendo do modelo que se quer ajustar, basta calcular os escores uj() adequados e usar os estimadores de total (3) e da correspondente varincia (5) para calcular as estimativas pontuais MPV dos parmetros do modelo e as estimativas da ( matriz de varincias V MPV), mediante as expresses (7) e (8) devidamente adaptadas. Tais estimativas de MPV e V ( MPV) podem ento ser usadas para calcular intervalos de confiana

ou estatsticas de teste baseadas na distribuio assinttica normal para fazer inferncia sobre os componentes de (Binder, 1983). Para amostras autoponderadas (como o caso da PNAD dentro de um estrato natural qualquer), os pesos wj sero constantes e o esti mador pontual MPV ser idntico ao estimador usual de Mxima Verossimilhana (MV) em uma amostra de observaes independentes e identicamente distribudas com distribuio f(y ; ). Porm o mesmo no ocorre quando se trata da varincia do estimador de , pois esta afetada por outros aspectos do plano amostral, tais como a estratificao e conglomerao. Mesmo para amostras em que o estimador pontual coincide com o estimador usual de Mxima Verossimilhana, a estimativa da varincia obtida pelo procedimento de MPV prefervel estimativa usual da varincia baseada no mtodo de MV, pois esta ltima desconsidera os efeitos do plano amostral usado para obter os dados. Alm disso, para reas definidas por agregaes de estratos naturais com fraes amostrais distintas, nem mesmo as estimativas pontuais de obtidas por MPV coincidiro com as estimativas obtidas por Mxima Verossimilhana. O procedimento de MPV proporciona estimativas consistentes e razoavelmente simples de calcular tanto para os parmetros como para as varincias dos estimadores pontuais dos parmetros. Este procedimento a base para o desenvolvimento de vrios pacotes computacionais especializados, tais como SUDAAN, ou de procedimentos capazes de incorporar adequadamente os efeitos de planos amostrais complexos j disponveis em pacotes padro tais como SAS e STATA, entre outros. Por outro lado, o procedimento de MPV requer conhecimento de informaes detalhadas sobre a estrutura do plano amostral para cada uma das unidades da amostra, tais como pertinncia a estratos e conglomerados ou unidades primrias de amostragem, e seus respectivos pesos. Alm disso, as propriedades dos estimadores de MPV no so conhecidas para pequenas amostras. Este problema no ser obstculo em anlises que usam os dados da amostra inteira da PNAD, ou, no caso de domnios de estudo separados, quando estes tiverem amostras suficientemente grandes. Porm, tal dificuldade deve ser considerada quando as amostras nos domnios de interesse forem pequenas em termos do nmero de unidades primrias amostradas no domnio. Outra dificuldade do

667
Cincia & Sade Coletiva, 7(4):659-670, 2002

procedimento que no podem ser utilizados mtodos usuais de diagnstico e outros procedimentos da inferncia clssica, tais como grficos de resduos e testes estatsticos de Razes de Verossimilhana. Entretanto, h recursos alternativos para diagnstico que consideram os efeitos dos diferentes aspectos do desenho amostral complexo empregado (Eltinge, 1999 ou Korn e Graubard, 1999).

Estimativas de efeitos do plano amostral para variveis selecionadas na PNAD/1998


Como forma de ilustrar o efeito de ignorar o plano amostral e os pesos na anlise de dados da PNAD, foram calculadas estimativas para algumas medidas descritivas, juntamente com os respectivos desvios padro, usando os dados da PNAD/1998 e aplicando os mtodos descritos nas sees 3 e 4. Tais estimativas foram calculadas utilizando o pacote SUDAAN (Shah et al., 1995), de forma que foram incorporados os efeitos do plano amostral (estratificao, conglomerao, sorteio PPT das UPAs) e do ajuste dos pesos para calibrao nos totais populacionais de pessoas por estrato natural ao calcular as estimativas de varincias e desvios padro das estimativas pontuais de mdias e propores. Qualquer sistema empregado para estimar os desvios padro das estimativas amostrais com dados da PNAD (SUDAAN no foge regra) requer informao sobre trs aspectos do plano amostral para poder calcular corretamente as estimativas. Primeiro, preciso indicar qual o tipo de plano amostral e/ou estimador de varincia deve ser usado. A opo adequada de plano amostral e estimador de varincia a ser utilizada quando se emprega o SUDAAN DESIGN=WR, que corresponde aproximao do plano amostral PPT sistemtico adotado para seleo da amostra por um plano PPT com reposio no momento de estimar varincias das estimativas, e aplicao das frmulas relevantes para estimao de varincias apresentadas nas sees 3 e 4 deste artigo. Segundo, necessrio identificar a estrutura do plano amostral, isto , a que estrato e unidade primria de amostragem pertence cada unidade amostral elementar (domiclio ou pessoa). Para este fim, devem ser usadas as variveis ESTRATO e UPA construdas com o algoritmo apresentado no anexo 1. Por ltimo, falta indicar qual o peso da unidade amostral

a ser usado no clculo das estimativas. Os arquivos de microdados da PNAD fornecem essa informao j pronta. Para 1998, trata-se da varivel V4729 do arquivo de pessoas, ou V4611 do arquivo de domiclios. Esses pesos j so os pesos ajustados (ou calibrados) definidos em (4). Usando essas informaes e considerando os dados de pessoas e domiclios da PNAD/1998 foram produzidas as estimativas das tabelas 1 e 2, respectivamente. Nessas tabelas, a ltima coluna apresenta estimativas do EPA (Efeito do Plano Amostral ver Pessoa e Nascimento Silva, 1998), definido como a razo da varincia obtida considerando o plano amostral atravs da metodologia descrita na seo 3, e a varincia obtida ignorando o plano amostral (isto , a varincia estimada como se a amostra fosse AASC). Valores de EPA afastados de 1 indicam que ignorar o plano amostral na estimao da varincia leva a estimativas viciadas e incorretas. Valores grandes (> 1) de EPA indicam que o estimador ingnuo da varincia obtido ignorando o plano amostral complexo leva a subestimar a varincia verdadeira do estimador. As estimativas apresentadas nas tabelas 1 e 2 se referem ao total do pas menos a zona rural da regio Norte (rea de abrangncia da PNAD). Um exame dos valores dos EPAs apresentados nessas tabelas revela com clareza que ignorar o plano amostral contra-indicado no caso da PNAD/1998. Para as variveis de pessoas consideradas, os EPAs variam de 1,9 a 13,7, com um valor mdio de 5,5. Isto indica que estimativas ingnuas de varincia teriam valor esperado muito menor que os valores das varincias sob o plano amostral efetivamente utilizado. Este efeito maior para variveis com grande homogeneidade intraconglomerados, como o caso das variveis nas linhas 1 e 2 da tabela 1. Nota-se tambm que o efeito do plano amostral pode variar bastante de uma varivel para outra. J para as variveis de domiclio (tabela 2), os EPAs variam entre 2,3 e 8,4, com mdia de 4,7. Embora menos dispersos, os valores dos EPAs para domiclios tambm indicam que inadequada a opo de ignorar o plano amostral ao tentar estimar a preciso de estimativas derivadas da PNAD/1998. Verifica-se tambm a mesma diferenciao do EPA entre distintas variveis, tendo maiores valores ocorrido para as variveis cuja homogeneidade intraconglomerados maior (linhas 8, 10, 14 e 15 da tabela 2). Todas as estimativas apresentadas nas tabelas 1 e 2, como derivam do uso da amostra in-

668
Silva, P. L. N. et al.

Tabela 1 Estimativas, desvios padro, coeficientes de variao e efeitos do plano amostral para variveis de pessoas PNAD 1998. Linha 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Descrio da varivel Proporo de pessoas brancas Proporo de pessoas negras ou pardas Proporo de pessoas analfabetas Proporo de pessoas que freqentam escola Proporo de pessoas exercendo trabalho infantil Proporo de pessoas que trabalham Proporo de pessoas empregadas Proporo de pessoas conta prpria Proporo de pessoas empregadoras Proporo de pessoas com auxlio-moradia Proporo de pessoas com auxlio-alimentao Proporo de pessoas com auxlio-transporte Proporo de pessoas com auxlio-creche/educao Proporo de pessoas com auxlio-sade Renda mdia do trabalho principal Proporo de pessoas com previdncia Estimativa 53,8% 45,4% 24,4% 30,9% 2,8% 54,8% 2,7% 2,7% 0,3% 7,8% 37,2% 34,2% 2,6% 16,5% 512,8 44,2% Desvio padro 0,3% 0,3% 0,2% 0,1% 0,2% 0,2% 0,1% 0,1% 0,0% 0,2% 0,3% 0,3% 0,1% 0,3% 5,8 0,3% CV(%) 0,6 0,7 0,7 0,4 5,2 0,3 2,9 2,5 5,3 2,4 0,8 0,9 2,8 1,6 1,1 0,7 EPA 13,7 13,7 5,8 2,3 2,6 3,4 8,4 6,2 3,0 4,5 3,3 3,7 1,9 4,8 5,4 5,6

Tabela 2 Estimativas, desvios padro, coeficientes de variao e efeitos do plano amostral para variveis de domiclios PNAD 1998. Linha 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Descrio da varivel Proporo com paredes de material adequado Proporo com cobertura de material adequado Nmero mdio de cmodos por domiclio Nmero mdio de cmodos servindo de dormitrio Proporo de domiclios prprios Proporo de domiclios alugados Mdia do aluguel Proporo com terreno prprio Proporo com gua canalizada pelo menos um cmodo Proporo com gua de rede geral Proporo com gua canalizada de rede geral Proporo com gua de poo ou nascente Proporo com ao menos um banheiro Proporo com esgotamento adequado Proporo com energia eltrica Proporo com telefone Proporo com filtro dgua Proporo com rdio Proporo com TV em cores Proporo com TV em preto e branco Proporo com geladeira Proporo com freezer Proporo com mquina de lavar roupa Estimativa 96,0% 97,1% 5,65 1,97 74,3% 13,5% 223,2 92,3% 84,8% 89,0% 23,9% 52,0% 91,0% 70,2% 94,2% 31,7% 56,2% 90,4% 78,0% 43,6% 81,7% 19,5% 32,0% Desvio padro 0,2% 0,1% 0,0166 0,0043 0,2% 0,2% 3,0 0,3% 0,3% 0,3% 0,9% 1,3% 0,2% 0,4% 0,2% 0,3% 0,3% 0,2% 0,3% 0,6% 0,3% 0,2% 0,3% CV(%) 0,2 0,1 0,3 0,2 0,3 1,3 1,4 0,3 0,3 0,4 3,6 2,5 0,2 0,6 0,2 1,0 0,5 0,2 0,3 1,4 0,3 1,2 1,0 EPA 6,1 5,8 4,9 2,3 2,8 2,4 2,5 7,4 4,3 8,4 5,7 6,6 5,7 7,7 7,2 4,6 3,0 2,6 3,8 2,8 3,7 3,0 3,9

669
Cincia & Sade Coletiva, 7(4):659-670, 2002

teira da PNAD/1998 em nvel nacional (90.913 domiclios com entrevistas realizadas e 344.975 pessoas entrevistadas), apresentam elevado grau de preciso (seus coeficientes de variao estimados variam entre 0,1% e 5,3%, com valor mdio de 1,2%). Quando a amostra da PNAD for utilizada para estimar para domnios de estudo mais detalhados (estados, regies metropolitanas, e outros), h que prestar maior ateno aos valores dos desvios padro e/ou coeficientes de variao das estimativas, pois estas podem ser imprecisas. Nascimento Silva e Pessoa (2002) observaram, por exemplo, que estimativas diretas e indiretas das taxas de mortalidade infantil obtidas dos dados de fecundidade da PNAD podem ser bastante imprecisas para alguns estados da federao. Como os efeitos do plano amostral sobre as estimativas de varincia no so uniformes para diferentes variveis, ao contrrio, so bastante diversos, a prtica recomendada sempre buscar calcular estimativas das medidas de preciso das estimativas de interesse considerando todos os aspectos relevantes do plano amostral. Hoje em dia, isso no representa mais um problema srio, de vez que esto disponveis recursos computacionais adequados para esse fim.

Comentrios finais
Uma das principais dificuldades que os usurios da PNAD tm para considerar adequadamente os efeitos do plano amostral complexo utilizado na hora de fazer suas anlises a pouca exposio aos mtodos e tcnicas necessrios para fazer uso correto dos dados. Este arti-

go busca enfrentar essa dificuldade, apresentando uma exposio compreensiva, embora resumida, dos mtodos e tcnicas disponveis para estimao e anlise de dados de pesquisas amostrais complexas, como o caso da PNAD. Outra dificuldade enfrentada pelos usurios a decodificao das informaes sobre a metodologia da PNAD de maneira a aplicarem corretamente os mtodos aqui expostos, com auxlio dos pacotes computacionais especializados disponveis. Esta dificuldade tambm foi atacada com a exposio detalhada dos mtodos de amostragem e estimao usados na PNAD, e de como as informaes sobre a estrutura do plano amostral podem ser trabalhadas para uso num pacote estatstico especializado (SUDAAN). Usurios de outros pacotes podem aproveitar imediatamente grande parte da informao para uso com seus pacotes preferidos, desde que baseados em metodologia similar para estimao de varincias. Por ltimo, outra dificuldade dos usurios aceitar que a idia de usar os pacotes estatsticos padro nas anlises pode levar a resultados incorretos na inferncia. Foi demonstrada de maneira incontestvel com os valores das estimativas de EPA apresentados para uma amostra intencional de variveis da PNAD que tais efeitos no podem ser ignorados, sob pena de inferncias grosseiramente viciadas. Como tais efeitos so importantes para um nmero grande de variveis de tipos diferentes (tanto caractersticas de pessoas como de domiclios foram consideradas), e variam bastante de uma varivel para outra, a lio a ser extrada que as anlises devem sempre considerar os aspectos relevantes do plano amostral da PNAD.

Referncias bibliogrficas
Bianchini ZM & Albieri S 1999. Uma reviso dos principais aspectos dos planos amostrais das pesquisas domiciliares realizadas pelo IBGE. Revista Brasileira de Estatstica 60(213):7-23. Binder DA 1983. On the variances of asymptotically normal estimators from complex surveys. International Statistical Review 51:279-292. Cochran WG 1977. Sampling techniques. (3a ed.) John Wiley and Sons, Nova York.

670
Silva, P. L. N. et al.

Eltinge J 1999. Assessment of information capacity and sensitivity in the analysis of complex surveys. Bulletin of the International Statistical Institute, Proceedings of the 52nd session, Tomo LVIII. Helsinque. IBGE 1981. Metodologia da Pesquisa Nacional por Amostra de Domiclios na Dcada de 70. Rio de Janeiro. Srie Relatrios Metodolgicos, volume 1. Korn EL & Graubard BI 1999. Analysis of health surveys. John Wiley and Sons, Nova York. Lehtonen R & Pahkinen EJ 1995. Practical methods for design and analysis of complex surveys. John Wiley & Sons, Chichester. Leite PGPG 2001. Anlise da situao ocupacional de crianas e adolescentes nas regies Sudeste e Nordeste do Brasil utilizando informaes da PNAD/1999. Dissertao de mestrado da Escola Nacional de Cincias Estatsticas, Rio de Janeiro. Leote RMD 1996. Um perfil socioeconmico das pessoas ocupadas no setor informal na rea urbana do Rio de Janeiro. Relatrios Tcnicos no 02/96. Escola Nacional de Cincias Estatsticas, Rio de Janeiro. Nascimento Silva PL 1996. Utilizing auxiliary information for estimation and analysis in sample surveys. Tese de doutorado, Universidade de Southampton. Nascimento Silva PL & Pessoa DGC 2002. Estimando a preciso das estimativas indiretas das taxas de mortalidade obtidas a partir da PNAD. Trabalho aceito para o XIII Encontro da ABEP.

Pessoa DGC 2002. ADAC: Biblioteca de Funes em R para a Anlise de Dados Amostrais Complexos. 15o Simpsio Nacional de Probabilidade e Estatstica. Associao Brasileira de Estatstica, So Paulo. Pessoa DGC, Nascimento Silva PL & Duarte RPN 1997. Anlise estatstica de dados de pesquisas por amostragem: problemas no uso de pacotes padres. Revista Brasileira de Estatstica 58(210):53-75. Pessoa DGC & Nascimento Silva PL 1998. Anlise de dados amostrais complexos. Associao Brasileira de Estatstica, So Paulo. Reis EJ, Tafner P & Reiss LO 2001. Distribuio de riqueza imobiliria e de renda no Brasil: 1992-1999. IPEA-DIMAC, Rio de Janeiro. Srndal CE, Swensson B & Wretman JH 1992. Model assisted survey sampling. Springer-Verlag, Nova York. Shah BV et al. 1995. Statistical methods and mathematical algorithms used in SUDAAN. Research Triangle Institute. Skinner CJ, Holt D & Smith TMF (eds.). 1989. Analysis of complex surveys. John Wiley & Sons, Chichester. Artigo apresentado em 18/9/2002 Aprovado em 31/10/2002 Verso final apresentada em 11/11/2002

You might also like