You are on page 1of 18

CAPTULO

Avaliando Estudos Baseados


na Regresso Mltipla

s trs ltimos captulos explicaram como utilizar a regresso mltipla para analisar a relao entre variveis
em uma base de dados. Neste captulo, damos um passo para trs e perguntamos: o que torna um estudo
que utiliza regresso mltipla confivel ou no? Ns nos concentramos em estudos estatsticos ct~o objetivo estimar o efeito causal de uma variao em alguma varivel independente, tal como o tamanho da turma de
alunos, sobre uma varivel dependente, tal como a pontuao nos exames. Quando a regresso mltipla fornece
uma estimativa til do efeito causal para tais estudos e, igualmente importante, quando ela falha em faz-lo)
Para responder a essa pergunta, este captulo apresenta uma estrutura para avaliar estudos estatsticos em geral,
independentemente de eles utilizarem regresso mltipla ou no. Essa estrutura baseia-se nos conceitos de validade interna e externa. Um estudo vlido internamente se as suas inferncias estatsticas sobre os efeitos causais so vlidas para a populao e o cenrio estudados; um estudo vlido externamente se as suas inferncias
podem ser generalizadas para outras populaes e cenrios. Nas sees 7.1 e 7 .2, discutimos validade interna e
externa, enumeramos um conj unto de ameaas possveis a essas validades e discutimos como identificar aquelas
ameaas na prtica. Algumaspaquelas ameaas no podem ser tratadas utilizando as ferramentas economtricas
apresentadas at aqui; este captulo oferece uma viso geral dos mtodos, estudados nos captulos restantes deste
livro, para tratar as ameaas.
Como uma ilustrao da estrutura de validade interna e externa, na Seo 7.3 avaliamos a validade interna
e externa do estudo do efeito do corte da razo aluno-professor sobre a pontuao nos exames apresentada nos
captulos 4-6.

7. 1

Validade Interna e Validade Externa

Os conceitos de validade interna e validade externa, definidos no Conceito-Chave 7.1, fornecem uma estrutura
para avaliar se um estudo estatstico ou economtrico til para responder a uma questo especfica de interesse.
Validade interna e validade externa distinguem entre populao e cenrio estudados e populao e cenrio para
os quais os resultados so generalizados. A populao estudada a populao de entidades - pessoas, empresas,
diretorias regionais de ensino e assim por diante - da qual a amostra foi selecionada. A populao para a qual os
resultados so generalizados, ou a populao de interesse, a populao de entidades para a qual as inferncias causais do estudo sero aplicadas. Por exemplo, o diretor de uma escola de ensino mdio pode querer generalizar nossos
resultados sobre tamanhos de turma e pontuao nos exames do ensino fundamental das diretorias regionais de ensino
da Califrnia (a populao estudada) para a populao de escolas de ensino mdio (a populao de interesse).
Por"cenrio" entende-se o ambiente institucional, legal, soc'ial e econmico. Por exemplo, seria importante
saber se os resultados de um experimento de laboratrio que avalia mtodos para o crescimento de tomates orgnicos poderiam ser generalizados para o campo, isto , se os mtodos orgnicos que funcionam no cenrio de um
laboratrio tambm funcionam no cenrio do mundo real. Fornecemos outros exemplos de diferenas em populaes e cenrios mais adiante nesta seo.

Ameaas Validade Interna


A validade interna possui dois componentes. Em primeiro lugar, o estimador do efeito causal deveria ser no
viesado e consistente. Por exemplo, suponha que SI<.l.l' seja o estimador de MQO do efeito de uma variao
unitria na razo aluno-professor sobre a pontuao nos exames em uma dada regresso; ento, R.AP deve sc>r
um estimador no viesado e consistente do verdadeiro efeito causal da populao resultante de uma variao na
razo aluno-professor, {3 R.~f>

CAPTuLo 7

Avaliando Estudos Baseados na Regresso Mltipla

165

Validade Interna e Validade Externa


Urna anlise estatstica vlida internamente se as inferncias estatsticas sobre os efeitos
causais so vlidas para a populao estudada. A anlise vlida externamente se as suas
.rerncias e concluses puderem ser generalizadas
com base na populao e no cenrio estu1~~
.
dados para outras populaes e cenrios.
riveis
estudo
'objemade
>rnece
geral,
~vali

; cau~ncias

-rna e
lu elas
tricas
deste
terna
a nos

1tura
para
esas,

ai os
cau-

Conceito-

Chave

7 .l

Em segundo lugar, os testes de hiptese deveriam ter o nvel de significncia desejado (a taxa de rejeio efetiva do teste sob a hiptese nula deveria ser igual ao nvel de significncia desejado) e os intervalos de confiana
deveriam ter o nvel de confiana desejado. Por exemplo, se um intervalo de confiana construdo como gRAP
1,96EP(tJR.4 p), deveria conter o verdadeiro efeito causal da populao, f3RAP com probabilidade de 95 por
cento entre as amostras repetidas.

Na anlise de regresso, os ef~itos causais so estimados utilizando a funo de regresso estimada e os testes
de hiptese so conduzidos utilizando os coeficientes da regresso estimada e seus erros padro. Portanto, os requisitos para a validade interna em um estudo baseado em regresso de MQO so os seguintes: que o cstimador
de MQO seja no viesado e consistente e que os erros padro sejam calculados de maneira que os intervalos de
confiana tenham o nvel de confiana desejado. H vrios motivos para que isso no acontea, os quais constituem ameaas validade interna. Essas ameaas levam a violaes de uma ou mais das hipteses de mnimos
quadrados do Conceito- Chave 5.4. Por exemplo, uma ameaa que discutimos em detalhe o vis de omisso de
variveis; ele leva a uma correlao entre um ou mais regressares e o termo de erro, o que viola a primeira hiptese
de nnimos quadrados. Se os dados sobre a varivel omitida estiverem disponveis, ento essa ameaa poder ser
evitada pela incluso daquela varivel como um regressar adicional.
Na Seo 7.2 h uma discusso detalhada das diversas ameaas validade interna na anlise de regresso mltipla e da forma de elimin-las.

Ameaas Validade Externa


Ameaas potenciais validade externa surgem das diferenas entre a populao e o cenrio estudados e a
populao e o cenrio de interesse.

)SSOS

.smo
ante
niUlll

po-

no
o

ser
11<1

Diferenas em populaes. Diferenas entre a populao estudada e a populao de interesse podem representar uma ameaa validade externa. Por exemplo, estudos laboratoriais sobre os efeitos txicos de produtos
qumicos normalmente utilizam populaes de animais como ratos (a populao estudada), mas os resultados so
utilizados para a elaborao de normas de sade e segurana para populaes humanas (a populao de interesse) .
O fato de ratos e homens serem suficientemente diferentes para ameaar a validade externa de tais estudos uma
questo polmica.
De forma mais geral, o verdadeiro efeito causal pode no ser o mesmo na populao estudada e na populao de interesse. Isso porque a populao pode ter sido escolhida de um modo que a torna dife1:ente da populao de interesse em virtude de diferenas nas caractersticas das populaes, de diferenas geogrficas ou ainda
porque o estudo est obsoleto.
Diferenas em cenrios. Ainda que a populao estudada e a populao de interesse sejam idnticas, generalizar os resultados do estudo pode no ser possvel se os cenrios forem diferentes. Por exemplo, um estudo
do efeito de uma campanha publicitria contra o consumo abusivo de lcool sobre a embriaguez na universidade
no pode ser generalizado para outro grupo idntico de universitrios se a idade permitida por lei para o

166

ECONOMET RIA

consumo de bebidas alcolicas nas duas universidades diferente. Nesse caso, o cenrio legal em que o estudo
foi conduzido difere daquele em que seus resultados so aplicados.
De modo mais geral, exemplos de diferenas em cenrios incluem diferenas no ambiente institucional (universidades pblicas versus universidades religiosas), diferenas na legislao (diferenas na idade permitida por lei)
ou diferenas no ambiente fisico (embriaguez em festa no sul da Califrnia versus Fairbanks, Alasca).

Aplicao ao caso de pontuao nos exames e razo aluno-professor.

Os captulos 5 e 6 relataram melhorias estimadas estatisticamente significantes, mas bastante pequenas, da pontuao nos exames como resultado
da reduo na razo aluno-professor. Essa anlise se baseou nos resultados de exames para as diretorias regionais
de ensino da Califrnia. Suponha por ora que esses resultados sejam vlidos internamente. Para quais outras populaes e cenrios de interesse eles poderiam ser generalizados?
Quanto mais prximos a populao e o cenrio estudados estiverem da populao e do cenrio de interesse,
mais fortes sero os argumentos para a validade externa . Por exemplo, alunos universitrios e seu curso so muito
diferentes de alunos de escolas de ensino fundamental e seu curso, de modo que implausvel que o efeito da
reduo no tamanho das turmas, estimado utilizando os dados do ensino fundamental das diretorias regionais de
ensino da Califrnia, seja generalizado para as universidades. Por outro lado, alunos, currculo e organizao do ensino fundamental so muito semelhantes por todos os Estados Unidos, de modo que plausvel que os resultados da Califrnia possam ser generalizados para o desempenho em exames padronizados do ensino fundamental
de outras diretorias regionais de ensino nesse pas.

Como avaliar a validade externa de um estudo.

A validade externa deve ser considerada utilizando o conhecimento especfico de populaes e cenrios estudados e de populaes e cenrios de interesse. Diferenas
importantes entre ambos lanaro dvidas sobre a validade externa do estudo.
s vezes h dois ou mais estudos sobre populaes diferentes, mas relacionadas. Se for esse o caso, a validade
externa desses estudos pode ser verificada pela comparao de seus resultados . Por exemplo, na Seo 7 .3, analisamos os dados sobre pontuao nos exames e tamanho da turma para o ensino fundamental nas diretorias
regionais de ensino de Massachusetts e comparamos esses resultados com os da Califrnia. Em geral, resultados
semelhantes em dois ou mais estudos sustentam o direito validade externa, ao passo que diferenas nos resultados lanam dvidas sobre sua validade externa. 1

Como desenhar um estudo vlido externamente.

Como as ameaas validade externa originam-se de


uma falta de comparabilidade de populaes e cenrios, essas ameaas so minimizadas da melhor forma nos estgios iniciais de um estudo, antes de os dados serem coletados . O desenho de um estudo foge ao escopo deste
livro; o leitor interessado pode consultar Shadish, Cook e Campbell (2002) .

7.2

Ameaas Validade Interna na


Anlise de Regresso Mltipla

Estudos baseados na anlise de regresso so vlidos internamente se os coeficientes da regresso estimada


so no viesados e consistentes e se os seus erros padro produzem intervalos de confiana ao nvel de confiana
desejado. Nesta seo, pesquisamos cinco motivos pelos quais o estimador de MQO dos coeficientes da regresso
mltipla podem ser viesados, mesmo em amostras grandes: variveis omitidas, erro de especificao da forma funcional da funo de regresso. medida imprecisa das variveis independentes ("erros nas variveis"), seleo da
amostra e causalidade simultnea . Todas as fontes de vis surgem porque o regressar est correlacionado com o

Uma comparao de diversos estudos relacionados sobre o mesmo tpico chamada de metanlise. A di~cussiio do quadro sobre o 'etito
Mozart"' no Captulo 5, por exemplo, baseia-se em uma metanlise. A realizao de uma metan!ise com base em vrios estudos apresenta seus prprios desafios. Como voc separa os estudos bons dos ruins? Como voc compara estudos quando as variveis dependentes
diferem? Voc deveria dar mais importncia a um estudo grande em relao a um estudo pequeno' Uma discusso da metan!ise e seus
dcsatlos foge ao escopo deste livro. O leitor interessado pode consultar Hedges e Olkin (1 983) e Coopere Hedges (1 99-1).

,..,
CAPTuLo 7

Avaliando Estudos Baseados na Regresso Mltipla

167

termo de erro na regresso da populao, violando a primeira hiptese de mnimos quadrados do ConceitoChave 5.4. Para cada uma, discutimos o que pode ser feito para reduzir esse vis. A seo termina com uma discusso das circunstncias que levam a erros padro inconsistentes e o que pode ser feito com relao a isso.

Vis de Omisso de Variveis


Lembre-se de que o vis de omisso de variveis surge quando uma varivel que tanto determina Y quanto
correlacionada com um ou mais dos regressares includos omitida da regresso. Esse. vis persiste mesmo em
amostras grandes, de modo que o estimador de MQO inconsistente. A melhor forma de minimizar o vis de
omisso de variveis depende da disponibilidade de dados para a varivel omitida potencial.

Solues para o vis de omisso de variveis quando a varivel omitida observada. Se voc dispe
de dados para a varivel omitida, pode inclu-la em uma regresso mltipla e. desse modo, atacar o problema.
Contudo, a adio de uma nova varivel tem custos e benefcios. Por um lado, a omisso da varivel poderia
resultar em um vis de omisso de variveis. Por outro, a incluso da varivel quando ela no pertence regresso
(isro , quando seu coeficiente de regresso da populao igual a zero) reduz a preciso dos estimadores dos
outros coeficientes da regresso. Em outras palavras, a deciso de incluir ou no uma varivel envolve um dilema
entre vis e varincia dos coeficientes de interesse. Na prtica, h quatro passos que podem ajud-lo a decidir se
voc deve ou no incluir uma varivel ou um conjunto de variveis em uma regresso.
O primeiro passo identificar os principais coeficientes de interesse en{ sua regresso. Nas regresses de pontuao nos exames. trata-se do coe.Gciente da razo aluno-professor, uma vez que a questo colocada originalmente refere-se ao efeito de uma reduo nessa razo sobre a pontua;~o nos exames .
O segundo passo perguntar-se: Quais so as fontes m.ais provveis de um i mportante vis de omisso de
variveis nessa regresso? A resposta requer a aplicao da teoria econmica e um conhecimento profundo. e
deveria ocorrer antes de voc estimar quais quer regresses; como isso feito antes da anlise dos dados, chamado
de raciocnio a priori ("antes do fato"). No exemplo da pontuao nos exames, esse passo envolve a identificao
dos determinantes da pontuao nos exames que, se ignorados, poderiam tornar viesado nosso estimador do efeito do
tamanho da turma. O resultado desse passo uma especificao de regresso base, o ponto de partida para sua
anlise de regresso emprica, e uma lista com variveis "questionveis" adicionais que podem ajudar a diminuir
o possvel vis de omisso de variveis.
O terceiro passo ampliar sua especificao de base com as variveis questionveis adicionais identificadas
no segundo passo e restar as hipteses de que seus coeficientes so iguais a zero. Se os coeficientes das variveis
adicionais forem estatisticamente significantes ou se os coeficientes de interesse estimados mudarem consideravelmente quando as variveis adicionais fo rem includas, ento elas devero permanecer na especificao e voc
dever modificar sua regresso bsica. Caso contrrio, essas variveis podero ser excludas da regresso.
O quarto passo apresentar um resumo preciso de se us resultados na forma tabular. Isso oferece "total
transparncia" a um ctico potencial, que pode ento tirar suas prprias concluses. As tabelas 5.2 e 6.2 so exemplos dessa estratgia. Por exemplo, na Tabela 6.2 poderamos ter apresentado apenas a regresso na colun,1 (7).
uma vez que ela resume os efeitos e as no-linearidades relevames das outras regresses da tabela. A apre:,enta~u
das outras regresses, contudo, permite ao leitor ctico tirar suas prprias concluses .
Esses passos esto resumidos no Conceito-Chave 7.2.

Solues para o vis de omisso de variveis quando a varivel omitida no observada.

A adio
de uma varivel omitida a uma regresso no uma opo se voc no dispe de dados sobre aquela varivel.
Ainda assim, h trs outros modos de resolver o probl ema do vis de omisso de variveis. Cada uma dessas trs
solues contorna esse vis por meio da utilizao de tipos diferentes de dados .
A primeira soluo utilizar dados em que a mesma unidade de observao analisada em pontos diferentes
no tempo. Por exemplo, a pontuao nos exames e os dados a ela relacionados podem ser coletados para as mesmas diretorias em 1995 e novamente em 2000. Os dados nessa forma so chamados de dados de painel. Conforme explicado no Captulo 8, os dados de painel tornam possvel o controle de variveis omitidas no
observadas, desde que elas no variem ao longo do tempo.
A segunda soluo utilizar a regresso de variveis instrumentais. Esse mtodo se apia em uma nova varivel, chamada de varivel instrumental. A regresso de variveis instrumentais ser discutida no Captulo lO.

168

ECONOMETRIA

Devo Incluir Mais Variveis em Minha Regresso?

Conceito-

Chave

7.2

Se voc inclui outra varivel em sua regresso mltipla, elimina a possibilidade de vis de omisso de variveis resultante da excluso daquela varivel, porm a varincia do estimador dos
coeficientes de interesse pode aumentar. Seguem-se algumas diretrizes que podem ajud-lo a
decidir se deve incluir uma varivel adicional:
1. Seja especfico com relao aos(s) coeficiente(s) de interesse:
2. Use um raciocnio a priori para identificar as fontes potenciais mais importantes de vis
de omisso de va riveis, que leve a uma especificao de base e a algumas variveis
"questionveis".
3. Teste se as variveis questionveis adicionais tm coeficientes diferentes de zero.
4. Fornea tabulaes representativas "totalmente transparentes" de seus resultados de
modo que outros vejam o efeito da incluso das variveis questionveis sobre o(s) coeficiente(s) de interesse. Seus resultados mudaro se voc incluir uma varivel questionvel?

A terceira soluo utilizar um projeto de estudo no qual o efeito de interesse (por exemplo, o efeito da
reduo do tamanho da turma s<Jbre os resultados do aluno) estudado por meio da utilizao de um experimento controlado aleatrio. Esses experimentos sero discutidos LO Captulo 11.

Erro de Especificao da Forma


Funcional da Funo de Regresso
Se a verdadeira funo de regresso da populao for no-linear, mas a regresso estimada for linear, ento
esse erro de especificao da forma funcional torna o estimador de MQO viesado. Esse vis um tipo de
vis de omisso de variveis, em que as variveis omitidas so os termos que refletem os aspectos no-lineares
ausentes da funo de regresso. Por exemplo, se a funo de regresso da populao for um polinmio quadrtico,
ento uma regresso que omita o quadrado da varivel independente ter vis de omisso de variveis.

Solues para o erro de especificao da forma funcional. Quando a varivel dependente contnua
(como a pontuao nos exames), esse problema da no-linearidade potencial pode ser resolvido com a utilizao
dos mtodos do Captulo 6. Se, contudo, essa varivel discreta ou binria (por exemplo, Y; igual a um se a
i-sima pessoa tem curso superior e igual a zero nos demais casos), as coisas tornam-se mais complicadas. A
regresso com uma varivel dependente discreta ser discutida no Captulo 9.

Erros nas Variveis


Suponha que em nossa regresso de pontuao nos exames contra a razo aluno-professor tenhamos confundido sem querer nossos dados, de modo que acabamos regredindo a pontuao nos exames para alunos da :>
srie sobre a razo aluno-professor para alunos da 8!! srie naquela diretoria. Embora as razes aluno-professor
para alunos do ensino fundamental e para alunos da sa srie possam ser correlacionadas, elas no so iguais, de
modo que essa confuso levaria a um vis no coeficiente estimado. Esse um exemplo de vis de erros nas
variveis porque sua fonte um erro na medida da varivel independente. Esse vis persiste mesmo em amostras
muito grandes, de modo que o estimador de MQO inconsistente se h erro de medida.
H muitas fontes possveis de erro de medida. Se os dados so coletados por meio de uma pesquisa, um entrevistado pode dar a resposta errada . Por exemplo, uma pergunta do Current Population Survey envolve o salrio
do ano anterior. Um entrevistado pode no saber o seu salrio exato ou pode informar um valor errado por qualquer outro motivo. Se, por outro lado, os dados so obtidos de registros administrativos computadorizados, pode
te r havido erros de digitao quando eles entraram no sistema pela primeira vez.

CAPTULO

msdos
lo a

Avaliando Estudos Baseados na Regresso Mltipla

169

Para verificar que o vis de erros nas variveis resulta em uma correlao entre o regressar e o termo de erro,
, suponha 9_ue haja um nico regressar X 1 (por exemplo, a renda efetiva), mas que sej : m edido de forma imprecisa por X 1 (a estimativa da renda do entrevistado). Como a varivel observada X 1, e no X 1, a equao da
regresso efetivamente estimada aquela baseada em 5{. A eq;:ao de regresso da populao Y; = {30 + f3 1X +
1
1. escrita em termos da varivel medida de forma imprecisa X ,
,,,
1

/3 15{ + [/3 1 (X1 - X1) + u;]


= {30 + f3Jt, + v1,

Y; = f3o +
vis
ve1s

s de
:oeJes-

to da
pen-

onde v1 = /3 1(X1 - X 1) + u,. Portanto, a equao de regresso da populao escrita em termos de X1 possui um
termo de erro que contm a diferena entre X 1 e X1 Se essa diferena for correlacionada com o valor medido X ,
1
ento o regressar X1 ser correlacionado com o termo de erro e (3 1 ser viesado e inconsistente.
O tamanho preciso e a direo do vis em (3 1 dependem da correlao entre X1 e (X1 - X1). Essa correlao,
por sua vez, depende da natureza especfica do erro de medida.
Por exemplo, suponha que o entrevistado na pesquisa fornea seu melhor palpite ou lembrana do valor efetivo da varivel independente X 1. Uma forma conveniente de representar isso matematicamente supor que o
valor medido de X 1 seja igual ao valor efetivo, no medido, somado a um componente puramente aleatrio, w
1
Portanto, o valo r medido da varivel, representado por X1, X1 = X 1 + w1 Como o erro puramente aleatr io,
podemos supor que w1 tem mdia zero e va rincia o2 e no-correlacionado com X 1 e com o erro da regresso
u1. Sob essa hiptese, um p ouco de lgebra 2 mostra que (3 1 tem o limite de probabilidade
$

~X

~nto

de
teares
tico,
)0

tnua
zao
1 se a
.as. A

conda 5
fessor
is, de
s nas
ostras
:ntrellrio
qualpode

(7 .1 )

cr?
+X

q~

f3 1"

(7.2)

Isto , se o efeito da impreciso de medida consiste simplesmente na adiq de um elemento aleatrio ao


valor efetivo da varivel independente, ento (3 1 inconsistente. Como a razo o O:x , menor do que u1n, {3 1 ser
cr +cr
viesado em direo a zero, mesmo em amostras grandes . No caso extremo em cjl1e o'' erro de medida to grande
que essencialmente nenhuma informao sobre X 1 permanece, a razo entre as varincias na expresso final da
Equao (7.2) zero e (31 converge em probabilidade para zero. N o outro extremo, quando no h erro de medida,
?
p
a;~= O, logo [3 1 ~ /3 1 .
Embora o resultado na Equao (7 .2) seja especfico para esse tipo particular de erro de medida, ele ilustra
a proposio mais geral de que, se a varivel independente medida de forma imprecisa, ento o estimador de
MQO viesado, mesmo em amostras grandes. O Conceito-Chave 7 .3 resume o vis de erros nas variveis.
A

Solues para o vis de erros nas variveis. A melhor forma de resolver o problema de erros nas variveis
obter uma medida precisa de X Se for impossvel, contudo, h mtodos economtricos que podem ser utilizados para diminuir o vis de erros nas variveis.
Um desses mtodos a regresso de variveis instrumentais. Isso depende de haver o utra varivel (a varivel
"instrumental") correlacionada ao valor efetivo X 1, mas no- correlacionada ao erro de medida. Esse mtodo ser
estudado no Captulo 10.
Um segundo mtodo o desenvolvimento de um modelo matemtico do erro de medida e, se possvel, a
utilizao das frmulas resultantes para ajustar as estimativas. Por exemplo, se uma pesquisadora ac redita que
a varivel medida , na verdade, a soma do valor efetivo e de um termo de erro de medida aleatrio e se ela
conhece ou pode estimar a razo o;~ I
ento pode utilizar a Equao (7 .2) para calcular um estimado r de /3 1
que corrija o vis para baixo. Como esse enfoque requer conhecimento especializado sobre a natureza do erro
de medida, os detalhes normalmente so especficos para dada base de dados e seus problemas de medida e no
prosseguiremos com esse enfoque.

ai ,

Sob essa hiptese de erro de medida, v1 = /3 1(X; - 5{) + li; = -{3 1 w, + li;, cov(S1, li;) = O e cov(.X,. li';) = cov(."\ + li'; li';) = CJ,~, logo
cov(X,.11;) = -{3 1cov(X;, 111;) + cov(...'X;, u,) = -f3 1 u,~. Portanto, a partir da Equao (S.l) . S 1 ...!..> /3 1 - /3 1 CJ,~ I CJ~. Agora o:~ = CJ~ + CJ,~, ento
Sr...!.., /3 1 - /3 1 CJ,~ I(CJ~ + CJ,~) = (vU(o:~ + u,?,)Jf3t

170

ECONOMETRIA

Vis de Erros nas Variveis

ConceitoChave

O vis de erros nas variveis no estin1ador de MQO surge quando uma varivel independente
medida de forma imprecisa. Esse vis depende da natureza do erro de medida e persiste
mesmo que o tamanho da amostra seja grande. Se a varivel medida igual varivel efetiva
mais um termo de erro de medida independentemente distribudo com mdia ze ro, ento o
estimador de MQO em uma regresso com. uma nica varivel d lado direito viesado em
direo a zero e seu limite de probabilidade dado na Eguao (7 .2).

7.3
Seleo da Amostra
O vis de seleo da amostra ocorre quando a disponibilidade dos dados influenciada por um processo
de seleo relacionado ao valor da varivel dependente. Esse processo pode introduzir uma correlao entre o
termo de erro e o regressar, o que leva a um vis no estimador de MQO.
A seleo da amostra que no est relacionada ao valor da varivel dependente no introduz vis. Por exemplo, se os dados so coletados de uma populao por amostragem aleatria simples, o mtodo de amostragem (a
populao ao acaso) no tem r~lao nenhuma com o valor da varivel dependente. Tal amostragem no introduz vis.
O vis pode ser introduzido quando o mtodo de amostragem est relacionado ao valor da varivel dependente. Um exemplo de vis de seleo da amostra em votaes foi dado no quadro do Captulo 2 . Naquele exemplo, o mtodo de seleo da amostra (nmeros de telefone de proprietrios de automveis selecionados
aleatoriamente) estava relacionado com a varivel dependente (quem o indivduo apoiava na eleio para presidente dos Estados Unidos em 1936), uma vez que ern 1936 os proprietrios de automveis que possuam telefone eram muito provavelmen te republicanos.
Um exemplo de seleo da amostra em economia surge da utilizao de uma regresso de salrios sobre
instruo para estimar o efeito de um an o adicional de instruo sobre os salrios. Por definio, somente os indivduos que possuem um emprego tm salrio. Os fatores (observveis e no observveis) que determinam o fato
de uma pessoa ter um emprego - instruo, experincia, domiclio, capacidade, sorte e assim por diante- so
semelhantes aos fatores que determinam o quanto essa pessoa recebe quando est empregada. Assim, o fato de
algum ter um emprego sugere, mantendo tudo o mais co nstante, que o termo de erro na equao de salrio
para aquela pessoa positivo. Dito de outra forma, o fato de algum ter um emprego ou no em p arte determinado pelas variveis omitidas no termo de erro da regresso de salrio. Portanto, o simples fato de algum ter
um emprego - e assim aparece na base de dados - fornece informaes de que o termo de erro na regresso
positivo, ao menos na mdia, e que poderia ser correlacionado com os regressares. Isso tambm pode levar a
um vis no estimador de MQO.
O Conceito-Chave 7.4 resume o vis de seleo da amostra.

Solues para o vis de seleo. Os mtodos que discutimos at o momento no eliminam o vis de seleo
da amostra. O s mtodos para a estimao de modelos com seleo da amostra fogem ao escopo deste livro. Esses
mtodos baseiam-se nas tcnicas que sero apresentadas no C aptulo 9, ocasio em que sero fornecidas referncias adicionais.

Causalidade Simultnea
At agora, supusemos que a causalidade vai dos regressares para a varivel depe ndente (X causa Y) . E se a
causalidade tambm vai da varivel dependente para um ou mais regressares ( Y causa X)? Se for esse o caso, a
causalidade vai para trs e para a frente, isto , h causalidade simultnea. Se ela existe, uma regresso de MQO
capta ambos os efeitos, de modo que o estimador de MQO viesado e inconsisten te.

CAPiTULO

Avaliando Estudos Baseados na Regresso Mltipla

17 1

Vis de Seleo da Amostra

e
e

a
o
n

0 vis de seleo da amostra surge quando um processo de seleo influencia a disponibilidade de dados e tal processo est relacionado com a varivel dependente. A seleo da amostra
induz a uma correlao entre um ou mais regressares e o termo de erro, o que leva a um vis
e inconsistncia do estimador de MQO.

Conceito-

Chave

7.4

50

o
1-

(a
)-

11)$

1-

e
l-

o
o
e
o

r
o
a

Por exemplo, nosso estudo sobre pontuao nos exames se concentrou no efeito da reduo da razo alunoprofessor sobre a pontuao, de modo que se presume que a causalidade deva ir da razo aluno-professor para a
pontuaos. Suponha, contudo, que uma iniciativa governamental tenha subsidiado a contratao de professores
em diretorias regionais de ensino com baixa pontuao nos exames. Se fosse esse o caso, a causalidade iria para
ambos os sentidos: pelos motivos pedaggicos usuais, as razes aluno-professor baixas provavelmente levam a uma
alta pontuao nos exames; porm, em razo do programa do governo, a baixa pontuao nos exames levaria a
razes aluno-professor baixas.
A causalidade simultnea le"a a uma correlao entre o regressar e o termo de erro. No exemplo da pontuao nos exames, suponha que haja um fator omitido que leve a uma 'baixa pontuao; em virtude do programa
do governo, esse fator que gera baixa pontuao resulta, por sua vez, em uma razo aluno-professor baixa. Portanto, um termo de erro negativo na regresso da populao da pontuao nos exames sobre a razo aluno- professo r diminui a pontuao, mas, em virtude do programa do gove rno, leva tambm a uma reduo da razo
aluno-professor. Em outras palavras, a razo positivamente correlacionada com o termo de erro na regresso
populacional. Isso, por sua vez, leva a um vis de causalidade simultnea e inconsistncia do estimador de MQO.
Essa correlao entre o termo de erro e o regressar pode ser expressa matematicamente pela introduo de
uma equao adicional que descreva a ligao causal inversa . Por convenincia, considere apenas as duas variveis
X e Y e ignore outros possveis regressares . Dessa forma, h duas equaes, uma em que X causa Y e outra em
que Y causa X:
(7 .3)
(7 .4)

A Equao (7.3) aquela familiar em que (3 1 o efeito de uma variao em X sobre Y, onde 11 representa
outros fatores. A Equao (7 .4) representa o efeito causal inverso de Y sobre X. No problema da pontuao nos
exames, a Equao (7 .3) representa o efeitO pedaggico do tamanho da turma sobre a pontuao nos exames, ao
passo que a Equao (7.4) representa o efeito causal inverso da pontuao nos exames sobre o tamanho da turma
induzido pelo programa do governo.
A causalidade simultnea leva a uma correlao entre Xi e o termo de erro 11, na Equao (7.3) . Para visualizar isso, imagine que ui seja negativo, o que di minui Yi. Contudo, o valor menor de Yi afeta o valor de Xi por
meio da segunda dessas equaes e, se ;;1 for positivo, um valor baixo de Y, levar a um valor baixo de Xi . Portanto, se y1 for positivo, Xi e ui sero positivam ente correlacionados 3
Como isso pode ser expresso matematicamente utilizando- se um sistema de duas equaes simultneas. o
vis de causalidade simultnea s vezes chamado de vis de equaes simultneas. O vis de causalidade
simultnea est resumido no Conceito-Chave 7 .5.

Para mostrar isso matematicamente, observe que a Equao (7.4) implica que cov(X;. 11;) = cov(;() + { 1Y; + ,.,.11;) = {1cov(1;, 11,) "' cov(1,. 11,).
Supondo que cov(to,, u,) =O, pela Equao (7 .3), isso implica que cov(X;.II;) = y1cov( 1;. 11;) = {1cov(/311 - f3 1X, + 11,.11;) = y1/3 1cov(.\. 11,)
+ 11 o;~. Resolvendo cov(X,, 11;), chegamos ao resultado cov(X,. 11;) = y1 o;~ / (1 - {,/3 1).

172

ECONOMETRIA

..

Conceito-

Vis de Causalidade Simultnea


O vis de causalidade simultnea, tambm chamado de vis de equaes simultneas, surge
em uma regresso de Y sobre X quando, alm da ligao causal de interesse de X para Y, h
uma ligao causal de Y para X. Essa causalidade inversa faz com que X esteja correlacionado
com o termo de erro na regresso da populao de interesse.

Chave

7.5
Solues para o vis de causalidade simultnea. H duas maneiras de diminuir o vis de causalidade
simultnea. Uma utilizar a regresso de variveis instrumentais, o tpico do Captulo 10. A segunda projetar
e implementar um experimento controlado aleatrio em que o canal de causalidade inversa anulado; tais experimentos sero discutidos no Captulo 11.

Fontes de Inconsistncia dos


Erros Padro de MQO .
.

Erros padro inconsistentes representam uma ameaa diferente validade interna. Mesmo que o estimador
de MQO seja consistente e a amostra seja grande, erros padro inconsistentes produzem testes de hiptese com
tamanho que difere do nvel de significncia desejado e intervalos de confiana de '95 por cento"que deixam de
incluir o valor verdadeiro em 95 por cento das amostras repetidas.
H dois motivos principais pelos quais os erros padro so inconsistentes: tratamento inadequado da heteroscedasticidade e correlao do termo de erro entre observaes.

Heteroscedasticidade.

Conforme discutido na Seo 4.9, por motivos histricos, alguns pacotes de regresso
relatam erros padro somente homoscedsticos. Se, contudo, o erro da regresso heteroscedstico, aqueles erros
padro no constituem uma base confivel para testes de hiptese e intervalos de confiana. A soluo para esse
problema utilizar erros padro robustos quanto heteroscedasticidade e construir estatsticas F utilizando um
estimador de varincia robusto quanto heteroscedasticidade. Erros padro desse tipo so fornecidos como uma
opo em pacotes modernos.

Correlao do termo de erro entre observaes.

Em alguns cenrios, o termo de erro da p opulao pode


estar correlacionado ao longo das observaes. Isso no acontecer se os dados forem obtidos por amostragem
ao acaso da populao porque a aleatoriedade do processo de amostragem assegura que os erros sejam independentemente distribudos de uma observao para a seguinte. s vezes, contudo, a amostragem apenas parcialmente aleatria. A circunstncia mais comum ocorre quando os dados so observaes repetidas da mesma
entidade ao longo do tempo, por exemplo, a mesma diretoria regional de ensino para diversos anos . Se as variveis omitidas que formam o erro da regresso so persistentes (como a demografia da diretoria), isso induz a
uma correlao "serial" desse erro ao longo do tempo. Outro exemplo aquele em que uma amostragem baseiase em uma unidade geogrfica. Se h variveis omitidas que reflitam influncias geogrficas, essas variveis podem
resultar na correlao dos erros de regresso para observaes adjacentes.
A correlao do erro de regresso entre observaes no torna o estimador de MQO viesado ou inconsistente, mas viola a segunda hiptese de mnimos quadrados do Conceito-Chave 5.4. A partir disso inferimos que
os erros padro de MQO - somente os h omoscedsticos e os robustos quanto heteroscedasticidade -so
incorretos no sentido de que no produzem intervalos de confiana com o nvel de confiana desejado.
Em muitos casos, esse problema pode ser consertado pela utilizao de uma frmula alternativa para erros
padro. Fornecemos tal frmula para o clculo de erros padro robustos quanto heteroscedasticidade e quanto
correlao serial na discusso sobre regresso com dados de sries temporais no Captulo 12.

CAPiTuLo 7

7.3

Avaliando Estudos Baseados na Regresso Mltipla

173

Exemplo: Pontuao nos Exames e Tamanho da Turma

' A estrutura de validade interna e validade externa nos ajuda a fazer um exame crtico do que aprendemos
- e do que no aprendemos - em nossa anlise dos dados da Califrnia sobre pontuao nos exames.

Validade Externa

:i e

O fato de a anlise da C alifrnia poder ser generalizada - isto , se ela vlida externamente - depende
da populao e do cenrio para o qual a generalizao feita. Aqui, consideramos se os resultados podem ser
generalizados para o desempenho em outros exames pad ronizados e para o ensino pblico fundamental em outras diretorias regionais de ensino dos Estados Unidos.
Na Seo 7.1, voc viu que a existncia de mais de um estudo sobre o mesmo tpico fornece uma oportunidade para avaliar a validade externa de todos os estudos pela comparao de seus resultados . No caso da pontuao nos exames e do tamanho da turma, outras bases de dados comparveis esto, de fato, disponveis. Nesta
seo, examinamos uma base de dados diferente, baseada nos resultados de exames padronizados para alunos da
rede pblica na 4.a srie em 220 diretorias regionais de ensino no Estado de Massachusetts em 1998. Tanto os
exames de Massachusetts quanto os da Califrnia so medidas amplas do conhecimento do aluno e da aptido
acadmica, ainda que cada um tenha a sua particularidade. Da mesma forma, a organizao das aulas no ensino
fundamental muito semelhante nos dois estados (assim como na maior prte do ensino fundamental nas diretorias regionais de ensino dos Estados Unidos), embora aspectos do financiamento do ensino fundamental e do
currculo sejam diferentes . Portanto, a obteno de resultados semelhantes com relao ao efeito da razo alunoprofessor sobre o desempenho nos exames com dados de Massachusetts e Califrnia evidenciaria a validade externa
dos resultados da Califrnia . Inversamente, a obteno de resultados diferentes nos dois estados levantaria dvidas sobre a validade interna ou externa de pelo menos um dos estudos.

e-

Comparao dos dados da Califrnia e de Massachusetts.

ie
ar

:>r

)o

os
se
m
na

:!e

Assim como os dados da Califrnia, os dados


de Massachusens esto ao nvel da diretoria regional de ensino. As definies das variveis na base de dados de
Massachusetts so iguais, ou praticamente iguais, quelas na base de dados da Califrnia. O Apndice 7.1 fornece
mais informaes sobre a base de dados de Massach usetts, incluindo as definies das variveis.
A Tabela 7 . I apresenta estatsticas-resumo para as amostras da Califrnia e de Massachusetts. A pontuao
mdia nos exames maior em Massachusetts, porm o exame diferente; logo, uma comparao direta das pontuaes no apropriada. A razo aluno-professor mdia maior na Califrnia (19,6 versus 17,3). A renda mdia
na diretoria 20 por cento maior em Massachusetts, porm o desvio padro da renda maior na Califrnia, isto
, h uma disperso maior nas rendas mdias das diretorias da Califrnia em relao a Massachusetts. A porcentagem mdia de alunos que ainda est aprende ndo ingls e a porcentagem mdia de alunos com direito a almoo
subsidiado so muito maiores na Califrnia do que em Massachusetts.

111

n-

llna
a:a
a-

TABELA 7. 1 Estatsticas-Resumo para as Bases de Dados do Pontuao nos


Exames da Califrnia e de Massachusetts

Mdia

111

lS-

ue
o

Massa chuse tts

Califrnia

Pontuao nos exames


Razo aluno-professor
% aprendendo mgls
% com direito a almoo subsidiado
Renda mdia na diretoria (USS)
Nmero de observaes
Ano

Desvio padro

654,1
19,6
15,8%
44,7%
15.317

19,1
1,9
18,3%
27,1 %
7.226
420
1999

Desvio padro

Mdia

15.1
2.3
2,9%
15,1 %
5.808

709,8
17,3
1,1%
15,3%
18.7~7

2:20
1998

174

ECON OMETRIA

Pontuao nos exames e renda mdia na diretoria. Para economizar espao, no apresentamos grficos
, de disperso para todos os dados de Massachusetts. C omo foi observado no Captulo 6, contudo, interessante
examinar a relao entre pontuao nos exames e renda mdia na diretoria em Massachusetts. A Figura 7 .1 mostra
o grfico de disperso dessa relao. O padro geral desse grfico semelhante quele da Figura 6.2 para os dados
da Califrnia: a relao entre renda e pontuao nos exames parece muito inclinada para valores baixos de renda
e pouco inclinada para valores altos . Evidentemente, a regresso linear mostrada na figura no revela essa aparente
no-linearidade. A Figura 7.1 tambm mostra as funes de regresso cbica e logartmica. A funo de regresso
cbica possui um R2 ligeiramente maior do que a especificao logartmica (0,486 versus 0,455). A comparao
das figuras 6.7 e 7 .1 mostra que o padro geral de no-linearidade encontrado nos dados de renda e pontuao nos
exames da Califrnia tambm est presente nos dados de Massachusetts. Contudo, as formas funcionais precisas
que melhor descrevem essa no-linearidade diferem uma da outra, com a especificao cbica ajustando-se melhor para Massachusetts e a especificao linear-log ajustando-se melhor para a Califrnia.
Resultados da regresso mltipla.

A Tabela 7.2 apresenta os resultados da regresso para os dados de Massachusetts. A primeira regresso, presente na coluna (1) da tabela, possui apenas a razo aluno- professor como
regresso r. A declividade negativa (- 1,72), e a hiptese de que o coeficiente zero pode ser rejeitada ao nvel
de significncia de 1 por cento (t = - 1,72/0,50 = -3,44).
As colunas restantes apresentam os resultados da incluso de variveis adicionais que controlam caractersticas dos alunos e da introduo de no-linearidades na funo de regresSo estimada. O controle da porcentagem
de alunos que est aprendendo ipgls, da porcentagem de alunos com direito a almoo subsidiado e da renda mdia na diretoria reduz o coeficiente estimado sobre a razo aluno-professor em 60 por cento, de - 1,72 na regresso
(1) para -0,69 na regresso (2) e - 0,64 na regresso (3).
A comparao dos R 2 nas regresses (2) e (3) indica que a especificao cbica (3) fornece um modelo melhor para a relao entre pontuao nos exames e renda do que a especificao logartmica (2), mesmo que a razo
aluno-professor seja mantida constante. No h evidncia estatisticamente significante de uma relao no-linear
entre pontuao nos exames e razo aluno-professor: a estatstica F na regresso (4) que testa se os coeficientes
da populao de RAP 2 e RAP 3 so iguais a zero tem um valor p de 0,641. Da mesma forma, no h evidncia
de que uma reduo na razo aluno- professor tenha um efeito diferente em diretorias que tm muitos alunos

FIGURA 7. 1

Estatsticas-Resumo para as Bases de Dados da Pontuao nos


Exames da Califrnia e de Massachusetts

A funo de regresso linear

P ontuao nos exames

estimada no capta a relao

780

no-linear entre renda e


pontuao nos exames para os

Regresso linear-log

760

dados de Massachusetts.
As funes estimadas linear-log
e cbica so semelhantes para

740

720

rendas na diretoria entre


1

US$ 13.000 e US$ 30.000,

Regresso cbica

700

j o regio que contm o maior


[ parte das observaes.

680

660
641)

620

L----L----~--~-----L----~--~-----L----L---~----~

lO

20

30

50
40
Renda na diretoria
(milhares de dlares)

CAPITULO 7

Avaliando Estudos Baseados na Regresso Mltipla

175

:os

aprendendo ingls em relao quelas que tm po ucos (a estatstica t de AIALta x RAP na regresso (5) 0,80/0,56

lte

== 1,43). Finalmente, a regresso (6) mostra que o coeficiente estimado da razo aluno-professor no muda subs-

tra
los
da

excluda. Em suma, os resultados da regresso (3) no so sensveis a mudanas na fo rma fu n cional e na especi-

lte

o
o
lOS

sas
te-

lS-

ta~cialmente quando a porcentagem de alunos q ue est aprendendo ingls (que insignificante na regresso

TABELA 7.2 Estimativas de Regresses Mltiplas da Razo Aluno-Professor e Pontuao nos Exames:
Dados de Massachusetts
Varivel Dependente: Mdia da Pontuao Combinada nos Exames de Ingls, Matemtica e Cincias na
Diretoria Regional de Ensino; Quarta Srie; 220 Observaes.
Regressor

Razo aluno-professor
(RAP)

( 1)

-1,72**
(0,50)

(2)

(3)

-0,69*
(0,27)

-0.64*
(0,27)

(4)

12,4
(14,0)

.;e!

% aprendendo ingls

% aprendendo ingls >


mediana (Dinria, AIA/ta)

.e-

-0,41 1
(0,306)

AJA/ta x RAP

- 0,437
(0,303)

-0,67*
(0,27)

-0,43-t
(0,300)
-12,6
(9,8)
0,80
(0,56)

o
~es

-1,02**
(0,37)

(6)

0,011
(0,013)

~ar

(5)

-0,680
(0,737)

110

tim

(3))

% com d ireito a almoo


subsid iado

-0,521**
(0,077)

Renda na diretoria
(logaritmo)

16,53**

-0,582**
(0,097)

- 0,587**
(0, 104)

-0,709**
(0,091)

- 0.653**
(0,72)

-3,07
(2.35)

-3,38
(2,-+9)

-3,87*
(2,49)

- 3,22
(2,31)

(3, 15)

Renda na diretoria
Renda na dirctoria 2

0,164
(0,085)

0.17-t
(0.089)

0,18-t*
(0,090)

0,165
(0,085)

Rwda na diretoria 3

-0,0022*
(0,0010)

-0,0023*
(0,0010)

-0,0023*
(0,00 10)

-0,0022*
(0,00 10)

Intercepto

739,6**
(8,6)

682,4**
(11 ,5)

744,0**
(21,3)

665,5**
(8 1,3)

759,9**
(23,2)

747,4**
(20.3)

Estatsticas F e Valores p Testando a Extlusc de Grupos de Variveis

Todas as variveis RAPe


as interaes = O

2,86
(0,038)

4,0 I
(0,020)

0,-+5
(0.6-+1 )
7.7-t
(< 0,001)

7.75
(< 0,001)

....JIA/ra, AIA/ra x RAP


EPR

5,85
(0,003)

6,55

(0,002)

1,58
(0,208)
1-t,6-t
0,063

8,69

8,61

8,63

8.62

8,6-t

0,670

0,676

0,675

0.675

0,674

Essas regresses foram estimadas utilizando dados sobre o ensino fundamental em diretorias regionais de ensino de Massachusetts descritos
no Apndice 7 .1 . Os erros padro esto entre parnteses abaixo dos coeficientes; os valores p esto entre parentescs abaixo da estatstica
F. Os coeficientes individuais so estatisticamente signifi cantes ao nvel de *5 por cento ou ao nvel de ** 1 por cento.

:I

176

EcoNOMETRIA

ficao consideradas nas regresses (4)-(6) da Tabela 7.2. Portanto, adotamos a regresso (3) como nossa estimativa de base do efeito de uma variao na razo aluno-professor sobre a pontuao nos exames com base nos dados
de Massachusetts.

Comparao entre os resultados de Massachusetts e da Califrnia.

Com relao aos dados da Ca-

lifrnia, constatamos que:


a. A adio de variveis que controlam caractersticas da situao do aluno reduziu o coeficiente da razo
aluno-professor de -2,28 (veja a Tabela 5.2, regresso (1)) para -0,73 (veja a Tabela 6.2, regresso (2)),
uma reduo de 68 por cento.
b. A hiptese de que o verdadeiro coeficiente sobre a razo aluno-professor seja igual a zero foi rejeitada ao
nvel de significncia de 1 por cento, mesmo aps a adio de variveis que controlam a situao do aluno
e as caractersticas econmicas da diretoria.
c. O efeito de um corte na razo aluno-professor no dependeu de maneira significativa da porcentagem de
alunos que est aprendendo ingls na diretoria.
d. H alguma evidncia de que a relao entre pontuao nos exames e razo aluno-professor seja no-linear.
Constatamos o mesmo para Massachusetts? Para os itens (a), (b) e (c), a resposta sim. A incluso devariveis adicionais de controle reduziu o coeficiente da razo aluno-professor de -1,72 (Tabela 7 .2, regresso (1))
para -0,69 (Tabela 7.2, regresso (2)), uma reduo de 60 por cento. Os coeficientes da razo aluno-professor
permanecem significantes aps a adio de variveis de controle. Nos dados de Massachusetts, esses coeficientes
so significantes apenas ao nvel de 5 por cento, ao passo que, nos dados da Califrnia, eles so significantes
ao nvel de 1 por cento. Contudo, o nmero de observaes para os dados da Califrnia praticamente o dobro,
de modo que no surpreendente que as estimativas para esse Estado sejam mais precisas. Assim como nos dados
da Califrnia, no h evidncia estatisticamente significante nos dados de Massachusetts de uma interao entre
a razo aluno-professor e a varivel binria que indica uma alta porcentagem de alunos aprendendo ingls na
diretoria.
A constatao (d), entretanto, no vlida para os dados de Massachusetts: a hiptese de que a relao entre
a razo aluno-professor e a pontuao nos exames linear no pode ser rejeitada ao nvel de significncia de 5
por cento quando testada contra uma especificao cbica.
Como os dois exames padronizados so diferentes, no possvel comparar os coeficientes diretamente: um
ponto no exame de Massachusetts no igual a um ponto no exame da Califrnia. Se, contudo, as pontuaes
nos exames forem expressas na mesma unidade, ser possvel comparar os efeitos estimados do tamanho da turma.
Uma maneira de fazer isso transformar as pontuaes nos exames por meio de uma padronizao: subtrair a
mdia da amostra e dividir pelo desvio padro de modo que elas tenham uma mdia igual a zero e uma varincia igual a um. Os coeficientes de declividade na regresso com a pontuao nos exames transformada so iguais
aos coeficientes de declividade na regresso original, divididos pelo desvio padro da pontuao. Portanto, o coeficiente da razo aluno-professor, dividido pelo desvio padro da pontuao nos exames, pode ser comparado nos
dois conjuntos de dados.
A Tabela 7.3 apresenta essa comparao. A primeira coluna apresenta a estimativa de MQO do coeficiente da razo aluno-professor em uma regresso com a porcentagem de alunos que est aprendendo ingls,
a porcentagem de alunos que tem direito a almoo subsidiado e a renda mdia na diretoria includas como
variveis de controle. A segunda coluna apresenta o desvio padro da pontuao nos exames entre as diretorias. As duas ltimas colunas apresentam o efeito estimado de uma reduo da razo aluno-professor em dois
alunos por professor (a proposta de nossa superintendente) sobre a pontuao nos exames - a primeira em
unidades de pontuao c a segunda em unidades de desvio padro. Na especificao linear, o coeficiente de
MQO estimado utilizando os dados da Califrnia -0,73, de modo que se estima que o corte da razo alunoprofessor em dois aumente a pontuao nos exames na diretoria em -0,73 x (-2) = 1,-l-6 ponto. Como o
desvio padro da pontuao nos exames 19,1 pontos, isso corresponde a 1,46/ 19,1 = 0,076 desvios padro
da distribuio da pontuao nos exames entre as diretorias . O erro padro dessa estimativa 0,26 X 2/ 19,1
= 0,027. Os efeitos estimados para os modelos no-lineares e seus erros padro foram calculados pelo mtodo
descrito na Seo 6.1.

T
estimadados

CAPTuLo 7

Avaliando E5tudos Ba~eado5 na Regre55O Mltipla

177

TABELA 7.3 Razes Aluno-Professor e Pontuao nos Exames: Comparao das Estimativas para
Califrnia e Massachusetts

)S

Efeito Estimado da Reduo de 2 Alunos


por Professor em Unidades de:

da Ca-

Desvio Padro
Estimativa

la razo
o (2)),
tada ao
J aluno
5em de
-linear.
devao (1))
ofessor
:::1entes
icantes
dobro,
. dados
> entre
~ls na
> entre

a de 5
:e : um

1aes
urma.
trair a
ariniguaJs
>coelo nos
:oefi'lgls,

:o mo
retot dois
a em
te de
unono o
tdro
' 19.1
todo

de MQO

~IVJ.P

da Pontuao nos

Pontuao

Desvio

Exames entre Diretorias

dos Exames

Padro

Califrnia

Linear: Tabela 6.2(2)

-0,73
(0,26)

19,1

1 ,4,6
(0,52)

0,076
(0,027)

Cbica: Tabela 6.2(7)


Red11zir R.A P de 20 para 18

19,1

2,93
(0,70)

O, 153
(0,037)

? Cubtca. Tabela 6.-(1)


Red11zir R.AP de 22 para 20

19.1

1,90
(0,69)

0,099
(0.036)

-0,64
(0,27)

15,1

1,28
(0, 54)

0.085
(0,036)

Massachusetts

Linear: Tabda 7 .2(3)


Os erros padro esto entre parenreses.

Com base no modelo linear utilizando dados da Califrnia. estima-se que uma reduo de dois alunos por
professor aumente a pontuao nos exames em 0,076 unidade de desvio padro, com um erro padro de 0,027.
Os modelos no-lineares para os dados da Califrnia sugerem um efeito um pouco maior; o efeito especfico
depende da razo aluno-professor inicial. Com base nos dados de Massachusetts, esse efeito estimado de 0.085
unidade de desvio padro, com um erro padro de 0,036 .
Essas estimativas so essencialmente as mesmas. previsto que o corte da razo aluno-professor aumente a
pontuao nos exames, porm a melhoria prevista pequena . Nos dados da Califrnia, por exemplo, a diferena
da pontuao nos exames entre a diretoria mediana e a diretoria no 75 2 percentil de 12,2 pontos no exame
(veja a Tabela 4.1), ou 0,64 (= 12,2/19, 1) desvios padro. O efeito estimado pelo modelo linear pouco mais
de um dcimo disso; em outras palavras, de acordo com essa estimativa, o corte da razo aluno-professor em dois
faria com que uma diretoria movesse somente um dcimo do caminho da mediana para o 752 percentil da dtstribuio da pontuao nos exames entre as diretorias. A reduo da razo aluno-professor em dois uma mudana
grande para uma diretoria, mas os beneficios estimados mostrados na Tabela 7.3, apesar de no serem nulos, so
pequenos.
A anlise dos dados de Massachusetts sugere que os resultados da Califrnia so vlidos externamente, pelo
menos quando generalizados para o ensino fundamental em diretorias regionais de ensino de outras partes dos
Estados Unidos.

Validade Interna
A semelhana entre os resultados para a Califrnia e para Massachusetts no garante sua validade i11tcma.
Na Seo 7 .2, enumeramos cinco ameaas possveis para a validade interna que poderiam induzir um vis no
efeito estimado do tamanho da turma sobre a pontuao nos exames . Consideramos agora cada uma dessas
ameaas.

Variveis omitidas. As regresses mltiplas apresentadas neste captulo e nos anteriores controlam uma C<lracterstica do aluno (porcentagem aprendendo ingls), uma caracterstica econmica familiar (porce~ragem
de alunos com direito a almoo subsidiado) e uma medida mais ampla da riqueza na diretoria (renda medta na
diretoria) .

178

ECONOMETRIA

Variveis possveis omitidas, tais como outras caractersticas da escola e do aluno, continuam omitidas e isso
pode provocar um vis de varivel omitida. Por exemplo, se a razo aluno-professor estiver correlacionada com
a qualificao do professor (talvez porque os melhores professores so atrados para escolas com razes aluno- professor menores) e a qualidade do professor afetar a pontuao nos exames, a omisso da qualidade do professor
poder tornar o coeficiente da razo aluno-professor viesado. Da mesma forma, diretorias com uma razo alunoprofessor baixa tambm podem oferecer vrias oportunidades de ap rendizado extracurricular. Alm disso, as diretorias com uma razo aluno-professor baixa podem atrair famlias mais comprometidas com a melhora do
aprendizado de seus filhos em casa. Esses fatores omitidos podem levar a um vis de varivel omitida.
Uma forma de eliminar o vis de omisso de variveis - pelo menos na teoria - conduzir um experimento. Por exemplo, alunos poderiam ser designados aleatoriamente para turmas de tamanhos diferentes e seu
desempenho posterior em exames padronizados poderia ser comparado. Tal estudo foi na verdade conduzido no
Estado do Tennessee; vamos examin-lo no Captulo 11.

Forma funcional. A anlise feita aqui e no Captulo 6 explorou diversas formas funcionais. Observamos que
algumas das possveis no-linearidades investigadas no eram estatisticamente significantes, ao passo que aquelas
que eram no alteravam substancialmente o efeito estimado de uma reduo na razo alun o-professor. Embora
seja possvel conduzir anlises adicionais de forma funcional, isso sugere que os principais resultados desses estudos provavelmente no so sensveis a especificaes diferentes de regresso no-linear.
Erros nas variveis. A razo aluno-professor mdia na diretoria uma medida ampla e potencialmente imprecisa do tamanho da turma. Por-exemplo, como os alunos trocam continuamente de diretoria, pode ser que a
razo aluno-professor no represente com preciso os tamanhos efetivos de turma experimentados pelos alunos
que se submetem ao exame, o que por sua vez poderia levar o efeito estimado do tamanho da turm.a a um vis
em direo a zero. Outra varivel com erro de medida potencial a renda mdia na diretoria. Esses dados foram
obtidos do censo de 1990, ao passo que os outros dados so de 1998 (Massachusetts) ou 1999 (Califrnia) . Se a
composio econmica da diretoria tivesse mudado substancialmente ao longo da dcada de 1990, essa seria uma
medida imprecisa da verdadeira renda mdia na diretoria.
Seleo. Os dados da Califrnia e de Massachusetts cobrem todo o ensino pblico fundamental nas diretorias
regionais de ensino do Estado que satisfazem a restries de tamanho mnimo, de modo que no h motivo para
acreditar que a seleo da amostra seja um problema nesse caso.
Casualidade simultnea. A casualidade simultnea surgiria se o desempenho nos exames padronizados afetasse a razo aluno-professor. Isso poderia ocorrer, por exemplo, se houvesse um mecanismo burocrtico ou
poltico para aumentar a alocao de fundos para diretorias ou escolas com desempenho fraco, que por sua vez
resultaria na contratao de mais professores. Em Massachusetts no havia tal mecanismo para equalizao da alocao de fundos a escolas na poca desses exames. N a Califrnia, uma srie de aes legais levou a alguma equalizao da alocao de fundos, porm essa redistribuio de fundos no se baseou no desempenho dos alunos.
Portanto, a casualidade simultnea no parece ser um problema nem em Massachusetts nem na Califrnia.
Heteroscedasticidade e correlao do termo de erro entre observaes. Todos os resultados relatados
aqui e nos captulos anteriores utilizam erros padro robustos quanto heteroscedasticidade, de modo que a heteroscedasticidade no ameaa a validade interna. A correlao do termo de erro entre as observaes. contudo.
poderia ameaar a consistncia dos erros padro, uma vez que no foi utilizada uma amostragem aleatria simples (a amostra consiste de todo o ensino fundamental nas diretorias regionais de ensino do Estado). Embora haja
frmulas alternativas de erro padro que poderiam ser aplicadas a essa situao, os detalhes so complicados e
especializados e por isso sua discusso ser deixada para textos mais avanados.

Discusso e Implicaes
A semelhana entre os resultados para a Califrnia e para Massachusetts sugere que esses estudos so vlidos
externamente, no sentido de que os principais resultados podem ser generalizados para o desempenho em exames
padronizados no ensino fundamental em outras diretorias regionais de ensino dos Estados Unidos.

CAPTULo

Avaliando Estudos Baseados na Regresso Mltipla

179

Algumas das principais ameaas potenciais validade interna fo ram atacadas pelo controle da situao do
aluno, da situao econ m ica familiar e da riqueza na diretoria por meio da procura por no-linearidades na
funo de regresso. Mesmo assim, algumas ameaas potenciais validade interna persistem. O principal candidato o vis de omisso de variveis, que talvez surja pelo fato de as variveis de controle no captarem outras
caractersticas das diretorias regionais de ensino ou as opor tunidades de aprendizado extracurricular.
Tomando como base os dados da Califrnia e de Massachusetts, estam os capacitados para responder pergunta feita pela superintendente n o Captulo 4 .1: aps controlar a situao econmica da famlia, as caractersticas do aluno e a riqueza na diretoria e modelar as no-linearidades na funo de regresso, prev-se que o corte
da razo aluno-professor em dois alunos por professor aumente a pontuao nos exames em aproximadamente
0,08 desvios padro da distribuio da pontuao nos exames entre as diretorias. Esse efeito, embora estatisticamente significante, muito pequeno. Esse pequeno efeito estimado consistente com os resultados dos vrios
estudos que investigaram os efeitos de redues no tamanho da turma sobre a pontuao nos exames. 4
A superintendente pode agora utilizar essa estimativa para ajud- la na deciso de reduzir ou no o tamanho
das turmas. Ao tomar essa deciso, ela dever pesar os custos e os beneficios da reduo proposta. Os custos
incluem salrios dos professores e despesas com salas de aula adicionais. Os beneficios incluem melhor desempenho acadmico, que medimos pelo desempenho em exames padronizados, mas h outros beneficios potenciais que no estudamos, como menor taxa de evaso escolar e mdhores salrios no futuro. O efeito estimado
da proposta sobre o desem penho nos exames padronizados um insumo importante para o clculo de custos e
beneficios.
'

ISSO

com
pro~ssor

mo:lirea do
)e ri-

:seu
o no

que
.1elas
hora
~stu-

tpreue a
unos

7.4

vis
Jram
Se a
uma

::Jnas
para

afeJ

ou

vez
aloquat

mos.

ados
t

he-

udo,

simhaja
los e

lidos
1mes

C oncluso

Os conceitos de validade interna e validade externa fornecem uma estrutura para avaliar o que aprendemos
em um estudo economtrico.
Um estudo baseado em regresso mltipla vlido internamente se os coeficientes estimados so no viesados e consistentes e se os erros padro so consistentes. Ameaas validade interna de tal estudo incluem variveis
omitidas, erro de especificao da forma funcional (no-linearidades), medida imprecisa das variveis independentes (erros nas variveis), seleo da amostra e causalidade sim ultnea. Cada uma delas introduz uma correlao
entre o regressar e o termo de erro, que por sua vez torna o estimador de MQO viesado e inconsistente. Se os
erros so correlacionados ao longo das observaes - como podem ser para dados de sries temporais - ou so
heteroscedsticos, mas os desvios padro so calculados utilizando a frmula somente homoscedstica, ento a
validade interna fica comprometida em virtude da inconsistncia dos desvios padro. Esse ltimo grupo de problemas pode ser resolvido pelo clculo apropriado dos desvios padro.
Um estudo que utiliza a anlise de regresso, assim como qualqu er estudo estatstico, vlido externamente
se os seus res ultados podem ser generalizados alm da pop ulao e do cen rio estudados. Algumas vezes a comparao de dois ou mais estudos sobre o mesmo tpico pode ajudar. Independentemente da existncia de dois
ou mais desses estudos, contudo, a avaliao da validade externa requer um julgamento sobre as semelhanas da
populao e do cenrio estudados com a populao e o cenrio para os quais os resultados esto sendo generalizados.
As prximas duas partes deste livro desenvolvem formas de eliminar as ameaas que comprometem a validade interna que no podem ser diminudas somente pela anlise de regresso mltipla. A Parte 3 estende o
modelo de regresso mltipla em caminhos projetados para diminuir as cinco fontes potenciais de vis no estimador de MQO; a Parte 3 tambm discute os experimentos controlados aleatrios, um enfoque diferente para
obter validade interna . A Parte 4 desenvolve mtodos para a anlise de dados de sries temporais e para a utilizao desses dados na estimativa dos chamados efeitos causais dinmicos, que variam ao longo do tempo.

Se voc estiver interessado em aprender mais sobre a relao entre tamanho da turma e pontuao nos exames.
berg, Brewer, Gamoran e Willms (2001a, 200lb).

vej:~ as resenhas de Ehren-

180

ECONOMETRIA

Resumo
1. Estudos estatsticos so avaliados verificando-se se a anlise vlida interna e externamente. Um estudo
vlido internamente se as inferncias estatsticas sobre os efeitos causais so vlidas para a populao
estudada. Um estudo vlido externamente se as suas inferncias c concluses podem ser generalizadas
com base na populao e no cenrio estudados para outras populaes e cenrios .
2. Na anlise de regresso, h duas ameaas principais validade interna. Em primeiro lugar, os estimadores
de MQO so inconsistentes se os regressares e os termos de erro so correlacionados. Em segundo lugar,
intervalos de confiana e testes de hiptese no so vlidos quando os erros padro so incorretos.
3. Os regressares e os termos de erro podem ser correlacionados quando h variveis omitidas, uma forma
funcional incorreta, um ou mais regressares medidos com erro, a amostra escolhida de forma no aleatria
com base na populao ou causalidade simultnea entre regressares e variveis dependentes.
4. Os erros padro so incorretos quando os erros so heteroscedsticos e o pacote economtrico utiliza os
erros padro somente homoscedsticos, ou quando o termo de erro correlacionado ao longo de diversas observaes.

Termos-chave

populao estudada (164)


populao de interesse (164)
validade interna (165)
validade externa (165)
erro de especificao da forma funcional ( l68)

vis
vis
vis
vis

de
de
de
de

erros nas variveis (168)


seleo da amostra (170)
causalidade simultnea (170)
equaes simultneas (171)

Reviso dos Conceitos


7.1 Qual a diferena entre validade interna e externa? E entre populao estudada e populao de interesse?
7.2 O Conceito-Chave 7.2 descreve o problema de seleo de variveis em termos de um dilema entre vis e
varincia. Em que consiste esse dilema? Por que a incluso de um regressar adicional poderia diminuir o
vis? E aumentar a varincia?
7.3 Variveis econmicas freqentemente so medidas com erro. Isso significa que a anlise de regresso no
confivel? Explique.
7.4 Suponha que um Estado oferea exames padronizados voluntrios a todos os alunos da terceira srie e que
os dados sejam utilizados em um estudo do efeito do tamanho da turma sobre o desempenho dos alunos.
Explique como o vis de seleo da amostra pode invalidar os resultados.
7.5

Um pesquisador estima o efeito de gastos com polcia sobre a taxa de criminalidade utilizando dados a nvel
municipal. Explique como a causalidade simultnea pode invalidar os resultados .

7.6 Um pesquisador estima uma regresso utilizando dois pacotes economtricos diferentes. O primeiro utiliza a frmula para erros padro somente homoscedsticos. O segundo utiliza a frmula robusta quanto
heteroscedasticidade . Os erros padro so muito diferentes. Qual deles voc deve utilizar? Por qu?

CAPiTuLo 7

Avalian<:l0 Estudos Baseados na Regresso Mltipla

181

Exerccios
*7 .1

Suponha que voc tenha acabado de ler um estudo estatstico minucioso do efeito da publicidade sobre
a demanda por cigarros. Utilizando dados de Nova York durante a dcada de 1970, o estudo concluiu
qu e a publicidade nos nibus e no metr era mais eficiente do que a pu blicidade nos veculos impressos. Utilize o conceito de validade externa para determinar se esses resultados podem ser aplicados a
Boston na dcada de 1970, a Los Angeles na dcada de 1970 e a Nova York em 2002 .

7.2

Considere o modelb de regresso com uma varivel: = [3 0 + [3 1X; + u;, e suponha que ele satisfaa a
hiptese no Conceito-Chave 4.3. Suponh a que Y; seja medido com erro, de modo que os dados sejam
Y; = Y; + w;, onde W; o erro de medida que i.i.d. e independente de Y; e X,. Considere a regresso
da populao Y; = [3 0 + f3 1X, + v;, onde !I; o erro da regresso utilizando a varivel dependente com
erro de medida Y;.

'<

a. Mostre que

ll;

= 11; +

w..

b. Mostre que a regresso Y; = {3 0 + /3 1X, + !I; satisfaz as hipteses do Conceito-Chave 4.3. (Suponha
que w, seja independente de ~ e
para todos os valores de i e j e possua um quarto momento
finito.)

JS

c. Os estimadores de MQO so consistentes?


'

d. E possvel construir intervalos de confiana da forma

h~bituaP

e. Avalie a afirmao: "Erro de m edida em X um problema srio. Erro de medida em Y, no" .


7.3

Pesquisadores da rea de economia do trabalho estudaram os determ inantes do salrio das mulheres e
descobriram um quebra-cabea emprico intrigante. Utilizando mulheres empregadas selecionadas
aleatoriamente, eles regrediram o salrio sobre o nmero de fil hos das mulheres c um conjunto de
variveis de controle (idade, instruo, ocupao etc.) . Eles descobriram que mulheres com mais filhos tinham salrios maiores, mantendo o controle dos outros fatores. Explique como a seleo da
amostra pode ser a causa desse resultado (Dica: Observe que a amostra inclui apenas mulheres que esto
trabalhando.) (Esse quebra-cabea emprico motivou a pesquisa de ] ames H eckman sobre seleo da
amostra que lhe conferiu o Prmio Nobel de Economia em 2000.)

A PNDICE

7.1

Dados de Exames no Ensino Fundamental


de Massachusetts

Os dados de Massachusetts para o ensino pblico fundamental em diretorias regionais de ensino so mdias de diretorias em 1998. A pontuao nos exames extrada do Massachusetts Comprehensive Assessment System (MCAS). um exame
aplicado a todos os alunos da quarta srie das escolas pblicas de Massachusetts no segundo bimestre de 1988. O exame
patrocinado pela Secretaria de Educao de Massachusetts e obrigatrio para todas as escolas pblicas. Os dados analisados aqui so a pomuao total global, que a soma das pontuaes nas disciplinas de ingls, matemtica e cincias que compem o exame.
Os dados sobre a razo aluno-professor, a porcentagem de alunos com direito a almoo subsidiado e a porcentagem de
alunos que ainda est aprendendo ingls so mdias para o ensino fundamental em cada diretoria regional de ensino durante
o ano escolar 1997-1998 e foram obtidos da Secretaria de Educao de Massachusetts. Os dados sobre a renda mdia na
diretoria foram obtidos do censo dos Estados Unidos de 1990 .

You might also like