Professional Documents
Culture Documents
MARLOS FERNANDES
RIBEIRO PRETO
2017
SUMRIO
1 Introduo ...................................................................................................................... 3
2 A violao investigao dos pressupostos estatstico na literatura acadmica .............. 5
2.1 Modelo clssico de regresso linear simples e mltipla ......................................... 6
3 Metodologia ................................................................................................................. 10
5 Anlise dos resultados ................................................................................................. 12
5.1 Anlise das propriedades assintticas ................................................................... 12
5.2 Violao do pressuposto de homocedasticidade ..................................................... 7
5.3 Violao do pressuposto de distribuio normal dos resduos ............................... 7
5.4 Violao da premissa de no correlao entre as variveis independentes ............ 7
5.5 Violao do pressuposto do termo de erro com mdia zero ................................... 9
5.6 Variveis omitidas .................................................................................................. 7
6 Concluses ................................................................................................................... 10
Referncias ..................................................................................................................... 11
1 Introduo
3
objetivo geral examinar, por meio de simulaes de Monte Carlo, os impactos de
possveis violaes dos pressupostos do modelo estatstico.
Para tanto, so objetivos especficos desta pesquisa verificar os impactos, em
regresses lineares simples e mltiplas das violaes ao pressupostos (i) de distribuio
normal do resduos, (ii) com varincia constante, (iii) e termo de erro com mdia igual a
zero. Para as regresses lineares mltiplas ainda verificado os impactos advindos da (iv)
multicolinearidade.
A pesquisa foi segmentada em 5 sees, sendo que na primeira delas foram
estipulados os problemas de pesquisa e seus objetivos geral e especficos; na seo 2 so
expostos artigos que referenciam o tema da violao dos pressupostos estatsticos e as
teorias relacionadas a simulao de Monte Carlo e as anlises de regresses simples e
multivariadas e; na terceira seo so apresentados os procedimentos metodolgicos
adotados; a seo 4 apresenta os resultados advindos da simulao de Monte Carlo; e, por
fim, a quinta seo demonstra sucintamente as concluses encontradas no presente
trabalho.
4
2 A violao investigao dos pressupostos estatstico na literatura acadmica
5
aproximadamente 43,3% dos 872 artigos analisados no atenderam aos pressupostos
bsicos para a utilizao de testes paramtricos, e que essa ocorrncia tende a ser
independente da titulao dos autores, da regio de afiliao ou mesmo da revista de
publicao.
Portanto, observa-se um cenrio em que parte significativa das pesquisas elaboradas
em contabilidade, tal como ocorre em outras reas do conhecimento, embora faam uso
de modelos estatsticos, no realizam testes de verificao de seus pressupostos.
7
A transgresso da premissa de normalidade dos resduos, entretanto, tende a ser
amenizada em grandes amostras, como rege o teorema do limite central. Hoffmann (2006)
explica que em caso de um grande nmero de observaes, desde que nenhuma delas seja
dominante, a distribuio das variveis tende a uma normal.
Em funo disso, os estimadores passam a apresentar propriedades estatsticas
desejveis, denominadas de propriedades das grandes amostras ou propriedades
assintticas, conforme ocorre o aumento da amostra, como elucidam Gujarati e Porter
(2011). Os autores ainda explicam que, em funo disso, ainda que algumas premissas do
modelo clssico de regresso linear sejam violadas, o crescimento amostral pode gerar
estimadores consistentes.
Entretanto, h debilidades na argumentao do uso do teorema do limite central
como forma de correo de erros com distribuio no normal, como aponta Wooldridge
(2006). De acordo com o autor, o teorema do limite central assume que todos os fatores
no observados afetam a varivel dependente de um modo separado e aditivo. Contudo,
no h garantias que isso ocorra, de modo que caractersticas inerentes aos fatores no
observados podem implicar na no aplicao do teorema do limite central
(WOOLDRIDGE, 2006).
Nos casos de regresses lineares multivariadas, h ainda a premissa de que as
variveis independentes apresentam no mais que correlaes fracas entre si, como
explicam Rodrigues et al. (2011). Segundo esses autores, a multicolinearidade, ou seja, a
presena de correlaes mdias e fortes entre variveis dependentes, distorce os
parmetros de inclinao, prejudicando habilidade de previso do modelo ao dificultar a
distino dos efeitos das variveis independentes.
Por fim, o pressuposto de que o valor mdio do termo de erro ser igual a zero
implica na estimao no-viesada do parmetro de intercepto (0) e/ou dos parmetros de
inclinao (1, 2, ..., n), de acordo com Wooldridge (2006). Gujarati e Porter (2011)
explicam que a no transgresso dessa premissa requer que o modelo de regresso esteja
corretamente especificado, no havendo outros fatores que sistematicamente afetem a
varivel dependente.
Ainda conforme Gujarati e Porter (2011), para os casos de regresses lineares
multivariadas, o pressuposto de que o valor mdio do termo de erro ser igual a zero
tambm implica na preposio de que a varivel independente e o erro so no
correlacionados. Segundo Wooldridge (2006), a correlao entre uma varivel
8
independente e um varivel omitida do modelo resulta em vis do parmetro de
inclinao, tal como apresentado no quadro a seguir.
9
3 Metodologia
Kennedy (2008) define a simulao de Monte Carlo como sendo uma simulao
computacional realizada no intuito de elucidar as propriedades da amostra, sendo um
importante meio para a compresso dos modelos de regresso lineares. O mesmo autor
ainda explica que as simulaes de Monte Carlo so fundamentas em quatro etapas, como
representadas na figura 1.
Modelo de
gerao de dados
Criao de diferentes
conjuntos de dados
Comparar
10
Com base nas etapas da simulao de Monte Carlo apresentadas por Kennedy
(2008), foram gerados dois modelos de construes de dados, designados para simular,
respectivamente, equaes lineares simples e multivariadas.
Para cada uma dessas equaes foram elaboradas trs planilhas com amostragem
de 20, 40, e 80 observaes (i), sendo que para cada uma das trs planilhas foram
estimadas mil repeties da estimao da varivel dependente (). As variveis
independentes e os parmetros populacionais e foram estipulados arbitrariamente, de
modo que os valores Beta 1, Beta 2 e Beta 3 foram fixados, respectivamente, em 50, 0,25
e 0,35. O processo estocstico para estimao das variveis dependentes, e tambm dos
parmetros amostrais necessrios a sua mensurao, fundamentado na estimao do
erro, cuja probabilidade aleatria.
O processo acima descrito foi repetido de modo a gerar estimativas com a presena
e ausncia de violaes aos pressupostos estatsticos. Dentre as premissas transgredidas,
foram estimadas regresses com erros tendo distribuio diferente da normal; com erros
diferentes de zero e com varincia no constante. Exclusivamente para a equao 2 ainda
foram realizadas regresses com correlaes mdias (0,4) e fortes (0,8) entre as variveis
dependentes e estimaes com varivel omissa.
A significncia estatstica individual dos parmetros estimados e o teste F foram
realizados em um intervalo de confiana de 95%. As estimao dos modelos ocorrero
por meio da aplicao do software Excel.
11
5 Anlise dos resultados
12
Tabela 1 - Regresso linear simples
Sem violaes Heterocedasticidade Distribuio uniforme dos Erro mdio = 3
resduos
20 40 80 20 40 80 20 40 80 20 40 80
F SIG 681 921 999 402 577 848 586 859 989 677 928 999
E(B0) 49,71117 50,33134 50,60442 49,09173 50,35864 50,46188 49,18704 49,35423 49,70667 52,80195 52,59055 53,13362
VAR(B0) 324,05 145,63 74,83 470,90 258,16 116,90 425,80 199,92 111,60 326,89 145,92 79,72
E(B1) 0,25159 0,24728 0,24677 0,25882 0,24677 0,24737 0,25501 0,25388 0,25086 0,25136 0,25238 0,24890
VAR(B1) 0,01327 0,00580 0,00306 0,02961 0,01606 0,00750 0,01699 0,00803 0,00427 0,01325 0,00581 0,00318
B0 IC 973 972 970 996 995 994 976 983 968 966 965 943
B1 IC 970 970 975 986 975 978 972 979 979 978 981 967
B0 SIG 753 988 998 369 735 979 608 912 996 808 983 1000
B1 SIG 548 874 993 286 470 780 447 783 976 552 888 994
R 0,24245 0,21623 0,20302 0,14087 0,11098 0,10068 0,19632 0,17881 0,16644 0,23971 0,21882 0,20741
Fonte: Elaborado pelo autor.
7
5.2 Violao do pressuposto de homocedasticidade
Beta 0 Beta 1
140 1
120
0.8
100
0.6
80
60 0.4
40
0.2
20
0 0
20SV 20Het 40SV 40Het 80SV 80Het 20SV 20Het 40SV 40Het 80SV 80Het
-20 -0.2
-40
-0.4
7
Tambm os grficos 2, 3, 4 e 5, apresentados nas duas pginas em sequncia,
demonstram os impactos do consequente aumento da varincia sobre os parmetros. Tm-
se, nesses grficos, que os eixos das abcissas tendem a ser maiores na presena de
heterocedasticidade, revelando que uma maior quantidade de valores so assumidos pelos
parmetros. O eixo das ordenadas, entretanto, tende a ser menor, o que implica que
reduzida a quantidade parmetros que assumem valores prximos aos encontrados.
Como consequncia do aumento sistemtico da varincia, observa-se na tabela 4
expressivos decrscimos dos parmetros estimados. Tomando como referncia os
resultados advindos da no transgresso das premissas clssicas, foram reduzidos em,
aproximadamente, 26,17% os parmetros de intercepto que impactam de modo relevante
a varivel independente, em comparao com os resultados advindos da no violao das
premissas. Tambm nos parmetros de inclinao essa reduo foi cerca de 38,49%. Em
funo desses resultados, tambm o teste F, presente na tabela 4, revela que a quantidade
conjunta de parmetros que impactam a varivel dependente apresentou queda mdia
aproximada de 31,14%.
Esses resultados esto de acordo com o previsto por Gujarati e Porter (2011).
Segundo esses autores, o aumento da varincia traduz um distanciamento dos valores
estimados de seu valor mdio, o que torna a estimao no confivel.
A tabela 4 ainda revela que o grau de ajuste da estimao, mensurado pelo R,
tambm teve queda mdia de cerca de 46,99% na presena de hetrocedasticidade em
relao a no violao dos pressupostos. Isso demonstra que a violao do pressuposto
de homocedasticidade resulta em aumento dos resduos e reduo do poder preditivo da
estimao.
8
Grfico 2 - Beta 0 sem violao dos pressupostos
Beta 1 - 20 Beta 1 - 40 Beta 1 - 80
120 0.025 100 0.035 100 0.05
90 90 0.045
100 0.03
0.02 80 80 0.04
70 0.025 70 0.035
80
0.015 60 0.02 60 0.03
60 50 50 0.025
0.01 40 0.015
40 0.02
40 30 0.01 30 0.015
0.005 20 20 0.01
20 0.005
10 10 0.005
0 0 0 0 0 0
-20.00 30.00 80.00 130.00 0.00 20.00 40.00 60.00 80.00 100.00 0.00 20.00 40.00 60.00 80.00 100.00
7
Grfico 4 - Beta 1 sem violao dos pressupostos
Beta 2 - 20 Beta 2 - 40 Beta 2 - 80
100 4 100 6 100 8
90 3.5 90 90
5 7
80 80 80
3 6
70 70 4 70
60 2.5 60 5
60
50 2 50 3 50 4
40 1.5 40 40
2 3
30 30 30
1 2
20 20 1 20
10 0.5 10 10 1
0 0 0 0 0 0
-0.25 -0.05 0.15 0.35 0.55 0.75 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.05 0.15 0.25 0.35 0.45 0.55
8
5.3 Violao do pressuposto de distribuio normal dos resduos
120 0.8
100
0.6
80
60 0.4
40 0.2
20
0
0 20SV 20Uni 40SV 40Uni 80SV 80Uni
20SV 20Uni 40SV 40Uni 80SV 80Uni -0.2
-20
-40 -0.4
7
Os grficos 7, 8, 9 e 10, presentes nas duas prximas pginas, revelam o aumento
da varincia sobre os parmetros. Os eixos das abcissas tenderam a apresentar
incrementos, o que demonstra uma maior quantidade de valores assumidos pelos
parmetros, enquanto o eixo das ordenadas tiveram como tendncia sua reduo, sendo,
portanto, menor a quantidade parmetros que assumem valores prximos aos
encontrados.
Tal como verificado na presena de heterocedasticidade, tambm para o caso de
distribuio no normal dos resduos o aumento da varincia dos parmetros gerou quedas
na significncia mdia do parmetro de intercepto (9,05%), do parmetro de inclinao
(10,18%), e do teste F (7,23%) em relao ao caso de no transgresso das premissas
clssicas. De acordo com Rodrigues et al. (2011), parte desses resultados, advm da
deturpao dos intervalos de confiana e dos testes de significncia, os quais requerem a
presena de normalidade dos resduos.
Em consonncia com as quedas de significncia dos parmetros, o R tambm
apresenta um resultado mdio 18,12% menor na presena de distribuio no normal dos
resduos em relao ao caso de no transgresso dos pressupostos, o que demonstra que
o modelo menos preditivo e possui maior soma dos quadrados dos resduos em
comparao a soma dos quadrados total.
8
Grfico 7 - Beta 0 sem violao dos pressupostos
Beta 1 - 20 Beta 1 - 40 Beta 1 - 80
120 0.025 100 0.035 100 0.05
90 90 0.045
100 0.03
0.02 80 80 0.04
70 0.025 70 0.035
80
0.015 60 0.02 60 0.03
60 50 50 0.025
0.01 40 0.015
40 0.02
40 30 0.01 30 0.015
0.005 20 20 0.01
20 0.005
10 10 0.005
0 0 0 0 0 0
-20.00 30.00 80.00 130.00 0.00 20.00 40.00 60.00 80.00 100.00 120.00 0.00 20.00 40.00 60.00 80.00 100.00
7
Grfico 9 - Beta 1 sem violao dos pressupostos
Beta 2 - 20 Beta 2 - 40 Beta 2 - 80
100 4 100 6 100 8
90 3.5 90 90
5 7
80 80 80
3 6
70 70 4 70
60 2.5 60 5
60
50 2 50 3 50 4
40 1.5 40 40
2 3
30 30 30
1 2
20 20 1 20
10 0.5 10 10 1
0 0 0 0 0 0
-0.25 -0.05 0.15 0.35 0.55 0.75 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.05 0.15 0.25 0.35 0.45 0.55
8
5.4 Violao da premissa de no correlao entre as variveis independentes
7
que no caso de no transgresso dos pressupostos. Para 2, a varincia 33,42% e
193,95% maior, nessa ordem, para os casos de multicolinearidade fraca e forte em relao
a circunstncia de no transgresso das premissas.
Em razo disso, observa-se que a quantidade de parmetros 1 e 2 significativos
, respectivamente, 8,99% e 7,12% menor quando h multicolinearidade moderada; e
43,30% e 37,19%, nessa ordem, inferior aos casos de no violao dos pressupostos
quando h multicolinearidade forte.
Esses resultados esto alinhados com o enunciado por Rodrigues et al. (2011), os
quais afirmam que na presena de multicolinearidade os parmetros de inclinao ficam
distorcidos, prejudicando a habilidade de previso do modelo ao dificultar a distino dos
efeitos das variveis independentes.
Apesar disso, a significncia conjunta dos parmetros no foi prejudicada pela
correlao entre as variveis independentes. Tem-se, na verdade, elevaes de 3,24% e
5,43%, respectivamente, na quantidade repeties avaliadas como significativas pelo
teste F nos casos de multicolinearidade moderada e fraca em relao a circunstncia de
no transgresso das premissas.
Em parte por isso, observa-se tambm um incremento mdio do grau de ajuste dos
modelos (R) na presena correlaes moderada e forte entre as variveis independentes,
mensuradas, respectivamente, em 17,12% e 34,30% superiores ao caso de no violao
das premissas. Embora isso indique maior previsibilidade dos resultados pela reta de
regresso, importante destacar que so menos confiveis os parmetros de inclinao
na presena de multicolinearidade do que no caso de no violao das premissas, como
indicado pela significncia dos parmetros.
8
5.5 Violao do pressuposto do termo de erro com mdia zero
Beta 0 Beta 1
140 1
120 0.8
100
0.6
80
60 0.4
40 0.2
20
0
0 20SV 20Erro 40SV 40Erro 80SV 80Erro
20SV 20Erro 40SV 40Erro 80SV 80Erro -0.2
-20
-40 -0.4
9
Grfico 1 - Beta 0 sem violao dos pressupostos
Beta 1 - 20 Beta 1 - 40 Beta 1 - 80
120 0.025 100 0.035 100 0.05
90 90 0.045
100 0.03
0.02 80 80 0.04
70 0.025 70 0.035
80
0.015 60 0.02 60 0.03
60 50 50 0.025
0.01 40 0.015
40 0.02
40 30 0.01 30 0.015
0.005 20 20 0.01
20 0.005
10 10 0.005
0 0 0 0 0 0
-20.00 30.00 80.00 130.00 0.00 20.00 40.00 60.00 80.00 100.00 0.00 20.00 40.00 60.00 80.00 100.00
7
Grfico 3 - Beta 1 sem violao dos pressupostos
Beta 2 - 20 Beta 2 - 40 Beta 2 - 80
100 4 100 6 100 8
90 3.5 90 90
5 7
80 80 80
3 6
70 70 4 70
60 2.5 60 5
60
50 2 50 3 50 4
40 1.5 40 40
2 3
30 30 30
1 2
20 20 1 20
10 0.5 10 10 1
0 0 0 0 0 0
-0.25 -0.05 0.15 0.35 0.55 0.75 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.05 0.15 0.25 0.35 0.45 0.55
8
Em parte pela no alterao da varincia dos parmetros com termo de erro
diferente de zero, no houve tambm alterao significativa dos resultados advindos do
teste F e do grau de ajuste do modelo (R) na presena de violao do pressuposto de que
o termo de erro diferente de zero comparativamente a circunstncia de no transgresso
das premissas.
O grfico 10 e a tabela 6 revelam, entretanto, que a principal alterao nas
estimaes advm do valor mdio do parmetro de intercepto, o qual apresenta vis
tendendo exatamente ao valor do termo de erro, ou seja, igual a trs.
7
parmetro de intercepto seja significativo, poucos desses parmetros esto no intervalo
de confiana; e que em consonncia com a queda de aproximadamente 10,60% dos
parmetros de inclinao, houve uma de cerca de 10,46% das repeties do teste F que
foram avaliadas como significativas.
Esses resultados so explicados por Gujarati e Porter (2011, p. 470) ao afirmarem
que uma das consequncias das variveis omitidas que os procedimentos habituais para
determinar os intervalos de confiana e o teste de hipteses provavelmente conduziro a
concluses equivocadas quanto significncia estatstica dos parmetros estimados.
A tabela 7 ainda demonstra um incremento mdio do valor estimado do parmetro
de intercepto de 84,25% em relao ao caso de no haver transgresso dos pressupostos.
Desse modo, a estimao desse parmetro altamente viesada, explicando a baixa
quantidade de valores no intervalo de confiana.
Em parte por esse vis, a tabela 7 ainda demonstra uma queda mdia de 54,79%
do R obtido com varivel omitida em relao a circunstncia de no violao dos
pressupostos. Esse resultado demonstra um aumento da soma do quadrado dos resduos
sobre a soma dos quadrados total.
Na tabela 8 so apresentados os resultados da omisso de uma varivel
correlacionada com a varivel independente explicitada.
8
A omisso de uma varivel faz com que ela passe a integrar o termo de erro. Sendo
essa varvel omissa correlata a varivel independente explicitada, tem-se um caso similar
ao de heterocedasticidade. Por consequncia, como elucidado por Gujarati e Porter
(2011), no h confiabilidade nos valores estimados.
Novamente verificado quedas expressivas dos parmetros contidos no intervalo
de confiana e, ainda assim, aumentos expressivos na significncia dos mesmos
parmetros, sendo isso elucidado por concluses equivocadas quanto significncia
estatstica dos estimadores, como explicado anterior por Gujarati e Porter (2011).
O valor mdio do parmetro de intercepto e do parmetro de inclinao, nessa
ordem, tiveram incrementos mdios, em relao a no violao das premissas, de 47,50%
e 44,03% no caso de correlao moderada, e de 17,51% e 90,26% na presena de
correlao forte. Esses resultados esto alinhados com o previsto por Wooldridge (2006)
que afirma que a correlao entre uma varivel independente e um varivel omitida gera
vis do parmetro de inclinao. Ainda de acordo com esse autor, nesse caso em que o
parmetro de inclinao omitido positivo, e a correlao existente entre as variveis
tambm positiva, tem-se uma um vis maior que zero.
Apesar da regresso com vis, o grau de ajuste do modelo 16,43% superior no
caso de forte correlao em relao a circunstncia de no violao dos pressupostos. Isso
demonstra que o vis no necessariamente implica em aumento dos resduos, dado que o
vis pode ser resultado da incorporao dos efeitos da varivel omissa sobre a varivel
dependente.
9
6 Concluses
10
Referncias
Brown, R., & Jones, M. (2015). Mapping and exploring the topography of contemporary
financial accounting research. The British Accounting Review, 47, 237261.
Bussab, W. O., & Morettin, P. A. (2002). Estatstica Bsica (fifth ed.). So Paulo: Editora
Saraiva.
Cohen, J., Cohen, P., West, S. G., & Aiken, L. S (2002). Applied Multiple
Regression/Correlation Analysis for the Behavioral Sciences (third ed.). Abingdon:
Routledge.
Gujarati, D. N., & Porter, D. C. (2011). Econometria Bsica (fifth ed.). So Paulo:
AMGH Editora.
Hoekstra, R., Kiers, H. A. L., & Johnson, A. (2012). Are assumptions of well-known
statistical techniques checked, and why (not)? Frontiers in Psychology, 3, 19.
Keselman, H. J., et. al. (1998). Statistical practices of educational researchers: An analysis
of their ANOVA, MANOVA and ANCOVA analyses. Review of Educational Research,
68, 350386.
Neter, J., Nachtsheim, C., Kutner, M., & Li, W. (2004). Applied Linear Statistical Models
(fifth ed.). New York: McGraw-Hill Irwin.
Oler, D. K., Oler, M. J., & Skousen, C. J. (2010). Characterizing accounting research.
Accounting Horizons, 24(4), 635670.
Osborne, J. W., & Waters, E. (2002). Four assumptions of multiple regression that
researchers should always test. Practical Assessment Research & Evaluating, Vol. 8, 2,
1-5. Available at: http://pareonline.net/getvn.asp?n=2&v=8.
Teixeira, I. P., et. al. (2015). Uso da estatstica na Educao Fsica: Anlise das
Publicaes Nacionais entre os Anos de 2009 e 2011. Revista Brasileira de Educao
Fsica e Esporte, 29(1), 3947.
11
Weinzimmer, L., Mone, M., & Alwan, L. (1994). An examination of perceptions and
usage of regression in diagnostics m organization studies. Journal of Management, 20(1),
179192.
12