You are on page 1of 22

Universidade de Braslia - Instituto de Psicologia - PPGA

Programa de Ps-graduao em Psicologia Social, do Trabalho e das Organizaes.

Roteiro para Exame Inicial dos Dados


Elaine Rabelo Neiva
Bartholomeu T. Trccoli
Gardnia Abbad

Objetivo: O objetivo do presente trabalho descrever a rotina bsica de comandos para realizao de uma
inspeo inicial dos dados utilizando o software SPSS, verso 13.0. No sero explorados todos os
comandos. Apenas os essenciais para o incio da anlise.

preciso realizar uma anlise exploratria de dados, antes de qualquer anlise estatstica. Essa anlise tem duas
finalidades principais: (1) descrever e explorar as caractersticas principais dos resultados sem uma preocupao
exclusiva com os objetivos ou hipteses do trabalho (o que no significa que no possam ocorrer conjuntamente), e
(2) investigar se um conjunto de pressupostos estatsticos est presente nos dados. Neste ltimo caso, verifica-se o
ajustamento entre o conjunto de dados e pressupostos estatsticos fundamentais para o uso correto das diversas
tcnicas estatsticas (normalidade de distribuio das variveis, presena de casos extremos, homocedasticidade,
singularidade, multicolinearidade, entre outros). Neste texto temos o objetivo (2) como nossa atividade principal.
Para tanto, vamos utilizar o banco de dados fornecido no livro de Hair, Anderson, Tatham e Black denominado
HATCO. Na figura abaixo est uma reproduo parcial desse banco de dados.

Figura 1.0 Ilustrao do banco de dados

So as seguintes as variveis relacionadas no banco de dados HATCO:

Definies e codificao das variveis


1. Percepes sobre a HATCO (empresa fictcia fornecedora industrial); medidas atravs
de uma escala grfica de 10 cm foi desenhada entre os pontos: Ruim e Excelente. Os
respondentes marcavam qualquer ponto da linha e a distncia em cm era anotada. As
respostas foram arredondadas para uma casa decimal. So sete os atributos avaliados
pelos respondentes:
X1 Velocidade de Entrega: tempo total necessrio para entregar o produto assim que a
encomenda foi confirmada;
X2 Nvel de Preo: nvel percebido de preo cobrado por fornecedores do produto;
X3 Flexibilidade d Preo: disposio percebida de representantes da HATCO em negociar
preos em todos os tipos de compras;
X4 Imagem do fabricante: Imagem geral do fabricante ou fornecedor;
X5 Servio Geral: nvel geral de servio necessrio para manter uma relao satisfatria
entre fornecedor e comprador;
X6 Imagem da Fora de Vendas: imagem geral da fora de vendas do fabricante;
X7 Qualidade do Produto: nvel percebido de qualidade de um produto em particular
(funcionamento ou produtividade).

2. Resultados das Compras: duas medidas que refletiram os resultados das relaes de
compra dos respondentes com a HATCO
X9 Nvel de Uso quanto do produto total da empresa comprado da HATCO, medido em
uma escala de 100 pontos percentuais, que varia de zero a 100%;
X10 Nvel de Satisfao: nvel de satisfao do comprador com as compras que realizou
junto HATCO, medido atravs da mesma escala grfica de percepes utilizada nos itens
X1 a X7.

3. Caractersticas do Comprador: cinco caractersticas, algumas mtricas e outras no


mtricas.
X8. Tamanho da empresa: tamanho em relao a outras empresas (1=grande e 0=pequena);
X11. Especificao de compra: o quanto um comprador em particular avalia cada compra
separadamente (anlise do valor total) versus uso de especificaes de compra, as quais
detalham precisamente as caractersticas procuradas do produto (1= emprega anlise do
valor total, avaliando cada produto em separado e 0 = uso de especificao de compra);
X12. Estrutura de Aquisio: mtodo de adquirir ou comprar produtos em uma empresa em
particular. (1 = aquisio centralizada; 0 = aquisio no centralizada);
X13. Tipo de indstria: 1 = indstria; 0 = outras indstrias a que pertence o cliente;
X14. Tipo de situao de compra: situao de compra enfrentada pelo comprador. (1 =
nova tarefa; 2 = nova compra modificada; 3 =nova compra simples).
Fonte: Hair, Anderson, Tatham e Black (2005).

PARTE II
Anlise de Pressupostos Estatsticos:
Normalidade, Linearidade, Homoscedasticidade e Colinearidade.

Os pressupostos estatsticos podem ser analisados a partir das variveis usadas na anlise ou podem ser
realizados a partir de produtos ou resultados da anlise (ex. anlise de resduos da regresso mltipla). Os
pressupostos estatsticos mais considerados so normalidade, linearidade e homoscedasticidade. A
colinearidade considerada em algumas anlises, principalmente entre as VIs da regresso mltipla. O
objetivo maior desse roteiro descrever maneiras de analisar os pressupostos estatsticos, principalmente
a partir da varivel. As maneiras mais relacionadas aos modelos de anlises especficas (manova,
mancova,anlise fatorial, regresso mltipla, etc.) sero objeto de discusses futuras nos roteiros dessas
anlises. O roteiro foi elaborado para descrever formas de verificao dos pressupostos estatsticos,
comeando pela normalidade.
O objetivo dessa etapa identificar e tomar providncias relativas s variveis com distribuio no
normal
a.Verificar o pressuposto de normalidade das variveis
b.Verificar a assimetria e achatamento (curtose)
c.Transformar variveis (se desejvel)
d. Verificar resultados da transformao, solicitando novas descritivas para verificar as alteraes.

1.Normalidade: Anlise da distribuio

O pressuposto da normalidade avalia se a distribuio segue aos parmetros da distribuio


normal. (distribuio de Gauss).esse pressuposto na varivel pode ser avaliado de trs formas: pelos
grficos da distribuio (grfico de probabilidade normal, histograma, etc.), pelos ndices de skewness e
kurtosis significativos, pelos testes de normalidade.
Inicialmente, a normalidade das variveis ser avaliada pelos grficos da distribuio. Logo aps, analisar
os ndices de skewness e kurtosis. A seguir sero descritos esses passos para verificao desses aspectos
nas variveis.

Analyse
Descriptives
Frequencies

Abre-se, ento, a janela Frequencies reproduzida abaixo:

Figura 1.1 Janela distribuio de freqncia

Observe-se que na janela acima, todas as variveis, exceto a varivel ID, foram transferidas para a
caixa Variable(s). Em seguida, clica-se no boto Statistics para abrir a prxima janela
Frequencies:Statistics:

Figura 1.1.0 Janela distribuio de freqncia 2

Na janela acima foram escolhidas algumas medidas de tendncia central (mean, median), de
disperso (std. Deviation, minimum, maximum) e as duas medidas de distribuio (skewness, kurtosis).
Skewness (assimetria) diz respeito similaridade das metades da distribuio, enquanto que Kurtosis
(curtose) diz respeito ao achatamento da mesma. Assimetria e kurtosis so padres a serem seguidos na
distribuio e se referem ao formato da curva. Continuando, clica-se em seguida no boto Continue para
voltar a janela Frequencies: Statistics na qual escolhida a opo Charts abrindo-se a prxima janela
Frequencies: Charts:

Figura 1.1.1 Janela Charts

Na janela Frequencies: Charts acima foram escolhidas as opes Histograms: With normal curve.
Para finalizar essa primeira anlise deve-se clicar no boto Continue da janela Frequencies: Charts para
voltar a janela original Frequencies onde, com mais um clique no boto OK, obtm-se os resultados
relativos anlise descritiva. A seguir esto apresentados alguns dos resultados, a ttulo de exemplo.

Os resultados apresentados a seguir ilustram o histograma da varivel Delivery Speed. Esses resultados
foram obtidos a partir da rotina do SPSS descrita anteriormente. Os resultados mostram o histograma e a
seguir a distribuio de freqncia em conjunto com os dados de skewness e kurtosis na tabela Statistics.
Pela imagem do histograma possvel avaliar que a varivel segue a distribuio normal.

Grfico com o histograma da varivel

Delivery Speed

20

15
Frequency

10

Mean = 3,515
Std. Dev. = 1,3207
0 N = 100
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0

Delivery Speed

Figura 1.2 Histograma da varivel Delivery Speed

Abaixo esto os dados das variveis: Delivery speed e Price level. Esses resultados foram obtidos para
todas as variveis, contudo, para efeito de exemplificao foram expostos os resultados das variveis
Delivery Speed e Price level.
Statistics
Delivery Speed Price Level
N Valid 100 100
Missing 0 0
Mean (Mdia) 3,515 2,364
Std. Deviation (desvio-padro) 1,3207 1,1957
Skewness -,085 ,469
Std. Error of Skewness (erro
,241 ,241
padro de skewness)
Kurtosis (Curtose) -,511 -,509
Std. Error of Kurtosis (erro padro
,478 ,478
da curtose)
Minimum (Mnimo) ,0 ,2
Maximum (Mximo) 6,1 5,4

A varivel Delivery speed parece no apresentar problemas de normalidade em virtude de seu


histograma acima. Contudo, podemos observar suas medidas de skewness (positiva, negativa) ou Curtose
(positiva, negativa). As medidas de skewness e curtose devem ter valor 0 (zero). Ou melhor, a medida de
skewness deve ter valor igual a zero e a de curtos deve ter valor igual a 3. Contudo, o SPSS altera a
padronizao da medida de curtose para que ela possa ser mais bem avaliada. Qualquer alterao nessas
medidas j um indicativo de possibilidade de problemas de normalidade. As duas variveis possuem
algum valor de skewness e curtose. Torna-se necessrio verificar a significncia desses valores por meio da
obteno do score Z. O Score Z obtido por meio da diviso dos valores (skewness, kurtosis) pelos erros
padro das mesmas (erro padro de skewness, erro padro de curtose). Assim, para delivery speed, o
score Z de skewness ser -0,085/0,241 e o score Z de curtose ser -0,511/0,478. O score Z de skewness
-0,353 e o score Z de curtose -1,069. Esse valor indica o valor do Z score. A partir da, necessrio
verificar se ele possui significncia ou no. Se o valor do score Z calculado alcanar um valor que exceda
1,96, haver problemas de assimetria para um nvel de significncia de 0,05. Para uma significncia de
0,01, haver problema se o score Z exceder o valor de 2,58. Portanto, como isso no acontece com a
varivel delivery speed, trata-se de uma varivel com distribuio normal.

1.1 Grfico de Probabilidade normal e Testes de Normalidade


Outra maneira de avaliar a normalidade pelo grfico da probabilidade normal. Esse grfico
mostra se a distribuio apresenta algum problema ao fazer uma comparao grfica da forma da
distribuio com a distribuio normal. A distribuio normal representada por uma reta com inclinao
de 45 graus e a distribuio real colocada em contraste. Para obter esse grfico, na verso p-p,
necessrio utilizar o procedimento de regresso. Aqui ser apresentada somente a verso Q-Q, pelo
intervalo inter-quartil.

Analyse
Descriptives statistics
Explore
Figura 1.3 Janela Explore

Ao abrir a janela, assinale a opo Plots e insira as variveis no espao de variveis dependentes.

Escolha novamente a opo Plots e, na nova janela, marque a opo Normality plots with tests
para que sejam apresentados o grfico de probabilidade normal e os testes de normalidade da
distribuio.
Abaixo so apresentados o grfico de probabilidade normal da varivel Delivery Speed e os resultados dos
testes de normalidade da distribuio.

Normal Q-Q Plot of Delivery Speed

4
E x p e c te d N o rm a l

-2

-4

0 1 2 3 4 5 6 7

Observed Value
Figura 1.4 Grfico de probabilidade normal

Testes de Normalidade

Kolmogorov-Smirnov(a) Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Delivery
Speed ,063 100 ,200(*) ,985 100 ,341

* This is a lower bound of the true significance.


a Lilliefors Significance Correction

No output sair o teste e sua significncia. Os valores da estatstica e da significncia dos dois
testes indicam que a varivel possui uma distribuio normal. O teste de hipteses mostrou que a hiptese
nula est correta, o que indica que a distribuio normal. A hiptese nula avalia a diferena entre a
distribuio e a distribuio normal. A observao do grfico de probabilidade normal tambm no indica
desvios de normalidade. A seguir veja as notaes sobre os testes de normalidade.
Sobre o Teste Kolmogorov-Smirnov:
H0: distribuio normal
H1: distribuio no normal
Testa a proximidade ou a diferena entre freqncia observada e esperada.
Geralmente, K-S menor que 0,3 indica que a distribuio est apropriada.
Estatstica K-S usa a distribuio D.
D Dcrtico aceita a Hiptese Nula

i
D = max. - z i
n
Sobre o Teste Shapiro-Wilk:
H0: distribuio normal
H1: distribuio no normal
Testa a proximidade ou a diferena entre freqncia observada e esperada por
meio do clculo da estatstica W.

Os resultados do teste de normalidade para todas as variveis esto apresentados na Tabela Tests
of Normality.
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Delivery Speed ,063 100 ,200* ,985 100 ,341
Price Level ,095 100 ,028 ,969 100 ,017
Price Flexibility ,095 100 ,027 ,950 100 ,001
Manufacturer Image ,107 100 ,007 ,982 100 ,183
Service ,085 100 ,069 ,986 100 ,366
Salesforce Image ,122 100 ,001 ,963 100 ,007
Product Quality ,091 100 ,041 ,971 100 ,028
Firm Size ,392 100 ,000 ,622 100 ,000
Usage Level ,079 100 ,131 ,985 100 ,320
Satisfaction Level ,078 100 ,142 ,977 100 ,074
Specification Buying ,392 100 ,000 ,622 100 ,000
Structure of Procurement ,340 100 ,000 ,636 100 ,000
Type of Industry (SIC) ,340 100 ,000 ,636 100 ,000
Type of Buying Situation ,226 100 ,000 ,789 100 ,000
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction

A anlise dos valores da estatstica e da significncia dos dois testes indicam que possuem
distribuio normal as variveis delivery speed, servio, nvel de uso, nvel de satisfao. As variveis
Servio e Nvel de satisfao possuem valores contraditrios nos testes, o que convm olhar outros
indicadores. As demais variveis no possuem distribuio normal. Como a hiptese nula da distribuio
normal, ento valores abaixo de 0,05 indicam a rejeio da hiptese nula. Portanto, valores abaixo de
0,05 indicam distribuio que no segue os padres.

2) Homoscedasticidade:

Homoscedasticidade (igualdade de varincias) desejvel porque importante que a varivel dependente


exiba uma disperso constante ao longo dos valores (grupos) da varivel independente. Para a anlise da
homocesdasticidade estabelece-se as variveis dependentes mtricas e as variveis independentes no-
mtricas. Neste caso, utiliza-se o raciocnio da ANOVA de que existe homogeneidade de varincia na
varivel ou nas variveis dependentes entre os grupos definidos pela varivel independente. No caso de se
estabelecer variveis dependentes mtricas e variveis independentes mtricas, utiliza-se o raciocnio da
regresso durante a anlise de homoscedasticidade. Logo, espera-se que a varivel dependente ou
variveis dependentes mtricas, assumam varincias similares ao longo de sua associao com a varivel
ou as variveis independentes tambm mtricas. O teste de Levene o teste indicado para testar a
homocedasticidade na varivel dependente entre os grupos definidos pela varivel independente. O BoxM
traz a opo multivariada onde so comparadas as matrizes de covarincia, formadas com todas as
variveis dependentes, entre os grupos definidos pela varivel independente. Para se obter o teste de
Levene e o BoxM usa-se os menus abaixo do SPSS abrindo-se a janela reproduzida na Figura 1.5. o teste
BoxM muito conservador e sua tendncia apresentar indicaes de heteroscedasticidade.

Analyse
General Linear Model
Multivariate
Figura 1.5 Janela Multivariate

Aps abrir a janela da Figura 1.5, insira as variveis dependentes e independentes. Teste todas as
variveis mtricas como variveis dependentes e todas as no-mtricas como variveis independentes. O
teste pode ser realizado com variveis mtricas como VIs, contudo, pode haver opo de erro quando as
variveis apresentarem muitos grupos e poucos sujeitos em cada grupo. Em seguida, clique no boto
Options para abrir a nova janela abaixo:

Figura 1.6 Janela Univariate options

Dentro da nova janela Univariate Options, assinale o item Homogeneity tests. Em seguida clique
no boto Continue e no boto Ok da janela reproduzida na Figura 1.5.
O resultado do teste apresentado em duas tabelas: uma com o teste de Levene e a outra com o
BoxM. O Box M compara todas varincias entre todos os grupos e o teste de Levene compara cada varivel
dependente em todos os grupos de uma nica varivel independente ou entre grupos de mais de uma
varivel independente. Essas verses diferentes so obtidas pelas anlise de varincia one-way, univariada
ou multivariada. A significncia ndica que as matrizes de covarincia no mantm a mesma varincia ao
longo dos grupos. A hiptese nula as varincias so iguais ao longo dos grupos ou homocedsticas. A
hiptese nula foi rejeitada, portanto h heteroscedasticidade.

Box's Test of Equality of Covariance Matrices(a)

Box's M 114,495
F 2,281
df1 45
df2 23135,397
Sig. ,000
Tests the null hypothesis that the observed covariance
matrices of the dependent variables are equal across groups.
a Design: Intercept+x8

A seguir so analisados os resultados do teste de Levene. Se a opo for a comparao duas a


duas, cada varivel independente com seu conjunto de grupos dever ser testada individualmente. Se o
teste der significncia, os resultados mostram que h heterocedasticidade na relao entre as variveis.
Como exemplo, a tabela abaixo reproduz os resultados para a varivel independente no-mtrica X8. No
caso da comparao duas a duas, pelo teste de Levene, as variveis Manufacturer Image, Service, Salesforce
Image e Product Quality apresentam heteroscedasticidade. No teste de Levene, a hiptese nula de que h igualdade
de varincias ao longo dos grupos da varivel independente.

Levene's Test of Equality of Error Variances(a)


F df1 df2 Sig.
Delivery Speed ,934 1 98 ,336
Price Level 1,582 1 98 ,211
Price Flexibility 1,194 1 98 ,277
Manufacturer Image 6,549 1 98 ,012
Service 7,819 1 98 ,006
Salesforce Image 5,279 1 98 ,024
Product Quality 8,748 1 98 ,004
Usage Level 1,377 1 98 ,243
Satisfaction Level ,323 1 98 ,571
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a Design: Intercept+x8

.
3. Linearidade

A linearidade pode ser avaliada entre duas variveis ou entre mais variveis quando se trata de um
modelo. Os testes Pesarn-Pesarn; BPG; RESET de Ramsey; White; disponveis em outros softwares,
avaliam a linearidade dos modelos, principalmente pela anlise dos resduos.
Em se tratando de duas variveis, a presena ou ausncia de relaes lineares entre as variveis
verificada visualmente com grficos de disperso que so obtidos com os seguintes menus SPSS:

Graphs
Scatterplot/Dot
Para grficos de disperso bivariados, deve-se clicar na opo Simple Scatter e, em seguida, clicar
no boto Define, abrindo a janela Simple Scatterplot reproduzida em seguida.

Figura 1.6 Janela ScatterPlot/Dot

A janela acima permite definir quais variveis devem compor o grfico de disperso. No exemplo,
foram escolhidas as variveis delivery speed para o eixo dos Y (Y axis) e a varivel Price level para o eixo
dos X (X axis). Sempre que fizer sentido, deve-se colocar a varivel dependente ou varivel predita no
eixo dos Y e a varivel preditora ou varivel independente no eixo dos X.

Uma vez obtido o grfico na janela de output do SPSS deve-se edit-lo clicando-se duas vezes em
cima do mesmo para abrir a janela de edio do SPSS denominada chart editor (ver Figura 1.7). No
exemplo da Figura 1.7 foi inserida uma reta de ajuste. No caso, a reta de ajuste escolhida foi a reta de
regresso, mas o SPSS tambm permite que sejam inseridas outras retas, como por exemplo a curvilinear,
para ajuste a funo quadrtica.
Figura 1.7 Janela Chart Editor

Para inserir a reta de ajuste, clique no quarto boto da direita para a esquerda na segunda barra
de ferramentas (canto superior direito) (a posio do boto pode variar de acordo com a verso utilizada).
Uma vez desativada a janela Chart Editor, fica apenas o grfico reproduzido abaixo:

7,0

6,0

5,0
Delivery Speed

4,0

3,0

2,0

1,0
R Sq Linear = 0,122

0,0

0,0 1,0 2,0 3,0 4,0 5,0 6,0

Price Level

Observe no grfico acima que existe uma relao linear relativamente fraca entre as duas
variveis escolhidas. Embora os pontos tendam a acompanhar a linha de ajuste, ocorre uma elevada
disperso em torno da reta. O ndice numrico includo pelo SPSS (R Sq Linear = 0,122) comprova a baixa
relao linear: as variveis compartilham apenas cerca de 12% de varincia (embora, dependendo do
contexto ou da rea de estudos, esse possa ser considerado um bom ndice de associao).

4. Anlise dos resduos


A anlise de resduos tambm permite que sejam verificadas as presenas ou ausncias de vrios
pressupostos. A anlise dos resduos requer que seja realizado o procedimento de regresso. A anlise dos
resduos permite a anlise dos pressupostos no modelo de pesquisa utilizado.
A anlise dos resduos permite verificar se:
se a presuno de normalidade da distribuio dos resduos se confirma;
pode revelar se a varincia dos resduos realmente constante, ou seja, se a disperso
dos dados em torno da reta de regresso uniforme;
se h ou no uma varivel no identificada que deve ser includa no modelo;
se a ordem em que os dados foram coletados ( p. ex., tempo da observao) tem algum
efeito sobre os dados, ou se a ordem deve ser incorporada como uma varivel no modelo.
se a presuno de que os resduos no so correlacionados est satisfeita.
A seguir so relatadas as premissas em relao aos resduos que podem ser examinadas pelos
grficos de resduos.
Premissas em relao aos resduos:
So aleatrios com distribuio normal ?
So independentes entre si ?
Tm Valor Esperado = 0 ?
Possuem Varincia Constante ?
Premissas em relao aos dados:
Modelo linear nos parmetros?

A anlise dos resduos feita por meio do mdulo de regresso linear do SPSS reproduzido na
Figura 1.8:

Analyse
Regression
Linear

Figura 1.8 Janela Linear Regression.


Para analisar os resduos necessrio, primeiro, realizar uma anlise de regresso entre as
variveis de interesse. Os resduos so as diferenas observadas entre os valores preditos da varivel
dependente (Y) e os valores realmente obtidos com a amostra nessa varivel. Uma vez escolhidas as
variveis na janela Linear Regression, clique no boto Plots para abrir a janela Linear Regression: Plots
na pgina seguinte:

Figura 1.9 Janela Plots

Observe que na janela Linear Regression Plots foram escolhidas para o eixo Y a varivel *ZRESID e
para o eixo X a varivel *ZPRED alm da opo Histogram. A seguir escolha continue e OK. Com os dados
processados, em seguida, clicando-se duas vezes no grfico Scartterplot, escolhe-se a opo Add
reference line to the Y axis (oitavo boto da esquerda para a direita na barra de ferramentas da janela
Chart Editor)(a localizao do boto depende da verso do SPSS utilizada) para realizar as anlises
Figura 1.10 Janela Chart Editor

A partir da anlise dos resduos (na regresso mltipla), h opo de verificar vrios pressupostos
nas variveis. Os pressupostos so indicados a seguir, a partir de ilustraes dos formatos dos grficos, os
quais indicam que problemas ocorrem com as variveis que foram submetidas aos procedimentos de
regresso. Os resduos devem apresentar um formato que indique que eles esto aleatoriamente
distribudos em torno de zero.

Se a funo de regresso linear, os resduos deveriam estar distribudos de modo


linear. Um grfico de resduos com formato curvilneo indica que no h linearidade.

Resduos

Se o grfico dos resduos mostra


uma tendncia sistemtica positiva
0
ou negativa significa que uma
outra funo (no linear) deve ser
escolhida.

X
0
Resduos

X
No Linearidade

Resduos Os resduos no esto


aleatoriamente
distribudos em torno
de zero

0
Se o grfico dos resduos
demonstra um padro
quando plotado contra
determinada varivel, esta
varivel deve ser includa
no modelo ao lado do X.

X
Se os erros possuem varincia constante (homocedasticidade), os pontos deveriam estar dispostos
h uma distncia constante da linha horizontal.

Varincia No Constante

0
Resduo

X
Se os erros so independentes, os pontos deveriam estar na horizontal, ou
aleatoriamente distribudos em torno de zero. .

0
Resduo

X
Erros Correlacionados

5. Avaliar variveis em busca de multicolinearidade e singularidade

5.1. Diagnstico de Multicolinearidade

A multicolinearidade ocorre com duas ou mais variveis independentes do modelo explicando o


mesmo fenmeno;
Variveis contm informaes similares;
Duas ou mais variveis independentes altamente correlacionadas
Dificuldade na separao dos efeitos de cada uma das variveis
A multicolinearidade tende a distorcer os coeficientes (b) estimados.
A singularidade ocorre quando duas variveis so exatamente iguais.

Considere um banco que tenha resultados de pnaltis convertidos sendo influenciado por Preocupao
com o pnalti, estado de ansiedade e percentual de pnaltis convertidos anteriormente. O diagnstico de
multicolinearidade deve ser feito pelo mdulo da regresso linear.

Analyse
Regression
Linear

Janela 1.11: Linear Regression

Ao abrir a janela, escolher a varivel dependente do clculo e inserir as VIs no espao indicado.
Realizar uma regresso padro. Para avaliar colinearidade entre as variveis, marcar statistics e na janela
aberta, marcar o diagnstico de colinearidade.
Janela 1.12: Janela Linear Regression: Statistics

Pedir o diagnstico de colinearidade. Sugesto: pea tambm o diagnstico de outliers, indicando


o nmero de desvios padres que sero usados para o diagnstico de outliers univariados. Verifique os
dados das tabelas a seguir:

Tolerncia com valores menores


que 0,1 indicam a presena de
colinearidade (Menard, 1995).
Model Colinearity Statistics
Tolerance VIF
1 Penn State Worry 0,575 1,741
Questionnaire
State Anxiety 0,014 71,764
Percentage of previous 0,014 70,479
penalties scored

VIF maiores que 5 ou 10 tambm so


indicativos de problemas de colinearidade
(Myers, 1990).

Collinearity Diagnostics
Model Dimension Eigenvalue Condition Colinearity Statistics
Index (Constant) Penn State State Percentage
Worry Anxiety of previous
Questionnaire penalties
Scored

1 1 3,434 1,000 0,00 0,01 0,00 0,00


2 0,492 2,641 0,00 0,04 0,00 0,00
3 0,073 6,871 0,00 0,95 0,01 0,00
4 0,001 81,303 1,00 0,00 0,99 0,99
a Dependent Variable: Result of Penalty Kick

Indicativo de problemas: quando Variance proportions a proporo de varincia dos


qualquer um dos eigenvalues (e coeficientes de regresso de cada preditor que pode ser
respectivo Condition index) tem um atribuda a cada eigenvalue. Essas propores podem ser
valor bem diferente dos outros. convertidas em percentagens, quando multiplicadas por
Condition index uma medida da 100. Indicao de multicolinearidade ocorre quando o
dependncia de cada varivel sobre condition index maior que 0,30 e pelo menos duas
as outras variveis. variance proportions esto acima de 0,50.
6. Transformar as variveis. A transformao da varivel consiste em qualquer clculo que seja realizado
com o objetivo de melhorar os ndices de normalidade da varivel. Em geral, existem formas de realizar a
transformao que so adequadas para cada caso especfico. Portanto, necessrio observar as
especificaes de Hair e cols (2005) e Tabachnich e Fidel (2000) a respeito das transformaes
adequadas para cada caso. A seguir a rotina para transformao de varivel.

Transform
Compute Variable

Ao apresentar a janela, atribuir um nome para a nova varivel e escolher o clculo matemtico
para efetuar a transformao. No caso, X1 ser transformada pelo logaritmo da base 10 somado a
qualquer constante (geralmente usa-se o 1).

Janela 1.13: Compute Variable

Ao final do banco de dados, ser criada uma nova varivel com dados transformados a partir da
varivel anterior.
Janela 1.14: Nova varivel no HATCO

Verificar as indicaes de Tabachnick e Fidel (2000) e Hair e Cols (2005) quanto a transformaes
das variveis. Segundo esses autores, as transformaes mais indicadas so:

Problema Ao

Skewness positiva moderada Raiz quadrada da varivel


Skewness positiva intensa Logartimo da base 10
Skewness positiva intensa com Logartimo da base 10 mais
nmeros zero apresentados nos constante
dados
Skewness positiva severa 1/X
Formato de L com zero 1/(x + 1*)
Skewness negativa moderada Raiz quadrada da varivel (C**-X)
Skewness negativa intensa Logartimo da base 10 (C-X)
Skewness negativa severa Logartimo da base 10 (C-X)
formato de J
Achatamento (Curtose) 1/X
* uma constante adicionada ao clculo.
** Constante adicionada ao clculo que no ocasione valores negativos, portanto precisa ser maior que a
amplitude da escala usada

Considerando os dados apresentados at o momento, a varivel que apresenta os maiores ndices


de skewness e curtose do banco HATCO foi a varivel Price Level. Ela possui skewness positiva e curtose.
Como ela possui os dois ndices e o quadro acima indica para skewness positiva severa e curtose, a
invertida da varivel,ento tal clculo ser realizado. importante notar que a transformao muitas
vezes no resolve o problema. Talvez ele piore. Outro fator est relacionado a interpretao da varivel
transformada. Em geral, necessrio avaliar todos os tipos de transformao e suas conseqncias.
Observe os resultados das transformaes na varivel Price Level na tabela Statistics.
Statistics

Price Level x2transf


N Valid 100 100
Missing 0 0
Mean 2,364 ,6189
Median 2,150 ,4654
Mode 1,3a ,50a
Skewness ,469 4,644
Std. Error of Skewness ,241 ,241
Kurtosis -,509 29,334
Std. Error of Kurtosis ,478 ,478
Minimum ,2 ,19
a. Multiple modes exist. The smallest value is shown

You might also like