Professional Documents
Culture Documents
Objetivo: O objetivo do presente trabalho descrever a rotina bsica de comandos para realizao de uma
inspeo inicial dos dados utilizando o software SPSS, verso 13.0. No sero explorados todos os
comandos. Apenas os essenciais para o incio da anlise.
preciso realizar uma anlise exploratria de dados, antes de qualquer anlise estatstica. Essa anlise tem duas
finalidades principais: (1) descrever e explorar as caractersticas principais dos resultados sem uma preocupao
exclusiva com os objetivos ou hipteses do trabalho (o que no significa que no possam ocorrer conjuntamente), e
(2) investigar se um conjunto de pressupostos estatsticos est presente nos dados. Neste ltimo caso, verifica-se o
ajustamento entre o conjunto de dados e pressupostos estatsticos fundamentais para o uso correto das diversas
tcnicas estatsticas (normalidade de distribuio das variveis, presena de casos extremos, homocedasticidade,
singularidade, multicolinearidade, entre outros). Neste texto temos o objetivo (2) como nossa atividade principal.
Para tanto, vamos utilizar o banco de dados fornecido no livro de Hair, Anderson, Tatham e Black denominado
HATCO. Na figura abaixo est uma reproduo parcial desse banco de dados.
2. Resultados das Compras: duas medidas que refletiram os resultados das relaes de
compra dos respondentes com a HATCO
X9 Nvel de Uso quanto do produto total da empresa comprado da HATCO, medido em
uma escala de 100 pontos percentuais, que varia de zero a 100%;
X10 Nvel de Satisfao: nvel de satisfao do comprador com as compras que realizou
junto HATCO, medido atravs da mesma escala grfica de percepes utilizada nos itens
X1 a X7.
PARTE II
Anlise de Pressupostos Estatsticos:
Normalidade, Linearidade, Homoscedasticidade e Colinearidade.
Os pressupostos estatsticos podem ser analisados a partir das variveis usadas na anlise ou podem ser
realizados a partir de produtos ou resultados da anlise (ex. anlise de resduos da regresso mltipla). Os
pressupostos estatsticos mais considerados so normalidade, linearidade e homoscedasticidade. A
colinearidade considerada em algumas anlises, principalmente entre as VIs da regresso mltipla. O
objetivo maior desse roteiro descrever maneiras de analisar os pressupostos estatsticos, principalmente
a partir da varivel. As maneiras mais relacionadas aos modelos de anlises especficas (manova,
mancova,anlise fatorial, regresso mltipla, etc.) sero objeto de discusses futuras nos roteiros dessas
anlises. O roteiro foi elaborado para descrever formas de verificao dos pressupostos estatsticos,
comeando pela normalidade.
O objetivo dessa etapa identificar e tomar providncias relativas s variveis com distribuio no
normal
a.Verificar o pressuposto de normalidade das variveis
b.Verificar a assimetria e achatamento (curtose)
c.Transformar variveis (se desejvel)
d. Verificar resultados da transformao, solicitando novas descritivas para verificar as alteraes.
Analyse
Descriptives
Frequencies
Observe-se que na janela acima, todas as variveis, exceto a varivel ID, foram transferidas para a
caixa Variable(s). Em seguida, clica-se no boto Statistics para abrir a prxima janela
Frequencies:Statistics:
Na janela acima foram escolhidas algumas medidas de tendncia central (mean, median), de
disperso (std. Deviation, minimum, maximum) e as duas medidas de distribuio (skewness, kurtosis).
Skewness (assimetria) diz respeito similaridade das metades da distribuio, enquanto que Kurtosis
(curtose) diz respeito ao achatamento da mesma. Assimetria e kurtosis so padres a serem seguidos na
distribuio e se referem ao formato da curva. Continuando, clica-se em seguida no boto Continue para
voltar a janela Frequencies: Statistics na qual escolhida a opo Charts abrindo-se a prxima janela
Frequencies: Charts:
Na janela Frequencies: Charts acima foram escolhidas as opes Histograms: With normal curve.
Para finalizar essa primeira anlise deve-se clicar no boto Continue da janela Frequencies: Charts para
voltar a janela original Frequencies onde, com mais um clique no boto OK, obtm-se os resultados
relativos anlise descritiva. A seguir esto apresentados alguns dos resultados, a ttulo de exemplo.
Os resultados apresentados a seguir ilustram o histograma da varivel Delivery Speed. Esses resultados
foram obtidos a partir da rotina do SPSS descrita anteriormente. Os resultados mostram o histograma e a
seguir a distribuio de freqncia em conjunto com os dados de skewness e kurtosis na tabela Statistics.
Pela imagem do histograma possvel avaliar que a varivel segue a distribuio normal.
Delivery Speed
20
15
Frequency
10
Mean = 3,515
Std. Dev. = 1,3207
0 N = 100
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0
Delivery Speed
Abaixo esto os dados das variveis: Delivery speed e Price level. Esses resultados foram obtidos para
todas as variveis, contudo, para efeito de exemplificao foram expostos os resultados das variveis
Delivery Speed e Price level.
Statistics
Delivery Speed Price Level
N Valid 100 100
Missing 0 0
Mean (Mdia) 3,515 2,364
Std. Deviation (desvio-padro) 1,3207 1,1957
Skewness -,085 ,469
Std. Error of Skewness (erro
,241 ,241
padro de skewness)
Kurtosis (Curtose) -,511 -,509
Std. Error of Kurtosis (erro padro
,478 ,478
da curtose)
Minimum (Mnimo) ,0 ,2
Maximum (Mximo) 6,1 5,4
Analyse
Descriptives statistics
Explore
Figura 1.3 Janela Explore
Ao abrir a janela, assinale a opo Plots e insira as variveis no espao de variveis dependentes.
Escolha novamente a opo Plots e, na nova janela, marque a opo Normality plots with tests
para que sejam apresentados o grfico de probabilidade normal e os testes de normalidade da
distribuio.
Abaixo so apresentados o grfico de probabilidade normal da varivel Delivery Speed e os resultados dos
testes de normalidade da distribuio.
4
E x p e c te d N o rm a l
-2
-4
0 1 2 3 4 5 6 7
Observed Value
Figura 1.4 Grfico de probabilidade normal
Testes de Normalidade
Kolmogorov-Smirnov(a) Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Delivery
Speed ,063 100 ,200(*) ,985 100 ,341
No output sair o teste e sua significncia. Os valores da estatstica e da significncia dos dois
testes indicam que a varivel possui uma distribuio normal. O teste de hipteses mostrou que a hiptese
nula est correta, o que indica que a distribuio normal. A hiptese nula avalia a diferena entre a
distribuio e a distribuio normal. A observao do grfico de probabilidade normal tambm no indica
desvios de normalidade. A seguir veja as notaes sobre os testes de normalidade.
Sobre o Teste Kolmogorov-Smirnov:
H0: distribuio normal
H1: distribuio no normal
Testa a proximidade ou a diferena entre freqncia observada e esperada.
Geralmente, K-S menor que 0,3 indica que a distribuio est apropriada.
Estatstica K-S usa a distribuio D.
D Dcrtico aceita a Hiptese Nula
i
D = max. - z i
n
Sobre o Teste Shapiro-Wilk:
H0: distribuio normal
H1: distribuio no normal
Testa a proximidade ou a diferena entre freqncia observada e esperada por
meio do clculo da estatstica W.
Os resultados do teste de normalidade para todas as variveis esto apresentados na Tabela Tests
of Normality.
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Delivery Speed ,063 100 ,200* ,985 100 ,341
Price Level ,095 100 ,028 ,969 100 ,017
Price Flexibility ,095 100 ,027 ,950 100 ,001
Manufacturer Image ,107 100 ,007 ,982 100 ,183
Service ,085 100 ,069 ,986 100 ,366
Salesforce Image ,122 100 ,001 ,963 100 ,007
Product Quality ,091 100 ,041 ,971 100 ,028
Firm Size ,392 100 ,000 ,622 100 ,000
Usage Level ,079 100 ,131 ,985 100 ,320
Satisfaction Level ,078 100 ,142 ,977 100 ,074
Specification Buying ,392 100 ,000 ,622 100 ,000
Structure of Procurement ,340 100 ,000 ,636 100 ,000
Type of Industry (SIC) ,340 100 ,000 ,636 100 ,000
Type of Buying Situation ,226 100 ,000 ,789 100 ,000
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
A anlise dos valores da estatstica e da significncia dos dois testes indicam que possuem
distribuio normal as variveis delivery speed, servio, nvel de uso, nvel de satisfao. As variveis
Servio e Nvel de satisfao possuem valores contraditrios nos testes, o que convm olhar outros
indicadores. As demais variveis no possuem distribuio normal. Como a hiptese nula da distribuio
normal, ento valores abaixo de 0,05 indicam a rejeio da hiptese nula. Portanto, valores abaixo de
0,05 indicam distribuio que no segue os padres.
2) Homoscedasticidade:
Analyse
General Linear Model
Multivariate
Figura 1.5 Janela Multivariate
Aps abrir a janela da Figura 1.5, insira as variveis dependentes e independentes. Teste todas as
variveis mtricas como variveis dependentes e todas as no-mtricas como variveis independentes. O
teste pode ser realizado com variveis mtricas como VIs, contudo, pode haver opo de erro quando as
variveis apresentarem muitos grupos e poucos sujeitos em cada grupo. Em seguida, clique no boto
Options para abrir a nova janela abaixo:
Dentro da nova janela Univariate Options, assinale o item Homogeneity tests. Em seguida clique
no boto Continue e no boto Ok da janela reproduzida na Figura 1.5.
O resultado do teste apresentado em duas tabelas: uma com o teste de Levene e a outra com o
BoxM. O Box M compara todas varincias entre todos os grupos e o teste de Levene compara cada varivel
dependente em todos os grupos de uma nica varivel independente ou entre grupos de mais de uma
varivel independente. Essas verses diferentes so obtidas pelas anlise de varincia one-way, univariada
ou multivariada. A significncia ndica que as matrizes de covarincia no mantm a mesma varincia ao
longo dos grupos. A hiptese nula as varincias so iguais ao longo dos grupos ou homocedsticas. A
hiptese nula foi rejeitada, portanto h heteroscedasticidade.
Box's M 114,495
F 2,281
df1 45
df2 23135,397
Sig. ,000
Tests the null hypothesis that the observed covariance
matrices of the dependent variables are equal across groups.
a Design: Intercept+x8
.
3. Linearidade
A linearidade pode ser avaliada entre duas variveis ou entre mais variveis quando se trata de um
modelo. Os testes Pesarn-Pesarn; BPG; RESET de Ramsey; White; disponveis em outros softwares,
avaliam a linearidade dos modelos, principalmente pela anlise dos resduos.
Em se tratando de duas variveis, a presena ou ausncia de relaes lineares entre as variveis
verificada visualmente com grficos de disperso que so obtidos com os seguintes menus SPSS:
Graphs
Scatterplot/Dot
Para grficos de disperso bivariados, deve-se clicar na opo Simple Scatter e, em seguida, clicar
no boto Define, abrindo a janela Simple Scatterplot reproduzida em seguida.
A janela acima permite definir quais variveis devem compor o grfico de disperso. No exemplo,
foram escolhidas as variveis delivery speed para o eixo dos Y (Y axis) e a varivel Price level para o eixo
dos X (X axis). Sempre que fizer sentido, deve-se colocar a varivel dependente ou varivel predita no
eixo dos Y e a varivel preditora ou varivel independente no eixo dos X.
Uma vez obtido o grfico na janela de output do SPSS deve-se edit-lo clicando-se duas vezes em
cima do mesmo para abrir a janela de edio do SPSS denominada chart editor (ver Figura 1.7). No
exemplo da Figura 1.7 foi inserida uma reta de ajuste. No caso, a reta de ajuste escolhida foi a reta de
regresso, mas o SPSS tambm permite que sejam inseridas outras retas, como por exemplo a curvilinear,
para ajuste a funo quadrtica.
Figura 1.7 Janela Chart Editor
Para inserir a reta de ajuste, clique no quarto boto da direita para a esquerda na segunda barra
de ferramentas (canto superior direito) (a posio do boto pode variar de acordo com a verso utilizada).
Uma vez desativada a janela Chart Editor, fica apenas o grfico reproduzido abaixo:
7,0
6,0
5,0
Delivery Speed
4,0
3,0
2,0
1,0
R Sq Linear = 0,122
0,0
Price Level
Observe no grfico acima que existe uma relao linear relativamente fraca entre as duas
variveis escolhidas. Embora os pontos tendam a acompanhar a linha de ajuste, ocorre uma elevada
disperso em torno da reta. O ndice numrico includo pelo SPSS (R Sq Linear = 0,122) comprova a baixa
relao linear: as variveis compartilham apenas cerca de 12% de varincia (embora, dependendo do
contexto ou da rea de estudos, esse possa ser considerado um bom ndice de associao).
A anlise dos resduos feita por meio do mdulo de regresso linear do SPSS reproduzido na
Figura 1.8:
Analyse
Regression
Linear
Observe que na janela Linear Regression Plots foram escolhidas para o eixo Y a varivel *ZRESID e
para o eixo X a varivel *ZPRED alm da opo Histogram. A seguir escolha continue e OK. Com os dados
processados, em seguida, clicando-se duas vezes no grfico Scartterplot, escolhe-se a opo Add
reference line to the Y axis (oitavo boto da esquerda para a direita na barra de ferramentas da janela
Chart Editor)(a localizao do boto depende da verso do SPSS utilizada) para realizar as anlises
Figura 1.10 Janela Chart Editor
A partir da anlise dos resduos (na regresso mltipla), h opo de verificar vrios pressupostos
nas variveis. Os pressupostos so indicados a seguir, a partir de ilustraes dos formatos dos grficos, os
quais indicam que problemas ocorrem com as variveis que foram submetidas aos procedimentos de
regresso. Os resduos devem apresentar um formato que indique que eles esto aleatoriamente
distribudos em torno de zero.
Resduos
X
0
Resduos
X
No Linearidade
0
Se o grfico dos resduos
demonstra um padro
quando plotado contra
determinada varivel, esta
varivel deve ser includa
no modelo ao lado do X.
X
Se os erros possuem varincia constante (homocedasticidade), os pontos deveriam estar dispostos
h uma distncia constante da linha horizontal.
Varincia No Constante
0
Resduo
X
Se os erros so independentes, os pontos deveriam estar na horizontal, ou
aleatoriamente distribudos em torno de zero. .
0
Resduo
X
Erros Correlacionados
Considere um banco que tenha resultados de pnaltis convertidos sendo influenciado por Preocupao
com o pnalti, estado de ansiedade e percentual de pnaltis convertidos anteriormente. O diagnstico de
multicolinearidade deve ser feito pelo mdulo da regresso linear.
Analyse
Regression
Linear
Ao abrir a janela, escolher a varivel dependente do clculo e inserir as VIs no espao indicado.
Realizar uma regresso padro. Para avaliar colinearidade entre as variveis, marcar statistics e na janela
aberta, marcar o diagnstico de colinearidade.
Janela 1.12: Janela Linear Regression: Statistics
Collinearity Diagnostics
Model Dimension Eigenvalue Condition Colinearity Statistics
Index (Constant) Penn State State Percentage
Worry Anxiety of previous
Questionnaire penalties
Scored
Transform
Compute Variable
Ao apresentar a janela, atribuir um nome para a nova varivel e escolher o clculo matemtico
para efetuar a transformao. No caso, X1 ser transformada pelo logaritmo da base 10 somado a
qualquer constante (geralmente usa-se o 1).
Ao final do banco de dados, ser criada uma nova varivel com dados transformados a partir da
varivel anterior.
Janela 1.14: Nova varivel no HATCO
Verificar as indicaes de Tabachnick e Fidel (2000) e Hair e Cols (2005) quanto a transformaes
das variveis. Segundo esses autores, as transformaes mais indicadas so:
Problema Ao