You are on page 1of 55

Anlise de Dados em Cincias Sociais:

Multivariada

ANLISE EM COMPONENTES PRINCIPAIS


(ACP)
MADALENA RAMOS, HELENA CARVALHO, PATRCIA VILA
ISCTE-IUL, 2014-15

OBJETIVOS
A Anlise em Componentes Principais (ACP) um mtodo
multivariado de anlise fatorial que permite identificar
subconjuntos de variveis que esto muito correlacionadas
entre si e pouco associadas a variveis de outros subconjuntos.
Desta forma possibilita a partio das variveis de input em
subgrupos temticos distintos e permite:
A compreenso da estrutura das relaes entre as variveis
e a identificao das dimenses latentes;

A reduo da informao, atravs da constituio de


novas variveis (desejavelmente em nmero bastante
inferior aos das variveis de input), correspondentes s
dimenses temticas identificadas.

REQUISITOS PARA A REALIZAO DA ACP


As variveis devem ser mtricas (ou admitir serem tratadas
como tal);
Dimenso da amostra adequada. Podemos encontrar
diversas recomendaes na literatura que remetem para a
existncia de um nmero mnimo de observaes por
referncia ao nmero de variveis. Algumas referem que
devem existir pelo menos cinco vezes mais casos do que o
nmero de variveis;
Existncia de multicolinearidade (correlaes) entre as
variveis de input. A avaliao deste requisito pode ser feita
atravs da anlise da matriz de correlaes, da estatstica
de Kaiser-Meyer-Olkin (KMO) e do teste de Bartlett.

3
3

ESTATSTICA KMO (KAISER-MEYER-OLKIN)


A estatstica de KMO uma estatstica que nos d a
adequabilidade da matriz de input. Alguns autores propem a
seguinte grelha para a leitura do seu resultado:
KMO

ACP

0,9 1

Muito boa

0,8 0,9

Boa

0,7 0,8

Mdia

0,6 0,7

Razovel

0,5 0,6

< 0,5

Inaceitvel

Elizabeth Reis, Estatstica Multivariada Aplicada

Quanto mais elevado o KMO mais correlao existe entre as


variveis de input, pelo que as componentes so mais
consistentes. Logo, tanto mais adequada a realizao da ACP.
4
4

TESTE DE ESFERICIDADE DE BARTLETT


Permite testar a hiptese da matriz de correlaes entre as
variveis ser uma matriz identidade (matriz que tem a
diagonal principal igual unidade e os restantes elementos
nulos), ou seja, no existir correlao entre nenhum par de
variveis. Interessa rejeitar a hiptese nula.
H0: A matriz de correlaes uma matriz identidade
Ha: a matriz de correlaes no uma matriz identidade
Regra de deciso: p < 0,05, rejeita-se H0 e aceita-se Ha.

5
5

UMA APLICAO

P1. O que que espera do Algarve em termos de:

Mau

Excelente

Num estudo sobre o turismo algarvio pediu-se a uma amostra de turistas,


provenientes de diversos pases, que avaliassem as suas expectativas
relativamente a um conjunto de aspetos, utilizando para o efeito uma escala
de 5 pontos em que 1= Mau e 5 = Excelente.

1. Condies para descanso e relaxe


2. Clima
3. Paisagem Natural
4. Actividades Culturais (museus, galerias)
5. Atraces histricas
6. Tipicidade (lugares e pessoas)
7. Festivais e eventos especiais
8. Aprender novas coisas/enriquecimento pessoal
9. Ar puro
10. Entretenimento e animao nocturna
11. Recreao
12. Golfe
13. Outros desportos
14. Praias
15. Gastronomia

6
6

JUSTIFICAO PARA A REALIZAO DA ACP

Pretende-se analisar a interdependncia entre este


conjunto de indicadores, de forma a identificar as
dimenses que estruturam as expectativas dos turistas
relativamente ao Algarve e, posteriormente, reduzir a
informao atravs da construo de novas variveis
compsitas (em menor nmero que as iniciais).

Anlise em Componente Principais

Vejam-se alguns resultados descritivos prvios:

Expectativas face ao turismo algarvio

Expectativas face ao turismo algarvio

Expectativas face ao turismo algarvio

10

Expectativas face ao turismo algarvio

11
11

RESULTADOS DA ACP- SPSS


Matriz de correlaes input para a ACP

12

Nota: este nico quadro onde possvel apurar qual o nmero de observaes em
anlise. O SPSS tem selecionada partida a opo listwise para tratar as categorias
identificadas como no respostas. Ou seja, exclui da anlise os casos que no
tiverem resposta em todas as variveis envolvidas na anlise.
13

Vejamos a adequabilidade dos dados para a realizao da ACP:

KMO = 0,863 , ou seja, uma boa adequabilidade.


2
Teste de Bartlett: (105) 3508,378, p 0,000.

Como p < 0,001, rejeita-se H0 e aceita-se que a matriz de correlaes


no uma matriz identidade.

14

14

O QUE SO AS COMPONENTES

PRINCIPAIS?

Cada componente uma composio (ou combinao)


linear de todas as variveis iniciais.

So calculadas tantas componentes quantas as variveis


iniciais.
As componentes principais so calculadas por ordem
decrescente
de
importncia
relativamente
sua
contribuio para a explicao da varincia total dos
dados. Isto , a primeira componente a combinao linear
que mais explica da varincia total dos dados originais, a
segunda componente a que explica mais do que ficou por
explicar com a primeira e assim sucessivamente. A ltima
componente a que menos contribui para a explicao da
varincia total.
15

15

VARINCIA TOTAL
Quando aplicamos a ACP matriz de correlaes, as
componentes principais vo ser calculadas a partir de
variveis estandardizadas com mdia zero e varincia
unitria.
Assim, a varincia total dos dados vai ser igual ao nmero
de variveis envolvidas na anlise multiplicado por um.
VT = 15 1

Varincia unitria

N de variveis

No nosso exemplo: VT = 15 1 = 15

16

16

TABELA DA VARINCIA

TOTAL EXPLICADA

Quadro com os valores prprios (eigenvalues) de cada uma das


componentes, percentagem da varincia total explicada por cada uma
delas e percentagem de varincia acumulada

= 15

17

17

EXTRAO DAS COMPONENTES


No caso em anlise, temos 15 combinaes lineares das
variveis originais que explicam na totalidade a varincia dos
dados, por ordem decrescente de importncia quanto ao
seu contributo.
Sendo um dos objetivos da anlise sumariar a informao,
pretende-se trabalhar no com as 15 componentes, mas
com um nmero relativamente reduzido.
Assim, na fase da extrao so retidas apenas algumas
componentes, de acordo com o(s) critrio(s) escolhido(s)
pelo investigador e que se consideram em nmero suficiente
e adequado para representar os dados iniciais.

Quantas componentes extrair?


18

18

CRITRIOS DE EXTRAO

DAS COMPONENTES

1. Critrio de Kaiser: extrao (ou seleo) das componentes


com valor prprio superior unidade;
Valor Prprio (Eigenvalue): cada valor prprio quantifica a
parte da varincia total que explicada por cada uma
das componentes. uma medida da importncia de cada
uma das componentes.
2. Critrio da percentagem de varincia explicada: alguns
autores falam em reter (ou extrair) as componentes
necessrias para explicar mais de 70% da varincia total,
no entanto vulgar considerar-se satisfatria uma soluo
que explique 60% da varincia total;
3. Critrio a priori: o investigador sabe partida quantas
componentes extrair.
19

19

4. Critrio do Scree Test (sugerido por Cattel): deciso


tomada a partir da representao grfica dos valores
prprios (Scree plot). Dever-se-o considerar as
componentes at ao ponto em que a linha (curva) do
grfico tende a ficar paralela ao eixo horizontal;

20

20

Qual ser a melhor soluo?

=
= 15

= 7,973

= 7,973

Nota: A percentagem da varincia total explicada por cada componente (% Variance) obtm-se

dividindo o valor prprio da componente pela varincia total e multiplicando por 100. Veja-se para a
componente 1:

4,940
100 = 32,93
15
21

Para a tomada de deciso, dever-se- tambm considerar o valor


das comunalidades.

Comunalidade inicial varincia de cada varivel original explicada


por todas as componentes principais.
Comunalidade extrada - varincia de cada varivel original
explicada pelas componentes principais que integram a soluo em
anlise.
As
comunalidades
baixas
indicam que as variveis esto
mal representadas na soluo
em anlise, isto , so mal
explicadas pelas componentes
extradas.
= 15

= 7,973

Consideram-se comunalidades
baixas valores inferiores a 0,5.
Quando as comunalidades so
muito baixas (prximas de zero)
pode-se considerar retirar as
variveis nessa situao.

22

22

INTERPRETAO

DAS COMPONENTES

Matriz das componentes (ou matriz dos loadings)

Matriz utilizada
para interpretar
as componentes
extradas

Loadings: pesos das variveis iniciais (estandardizadas) em cada componente, ou peso de


cada componente para cada varivel, ou correlao entre a varivel e a
componente. Alguns autores admitem como valor mnimo I0,3I ou I0,4I (Maroco,
2010; Field, 2009), todavia, muito frequente considerarem-se como mais
representativas as variveis que em cada componente apresentarem valores
iguais ou superiores a I0,5I. comum serem essas variveis as que so escolhidas
23 23
para definir e interpretar cada componente.

Rotao das componentes


A fase da rotao (opcional) tem como objectivo facilitar a
interpretao das componentes principais.
Tem por objectivo maximizar a contribuio de uma varivel
numa nica componente e, por consequncia, minimizar
essa contribuio nas restantes.
Pode ser de dois tipos:
Ortogonal garante que as componentes principais
rodadas permanecem independentes entre si,
ou seja, no correlacionadas.
Oblqua as componentes passam a estar correlacionadas
entre si.
24

24

Rotao das componentes

CP2

Rotao ortogonal

CP2 aps a rotao

CP1

Rotao oblqua

CP1 aps a rotao

25

25

EXTRAO

E ROTAO DAS COMPONENTES

Trs fases

=
= 15

= 7,973

= 7,973

= 7,973

26

26

MATRIZ DAS COMPONENTES COM ROTAO ORTOGONAL


Com a rotao obtm-se
uma estrutura mais
simplificada, uma vez
que cada varivel tende
a ter um loading elevado
numa nica
componente.

Atendendo ao contedo
temtico das variveis
mais representativas em
cada componente,
pode ensaiar-se uma
designao para as
componentes.
Por vezes ocorrem
situaes em que no
possvel interpretar uma
dada com- ponente,
podendo optar-se pela
designao indefinida.

27

MATRIZ DAS COMPONENTES COM ROTAO OBLQUA


Quando se escolhe um mtodo de rotao oblquo, obtm-se
duas matrizes: a Pattern Matrix e a Structure Matrix.

28
28

Pattern Matrix Os loadings desta matriz representam a contribuio


nica de cada varivel para cada componente. a matriz que
interpretamos para definir as componentes.

Structure Matrix Os loadings representam a correlao simples entre


as variveis e as componentes. Contm tambm as correlaes
entre as componentes. Por esse motivo a sua interpretao no
muito simples.

ainda apresentada
uma matriz com as
correlaes entre as
componentes aps
a rotao.

29

29

CLCULO

DA COMUNALIDADE

GASTRONOMIA

(antes da rotao)

(0,561)2 (0,286)2 (-0,095)2 0,405


30

CLCULO

DA COMUNALIDADE

GASTRONOMIA

(aps a rotao)

(0,228)2 (0,548)2 (0,230)2 0,405

Nota: a rotao no altera as comunalidades.

31

31

CLCULO

DO VALOR PRPRIO

COMPONENTE 1

(antes da rotao)

(0,742)2 (0,717)2 (0,673)2 (0,671)2 (0,643)2 (0,626)2 (0,561)2 (0,536)2


(0,498)2 (0,495)2 (0,470)2 (0,419)2 (0,473)2 (0,390)2 (0,548)2 4,940
32

CLCULO

DO VALOR PRPRIO

COMPONENTE 1

(aps a rotao)

(Nota:
Nesta
tabela
omitiu-se
a
informao relativa fase da extrao).

(0,845)2 (0,819)2 (0,780)2 (0,625)2 (0,596)2 (0,008)2 (0,129)2 (0,171)2


(0,079)2 (0,385)2 (0,228)2 (0,134)2 (-0,001)2 (0,378)2 (0,365)2 3,287

Nota: a rotao altera os valores prprios.


33
33

CONSTITUIO

DAS NOVAS VARIVEIS

A. Via clculo dos scores fatoriais


Matriz dos coeficientes para os scores fatoriais

Aps a extrao das


componentes possvel
calcular para cada
indivduo os seus scores
fatoriais, isto , os seus
valores em cada
componente. Para isso
so necessrias as suas
respostas s variveis
originais (estandardizadas) e os coeficientes
que ponderam cada
uma dessas variveis.

34

CONSTITUIO

DAS NOVAS VARIVEIS

A. Via clculo dos scores fatoriais

Para calcular o score fatorial


de
um
indivduo
na
componente 1, por exemplo,
ter-se- de efetuar o seguinte
clculo:

-0,100*Z1+(,050)*Z2+0,079*Z3+0,302*Z4+0,312*Z5+0,201*Z6+0,292*Z7+
0,172*Z8+(-0,049)*Z9+ 0,078*Z10+0,044*Z11+(-0,128)*Z12+(-0,091)*Z13+
(-0,147)*Z14 +(-032)*Z15
35

Veja-se na base de dados o caso assinalado:

Substituindo na expresso anterior os valores de resposta aps estandardizao, o score fatorial


deste indivduo na componente 1 ser:

-0,100*0,860+(-0,050)*0,792+0,079*(-1,266)+0,302*(-2,256)+0,312*(-2,315)+0,201(-0,979)+0,292*(-2,000)+
+0,172*(-2,628)+(-0,049)*(-0,332)+0,078*0,311+0,044*(-0,747)+(-0,128)*0,099+(-0,091)*0,357+
+(-0,147)*(-0,644)+(-0,032)*(-0,237 = -2,79087

CONSTITUIO

DAS NOVAS VARIVEIS

B. Via Summated Scales (ndices)


H analistas que optam por, em vez de guardar os scores factoriais,
criar novas variveis (summated scales) atravs do clculo da mdia
das variveis que mais pesam em cada uma das componentes
(aquelas que tm os loadings mais elevados). Ao fazer isto, para as
novas variveis contribuem apenas as variveis que mais se destacam
nas componentes, ao invs do que acontece quando se trabalha
com os scores fatoriais, onde as novas variveis tm o contributo de
todas as iniciais. conveniente calcular uma medida de consistncia
interna (alpha de Cronbach).
Tendencialmente, as concluses so iguais, dado que o clculo das
novas variveis atravs da mdia feito com as variveis mais
importantes em cada componente. Logo, as que ficam de fora so
aquelas que se correlacionam de forma menos importante com a
componente e que menos contribuem para a sua definio.
37

37

Para o exemplo em anlise, as componentes seriam, ento,


construdas atravs da mdia das respostas dadas s variveis
assinaladas:

38

38

ALPHAS DE CRONBACH

Componente 1:

Componente 2:

Dados os valores dos alfas poder-se-


considerar a hiptese de construir as
novas
variveis
compsitas
(representativas das componentes)
atravs da mdia das respostas dadas
nas variveis mais importantes em
cada componente.

Componente 3:

39

39

Comparao: scores fatoriais e ndices

Componente 1:

40

40

Comparao: scores fatoriais e ndices

Componente 2:

41

41

Comparao: scores fatoriais e ndices

Componente 3:

42

42

Comparao: scores fatoriais e ndices

43

43

APRESENTAO

DE RESULTADOS

A apresentao dos resultados da ACP deve incluir:


Apresentao e anlise descritiva das variveis originais (o que foi
medido, como foi medido, como foram as respostas obtidas);
Referncia adequabilidade da ACP (KMO ou teste de Bartlett)
(Pode ser feito em nota de rodap);
Quadro sntese onde constam as componentes retidas (com a
respetiva designao), a percentagem de varincia explicada
por cada uma delas e as contribuies de cada varivel para
cada componente (loadings) (ver slide seguinte);

A interpretao de cada componente retida;


Sugere-se ainda a comparao das componentes, tentando
perceber a sua importncia relativa para os indivduos (por
exemplo atravs das mdias, quando tal for possvel) bem como
a realizao de cruzamentos com outras variveis que paream
pertinentes (sexo, habilitaes, idade,), no sentido de apurar a
existncia de eventuais diferenas de posicionamento.
44

44

Componentes das expectativas acerca do turismo algarvio


(Via Anlise de Componentes Principais, com rotao Varimax)
Componentes

Aspectos

HistricoCultural

Natureza

Desporto e
Entretenimento

Atraces histricas

0,845

0,182

0,083

Actividades Culturais (museus, galerias)

0,819

0,122

,0143

Festivais e eventos especiais

0,780

0,063

,0181

Tipicidade (lugares e pessoas)

0,625

0,290

,0084

Aprender novas coisas/enriquecimento pessoal

0,596

0,252

,0245

Praias

0,008

0,677

,0231

Clima

0,129

0,646

-0,053

Ar puro

0,171

0,636

0,070

Condies para descanso e relaxe

0,079

0,603

0,199

Paisagem Natural

0,385

0,556

-0,093

Gastronomia

0,228

0,548

0,230

Outros desportos

0,134

0,185

0,802

-0,001

0,077

0,795

Recreao

0,378

0,155

0,616

Entretenimento e animao nocturna

0,365

0,049

0,469

Golfe

Percentagem varincia explicada

21,9%

16,8%

14,4%
45

45

ANLISE

DE RESULTADOS: ALGUNS EXEMPLOS

Qual a componente relativamente qual as expectativas so mais


elevadas?
Expectativas acerca do turismo algarvio

46

46

ANLISE

DE RESULTADOS: ALGUNS EXEMPLOS

Tero os turistas masculinos e femininos diferentes expectativas


face ao turismo algarvio?
Para responder a esta questo podero ser feitos testes t para a
igualdade de mdias. Veja-se o output:

47

47

ANLISE

DE RESULTADOS: ALGUNS EXEMPLOS

A anlise do resultado dos testes permite concluir que as turistas tm

expectativas

significativamente

mais

elevadas

do

que

os

homens

relativamente componente Histrico-Cultural (t(1101)=-2,113, p=0,035) e da


Natureza (t(1408)=-1,254, p=0,000).

48

48

ANLISE

DE RESULTADOS: ALGUNS EXEMPLOS

Tero os turistas de diferentes pases expectativas distintas face ao


turismo algarvio?
Expectativas acerca do turismo algarvio segundo o pas de residncia

49

49

ANLISE

DE RESULTADOS: ALGUNS EXEMPLOS

Anlise de Varincia

50

ANLISE

DE RESULTADOS: ALGUNS EXEMPLOS

Anlise de Varincia (post-hoc)

51

Veja-se o exemplo com a extrao de 4 componentes

52

53

54

Interpretao:

55

You might also like