You are on page 1of 55

ANALIZA GLAVNIH

KOMPONENATA
Analiza glavnih komponenata bavi se
tumaenjem strukture matrice varijanci i
kovarijanci skupa izvornih varijabli pomou
malog broja njihovih linearnih kombinacija.

Osnovni ciljevi analize su:

Redukcija podataka
Interpretacija
Premda je p ulaznih varijabli odabrano
kako bi se opisala varijablnost cijelog
sustava, esto je velik dio tog varijabiliteta
opisan malim brojem k glavnih
komponenata (k<p) .
Ako je to ispunjeno, k glavnih
komponenata sadri jednaku koliinu
informacija kao p ulaznih varijabli.
Stoga se poetni skup podataka koji se
sastoji od n mjerenja na p ulaznih varijabli
moe reducirati na skup od n mjerenja na
k glavnih komponenata.
Analiza glavnih komponenata otkriva
povezanost meu varijablama i stoga
dozvoljava interpretacije do kojih se inae
bez ovako provedene analize ne bi dolo.
Analiza glavnih komponenata esto slui
kao meukorak za provoenje drugih
metoda kao primjerice:
regresijske
klaster
ili faktorske analize.
Algebarski, glavne komponente su
linearne kombinacije p sluajnih varijabli .

Geometrijski su te linearne kombinacije
koordinatne osi novog koordinatnog
sustava dobivenog rotacijom oko starog s
glavnim komponentama kao koordinatnim
osima.
Kao to e se vidjeti, glavne komponente
reprezentiraju smjer maksimalnog
varijabiliteta i omoguuju jednostavniji opis
kovarijanne strukture.
Takoer e se vidjeti da glavne
komponente ovise samo o matrici varijanci
i kovarijanci (odnosno o korelacijskoj
matrici ) polaznih varijabli
p
X X X , , ,
2 1

Neka sluajni vektor
ima matricu varijanci i kovarijanci sa
svojstvenim vrijednostima (eigenvalues,
latent roots):

Promotrimo linearne kombinacije:
| |
p
X X X X , , ,
2 1
=
'
E
0
2 1
> > > >
p


p pp p p p p
p p
p p
X a X a X a X a Y
X a X a X a X a Y
X a X a X a X a Y
+ + + =
'
=
+ + + =
'
=
+ + + =
'
=

2 2 1 1
2 2 22 1 21 2 2
1 2 12 1 11 1 1
(1.1)
Odatle je:

p k i a a Y Y Cov
p i a a X a Var Y Var
k i k i
i i i i
, , 2 , 1 , ) , (
, , 2 , 1 ) ( ) (

= E
'
=
= E
'
=
'
=
(1.2)

Glavne komponente su one linearne
kombinacije
p
Y Y Y , , ,
2 1

ije su varijance to je mogue vee.

Prva glavna komponenta je linearna
kombinacija s najveom varijancom.
S obzirom da se varijanca
moe poveati mnoenjem vektora
konstantom, panja se ograniava na
vektore koeficijenata duljine jedan.
1 1 1
) ( a a Y Var E
'
=
Prva glavna komponenta = linearna kombinacija
X a Y
1 1
'
=

koja maksimizira
1 1 1
) ( a a Y Var E
'
= uz uvjet
1
1 1
=
'
a a
Druga glavna komponenta = linearna kombinacija
X a Y
2 2
'
=
koja maksimizira

2 2 2
) ( a a Y Var E
'
=
uz uvjet
1
2 2
=
'
a a
i
0 ) , (
2 1
=
' '
X a X a Cov
.
.
.
i-ta glavna komponenta = linearna kombinacija
X a Y
i i
'
=
koja maksimizira
i i i
a a Y Var E
'
= ) (
uz uvjet
1 =
'
i i
a a i
i k za X a X a Cov
k i
< =
' '
0 ) , (
TEOREM 1
Neka je matrica varijanci i kovarijanci pridruena
sluajnom vektoru:
| |
p
X X X X , , ,
2 1
=
'
Neka su parovi svojstvenih vrijednosti i svojstvenih vektora
matrice :
) , ( , ), , ( ), , (
2 2 1 1 p p
e e e
pri emu vrijedi
0
2 1
> > > > > >
p i

Tada je i-ta glavna komponenta dana s:
p i X e X e X e X e Y
p ip i i i i
, , 2 , 1
2 2 1 1
= + + + =
'
=
(1.3)
Uz takav izbor

p i e e Y Var
i i i i
, , 2 , 1 ) ( = = E
'
=
k i za e e Cov Y Y Cov
k i k i
= = E
'
= 0 ) ( ) , (
(1.4)
Ako su neke svojstvene vrijednosti meusobno jednake izbor
odgovarajuih koeficijenata vektora ei, dakle i Yi nije
jednoznaan.

Dokaz:
1
0
max =
'
E
'
=
a a
a a
a
(dostignuto ako je )
1
e a =
No , jer su svojstveni vektori normalizirani.

1
1 1
=
'
e e
Odatle je:

) ( max
1 1 1 1 1 1 1
1
1 1
1 1
1
0
1 1
Y Var e e e e
e e
e e
a a
a a
e
a
= =
'
= E
'
=
'
E
'
= =
'
E
'
=
=
=

0 ) , ( =
'
= E
'
=
k i k
e
k i k i
e e e e Y Y Cov
k k

Posljedica ovog teorema je da su glavne komponente


nekorelirane i da su im varijance jednake svojstvenim
vrijednostima matrice
.
E
TEOREM 2

DOKAZ:

kao posljedica ovog rezultata proporcija ukupne varijance
protumaene k-tom glavnom komponentom je:

Promatra se veliina svake komponente vektora
Komponenta mjeri vanost k-te varijable na i-toj
glavnoj komponenti, neovisno o drugim varijablama.
ik
e
( )
ip ik i i
e e e e
1
=
'
Koeficijent
ik
e
proporcionalan je koeficijentu linearne

korelacije izmeu
k i
X Y i
Neka su
X e Y
X e Y
X e Y
X e Y
p p
i i
'
=
'
=
'
=
'
=

2 2
1 1
glavne komponente dobivene iz
matrice varijanci i kovarijanci
Tada su:
p k i
e
kk
i ik
X Y
k i
, , 2 , 1 , ,
,
= =
o

keficijenti linearne korelacije izmeu


k i
X Y i
TEOREM 3
Ovdje su ) , ( , ), , ( ), , (
2 2 1 1 p p
e e e parovi svojstvenih
vrijednosti i svojstvenih vektora matrice .
DOKAZ:


Premda korelacije izmeu ulaznih
varijabli i glavnih komponenata esto
pomau pri interpretaciji komponenata,
one mjere samo univarijatni doprinos
jedne varijable na komponentu .
Koeficijenti linearne korelacije ne
pokazuju vanost individualne varijable
na u prisustvu drugih varijabli.
i
Y
i
Y
Glavne komponente izraunate
polazei od standardiziranih
varijabli



Glavne komponente mogu se izvesti pomou
svojstvenih vektora korelacijske matrice od X.
Svi se ranije izvedeni rezultati mogu primijeniti
uz odreena pojednostavljenja, s obzirom da su
varijance standardiziranih varijabli jednake 1.
Nastavit emo s oznakama za i-tu glavnu
komponentu i za par i-te svojstvene
vrijednosti i pridruenog i-tog svojstvenog
vektora matrice ili matrice .
i
Y
) , (
i i
e
E
TEOREM 4


DOKAZ

Primjer 1.1
Nakon snane oluje 1. veljae 1898. u Herman
Bumpus-ovom laboratoriju na Brown University
na Rhode Islandu prouavan je vei broj
(nastradalih) umiruih vrabaca.
Oko polovica ptica je uginula, a Bumpus je taj
dogaaj tretirao kao priliku da ispita moe li dati
potporu Darwinovoj teoriji prirodne selekcije.
Proveo je 8 morfolokih mjerenja na svakoj ptici,
a takoer je izmjerio njihovu teinu. Rezultati 5
mjerenja za ptice enskog spola predoeni su u
datoteci Ptice.xls

Na osnovi prikupljenih podataka Bumpus je zakljuio da
ptice koje su stradale, nisu stradale sluajno, nego stoga
jer su bile fiziki diskvalificirane, a da su one ptice koje
su preivjele, preivjele zato jer su imale odreene
fizike karakteristike. Posebno je utvrdio da su preivjele
ptice bile krae, manje teke, te da su imale dulje kosti
krila, dulje noge, dulju prsnu kost i vei modani
kapacitet od onih koje nisu preivjele. Takoer je
zakljuio da je proces selektivne eliminacije najjae
povezan s ekstremnom varijablom jedinke, bez obzira
na smjer varijacije. Zakljuio je da je jednako opasno biti
iznad odreenog standarda organske izvrsnosti, kao i
ispod tog standarda. Time je reeno da se dogodila
stabilizacija selekcije i da su jedinke s mjerenjima blie
prosjeku bolje preivjele od jedinki s mjerenjima daleko
od prosjeka.
U doba dok je Bumpus pisao svoj rad razvoj multivarijatnih metoda je
bio na poetku. 1897. je Francis Galton predstavio koeficijent korelacije
kao mjeru povezanosti meu varijablama. Tek 56 godina kasnije Harold
Hotelling je opisao metodu provoenja analize glavnih komponenata,
koja se moe primijeniti na Bumpusove podatke. Bumpus nije ak ni
raunao standardne devijacije, no njegove su podatke ponovo
analizirali brojni autori i openito potvrdili njegove zakljuke.

Odaberu li se opisani podaci kao primjer za ilustraciju multivarijatnih
metoda, javljaju se slijedea interesantna pitanja:

Na koji su nain povezana razliita mjerenja? Je li npr velika vrijednost
jedne varijable povezana s velikom vrijednosti druge varijable?
Jesu li sredine varijabli preivjelih i uginulih jedinki sitatistiki
signifikantno razliite?
Imaju li preivjele i uginule jedinke slini iznos varijacije za pojedine
varijable?

Primjer 1.1
Svojstvene vrijednosti korelacijske
matrice za 5 mjerenja na 49 enskih
vrabaca

X1=duljina tijela X2= opseg krila X3=duljina vrata i glave
X4= duljina humerusa (nadlaktina kost) X5=duljina prsne kosti
Primjenom programskog paketa
Statistica dobiveni su izmeu ostalih
slijedei rezultati:
Svojstvene vrijednosti i
pridrueni pokazatelji

Svojstvene vrijednosti su varijance glavnih
komponenata. Zbroj svojstvenih vrijednosti
iznosi 5. U drugom je stupcu izraunat
postotak ukupne varijance objanjen svakom
glavnom komponentom, a u 4. je dan
kumulativni niz postotaka iz drugog stupca.
Tako je npr prvom glavnom komponentom
objanjeno 72.18% ukupne varijance,
drugom 10.62%, odnosno s prve dvije
glavne komponente protumaeno je
82.80% ukupne varijance.
Drugi nain gledanja na relativnu vanost pojedinih
komponenata je usporeivanje njihovih varijanci s
varijancama ulaznih standardiziranih varijabli (koje
su jednake 1).
Prva glavna komponenta ima varijancu 3.609 puta
veu od varijance originalnih standardiziranih
varijabli, druga ima varijancu samo 0.531 od
varijance originalnih standardiziranih varijabli, a
preostale glavne komponente objanjavaju jo manji
dio varijacija. To potvruje vanost prve glavne
komponente u odnosu na ostale.

Svojstveni vektori korelacijske
matrice


Vrijednosti glavnih komponenata mogu
se koristiti za daljnje analize. One se
raunaju iz standardiziranih varijabli.
U slijedeoj tabeli tabeli navedene su sredine (Means) i
standardne devijacije (Std. Dev.) ulaznih varijabli:

Standardizirane vrijednosti mjerenja za prvog vrapca
su:

-0.32937
0.001374
20.8265) - (20.5 ) (
Z
0.05425
564286 . 0
) 4694 . 18 5 . 18 ( ) (
Z
0.177182
794753 . 0
) 4592 . 31 6 . 31 ( ) (
Z
0.724862
067822 . 5
) 3265 . 241 245 ( ) (
Z
-0.51165
709475 . 3
) 8980 . 157 156 ( ) (
55
5 15
15
44
4 14
14
33
3 13
13
22
2 12
12
11
1 11
11
= =

=
=

=
=

=
=

=
=

=
o

o

o

o

o

X
X
X
X
X
Z
Vrijednost prve glavne komponente za prvog vrapca je:

079 . 0 05452 . 0 470349 . 0
177182 . 0 452537 . 0 724862 . 0 461962 . 0 ) 51165 . 0 ( 450380 . 0
11
~
= Y
5 4 3 2 1 2
88494 . 0 169774 . 0 312784 . 0 299784 . 0 018718 . 0 Z Z Z Z Z Y + + + =
pa je vrijednost druge glavne komponente za prvog vrapca:

583 . 0 ) 32937 . 0 ( 88494 . 0 0552 . 0 169774 . 0
177182 . 0 312784 . 0 724862 . 0 299784 . 0 ) 51165 . 0 ( 018718 . 0
12
~ +
+ + + = Y
Vrijednosti (za prva etiri vrapca) su predoene u
slijedeoj tabeli:

Promatrane ptice pokupljene su nakon
snane oluje. Prvih 21 vrabaca se oporavilo i
preivjelo, a ostalih 28 je uginulo. Pitanje,
pokazuju li preivjeli i uginuli vrapci bilo
kakve razlike. Sa stajalita analize glavnih
komponenata moe se promatrati dijagram
rasipanja za 49 vrijednosti prve i druge
glavne komponente podijeljene u dvije
grupe: preivjeli (oznaeni plavim krugom) i
uginuli (oznaeni crvenim kvadratom):
Na dijagramu rasipanja se jasno vidi da
ptice s ekstremnim vrijednostima na
prvoj (a jednako tako i na drugoj
komponenti) nisu preivjele.
Broj glavnih komponenata
Uvijek se postavlja pitanje: Koliko glavnih komponenata
treba zadrati?
Ne postoji konani odgovor na to pitanje. Pomo pri
donoenju odluke moe pruiti scree-dijagram. To je
dijagram koji duinama povezuje toke u ravnini, ija je
apscisa jednaka rednom broju svojstvene vrijednosti, a
ordinata njenoj veliini. S obzirom da su svojstvene
vrijednosti poredane u padajui niz, dobivena izlomljena
linija je opadajua. Smatra se da je broj glavnih
komponenata koje ostaju odreen tokom na pregibu iza
koje su svojstvene vrijednosti male i koje se znaajno ne
razlikuju.

Ei genval ues of covari ance matri x
Acti ve vari abl es onl y
72,18%
10,62%
7,78%
6,22%
3,21%
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0
Ei genval ue number
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
E
i
g
e
n
v
a
l
u
e
U promatranom primjeru pregib je za
i=2. Svojstvene vrijednosti iza su male,
te se mogu zadrati prve dvije glavne
komponente.

You might also like