Professional Documents
Culture Documents
KOMPONENATA
Analiza glavnih komponenata bavi se
tumaenjem strukture matrice varijanci i
kovarijanci skupa izvornih varijabli pomou
malog broja njihovih linearnih kombinacija.
Osnovni ciljevi analize su:
Redukcija podataka
Interpretacija
Premda je p ulaznih varijabli odabrano
kako bi se opisala varijablnost cijelog
sustava, esto je velik dio tog varijabiliteta
opisan malim brojem k glavnih
komponenata (k<p) .
Ako je to ispunjeno, k glavnih
komponenata sadri jednaku koliinu
informacija kao p ulaznih varijabli.
Stoga se poetni skup podataka koji se
sastoji od n mjerenja na p ulaznih varijabli
moe reducirati na skup od n mjerenja na
k glavnih komponenata.
Analiza glavnih komponenata otkriva
povezanost meu varijablama i stoga
dozvoljava interpretacije do kojih se inae
bez ovako provedene analize ne bi dolo.
Analiza glavnih komponenata esto slui
kao meukorak za provoenje drugih
metoda kao primjerice:
regresijske
klaster
ili faktorske analize.
Algebarski, glavne komponente su
linearne kombinacije p sluajnih varijabli .
Geometrijski su te linearne kombinacije
koordinatne osi novog koordinatnog
sustava dobivenog rotacijom oko starog s
glavnim komponentama kao koordinatnim
osima.
Kao to e se vidjeti, glavne komponente
reprezentiraju smjer maksimalnog
varijabiliteta i omoguuju jednostavniji opis
kovarijanne strukture.
Takoer e se vidjeti da glavne
komponente ovise samo o matrici varijanci
i kovarijanci (odnosno o korelacijskoj
matrici ) polaznih varijabli
p
X X X , , ,
2 1
Neka sluajni vektor
ima matricu varijanci i kovarijanci sa
svojstvenim vrijednostima (eigenvalues,
latent roots):
Promotrimo linearne kombinacije:
| |
p
X X X X , , ,
2 1
=
'
E
0
2 1
> > > >
p
p pp p p p p
p p
p p
X a X a X a X a Y
X a X a X a X a Y
X a X a X a X a Y
+ + + =
'
=
+ + + =
'
=
+ + + =
'
=
2 2 1 1
2 2 22 1 21 2 2
1 2 12 1 11 1 1
(1.1)
Odatle je:
p k i a a Y Y Cov
p i a a X a Var Y Var
k i k i
i i i i
, , 2 , 1 , ) , (
, , 2 , 1 ) ( ) (
= E
'
=
= E
'
=
'
=
(1.2)
Glavne komponente su one linearne
kombinacije
p
Y Y Y , , ,
2 1
ije su varijance to je mogue vee.
Prva glavna komponenta je linearna
kombinacija s najveom varijancom.
S obzirom da se varijanca
moe poveati mnoenjem vektora
konstantom, panja se ograniava na
vektore koeficijenata duljine jedan.
1 1 1
) ( a a Y Var E
'
=
Prva glavna komponenta = linearna kombinacija
X a Y
1 1
'
=
koja maksimizira
1 1 1
) ( a a Y Var E
'
= uz uvjet
1
1 1
=
'
a a
Druga glavna komponenta = linearna kombinacija
X a Y
2 2
'
=
koja maksimizira
2 2 2
) ( a a Y Var E
'
=
uz uvjet
1
2 2
=
'
a a
i
0 ) , (
2 1
=
' '
X a X a Cov
.
.
.
i-ta glavna komponenta = linearna kombinacija
X a Y
i i
'
=
koja maksimizira
i i i
a a Y Var E
'
= ) (
uz uvjet
1 =
'
i i
a a i
i k za X a X a Cov
k i
< =
' '
0 ) , (
TEOREM 1
Neka je matrica varijanci i kovarijanci pridruena
sluajnom vektoru:
| |
p
X X X X , , ,
2 1
=
'
Neka su parovi svojstvenih vrijednosti i svojstvenih vektora
matrice :
) , ( , ), , ( ), , (
2 2 1 1 p p
e e e
pri emu vrijedi
0
2 1
> > > > > >
p i
Tada je i-ta glavna komponenta dana s:
p i X e X e X e X e Y
p ip i i i i
, , 2 , 1
2 2 1 1
= + + + =
'
=
(1.3)
Uz takav izbor
p i e e Y Var
i i i i
, , 2 , 1 ) ( = = E
'
=
k i za e e Cov Y Y Cov
k i k i
= = E
'
= 0 ) ( ) , (
(1.4)
Ako su neke svojstvene vrijednosti meusobno jednake izbor
odgovarajuih koeficijenata vektora ei, dakle i Yi nije
jednoznaan.
Dokaz:
1
0
max =
'
E
'
=
a a
a a
a
(dostignuto ako je )
1
e a =
No , jer su svojstveni vektori normalizirani.
1
1 1
=
'
e e
Odatle je:
) ( max
1 1 1 1 1 1 1
1
1 1
1 1
1
0
1 1
Y Var e e e e
e e
e e
a a
a a
e
a
= =
'
= E
'
=
'
E
'
= =
'
E
'
=
=
=
0 ) , ( =
'
= E
'
=
k i k
e
k i k i
e e e e Y Y Cov
k k
2 2
1 1
glavne komponente dobivene iz
matrice varijanci i kovarijanci
Tada su:
p k i
e
kk
i ik
X Y
k i
, , 2 , 1 , ,
,
= =
o
=
=
=
=
=
=
=
=
=
o
o
o
o
o
X
X
X
X
X
Z
Vrijednost prve glavne komponente za prvog vrapca je:
079 . 0 05452 . 0 470349 . 0
177182 . 0 452537 . 0 724862 . 0 461962 . 0 ) 51165 . 0 ( 450380 . 0
11
~
= Y
5 4 3 2 1 2
88494 . 0 169774 . 0 312784 . 0 299784 . 0 018718 . 0 Z Z Z Z Z Y + + + =
pa je vrijednost druge glavne komponente za prvog vrapca:
583 . 0 ) 32937 . 0 ( 88494 . 0 0552 . 0 169774 . 0
177182 . 0 312784 . 0 724862 . 0 299784 . 0 ) 51165 . 0 ( 018718 . 0
12
~ +
+ + + = Y
Vrijednosti (za prva etiri vrapca) su predoene u
slijedeoj tabeli:
Promatrane ptice pokupljene su nakon
snane oluje. Prvih 21 vrabaca se oporavilo i
preivjelo, a ostalih 28 je uginulo. Pitanje,
pokazuju li preivjeli i uginuli vrapci bilo
kakve razlike. Sa stajalita analize glavnih
komponenata moe se promatrati dijagram
rasipanja za 49 vrijednosti prve i druge
glavne komponente podijeljene u dvije
grupe: preivjeli (oznaeni plavim krugom) i
uginuli (oznaeni crvenim kvadratom):
Na dijagramu rasipanja se jasno vidi da
ptice s ekstremnim vrijednostima na
prvoj (a jednako tako i na drugoj
komponenti) nisu preivjele.
Broj glavnih komponenata
Uvijek se postavlja pitanje: Koliko glavnih komponenata
treba zadrati?
Ne postoji konani odgovor na to pitanje. Pomo pri
donoenju odluke moe pruiti scree-dijagram. To je
dijagram koji duinama povezuje toke u ravnini, ija je
apscisa jednaka rednom broju svojstvene vrijednosti, a
ordinata njenoj veliini. S obzirom da su svojstvene
vrijednosti poredane u padajui niz, dobivena izlomljena
linija je opadajua. Smatra se da je broj glavnih
komponenata koje ostaju odreen tokom na pregibu iza
koje su svojstvene vrijednosti male i koje se znaajno ne
razlikuju.
Ei genval ues of covari ance matri x
Acti ve vari abl es onl y
72,18%
10,62%
7,78%
6,22%
3,21%
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0
Ei genval ue number
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
E
i
g
e
n
v
a
l
u
e
U promatranom primjeru pregib je za
i=2. Svojstvene vrijednosti iza su male,
te se mogu zadrati prve dvije glavne
komponente.