You are on page 1of 46

1

Pedzpracovn dat
Ing. Petr Honzk, Ph.D.
honzikp@feec.vutbr.cz
2
Obecn principy
generalizace je dosaeno sniovnm stup volnosti,
tedy tak sniovnm potu vstupnch promnnch
ukazatelem je nap. vzjemn korelace promnnch
minimln pomr potu zznam N a potu atribut l
by ml bt roven 20 (N/l > 20 orientan pomcka)
odhad chyby modelu je tm pesnj, m je uveden
pomr vt
dleit je u jednotlivch veliin velk odchylka
prmr (mezi tdami) a mal rozptyl (uvnit tdy)
?: ?: jak dosahujeme generalizace v f jak dosahujeme generalizace v f zi p zi p edzpracov edzpracov n n dat dat
3
VBR
VELIIN
GENEROVN
VELIIN
OK?
NE
ANO
PPRAVA/FILTR
TRANS?
NE
ANO
TRANSFORMACE
VELIIN
Ideov schma pedzpracovn dat
UM
DATA
INFORMACE
I.
chybjc data
zmna typu
anonymizace
normalizace
odlehl data

III.
nhodn generovn
heuristick generovn
diference

II.
vhovn veliin
kombinace veliin
vbr veliin

IV.
PCA
Fourier
NN

Nakresli ideov Nakresli ideov sch sch ma p ma p edzpracov edzpracov n n dat dat
4
I. PPRAVA
pipraven data lze pmo pout jako vstup do model (nezpsob
funkn selhn)
II. VBR VELIIN
z dostupnch |A| veliin vybrat ty, kter nesou nejvce informace
(skalrn, vektorov)
III. GENEROVN
z dostupnch dat vytvoit funknmi pravami a vzjemnmi
kombinacemi nov veliiny (nhodn, clen, heuristick)
IV. TRANSFORMACE
clen redukce potu veliin pi maximlnm monm zachovn
nesen informace (PCA, NN) nebo nov interpretace dat
Komponenty pedzpracovn dat
5
VBR
VELIIN
GENEROVN
VELIIN
OK?
NE
ANO
PPRAVA/FILTR
TRANS?
NE
ANO
TRANSFORMACE
VELIIN
I. PPRAVA DAT
UM
DATA
INFORMACE
I.
chybjc data
zmna typu
anonymizace
normalizace
odlehl data

I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
6
Zkladn operace
Popis dat (in/out, typ + datum, text, )
Petypovn
kvalitativn na binrn
kvalitativn na diskrtn (dummy variables)
kvantitativn na binrn (prh, kritick hodnota)
Zsah do dat
normalizace
odlehl hodnoty (ouliers)
chybjc hodnoty
uml zaumn
Ostatn
anonymizace
ID
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
7
Typy normalizace
linern (typick intervaly
0;1, -1;1)
stedn hodnotou a rozptylem
(pi normlnm rozloen 99% v
intervalu -3;3)
logitovou funkc
(interval (0;1) nebo (-1;1))
min max
min
X X
X x
x
norm

=
? ?v jak v jak m intervalu bude prom m intervalu bude prom nn nn normalizovan normalizovan st st edn edn hodnotou a rozptylem;pro hodnotou a rozptylem;pro ? ?
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
( )
s r
x x
x
s
x x
x
x x
N
s x
N
x
i
norm
i
norm
N
i
i
N
i
i
.
1
1 1
1
2
1

= =

= =
y
norm
e
x

+
=
1
1
8
Chybjc data, odlehl prvky
Chybjc data
v ppad dostatenho potu dat odstranit
v ppad nedostatenho potu dat je zkladn variantou nahrazen
prmrem z ostatnch hodnot, ppadn modus
existuj lep varianty vychzejc z rozloen dat a podobnosti s
existujcmi kompletnmi zznamy, zde je vak riziko vytvoen
idealizovan neexistujc zvislosti.
Outliers
prvky lec daleko od ostatnch dat
zpravidla se uruje v nsobcch rozptylu (nap. dle ne 3s od prmru)
na outliers je citliv zejmna MN
?: ?: co jsou to co jsou to outliers outliers
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
9
Outliers princip pklad 1/2
Prolote nsledujc data linern funkc
1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
X
Y
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
10
Outliers princip pklad 2/2
Vsledky pi Cross Validation = 2 (modr, zelen)
2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
9
Chyba pri uceni s Outliers =67.9756
X
Y
2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
9
10
Chyba pri uceni bez Outliers =61.976
X
Y
! Outliers NEPOUITY pi trnovn, POUITY pi testovn !
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
11
VBR
VELIIN
GENEROVN
VELIIN
OK?
NE
ANO
PPRAVA/FILTR
TRANS?
NE
ANO
TRANSFORMACE
VELIIN
II. VBR VELIIN
UM
DATA
INFORMACE
II.
vhovn veliin
kombinace veliin
vbr veliin

I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
12
Typy vbru veliin
JEDNOTLIV VELIINY
Vhovn jednotlivch veliin
t-Test
ROC analza
scatter matrix
Vbr konkrtnch veliin
KOMBINACE VELIIN
skalrn
kov korelace
vektorov
dobedn/zptn selekce
?:co testujeme (jakou nulovou hypot ?:co testujeme (jakou nulovou hypot zu) p zu) p i pou i pou it it t t- -testu? testu?
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
13
T-test: je veliina X separabiln? (1/5)
Testujeme hypotzu o nulovm rozdlu skutench stednch
hodnot
A
a
B
veliin X
A
a X
B
H
0
:
Pedpokldme
normln rozloen veliin X
A
a X
B
rozptyl nen statisticky vznamn odlin (F-test, H
0
: s
A
=s
B
)
Vyhodnocen testu na dan hladin vznamnosti
zamtnut H
0
a pijet H
1
, stedn hodnoty se vznamn li, veliina
me mt dobr separabiln vlastnosti, lze dle vyut
nezamtnut H
0
a tedy i jej pijet, zejm nevhodn separabiln
vlastnosti, veliinu nepouijeme
?:co testujeme (jakou nulovou hypot ?:co testujeme (jakou nulovou hypot zu) p zu) p i pou i pou it it t t- -testu? testu?
0 : =
B A
x x x
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
14
T-test: vpoet (2/5)
Vpoet: stanov se koeficient q, jeho hodnota je porovnna s
hodnotou v tabulce t-rozloen pi stupni volnosti N
A
+N
B
-2 na
zvolen hladin vznamnosti .
Interpretace: pokud je hodnota q vy ne pslun hodnota
v tabulce, tvrdme, e hypotzu H
0
lze zamtnout na hladin
vznamnosti a pijmme alternativn hypotzu H
1
.
( )
B A
z
B A
N N
s
x x
q
1 1
+

=
( ) ( )
2
1
2
1
2
+
|
|

\
|
+
=

= =
B A
N
i
B i
N
i
A i
z
N N
x x x x
s
B A
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
15
T-test: pklad (3/5)
Rozhodni, zda je veliina X vhodn (separabiln z pohledu
klasifikace) pro predikci vstupn binrn veliiny G.
X
G
B B B B B B B B B B A A A A A A A A A A
3,6 3,3 3,1 2,8 3,4 3 3,4 3,1 3,6 3,2 3,7 3,6 3,8 4,1 3,5 3,4 4,1 3,9 3,7 3,5
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
16
T-test: pklad (4/5)
F-test: H
0
: s
A
=s
B
nezamtnuta, p(H
0
)=0,87; (Excel, FTEST)
T-test (Matlab):
[H,P,CI,STATS] = TTEST2(xA,xB,0.05,0)
%prijimame alternativni hypotezu H1
H = 1
%pravdepodobnost vyberu pri platnosti H0
P = 4.7769e-004
%tstat - tabelovana hodnota, df - stupne volnosti
STATS = tstat: 4.2537 df: 18
Hypotzu H
0
na hladin vznamnosti =0,05 zamtme,
veliina m nadjn separabiln vlastnosti.
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
17
T-test: dal informace (5/5)
Veliina nem normln rozloen, pak lze pout
neparametrick testy - Wald-Wolfofiz runs test, Mann-Whitney
U test, Kolmogorov-Smirnov two-sample test
Vcerozmrn klasifikace pouv se ANOVA test,
neparametrickou alternativou je Kruskal Wallis analysis of
ranks, Median test
Zvisl vs. nezvisl vzorky
o nezvislm vzorku hovome, pokud test provdme v rmci jedn
veliiny, co je ppad mry separability promnn (t-test for independet
samples)
o zvislm vzorku hovome, pokud posuzujeme rozdl prmr mezi
rznmi veliinami (t-test for dependent samples)
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
18
ROC kivka (1/5)
ROC (Receiver Operating Characteristic) je diskrtn
charakteristika. Kad jej bod je dn dvma hodnotami FPR
(1-senzitivita) a TPR (specificita).
typoln tabulka zobrazuje poty spn (TP, TN) a
nespn (FP, FN) klasifikovanch prvk (binrn klasifikace).
True
Negative
(TN)
False
Negative
(FN)
False
Positive
(FP)
True
Positive
(TP)
Skuten vstup
Predikce
TN FP
TN
a specificit
TN FP
FP
a specificit 1 FPR
FN TP
TP
a senzitivit TPR
+
=
+
= =
+
= =
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
19
AUC plocha pod ROC (2/5)
AUC (Area Under ROC) je plocha pod ROC kivkou.
AUC = 0,5 jedn se o jev nhodn
AUC >0,8 (<0,2) hovome o signifikantn me asociace (separability)
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
FPR
T
P
R


0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
FPR
T
P
R


Jeden bod v grafu odpovd jednomu nastaven modelu. Soubor vech
monch klasifiktor vytv kivku ROC.
?: ?: emu odpov emu odpov d d jeden bod v ROC grafu? jeden bod v ROC grafu?
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
20
AUC zkladn vlastnosti (3/5)
AUC vyjaduje neparametrickou mru asociace (separability),
tedy jakou mrou asociuje veliina X veliinu Y.
Nezvisl na rozloen veliin, jej hodnota vak nenese
absolutn informaci, je to mra (pracuje s veliinami jako s
ordinlnmi, je-li tedy X kvantitativn, ztrc informaci).
Binrn klasifikace AUC lze snadno vypotat, pedstavuje
plochu pod dvourozmrnou kivkou.
Vcerozmrn klasifikace vpoet vzjemnch AUC mezi
vemi dvojicemi vstupnch td (4 tdy = 6 vpot AUC)
Obdobn parametry AUC lze zskat pravou charakteristik:
Somersovo D
xy
, Gini index, Mann-Whitney U
?: ?: co vyjad co vyjad uje hodnota AUC? Jak je rozd uje hodnota AUC? Jak je rozd l mezi daty maj l mezi daty maj c c AUC=0,8 a AUC=0,2 AUC=0,8 a AUC=0,2
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
21
AUC vpoet (4/5)
Binrn klasifikace vypotme nap. podle nsledujcho
vztahu (existuje jich vce)
Kde n
+
/n
-
odpovd potu prvk klasifikovanch jako pozitivn/negativn, x
j
+
/x
k
-
uruje velikost j-tho/k-tho prvku vstupn veliiny a g(x) je heavisidova funkce
(pro: x<0 je g(x)=0; x=0 je g(x)=0,5; x>0 je g(x)=1)
Vcerozmrn klasifikace vytvome kombinace vech pr
vstupnch td, urme jejich AUC a ty nakonec zprmrujeme
kde AUC(c
i
,c
j
) je hodnota AUC z vbru prvk spadajcch pouze do td c
i
a c
j
( )

+
= =
+
+
=
n
j
n
k
k j
x x g
n n
AUC
1 1
1
( )
( )

=
C
j i j i
j i
c c AUC
C C
AUC
: ,
,
1
2
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
22
AUC pklad (5/5)
vektor x

pro tdu : (1,2,2,4,4,6); | x

| = 6 = n
+
vektor x

pro tdu o : (2,3,5,6,6); | x

| = 5 = n
-
Z pohledu mry separability (asociace) tedy nebudeme
uvedenou veliinu povaovat za vhodnou.
( ) 7 , 0
30
21
6 5
1
5
1
6
1
= =

= =

j k
o
k j
x x g AUC
Rozhodni, zda je uveden vektor vhodn pro dal modelovn.
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
23
Scatter matrix (1/4)
mra separability
vhodou metody je nezvislost na typu rozloen
princip metody spov v porovnvn rozptyl uvnit jednotlivch
td a rozptylu globlnho (v rmci celho defininho oboru)
jednorozmrn prostor odpovd situaci, kdy chceme posoudit mru
separability jedn veliiny; pak pracujeme s rozptyly a hlavnm
ukazatelem je FDR (Fishers discriminant ratio)
vcerozmrn vstupn prostor nepouv rozptyl ale kovariannch
matic (znaeny S
i
), pak se pouv ukazatel J
1
, J
2
a J
3
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
24
Fisherv diskriminan pomr FDR (2/4)
( )

=
+

=
M
i
M
i j
j i
j i
FDR
1
2 2
2


FDR (Fishers discriminant ratio) je
mra separability odvozen z metody scatter matrix
lze pout v ppad jedn vstupn veliiny x a klasifikace do
libovolnho potu td.
hlavn vhodou je nezvislost na typu rozloen veliiny x
mra separability je mrn velikosti FDR (m vt, tm
lep)
?: ?: co je to FDR ( co je to FDR (Fisher Fisher s s discriminant discriminant ratio ratio)? )?
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
25
S
1
S
2
S
3
Vcerozmrn scatter matrix (3/4)
(zjednoduen 1-rozmrn ilustrace principu)
rozptyl (kovariance) uvnit jednotlivch td (S
w
)
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
S
avg1
S
avg3
S
avg2
rozptyl (kovariance) mezi jednotlivmi tdami (S
b
)
Definice matic S
w
, S
b
a S
m S
m
= S
w
+ S
b
( )( )

= = =
= = =
M
i
i i
M
i
T
i i i b
M
i
i i w
P P S S P S
1
0
1
0 0
1

26
Mry separability (4/4)
{ }
{ }
{ }
m w m w
w
m
w
m
S S trace J S S
S
S
J
S trace
S trace
J
1
3
1
2 1

= = = =
Mry separability se odvozuj na zklad pomr jednotlivch
kovariannch matic. Typick jsou nsledujc parametry:
funkce trace je souet prvk na hlavn diagonle matice (determinant
matice je roven souinu vlastnch sel matice, souet prvk na hlavn
diagonle pak soutu vlastnch sel matice)
vhodou ukazatel J
2
a J
3
je jejich nezvislost na typu rozloen vstupn
veliiny
interpretace: m je ukazatel vt, tm je separabilita vt; nenese
absolutn informaci
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
27
Konen vbr veliin
Ve uveden metody umouj vhovn
jednotlivch veliin
Vbr se provd jako
pedem dan poet nejlepch podle vhy
selekce vech s vhou vt ne dan mez
Existuj algoritmy, kter takto vytvoen vhy vyuij
pi tvorb modelu
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
28
Typy vbru veliin
JEDNOTLIV VELIINY
Vhovn jednotlivch veliin
t-Test
ROC analza
scatter matrix
Vbr konkrtnch veliin
KOMBINACE VELIIN
skalrn
kov korelace
vektorov
brutal force
dobedn/zptn selekce
plovouc prohledvn,
Vyjmenujte z Vyjmenujte z kladn kladn metody vb metody vb ru veli ru veli in p in p i p i p edzpracov edzpracov n n dat. dat.
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
29
Selekce pomoc kov korelace
kov korelace
ij
mezi veliinami x
i
a x
j
vbr veliin
podle kritria C vyber nejlep veliinu C(i
1
) (nap. dle AUC)
podle nsledujcho vztahu k n vyber do pru dal veliinu
ke dvojici, trojicivyber dal veliinu podle vztahu
kde
i
jsou vhy vyjadujc relativn mru dleitosti
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace


= =
=

=
N
n
nj
N
n
ni
N
n
nj ni
ij
x x
x x
1
2
1
2
1

( ) { }
j i
j
j C i
1
2 1 2
max arg =
( )
)
`


=
1
1
2
1
1
max arg
k
r
j i
j
k
r
k
j C i

30
Brutal force selekce
je dno |A| atribut a kritrium kvality predikce C(A
i
,,A
k
)
clem je vybrat nejlep kombinaci k atribut
kritriem kvality me bt nap. njak typ modelu spolen s
metodou odhadu chyby (nap. Cross-validation)
poet kombinac bez opakovn je dn vztahem:
mme-li nap. 40 veliin a chceme vybrat nejlepch 10, je
zapoteb provst cca. 9.10
8
vpot
nalezen optimln kombinace je garantovno
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
( )! !
!
k A k
A
k
A
kombinac

=
|
|

\
|
=
31
Zptn (backward) selekce
je dno |A| atribut a kritrium kvality predikce C(A
i
,,A
k
)
kritriem kvality me bt nap. njak typ modelu spolen s
metodou odhadu chyby (nap. Cross-validation)
Vyber k veliin:
vypoti kritrium C pro vechny atributy |A|
vypoti kritrium pro vechny kombinace s |A|-1 veliinami a vyber tu s
nejvt hodnotu
pokrauj odebrnm a zbude k veliin
mme-li nap. 40 veliin a chceme vybrat nejlepch 10, je
zapoteb provst pouhch 776 vpot
nalezen optimln kombinace nen garantovno
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
32
Dopedn (forward) selekce
je dno |A| atribut a kritrium kvality predikce C(A
i
,,A
k
)
kritriem kvality me bt nap. njak typ model spolen s
metodou odhadu chyby (nap. Cross-validation)
Vyber k veliin:
vypoti kritrium C pro vechny jednotliv atributy |A| a vyber jeden
nejlep
vypoti kritrium C pro vechny dvojice tvoen nejlepm atributem z
pedelho kroku a jednm dalm, vyber pr s nejvtm C
pokrauj s pidvnm atribut a bude vybrno k veliin
mme-li nap. 40 veliin a chceme vybrat nejlepch 10, je
zapoteb provst pouhch 355 vpot
nalezen optimln kombinace nen garantovno
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
33
VBR
VELIIN
GENEROVN
VELIIN
OK?
NE
ANO
PPRAVA/FILTR
TRANS?
NE
ANO
TRANSFORMACE
VELIIN
III. GENEROVN VELIIN
UM
DATA
INFORMACE
III.
nhodn generovn
heuristick generovn
diference

I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
34
Dva hlavn pstupy
Nhodn
Linern kombinace veliin
Funkn kombinace veliin (sin, cos, [b
1
x
1
^x
2
]
-b2
,)
zen
Pomoc heuristickho prohledvn (nap. pomoc
genetickch algoritm)
v procesu generovn je jako optimalizan kritrium volena
nkter z metod pouvanch pro stanoven vhy atributu
(viz II. Vbr nap. AUC, )
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
35
VBR
VELIIN
GENEROVN
VELIIN
OK?
NE
ANO
PPRAVA/FILTR
TRANS?
NE
ANO
TRANSFORMACE
VELIIN
IV. TRANSFORMACE
UM
DATA
INFORMACE
IV.
PCA
Fourier
NN

I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
36
Nkter transformace
PCA principal component analysis
Autoasociativn neuronov st
Selforganizing maps (SOM)
Singular Value Decomposition
Fourierova transformace

I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
37
Principal Component Analysis (PCA)
esky analza hlavnch komponent
nov nekorelovan veliiny linern kombinac veliin stvajcch
clem je vytvoit nov ortogonln souadn systmumoujc
tsnj box kolem bod
uen bez uitele (transformace vstupnch veliin nezvisle na vstupn
veliin)
z pohledu SU je podstatn poad novch os (komponent)
osy jsou vytveny tak, aby co nejlpe vysvtlovaly rozptyl bod (suma
rozptyl je konstantn, tedy stejn v pvodnm i novm souadnm
systmu)
3 nov osy (z pvodnch 10) mohou vysvtlovat nap. 90% rozptylu (a
potenciln tak nesou z pohledu separability vtinu informace)
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
38
PCA nov souadn systm
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
39
PCA rozlien vna (1/3)
Clem je rozliit ti druhy vna. Vstupn veliiny jsou
obsah alkoholu, kyselost, , celkem 13 veliin. K
dispozici je 178 zznam.
Wine type Alcohol Acid Ash Alcalinity Mg Phenol Flavanoids Nonflav phenol Cyanin Color intensity Hue OD280 Proline
1 14,23 1,71 2,43 15,60 127 2,80 3,06 0,28 2,29 5,64 1,04 3,92 1065
1 13,20 1,78 2,14 11,20 100 2,65 2,76 0,26 1,28 4,38 1,05 3,40 1050
1 13,16 2,36 2,67 18,60 101 2,80 3,24 0,30 2,81 5,68 1,03 3,17 1185
1 14,37 1,95 2,50 16,80 113 3,85 3,49 0,24 2,18 7,80 0,86 3,45 1480
1 13,24 2,59 2,87 21 118 2,80 2,69 0,39 1,82 4,32 1,04 2,93 735
1 14,20 1,76 2,45 15,20 112 3,27 3,39 0,34 1,97 6,75 1,05 2,85 1450
1 14,39 1,87 2,45 14,60 96 2,50 2,52 0,30 1,98 5,25 1,02 3,58 1290
1 14,06 2,15 2,61 17,60 121 2,60 2,51 0,31 1,25 5,05 1,06 3,58 1295
1 14,83 1,64 2,17 14 97 2,80 2,98 0,29 1,98 5,20 1,08 2,85 1045
1 13,86 1,35 2,27 16 98 2,98 3,15 0,22 1,85 7,22 1,01 3,55 1045
1 14,10 2,16 2,30 18 105 2,95 3,32 0,22 2,38 5,75 1,25 3,17 1510
1 14,12 1,48 2,32 16,80 95 2,20 2,43 0,26 1,57 5 1,17 2,82 1280
1 13,75 1,73 2,41 16 89 2,60 2,76 0,29 1,81 5,60 1,15 2,90 1320
1 14,75 1,73 2,39 11,40 91 3,10 3,69 0,43 2,81 5,40 1,25 2,73 1150
1 14,38 1,87 2,38 12 102 3,30 3,64 0,29 2,96 7,50 1,20 3 1547
1 13,63 1,81 2,70 17,20 112 2,85 2,91 0,30 1,46 7,30 1,28 2,88 1310
1 14,30 1,92 2,72 20 120 2,80 3,14 0,33 1,97 6,20 1,07 2,65 1280
1 13,83 1,57 2,62 20 115 2,95 3,40 0,40 1,72 6,60 1,13 2,57 1130
1 14,19 1,59 2,48 16,50 108 3,30 3,93 0,32 1,86 8,70 1,23 2,82 1680
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
40
PCA rozlien vna (2/3)
PC 1=
0.144 * wine.dat (2) + 0.484 * wine.dat (3) - 0.207 * wine.dat (4) + 0.018 *
wine.dat (5) + 0.266 * wine.dat (6) - 0.214 * wine.dat (7) + 0.056 * wine.dat (8) -
0.396 * wine.dat (9) - 0.509 * wine.dat (10) + 0.212 * wine.dat (11) + 0.226 *
wine.dat (12) + 0.266 * wine.dat (13) + 0.015 * wine.dat (14)
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
41
PCA rozlien vna (3/3)
z grafu je patrn, e k maximlnmu rozlien sta
pout pouze 3 veliiny PCA oproti postupu single
selection.
PCA aplikovan na CHAIDtree
75
77
79
81
83
85
87
89
91
93
95
0 2 4 6 8 10 12 14
Poet velilin [-]
A
c
c
u
r
a
c
y

[
%
]
CHAID pi pouit PCA
CHAID pi Single selection
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
42
PCA ionosfra (1/3)
Jsou dna vstupn data, 351 zznam, 34 spojitch veliin
(detekce odraench rdiovch vln), klasifikujeme do
dvou td. Clem je vyhodnotit, jestli pro klasifikaci sta
pouze vhodn vybran a normalizovan veliiny, nebo je
vhodn provst PCA.
Rx9 Ix9 Rx10 Ix10 Rx11 Ix11 Rx12 Ix12 Rx13 Ix13 Rx14 Ix14 Rx15 Ix15 Rx16 Ix16 Rx17 Ix17 C
0.84356 -0.38542 0.58212 -0.32192 0.56971 -0.29674 0.36946 -0.47357 0.56811 -0.51171 0.41078 -0.46168 0.21266 -0.3409 0.42267 -0.54487 0.18641 -0.453 g
0.05499 -0.62237 0.33109 -1 -0.13151 -0.453 -0.18056 -0.35734 -0.20332 -0.26569 -0.20468 -0.18401 -0.1904 -0.11593 -0.16626 -0.06288 -0.13738 -0.02447 b
0.83775 -0.13644 0.75535 -0.0854 0.70887 -0.27502 0.43385 -0.12062 0.57528 -0.4022 0.58984 -0.22145 0.431 -0.17365 0.60436 -0.2418 0.56045 -0.38238 g
0.54094 -0.3933 -1 -0.54467 -0.69975 1 0 0 1 0.90695 0.51613 1 1 -0.20099 0.25682 1 -0.32382 1 b
0.5294 -0.2178 0.45107 -0.17813 0.05982 -0.35575 0.02309 -0.52879 0.03286 -0.65158 0.1329 -0.53206 0.02431 -0.62197 -0.05707 -0.59573 -0.04608 -0.65697 g
-0.00343 -0.10196 -0.11575 -0.05414 0.01838 0.03669 0.01519 0.00888 0.03513 -0.01535 -0.0324 0.09223 -0.07859 0.00732 0 0 -0.00039 0.12011 b
0.57945 -0.68086 0.37852 -0.73641 0.36324 -0.76562 0.31898 -0.79753 0.22792 -0.81634 0.13659 -0.8251 0.04606 -0.82395 -0.04262 -0.81318 -0.13832 -0.80975 g
1 1 -1 -1 0 0 0 0 1 1 1 1 0 0 1 1 0 0 b
0.98305 -0.35257 0.84537 -0.6602 0.75346 -0.60589 0.69637 -0.64225 0.85106 -0.6544 0.57577 -0.69712 0.25435 -0.63919 0.45114 -0.72779 0.38895 -0.7342 g
-0.37133 0.15018 0.63728 0.22115 0 0 0 0 -0.14803 -0.01326 0.20645 -0.02294 0 0 0.16595 0.24086 -0.08208 0.38065 b
0.8923 -0.66474 0.69876 -0.70997 0.70645 -0.7632 0.63081 -0.80544 0.55867 -0.89128 0.47211 -0.865 0.40303 -0.83675 0.30996 -0.89093 0.22995 -0.89158 g
1 -0.29354 1 -0.93599 1 1 1 1 1 -0.40888 1 -0.62745 1 -1 1 -1 1 -1 b
0.94486 -0.28106 0.90137 -0.43383 0.86043 -0.47308 0.82987 -0.5122 0.8408 -0.47137 0.76224 -0.5837 0.65723 -0.68794 0.68714 -0.64537 0.64727 -0.67226 g
1 -1 1 -1 0.61831 0.15803 1 0.62349 1 -0.17012 1 0.35924 1 -0.66494 1 0.88428 1 -0.18826 b
1 0.10561 1 0.27087 1 0.44758 1 0.4175 1 0.20033 1 0.36743 0.95603 0.48641 1 0.32492 1 0.46712 g
-0.37681 0.03623 1 -1 0 0 0 0 -0.16253 0.92236 0.39752 0.26501 0 0 1 0.23188 0 0 b
0.88809 0.1112 0.86104 0.08631 0.81633 0.1183 0.83668 0.14442 0.81329 0.13412 0.79476 0.13638 0.7911 0.15379 0.77122 0.1593 0.70941 0.12015 g
-1 -1 -1 1 1 -1 -1 1 -1 1 1 -1 -1 1 -1 -1 1 -1 b
0.58373 0.18151 0.14395 0.41224 0.53888 0.21326 0.5142 0.22625 0.48838 0.23724 0.46167 0.24618 0.43433 0.25306 0.40663 0.25792 1 0.33036 g
-1 1 1 1 -1 1 1 0.5625 -1 1 1 1 1 -1 1 1 1 1 b
0.92124 -0.31884 0.86473 -0.34534 0.91693 -0.44072 0.9606 -0.46866 0.81874 -0.40372 0.82681 -0.42231 0.75784 -0.38231 0.80448 -0.40575 0.74354 -0.45039 g
-1 -1 -1 1 -1 1 0 0 0 0 1 -1 -1 1 -1 1 -1 1 b
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
43
PCA ionosfra (2/3)
PC 1=
- 0.045 * Rx1 - 0.032 * Ix1 - 0.261 * Rx2 - 0.102 * Ix2 + 0.218 * Rx3 + 0.425 *
Ix3 - 0.451 * Rx4 + 0.163 * Ix4 + 0.084 * Rx5 - 0.153 * Ix5 - 0.308 * Rx6 - 0.181
* Ix6 + 0.063 * Rx7 + 0.096 * Ix7 + 0.096 * Rx8 + 0.038 * Ix8 - 0.024 * Rx9 -
0.032 * Ix9 + 0.294 * Rx10 + 0.046 * Ix10 + 0.046 * Rx11 + 0.022 * Ix11 + 0.197
* Rx12 + 0.206 * Ix12 + 0.121 * Rx13 - 0.043 * Ix13 + 0.168 * Rx14 + 0.157 *
Ix14 + 0.021 * Rx15 + 0.153 * Ix15 - 0.058 * Rx16 - 0.045 * Ix16 + 0.075 * Rx17
- 0.000 * Ix17
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
44
PCA ionosfra (3/3)
z grafu je patrn, e model vytvoen pomoc PCA
pedstavuje mrn zhoren kvality predikce,
linern kombinace veliin nepinesla zlepen
PCA aplikovan na kNN
65
67,5
70
72,5
75
77,5
80
82,5
85
87,5
90
0 5 10 15 20 25 30 35
Poet velilin [-]
A
c
c
u
r
a
c
y

[
%
]
kNN pi pouit PCA
kNN pi single selection
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
45
Transformace autoasociativn st
I.P I.P prava prava II.Vb II.Vb r r III. Generov III. Generov n n IV. Transformace IV. Transformace
www.bbsonline.org
x
1
x
2
x
3
x
4
x
5
x
6
x
1
x
2
x
3
x
4
x
5
x
6
Nov atributy A
1
A
2
A
3
46
Doporuen literatura
[1] Honzk, P.: Strojov uen, elektronick skripta VUT.
[2] Theodoridis, S. et.al.: Pattern Recognition, Elsevier
2003.
[3] Alpaydin, E.: Introduction to Machine Learning, MIT
Press 2004.
[4] Hastie T.et.al.: The Elements of Statistical Learning.
Springer, 2001.
[5] nepebern mnostv materil na internetu

You might also like